Google Cloud TPU
Dash が新機能を発表!インシデントマネジメント、Continuous Profiler など多数の機能が追加されました! Dash イベントで発表された新機能!

Google Cloud TPU

Crawler Crawler

概要

Google Cloud TPU 製品は、スケーラブルで使いやすいクラウドコンピューティングリソースを通じて Tensor Processing Unit (TPU) を利用できるようにします。ML 研究者、ML エンジニア、開発者、データサイエンティストの誰もが最先端の ML (機械学習) モデルを実行できます。

Datadog Google Cloud Platform インテグレーションを使用して、Google Cloud TPU からメトリクスを収集できます。

セットアップ

インストール

Google Cloud Platform インテグレーションをまだセットアップしていない場合は、最初にセットアップします。それ以上のインストール手順はありません。

ログの収集

Google Cloud TPU のログは Stackdriver により収集され、HTTP プッシュフォワーダーを使用して Cloud Pub/Sub へ送信されます。HTTP プッシュフォワーダーを使用した Cloud Pub/Sub をまだセットアップしていない場合は、これをセットアップしてください。

セットアップが完了したら、Google Cloud TPU のログを Stackdriver から Pub/Sub へエクスポートします。

  1. Stackdriver ページに移動し、Google Cloud TPU のログを絞り込みます。
  2. Create Export をクリックし、シンクに名前を付けます。
  3. エクスポート先として「Cloud Pub/Sub」を選択し、エクスポート用に作成された Pub/Sub を選択します。: この Pub/Sub は別のプロジェクト内に配置することもできます。
  4. 作成をクリックし、確認メッセージが表示されるまで待ちます。

収集データ

メトリクス

gcp.tpu.cpu.utilization
(gauge)
Utilization of CPUs on the TPU Worker as a percent.
Shown as percent
gcp.tpu.memory.usage
(gauge)
Memory usage in bytes.
Shown as byte
gcp.tpu.network.received_bytes_count
(count)
Cumulative bytes of data this server has received over the network.
Shown as byte
gcp.tpu.network.sent_bytes_count
(count)
Cumulative bytes of data this server has sent over the network.
Shown as byte

イベント

Google Cloud TPU インテグレーションには、イベントは含まれません。

サービスのチェック

Google Cloud TPU インテグレーションには、サービスのチェック機能は含まれません。

トラブルシューティング

ご不明な点は、Datadog のサポートチームまでお問合せください。