概要

Google Cloud TPU 製品は、スケーラブルで使いやすいクラウドコンピューティングリソースを通じて Tensor Processing Unit (TPU) を利用できるようにします。ML 研究者、ML エンジニア、開発者、データサイエンティストの誰もが最先端の ML (機械学習) モデルを実行できます。

Datadog Google Cloud Platform インテグレーションを使用して、Google Cloud TPU からメトリクスを収集できます。

計画と使用

インフラストラクチャーリスト

Google Cloud Platform インテグレーションをまだセットアップしていない場合は、最初にセットアップします。それ以上のインストール手順はありません。

収集データ

Google Cloud TPU のログは Google Cloud Logging で収集され、Cloud Pub/Sub トピックを通じて Dataflow ジョブに送信されます。まだの場合は、Datadog Dataflow テンプレートでロギングをセットアップしてください

これが完了したら、Google Cloud TPU のログを Google Cloud Logging から Pub/Sub へエクスポートします。

  1. Google Cloud Logging のページに移動し、Google Cloud TPU のログを絞り込みます。
  2. Create Export をクリックし、シンクに名前を付けます。
  3. エクスポート先として「Cloud Pub/Sub」を選択し、エクスポート用に作成された Pub/Sub を選択します。: この Pub/Sub は別のプロジェクト内に配置することもできます。
  4. 作成をクリックし、確認メッセージが表示されるまで待ちます。

リアルユーザーモニタリング

データセキュリティ

gcp.tpu.cpu.utilization
(gauge)
Utilization of CPUs on the TPU Worker as a percent.
Shown as percent
gcp.tpu.memory.usage
(gauge)
Memory usage in bytes.
Shown as byte
gcp.tpu.network.received_bytes_count
(count)
Cumulative bytes of data this server has received over the network.
Shown as byte
gcp.tpu.network.sent_bytes_count
(count)
Cumulative bytes of data this server has sent over the network.
Shown as byte

ヘルプ

Google Cloud TPU インテグレーションには、イベントは含まれません。

ヘルプ

Google Cloud TPU インテグレーションには、サービスのチェック機能は含まれません。

ヘルプ

ご不明な点は、Datadog のサポートチームまでお問い合わせください。