概要

Google Cloud Machine Learning は、あらゆるサイズおよび種類のデータに対して機能する機械学習モデルを簡単に構築できるマネージド型のサービスです。

Google Machine Learning からメトリクスを取得して、以下のことができます。

  • Machine Learning (ML) サービスのパフォーマンスを視覚化。
  • Machine Learning (ML) サービスのパフォーマンスをアプリケーションと関連付け。

セットアップ

インストール

Google Cloud Platform インテグレーションをまだセットアップしていない場合は、最初にセットアップします。これ以外に必要なインストール手順はありません。

ログ収集

Google Cloud Machine Learning のログは Google Cloud Logging で収集され、Cloud Pub/Sub トピックを通じて Dataflow ジョブに送信されます。まだの場合は、Datadog Dataflow テンプレートでロギングをセットアップしてください

これが完了したら、Google Cloud Machine Learning のログを Google Cloud Logging から Pub/Sub トピックへエクスポートします。

  1. Google Cloud Logging のページに移動し、Google Cloud Machine Learning のログを絞り込みます。
  2. Create Export をクリックし、シンクに名前を付けます。
  3. 宛先として “Cloud Pub/Sub” を選択し、その目的で作成された Pub/Sub トピックを選択します。: Pub/Sub トピックは別のプロジェクトに配置できます。
  4. 作成をクリックし、確認メッセージが表示されるまで待ちます。

収集データ

メトリクス

gcp.ml.prediction.error_count
(count)
Cumulative count of prediction errors.
gcp.ml.prediction.latencies.avg
(count)
The average latency of a certain type.
Shown as microsecond
gcp.ml.prediction.latencies.samplecount
(count)
The sample count for latency of a certain type.
Shown as microsecond
gcp.ml.prediction.latencies.sumsqdev
(count)
The sum of squared deviation for latency of a certain type.
Shown as microsecond
gcp.ml.prediction.online.accelerator.duty_cycle
(gauge)
Average fraction of time over the past sample period during which the accelerator(s) were actively processing.
gcp.ml.prediction.online.accelerator.memory.bytes_used
(gauge)
Amount of accelerator memory allocated by the model replica.
Shown as byte
gcp.ml.prediction.online.cpu.utilization
(gauge)
Fraction of CPU allocated by the model replica and currently in use. May exceed 100% if the machine type has multiple CPUs.
gcp.ml.prediction.online.memory.bytes_used
(gauge)
Amount of memory allocated by the model replica and currently in use.
Shown as byte
gcp.ml.prediction.online.network.bytes_received
(count)
Number of bytes received over the network by the model replica.
Shown as byte
gcp.ml.prediction.online.network.bytes_sent
(count)
Number of bytes sent over the network by the model replica.
Shown as byte
gcp.ml.prediction.online.replicas
(gauge)
Number of active model replicas.
gcp.ml.prediction.online.target_replicas
(gauge)
Aspired number of active model replicas.
gcp.ml.prediction.prediction_count
(count)
Cumulative count of predictions.
gcp.ml.prediction.response_count
(count)
Cumulative count of different response codes.
gcp.ml.training.accelerator.memory.utilization
(gauge)
Fraction of allocated accelerator memory that is currently in use. Values are numbers between 0.0 and 1.0, charts display the values as a percentage between 0% and 100%.
gcp.ml.training.accelerator.utilization
(gauge)
Fraction of allocated accelerator that is currently in use. Values are numbers between 0.0 and 1.0, charts display the values as a percentage between 0% and 100%.
gcp.ml.training.cpu.utilization
(gauge)
Fraction of allocated CPU that is currently in use. Values are numbers between 0.0 and 1.0, charts display the values as a percentage between 0% and 100%.
gcp.ml.training.memory.utilization
(gauge)
Fraction of allocated memory that is currently in use. Values are numbers between 0.0 and 1.0, charts display the values as a percentage between 0% and 100%.
gcp.ml.training.network.received_bytes_count
(count)
Number of bytes received by the training job over the network.
Shown as byte
gcp.ml.training.network.sent_bytes_count
(count)
Number of bytes sent by the training job over the network.
Shown as byte

イベント

Google Cloud Machine Learning インテグレーションには、イベントは含まれません。

サービスチェック

Google Cloud Machine Learning インテグレーションには、サービスのチェック機能は含まれません。

トラブルシューティング

ご不明な点は、Datadog のサポートチームまでお問い合わせください。

その他の参考資料