AWS Inferentia および AWS Trainium のモニタリング

Supported OS Linux Windows Mac OS

インテグレーションバージョン2.1.0

概要

このチェックは Datadog Agent を通じて AWS Neuron を監視します。Inferentia および Trainium デバイスのモニタリングを可能にし、機械学習モデルのパフォーマンスに関するインサイトを提供します。

EC2 インスタンスで実行されている Agent 用にこのチェックをインストールおよび構成するには、以下の手順に従ってください。コンテナ化された環境では、これらの手順の適用方法についてオートディスカバリーのインテグレーションテンプレートを参照してください。

AWS Neuron チェックは Datadog Agent パッケージに含まれています。

また、AWS Neuron Tools パッケージもインストールする必要があります。

サーバーに追加でインストールする必要はありません。

Prometheus エンドポイントを公開するために Neuron Monitor を使用していることを確認します。
AWS Neuron のパフォーマンスデータの収集を開始するには、Agent のコンフィギュレーションディレクトリのルートにある conf.d/ フォルダーの aws_neuron.d/conf.yaml ファイルを編集します。使用可能なすべてのコンフィギュレーションオプションの詳細については、サンプル aws_neuron.d/conf.yaml を参照してください。
Agent を再起動します。

AWS Neuron インテグレーションは、Neuron コンテナからログを収集し、Datadog に転送することができます。

Datadog Agent で、ログの収集はデフォルトで無効になっています。以下のように、datadog.yaml ファイルでこれを有効にします。
```
logs_enabled: true
```
aws_neuron.d/conf.yaml ファイルのログ構成ブロックのコメントを解除して編集します。以下はその一例です。
```
logs:
  - type: docker
    source: aws_neuron
    service: aws_neuron
```

Datadog Agent で、ログの収集はデフォルトで無効になっています。有効にする方法については、Kubernetes ログ収集を参照してください。

次に、Log Integrations を Pod のアノテーションとして設定します。これは、ファイル、ConfigMap、または key-value ストアでも構成できます。詳細については、Kubernetes ログ収集の構成セクションを参照してください。

Agent の status サブコマンドを実行し、Checks セクションで aws_neuron を探します。

AWS Neuron インテグレーションには、イベントは含まれません。

コンテナ化された環境では、Agent が aws_neuron.d/conf.yaml ファイルで指定されたエンドポイントにネットワーク経由でアクセスできることを確認してください。

ご不明な点は、Datadog のサポートチームまでお問合せください。