AWS Inferentia および AWS Trainium のモニタリング
概要
このチェックは Datadog Agent を通じて AWS Neuron を監視します。Inferentia および Trainium デバイスのモニタリングを可能にし、機械学習モデルのパフォーマンスに関するインサイトを提供します。
セットアップ
EC2 インスタンスで実行されている Agent 用にこのチェックをインストールおよび構成するには、以下の手順に従ってください。コンテナ化された環境では、これらの手順の適用方法について オートディスカバリーのインテグレーションテンプレート を参照してください。
インストール
AWS Neuron チェックは Datadog Agent パッケージに含まれています。
また、AWS Neuron Tools パッケージもインストールする必要があります。
サーバーに追加でインストールする必要はありません。
構成
メトリクス
Prometheus エンドポイントを公開するために Neuron Monitor を使用していることを確認します。
AWS Neuron のパフォーマンスデータの収集を開始するには、Agent のコンフィギュレーションディレクトリのルートにある conf.d/
フォルダーの aws_neuron.d/conf.yaml
ファイルを編集します。使用可能なすべてのコンフィギュレーションオプションの詳細については、サンプル aws_neuron.d/conf.yaml を参照してください。
Agent を再起動します。
Logs
AWS Neuron インテグレーションは、Neuron コンテナからログを収集し、Datadog に転送することができます。
Datadog Agent で、ログの収集はデフォルトで無効になっています。以下のように、datadog.yaml
ファイルでこれを有効にします。
aws_neuron.d/conf.yaml
ファイルのログ構成ブロックのコメントを解除して編集します。以下はその一例です。
logs:
- type: docker
source: aws_neuron
service: aws_neuron
Datadog Agent で、ログの収集はデフォルトで無効になっています。有効にする方法については、Kubernetes ログ収集を参照してください。
次に、Log Integrations を Pod のアノテーションとして設定します。これは、ファイル、ConfigMap、または key-value ストアでも構成できます。詳細については、Kubernetes ログ収集 の構成セクションを参照してください。
検証
Agent の status サブコマンドを実行し、Checks セクションで aws_neuron
を探します。
収集データ
メトリクス
イベント
AWS Neuron インテグレーションには、イベントは含まれません。
サービスチェック
トラブルシューティング
コンテナ化された環境では、Agent が aws_neuron.d/conf.yaml
ファイルで指定されたエンドポイントにネットワーク経由でアクセスできることを確認してください。
ご不明な点は、Datadog のサポートチームまでお問合せください。