AWS Inferentia および AWS Trainium のモニタリング

Supported OS Linux Windows Mac OS

インテグレーションバージョン2.1.0

概要

このチェックは Datadog Agent を通じて AWS Neuron を監視します。Inferentia および Trainium デバイスのモニタリングを可能にし、機械学習モデルのパフォーマンスに関するインサイトを提供します。

セットアップ

EC2 インスタンスで実行されている Agent 用にこのチェックをインストールおよび構成するには、以下の手順に従ってください。コンテナ化された環境では、これらの手順の適用方法について オートディスカバリーのインテグレーションテンプレート を参照してください。

インストール

AWS Neuron チェックは Datadog Agent パッケージに含まれています。

また、AWS Neuron Tools パッケージもインストールする必要があります。

サーバーに追加でインストールする必要はありません。

構成

メトリクス

  1. Prometheus エンドポイントを公開するために Neuron Monitor を使用していることを確認します。

  2. AWS Neuron のパフォーマンスデータの収集を開始するには、Agent のコンフィギュレーションディレクトリのルートにある conf.d/ フォルダーの aws_neuron.d/conf.yaml ファイルを編集します。使用可能なすべてのコンフィギュレーションオプションの詳細については、サンプル aws_neuron.d/conf.yaml を参照してください。

  3. Agent を再起動します

Logs

AWS Neuron インテグレーションは、Neuron コンテナからログを収集し、Datadog に転送することができます。

  1. Datadog Agent で、ログの収集はデフォルトで無効になっています。以下のように、datadog.yaml ファイルでこれを有効にします。

    logs_enabled: true
    
  2. aws_neuron.d/conf.yaml ファイルのログ構成ブロックのコメントを解除して編集します。以下はその一例です。

    logs:
      - type: docker
        source: aws_neuron
        service: aws_neuron
    

Datadog Agent で、ログの収集はデフォルトで無効になっています。有効にする方法については、Kubernetes ログ収集を参照してください。

次に、Log Integrations を Pod のアノテーションとして設定します。これは、ファイル、ConfigMap、または key-value ストアでも構成できます。詳細については、Kubernetes ログ収集 の構成セクションを参照してください。

検証

Agent の status サブコマンドを実行し、Checks セクションで aws_neuron を探します。

収集データ

メトリクス

イベント

AWS Neuron インテグレーションには、イベントは含まれません。

サービスチェック

トラブルシューティング

コンテナ化された環境では、Agent が aws_neuron.d/conf.yaml ファイルで指定されたエンドポイントにネットワーク経由でアクセスできることを確認してください。

ご不明な点は、Datadog のサポートチームまでお問合せください。