Supported OS Linux Windows Mac OS

インテグレーションバージョン2.2.0

概要

このチェックは Datadog Agent を通じて NVIDIA Triton を監視します。

セットアップ

ホストで実行されている Agent 用にこのチェックをインストールおよび構成する場合は、以下の手順に従ってください。コンテナ環境の場合は、オートディスカバリーのインテグレーションテンプレートのガイドを参照してこの手順を行ってください。

インストール

NVIDIA Triton チェックは Datadog Agent パッケージに含まれています。 サーバーに追加のインストールは不要です。

OpenMetrics エンドポイント

デフォルトで、NVIDIA Triton サーバーは Prometheus エンドポイントを通じてすべてのメトリクスを公開します。 すべてのメトリクスの公開を有効にするには:

tritonserver --allow-metrics=true

メトリクスのエンドポイントを変更するには、--metrics-address オプションを使用します。

例:

tritonserver --metrics-address=http://0.0.0.0:8002

この場合、OpenMetrics のエンドポイントは次の URL で公開されます: http://<NVIDIA_TRITON_ADDRESS>:8002/metrics

デフォルトでは、レイテンシーサマリー メトリクスは無効です。レイテンシーのサマリーメトリクスを有効にするには、次のコマンドを使用します。

tritonserver --metrics-config summary_latencies=true

応答キャッシュのメトリクスは、デフォルトでは報告されません。<cache_implementation> と対応する構成を指定して、サーバー側でキャッシュの実装を有効にする必要があります。

例:

tritonserver --cache-config local,size=1048576

また、NVIDIA Triton では OpenMetrics エンドポイントを通じて カスタムメトリクス を公開できます。Datadog は extra_metrics オプションを使用して、これらのカスタムメトリクスも収集できます。

これらの NVIDIA Triton のカスタムメトリクスは、Datadog では標準メトリクスとみなされます。

構成

  1. nvidia_triton のパフォーマンスデータの収集を開始するには、Agent の構成ディレクトリのルートにある conf.d/ フォルダーの nvidia_triton.d/conf.yaml ファイルを編集します。使用可能なすべての構成オプションの詳細については、サンプル nvidia_triton.d/conf.yaml を参照してください。

  2. Agent を再起動します

検証

Agent の status サブコマンドを実行し、Checks セクションで nvidia_triton を確認します。

収集データ

メトリクス

イベント

NVIDIA Triton インテグレーションには、イベントは含まれません。

サービスチェック

Logs

NVIDIA Triton インテグレーションは NVIDIA Triton サーバーからログを収集し、Datadog に転送できます。

  1. Datadog Agent で、ログの収集はデフォルトで無効になっています。以下のように、datadog.yaml ファイルでこれを有効にします。

    logs_enabled: true
    
  2. nvidia_triton.d/conf.yaml ファイルのログ構成ブロックのコメントを解除して編集します。以下はその一例です。

    logs:
      - type: docker
        source: nvidia_triton
        service: nvidia_triton
    

Datadog Agent で、ログの収集はデフォルトで無効になっています。有効にする方法については、Kubernetes ログ収集を参照してください。

次に、Log Integrations をポッドのアノテーションとして設定します。これは、ファイル、configmap、または key-valueストアで設定することもできます。詳細については、Kubernetes Log Collection の構成セクションを参照してください。

Annotations v1/v2

apiVersion: v1
kind: Pod
metadata:
  name: nvidia_triton
  annotations:
    ad.datadoghq.com/apache.logs: '[{"source":"nvidia_triton","service":"nvidia_triton"}]'
spec:
  containers:
    - name: ray

トラブルシューティング

ご不明な点は、Datadog のサポートチームまでお問合せください。