Supported OS Linux Windows Mac OS

インテグレーションバージョン2.2.0

To find out if this integration is available in your organization, see your Datadog Integrations page or ask your organization administrator.

To initiate an exception request to enable this integration for your organization, email support@ddog-gov.com.

概要

このチェックは Datadog Agent を通じて NVIDIA Triton を監視します。

セットアップ

ホストで実行されている Agent 用にこのチェックをインストールおよび構成する場合は、以下の手順に従ってください。コンテナ環境の場合は、オートディスカバリーのインテグレーションテンプレートのガイドを参照してこの手順を行ってください。

インストール

NVIDIA Triton チェックは Datadog Agent パッケージに含まれています。 サーバーに追加のインストールは不要です。

OpenMetrics エンドポイント

デフォルトで、NVIDIA Triton サーバーは Prometheus エンドポイントを通じてすべてのメトリクスを公開します。 すべてのメトリクスの公開を有効にするには:

tritonserver --allow-metrics=true

メトリクスのエンドポイントを変更するには、--metrics-address オプションを使用します。

例:

tritonserver --metrics-address=http://0.0.0.0:8002

この場合、OpenMetrics のエンドポイントは次の URL で公開されます: http://<NVIDIA_TRITON_ADDRESS>:8002/metrics

デフォルトでは、レイテンシーサマリー メトリクスは無効です。レイテンシーのサマリーメトリクスを有効にするには、次のコマンドを使用します。

tritonserver --metrics-config summary_latencies=true

応答キャッシュのメトリクスは、デフォルトでは報告されません。<cache_implementation> と対応する構成を指定して、サーバー側でキャッシュの実装を有効にする必要があります。

例:

tritonserver --cache-config local,size=1048576

また、NVIDIA Triton では OpenMetrics エンドポイントを通じて カスタムメトリクス を公開できます。Datadog は extra_metrics オプションを使用して、これらのカスタムメトリクスも収集できます。

これらの NVIDIA Triton のカスタムメトリクスは、Datadog では標準メトリクスとみなされます。

構成

  1. nvidia_triton のパフォーマンスデータの収集を開始するには、Agent の構成ディレクトリのルートにある conf.d/ フォルダーの nvidia_triton.d/conf.yaml ファイルを編集します。使用可能なすべての構成オプションの詳細については、サンプル nvidia_triton.d/conf.yaml を参照してください。

  2. Agent を再起動します

検証

Agent の status サブコマンドを実行し、Checks セクションで nvidia_triton を確認します。

収集データ

メトリクス

イベント

NVIDIA Triton インテグレーションには、イベントは含まれません。

サービスチェック

Logs

NVIDIA Triton インテグレーションは NVIDIA Triton サーバーからログを収集し、Datadog に転送できます。

  1. Datadog Agent で、ログの収集はデフォルトで無効になっています。以下のように、datadog.yaml ファイルでこれを有効にします。

    logs_enabled: true
    
  2. nvidia_triton.d/conf.yaml ファイルのログ構成ブロックのコメントを解除して編集します。以下はその一例です。

    logs:
      - type: docker
        source: nvidia_triton
        service: nvidia_triton
    

Datadog Agent で、ログの収集はデフォルトで無効になっています。有効にする方法については、Kubernetes ログ収集を参照してください。

次に、Log Integrations をポッドのアノテーションとして設定します。これは、ファイル、configmap、または key-valueストアで設定することもできます。詳細については、Kubernetes Log Collection の構成セクションを参照してください。

Annotations v1/v2

apiVersion: v1
kind: Pod
metadata:
  name: nvidia_triton
  annotations:
    ad.datadoghq.com/apache.logs: '[{"source":"nvidia_triton","service":"nvidia_triton"}]'
spec:
  containers:
    - name: ray

トラブルシューティング

ご不明な点は、Datadog のサポートチームまでお問合せください。