概要
このチェックは Datadog Agent を通じて NVIDIA Triton を監視します。
セットアップ
ホストで実行されている Agent 用にこのチェックをインストールおよび構成する場合は、以下の手順に従ってください。コンテナ環境の場合は、オートディスカバリーのインテグレーションテンプレートのガイドを参照してこの手順を行ってください。
インストール
NVIDIA Triton チェックは Datadog Agent パッケージに含まれています。
サーバーに追加のインストールは不要です。
OpenMetrics エンドポイント
デフォルトで、NVIDIA Triton サーバーは Prometheus エンドポイントを通じてすべてのメトリクスを公開します。
すべてのメトリクスの公開を有効にするには:
tritonserver --allow-metrics=true
メトリクスのエンドポイントを変更するには、--metrics-address
オプションを使用します。
例:
tritonserver --metrics-address=http://0.0.0.0:8002
この場合、OpenMetrics のエンドポイントは次の URL で公開されます: http://<NVIDIA_TRITON_ADDRESS>:8002/metrics
デフォルトでは、レイテンシーサマリー メトリクスは無効です。レイテンシーのサマリーメトリクスを有効にするには、次のコマンドを使用します。
tritonserver --metrics-config summary_latencies=true
応答キャッシュのメトリクスは、デフォルトでは報告されません。<cache_implementation> と対応する構成を指定して、サーバー側でキャッシュの実装を有効にする必要があります。
例:
tritonserver --cache-config local,size=1048576
また、NVIDIA Triton では OpenMetrics エンドポイントを通じて カスタムメトリクス を公開できます。Datadog は extra_metrics
オプションを使用して、これらのカスタムメトリクスも収集できます。
これらの NVIDIA Triton のカスタムメトリクスは、Datadog では標準メトリクスとみなされます。
構成
nvidia_triton のパフォーマンスデータの収集を開始するには、Agent の構成ディレクトリのルートにある conf.d/
フォルダーの nvidia_triton.d/conf.yaml
ファイルを編集します。使用可能なすべての構成オプションの詳細については、サンプル nvidia_triton.d/conf.yaml を参照してください。
Agent を再起動します。
検証
Agent の status サブコマンドを実行し、Checks セクションで nvidia_triton
を確認します。
収集データ
メトリクス
イベント
NVIDIA Triton インテグレーションには、イベントは含まれません。
サービスチェック
Logs
NVIDIA Triton インテグレーションは NVIDIA Triton サーバーからログを収集し、Datadog に転送できます。
Datadog Agent で、ログの収集はデフォルトで無効になっています。以下のように、datadog.yaml
ファイルでこれを有効にします。
nvidia_triton.d/conf.yaml
ファイルのログ構成ブロックのコメントを解除して編集します。以下はその一例です。
logs:
- type: docker
source: nvidia_triton
service: nvidia_triton
Datadog Agent で、ログの収集はデフォルトで無効になっています。有効にする方法については、Kubernetes ログ収集を参照してください。
次に、Log Integrations をポッドのアノテーションとして設定します。これは、ファイル、configmap、または key-valueストアで設定することもできます。詳細については、Kubernetes Log Collection の構成セクションを参照してください。
Annotations v1/v2
apiVersion: v1
kind: Pod
metadata:
name: nvidia_triton
annotations:
ad.datadoghq.com/apache.logs: '[{"source":"nvidia_triton","service":"nvidia_triton"}]'
spec:
containers:
- name: ray
トラブルシューティング
ご不明な点は、Datadog のサポートチームまでお問合せください。