Este check monitoriza Nvidia Triton a través del Datadog Agent.
Configuración
Sigue las instrucciones a continuación para instalar y configurar este check para un Agent que se ejecuta en un host. Para entornos en contenedores, consulta las plantillas de integración de Autodiscovery para obtener orientación sobre la aplicación de estas instrucciones.
Instalación
El check de Nvidia Triton está incluido en el paquete del Datadog Agent.
No es necesaria ninguna instalación adicional en tu servidor.
Endpoint de OpenMetrics
Por defecto, el servidor Nvidia Triton expone todas las métricas a través del endpoint Prometheus.
Para habilitar todos los informes de métricas:
tritonserver --allow-metrics=true
Para cambiar el endpoint de métricas, utiliza la opción --métricas-address.
Las métricas de caché de respuesta no se informan por defecto. Es necesario habilitar una implementación de caché del lado del servidor especificando una <cache_implementation> y la configuración correspondiente.
Por ejemplo:
tritonserver --cache-config local,size=1048576
Nvidia Triton también ofrece la posibilidad de exponer métricas personalizadas a través de su endpoint Openemtrics. Datadog también puede recopilar estas métricas personalizadas utilizando la opción extra_metrics.
Estas métricas Nvidia Triton personalizadas se consideran métricas estándar en Datadog.
Configuración
Edita el archivo nvidia_triton.d/conf.yaml, que se encuentra en la carpeta conf.d/ en la raíz del directorio de configuración del Agent, para empezar a recopilar los datos de rendimiento de tu nvidia_triton. Para conocer todas las opciones de configuración disponibles, consulta el nvidia_triton.d/conf.yaml de ejemplo.
La recopilación de logs se encuentra deshabilitada de manera predeterminada en el Datadog Agent. Para habilitarla, consulta Recopilación de logs de Kubernetes.
A continuación, configura las Integraciones de logs como anotaciones de pod. Esto también se puede configurar con un archivo, un configmap o un almacén de valores clave. Para obtener más información, consulta la sección Recopilación de logs de Kubernetes.