Nvidia Triton

Supported OS Linux

Versión de la integración2.2.0

Información general

Este check monitoriza Nvidia Triton a través del Datadog Agent.

Configuración

Sigue las instrucciones a continuación para instalar y configurar este check para un Agent que se ejecuta en un host. Para entornos en contenedores, consulta las plantillas de integración de Autodiscovery para obtener orientación sobre la aplicación de estas instrucciones.

Instalación

El check de Nvidia Triton está incluido en el paquete del Datadog Agent. No es necesaria ninguna instalación adicional en tu servidor.

Endpoint de OpenMetrics

Por defecto, el servidor Nvidia Triton expone todas las métricas a través del endpoint Prometheus. Para habilitar todos los informes de métricas:

tritonserver --allow-metrics=true

Para cambiar el endpoint de métricas, utiliza la opción --métricas-address.

Ejemplo:

tritonserver --metrics-address=http://0.0.0.0:8002

En este caso, el endpoint de OpenMetrics se expone en esta URL: http://<NVIDIA_TRITON_ADDRESS>:8002/metrics.

Las métricas de resumen de latencia están desactivadas por defecto. Para activar las métricas de resumen de latencia, utiliza el siguiente comando:

tritonserver --metrics-config summary_latencies=true

Las métricas de caché de respuesta no se informan por defecto. Es necesario habilitar una implementación de caché del lado del servidor especificando una <cache_implementation> y la configuración correspondiente.

Por ejemplo:

tritonserver --cache-config local,size=1048576

Nvidia Triton también ofrece la posibilidad de exponer métricas personalizadas a través de su endpoint Openemtrics. Datadog también puede recopilar estas métricas personalizadas utilizando la opción extra_metrics.

Estas métricas Nvidia Triton personalizadas se consideran métricas estándar en Datadog.

Configuración

  1. Edita el archivo nvidia_triton.d/conf.yaml, que se encuentra en la carpeta conf.d/ en la raíz del directorio de configuración del Agent, para empezar a recopilar los datos de rendimiento de tu nvidia_triton. Para conocer todas las opciones de configuración disponibles, consulta el nvidia_triton.d/conf.yaml de ejemplo.

  2. Reinicia el Agent.

Validación

Ejecuta el subcomando de estado del Agent y busca nvidia_triton en la sección Checks.

Datos recopilados

Métricas

Eventos

La integración Nvidia Triton no incluye eventos.

Checks de servicio

Logs

La integración Nvidia Triton puede recopilar logs del servidor Nvidia Triton y reenviarlos a Datadog.

  1. La recopilación de logs está desactivada por defecto en el Datadog Agent . Actívala en tu archivo datadog.yaml:

    logs_enabled: true
    
  2. Descomenta y edita el bloque de configuración de logs en tu archivo nvidia_triton.d/conf.yaml. A continuación podrás ver un ejemplo:

    logs:
      - type: docker
        source: nvidia_triton
        service: nvidia_triton
    

La recopilación de logs se encuentra deshabilitada de manera predeterminada en el Datadog Agent. Para habilitarla, consulta Recopilación de logs de Kubernetes.

A continuación, configura las Integraciones de logs como anotaciones de pod. Esto también se puede configurar con un archivo, un configmap o un almacén de valores clave. Para obtener más información, consulta la sección Recopilación de logs de Kubernetes.

Anotaciones v1/v2

apiVersion: v1
kind: Pod
metadata:
  name: nvidia_triton
  annotations:
    ad.datadoghq.com/apache.logs: '[{"source":"nvidia_triton","service":"nvidia_triton"}]'
spec:
  containers:
    - name: ray

Solucionar problemas

¿Necesitas ayuda? Ponte en contacto con el equipo de asistencia de Datadog.