Monitorización AWS Inferentia y AWS Trainium

Documentos > Integraciones > Monitorización AWS Inferentia y AWS Trainium

Supported OS Linux Windows Mac OS

Versión de la integración2.1.0

Información general

Este check monitoriza AWS Neuron a través del Datadog Agent. Habilita la monitorización de los dispositivos Inferentia y Trainium y ofrece información sobre el rendimiento de tu modelo de Machine Learning.

Configuración

Sigue las instrucciones a continuación para instalar y configurar este check para un Agent que se ejecuta en una instancia EC2. Para entornos en contenedores, consulta las plantillas de la integración Autodiscovery para obtener orientación sobre la aplicación de estas instrucciones.

Instalación

El check AWS Neuron está incluido en el paquete del Datadog Agent.

También necesitas instalar el paquete de herramientas AWS Neuron.

No es necesaria ninguna instalación adicional en tu servidor.

Configuración

Métricas

Asegúrate de que se está utilizando el monitor de Neuron para exponer el endpoint de Prometheus.
Edita el archivo aws_neuron.d/conf.yaml, que se encuentra en la carpeta conf.d/ en la raíz del directorio de configuración de tu Agent, para empezar a recopilar los datos de rendimiento de tu AWS Neuron. Para conocer todas las opciones de configuración disponibles, consulta el aws_neuron.d/conf.yaml de ejemplo.
Reinicia el Agent.

Logs

La integración AWS Neuron puede recopilar logs de los contenedores Neuron y reenviarlos a Datadog.

La recopilación de logs está desactivada por defecto en el Datadog Agent. Actívala en tu archivo datadog.yaml:
```
logs_enabled: true
```
Descomenta y edita el bloque de configuración de logs en tu archivo aws_neuron.d/conf.yaml. A continuación podrás ver un ejemplo:
```
logs:
  - type: docker
    source: aws_neuron
    service: aws_neuron
```

La recopilación de logs se encuentra deshabilitada de manera predeterminada en el Datadog Agent. Para habilitarla, consulta Recopilación de logs de Kubernetes.

A continuación, configura las Integraciones de logs como anotaciones de pod. Esto también se puede configurar con un archivo, un configmap o un almacén de valores clave. Para obtener más información, consulta la sección Recopilación de logs de Kubernetes.

Validación

Ejecuta el subcomando de estado del Agent y busca aws_neuron en la sección Checks.

Datos recopilados

Métricas

Ensure that Neuron Monitor is being used to expose the Prometheus endpoint.
Edit the aws_neuron.d/conf.yaml file, which is located in the conf.d/ folder at the root of your Agent’s configuration directory, to start collecting your AWS Neuron performance data. See the sample aws_neuron.d/conf.yaml for all available configuration options.
Restart the Agent.

Eventos

La integración AWS Neuron no incluye eventos.

Checks de servicio

aws_neuron.openmetrics.health

Returns CRITICAL if the Agent is unable to connect to the Neuron Monitor OpenMetrics endpoint, otherwise returns OK.

Statuses: ok, critical

Solucionar problemas

En entornos en contenedores, asegúrate de que el Agent tiene acceso de red a los endpoints especificados en el archivo aws_neuron.d/conf.yaml.

¿Necesitas ayuda? Ponte en contacto con el equipo de asistencia de Datadog.