Monitorización AWS Inferentia y AWS Trainium

Supported OS Linux Windows Mac OS

Versión de la integración2.1.0

Información general

Este check monitoriza AWS Neuron a través del Datadog Agent. Habilita la monitorización de los dispositivos Inferentia y Trainium y ofrece información sobre el rendimiento de tu modelo de Machine Learning.

Configuración

Sigue las instrucciones a continuación para instalar y configurar este check para un Agent que se ejecuta en una instancia EC2. Para entornos en contenedores, consulta las plantillas de la integración Autodiscovery para obtener orientación sobre la aplicación de estas instrucciones.

Instalación

El check AWS Neuron está incluido en el paquete del Datadog Agent.

También necesitas instalar el paquete de herramientas AWS Neuron.

No es necesaria ninguna instalación adicional en tu servidor.

Configuración

Métricas

  1. Asegúrate de que se está utilizando el monitor de Neuron para exponer el endpoint de Prometheus.

  2. Edita el archivo aws_neuron.d/conf.yaml, que se encuentra en la carpeta conf.d/ en la raíz del directorio de configuración de tu Agent, para empezar a recopilar los datos de rendimiento de tu AWS Neuron. Para conocer todas las opciones de configuración disponibles, consulta el aws_neuron.d/conf.yaml de ejemplo.

  3. Reinicia el Agent.

Logs

La integración AWS Neuron puede recopilar logs de los contenedores Neuron y reenviarlos a Datadog.

  1. La recopilación de logs está desactivada por defecto en el Datadog Agent. Actívala en tu archivo datadog.yaml:

    logs_enabled: true
    
  2. Descomenta y edita el bloque de configuración de logs en tu archivo aws_neuron.d/conf.yaml. A continuación podrás ver un ejemplo:

    logs:
      - type: docker
        source: aws_neuron
        service: aws_neuron
    

La recopilación de logs se encuentra deshabilitada de manera predeterminada en el Datadog Agent. Para habilitarla, consulta Recopilación de logs de Kubernetes.

A continuación, configura las Integraciones de logs como anotaciones de pod. Esto también se puede configurar con un archivo, un configmap o un almacén de valores clave. Para obtener más información, consulta la sección Recopilación de logs de Kubernetes.

Validación

Ejecuta el subcomando de estado del Agent y busca aws_neuron en la sección Checks.

Datos recopilados

Métricas

aws_neuron.execution.errors.count
(count)
Execution errors total
aws_neuron.execution.errors_created
(gauge)
Execution errors total
aws_neuron.execution.latency_seconds
(gauge)
Execution latency in seconds
Shown as second
aws_neuron.execution.status.count
(count)
Execution status total
aws_neuron.execution.status_created
(gauge)
Execution status total
aws_neuron.hardware_ecc_events.count
(count)
Hardware ecc events total
aws_neuron.hardware_ecc_events_created
(gauge)
Hardware ecc events total
aws_neuron.instance_info
(gauge)
EC2 instance information
aws_neuron.neuron_hardware_info
(gauge)
Neuron Hardware Information
aws_neuron.neuron_runtime.memory_used_bytes
(gauge)
Runtime memory used bytes
Shown as byte
aws_neuron.neuron_runtime.vcpu_usage_ratio
(gauge)
Runtime vCPU utilization ratio
Shown as fraction
aws_neuron.neuroncore.memory_usage.constants
(gauge)
NeuronCore memory utilization for constants
Shown as byte
aws_neuron.neuroncore.memory_usage.model.code
(gauge)
NeuronCore memory utilization for model_code
Shown as byte
aws_neuron.neuroncore.memory_usage.model.shared_scratchpad
(gauge)
NeuronCore memory utilization for modelsharedscratchpad
Shown as byte
aws_neuron.neuroncore.memory_usage.runtime_memory
(gauge)
NeuronCore memory utilization for runtime_memory
Shown as byte
aws_neuron.neuroncore.memory_usage.tensors
(gauge)
NeuronCore memory utilization for tensors
Shown as byte
aws_neuron.neuroncore.utilization_ratio
(gauge)
NeuronCore utilization ratio
Shown as fraction
aws_neuron.process.cpu_seconds.count
(count)
Total user and system CPU time spent in seconds.
Shown as second
aws_neuron.process.max_fds
(gauge)
Maximum number of open file descriptors.
aws_neuron.process.open_fds
(gauge)
Number of open file descriptors.
aws_neuron.process.resident_memory_bytes
(gauge)
Resident memory size in bytes.
Shown as byte
aws_neuron.process.start_time_seconds
(gauge)
Start time of the process since unix epoch in seconds.
Shown as second
aws_neuron.process.virtual_memory_bytes
(gauge)
Virtual memory size in bytes.
Shown as byte
aws_neuron.python_gc.collections.count
(count)
Number of times this generation was collected
aws_neuron.python_gc.objects_collected.count
(count)
Objects collected during gc
aws_neuron.python_gc.objects_uncollectable.count
(count)
Uncollectable objects found during GC
aws_neuron.python_info
(gauge)
Python platform information
aws_neuron.system.memory.total_bytes
(gauge)
System memory total_bytes bytes
Shown as byte
aws_neuron.system.memory.used_bytes
(gauge)
System memory used_bytes bytes
Shown as byte
aws_neuron.system.swap.total_bytes
(gauge)
System swap total_bytes bytes
Shown as byte
aws_neuron.system.swap.used_bytes
(gauge)
System swap used_bytes bytes
Shown as byte
aws_neuron.system.vcpu.count
(gauge)
System vCPU count
aws_neuron.system.vcpu.usage_ratio
(gauge)
System CPU utilization ratio
Shown as fraction

Eventos

La integración AWS Neuron no incluye eventos.

Checks de servicio

aws_neuron.openmetrics.health
Returns CRITICAL if the Agent is unable to connect to the Neuron Monitor OpenMetrics endpoint, otherwise returns OK.
Statuses: ok, critical

Solucionar problemas

En entornos en contenedores, asegúrate de que el Agent tiene acceso de red a los endpoints especificados en el archivo aws_neuron.d/conf.yaml.

¿Necesitas ayuda? Ponte en contacto con el equipo de asistencia de Datadog.