Monitorización AWS Inferentia y AWS Trainium

Supported OS Linux Windows Mac OS

Versión de la integración3.0.0

Información general

Este check monitoriza AWS Neuron a través del Datadog Agent. Habilita la monitorización de los dispositivos Inferentia y Trainium y proporciona información sobre el rendimiento de tu modelo de Machine Learning.

Configuración

Sigue las instrucciones siguientes para instalar y configurar este check para un Agent que se ejecute en una instancia EC2. Para entornos en contenedores, consulta las plantillas de integración de Autodiscovery para obtener orientación sobre la aplicación de estas instrucciones.

Instalación

El check de AWS Neuron está incluido en el paquete del Datadog Agent.

También necesitas instalar el paquete de herramientas de AWS Neuron.

No es necesaria ninguna instalación adicional en tu servidor.

Configuración

Métricas

  1. Asegúrate de que Neuron Monitor se está utilizando para exponer el endpoint de Prometheus.

  2. Edita el archivo aws_neuron.d/conf.yaml, en la carpeta conf.d/ en la raíz del directorio de configuración de tu Agent para empezar a recopilar tus datos de rendimiento de AWS Neuron. Consulta el ejemplo de aws_neuron.d/conf.yaml para conocer todas las opciones de configuración disponibles.

  3. Reinicia el Agent.

Logs

La integración AWS Neuron puede recopilar logs de los contenedores Neuron y reenviarlos a Datadog.

  1. La recopilación de logs está desactivada por defecto en el Datadog Agent. Actívala en tu archivo datadog.yaml:

    logs_enabled: true
    
  2. Descomenta y edita el bloque de configuración de logs en tu archivo aws_neuron.d/conf.yaml. A continuación podrás ver un ejemplo:

    logs:
      - type: docker
        source: aws_neuron
        service: aws_neuron
    

La recopilación de logs está desactivada por defecto en el Datadog Agent. Para activarla, consulta Recopilación de logs de Kubernetes.

A continuación, configura las integraciones de logs como anotaciones de pod. Esto también se puede configurar con un archivo, un configmap o un almacén clave-valor. Para obtener más información, consulte la sección de configuración de recopilación de logs de Kubernetes.

Validación

[Ejecuta el subcomando de estado del Agent(https://docs.datadoghq.com/agent/guide/agent-commands/#agent-status-and-information) y busca aws_neuron en la sección Checks.

Datos recopilados

Métricas

aws_neuron.execution.errors.count
(count)
Total de errores de ejecución
aws_neuron.execution.errors_created
(gauge)
Total de errores de ejecución
aws_neuron.execution.latency_seconds
(gauge)
Latencia de ejecución en segundos
Se muestra como segundos
aws_neuron.execution.status.count
(count)
Estado de ejecución total
aws_neuron.execution.status_created
(gauge)
Estado de ejecución total
aws_neuron.hardware_ecc_events.count
(count)
Total de eventos de hardware ecc
aws_neuron.hardware_ecc_events_created
(gauge)
Total de eventos de hardware ecc
aws_neuron.instance_info
(gauge)
Información sobre la instancia EC2
aws_neuron.neuron_hardware_info
(gauge)
Información sobre el hardware de Neuron
aws_neuron.neuron_runtime.memory_used_bytes
(gauge)
Bytes utilizados por la memoria en tiempo de ejecución
Se muestra como bytes
aws_neuron.neuron_runtime.vcpu_usage_ratio
(gauge)
Proporción de uso de vCPU en tiempo de ejecución
Se muestra como fracción
aws_neuron.neuroncore.memory_usage.constants
(gauge)
Uso de memoria NeuronCore para constantes
Se muestra como bytes
aws_neuron.neuroncore.memory_usage.model.code
(gauge)
Uso de memoria NeuronCore para model_code
Se muestra como bytes
aws_neuron.neuroncore.memory_usage.model.shared_scratchpad
(gauge)
Uso de memoria NeuronCore para model_shared_scratchpad
Se muestra como bytes
aws_neuron.neuroncore.memory_usage.runtime_memory
(gauge)
Uso de memoria NeuronCore para runtime_memory
Se muestra como bytes
aws_neuron.neuroncore.memory_usage.tensors
(gauge)
Uso de memoria NeuronCore para tensores
Se muestra como bytes
aws_neuron.neuroncore.utilization_ratio
(gauge)
Proporción de uso de NeuronCore
Se muestra como fracción
aws_neuron.process.cpu_seconds.count
(count)
Tiempo total de CPU del usuario y del sistema transcurrido en segundos.
Se muestra como segundos
aws_neuron.process.max_fds
(gauge)
Número máximo de descriptores de archivo abiertos.
aws_neuron.process.open_fds
(gauge)
Número de descriptores de archivo abiertos.
aws_neuron.process.resident_memory_bytes
(gauge)
Tamaño de la memoria residente en bytes.
Se muestra como bytes
aws_neuron.process.start_time_seconds
(gauge)
Hora de inicio del proceso desde unix epoch en segundos.
Se muestra como segundos
aws_neuron.process.virtual_memory_bytes
(gauge)
Tamaño de la memoria virtual en bytes.
Se muestra como bytes
aws_neuron.python_gc.collections.count
(count)
Número de veces que se ha recopilado esta generación
aws_neuron.python_gc.objects_collected.count
(count)
Objetos recopilados durante la recolección de basura
aws_neuron.python_gc.objects_uncollectable.count
(count)
Objetos no recolectables encontrados durante la recolección de basura
aws_neuron.python_info
(gauge)
Información sobre la plataforma Python
aws_neuron.system.memory.total_bytes
(gauge)
Bytes de memoria del sistema total_bytes
Se muestra como bytes
aws_neuron.system.memory.used_bytes
(gauge)
Bytes de memoria del sistema used_bytes
Se muestra como bytes
aws_neuron.system.swap.total_bytes
(gauge)
Bytes de memoria de intercambio total_bytes
Se muestra como bytes
aws_neuron.system.swap.used_bytes
(gauge)
Bytes de memoria de intercambio used_bytes
Se muestra como bytes
aws_neuron.system.vcpu.count
(gauge)
Recuento de vCPU del sistema
aws_neuron.system.vcpu.usage_ratio
(gauge)
Proporción de uso de CPU del sistema
Se muestra como fracción

Eventos

La integración AWS Neuron no incluye eventos.

Checks de servicio

aws_neuron.openmetrics.health

Devuelve CRITICAL si el Agent no puede conectarse al endpoint de OpenMetrics de Neuron Monitor, en caso contrario devuelve OK.

Estados: ok, crítico

Solucionar problemas

En entornos en contenedores, asegúrate de que el Agent tiene acceso de red a los endpoints especificados en el archivo aws_neuron.d/conf.yaml.

¿Necesitas ayuda? Ponte en contacto con el servicio de asistencia de Datadog.