Página de Datadog GPU Monitoring de la flota.

Este producto no es compatible con el sitio Datadog seleccionado. ().

Resumen

La página de flota de GPU proporciona un inventario detallado de todos tus hosts acelerados por GPU para un período de tiempo específico. Utiliza esta vista para descubrir ineficiencias a través de la telemetría de recursos, que abarca desde métricas de rendimiento y uso hasta costos. Esta página también presenta las recomendaciones de aprovisionamiento y optimización de rendimiento de Datadog para tus dispositivos, para ayudarte a maximizar el valor de tu gasto en GPU.

Desglosa tu infraestructura por clúster, servidor o dispositivo.

Primero selecciona cómo deseas conocer tu flota de GPU utilizando el interruptor que agrupa tu flota por clúster de Kubernetes (disponible solo para usuarios de Kubernetes), servidor (Nodo) o dispositivo GPU:

Interruptor para la página de flota de GPU que agrupa los resultados de la tabla por Clúster de Kubernetes, servidor o Dispositivo.

Tu selección se utiliza para llenar la tabla resultante. Si seleccionas Clúster o Servidor, puedes hacer clic en el botón > junto a cada entrada de la tabla para ver los servidores de un clúster o los dispositivos de un servidor, respectivamente.

Una entrada de servidor en la tabla.

Nota: La tabla de Clúster solo se llena si utilizas Kubernetes.

Explora tu flota de GPU con filtros y agrupaciones.

Utiliza los menús desplegables de filtro rápido en la parte superior de la página para filtrar por un Proveedor, Tipo de Dispositivo, Clúster, Región, Servicio, Centro de Datos, Entorno o Equipo.

También puedes Buscar o Agrupar por otras etiquetas en los campos que se muestran a continuación. Por ejemplo, puedes seleccionar el interruptor para servidor y luego agrupar por Team para ver una entrada de la tabla para cada equipo único. Haz clic en el botón > junto a cualquier entrada para ver los servidores utilizados por ese equipo y los dispositivos GPU que aceleran esos servidores.

Nota: Solo puedes Agrupar por una etiqueta adicional.

El menú para filtrar y agrupar en la página de la Flota de GPU

Vistas impulsadas por casos de uso

Datadog te guía a través de tus flujos de trabajo de aprovisionamiento y optimización de rendimiento al proporcionar dos vistas dedicadas impulsadas por casos de uso.

Aprovisionamiento

La pestaña de Aprovisionamiento muestra recomendaciones clave e información sobre métricas para asignar y gestionar tu capacidad.

La vista impulsada por casos de uso de Aprovisionamiento

Recomendaciones OOTB:

  • Datadog detecta proactivamente el estrangulamiento térmico o defectos de hardware y recomienda instantáneamente acciones correctivas basadas en errores de hardware como errores ECC/XID.
  • Datadog detecta si los dispositivos inactivos deben ser aprovisionados para evitar que permanezcan inactivos.

Métricas relevantes para tu flujo de trabajo de aprovisionamiento:

  • Conteo de Errores ECC y XID
  • Actividad Gráfica
  • Actividad de SM
  • Memoria de GPU
  • Dispositivos Asignados (solo disponible para usuarios de Kubernetes)
  • Dispositivos Activos
  • Costo Inactivo

Rendimiento

La pestaña de Rendimiento te ayuda a entender la ejecución de cargas de trabajo y a ajustar la utilización de la GPU para usar tus dispositivos de manera más efectiva.

La vista de Rendimiento orientada a casos de uso

Recomendaciones OOTB:

  • Si tus cargas de trabajo son intensivas en CPU, Datadog señala los servidores con saturación de CPU y recomienda soluciones.
  • Si tus cargas de trabajo no están utilizando efectivamente sus dispositivos de GPU asignados, Datadog proporciona recomendaciones para ajustar las cargas de trabajo y obtener más valor de su capacidad.

Métricas relevantes para tu flujo de trabajo de rendimiento:

  • Conteo de Errores ECC y XID
  • Actividad Gráfica
  • Actividad de SM
  • Memoria de GPU
  • Dispositivos Efectivos
  • Potencia
  • Temperatura
  • PCIe RX
  • PCIe Tx
  • Utilización de CPU

Gráfico Resumen

Después de alternar entre Clúster, servidor o Dispositivo, el Gráfico Resumen muestra la telemetría clave de recursos a través de toda tu infraestructura de GPU agrupada por ese valor de alternancia. Expande la sección a continuación para ver una tabla de las métricas disponibles y lo que representan.

MétricaDefiniciónNombre de la Métrica
Utilización del Núcleo(Solo disponible con System Probe habilitado para métricas avanzadas de eBPF) Cores Used/Cores Limit para procesos de GPU. Medida de la Utilización Temporal del Núcleo.gpu_core_utilization
Utilización de MemoriaMemoria de GPU utilizada / Límite de Memoria de GPU para procesos de GPU.gpu_memory_utilization
Rendimiento PCIeBytes recibidos y bytes transmitidos a través de PCI desde el dispositivo GPU por segundo.gpu.pci.throughput.rx,gpu.pci.throughput.tx
Actividad GráficaPorcentaje de tiempo que el motor gráfico estuvo activo.gpu.gr_engine_active
Actividad SMPorcentaje de tiempo que el multiprocesador de transmisión estuvo activo.gpu.sm_active
PotenciaUso de energía para el dispositivo GPU.
Nota: En arquitecturas GA100 y anteriores, esto representa la potencia instantánea en ese momento.
Para arquitecturas más nuevas, representa el consumo promedio de energía (Watts) durante un segundo.
gpu.power.usage
TemperaturaTemperatura de un dispositivo GPU.gpu.temperature
Núcleos Usados(Solo emitido si hay procesos activos) Número promedio de núcleos GPU que un proceso estaba utilizando en el intervalo.gpu.core.usage
Memoria Usada(Solo emitido si hay procesos activos) La memoria utilizada por este proceso en el momento en que se consultó la métrica.gpu.memory.usage
Total de DispositivosConteo de todos los dispositivos que envían datos durante este período de tiempo.gpu.device.total

Si has seleccionado una etiqueta adicional para agrupar—por ejemplo, equipo—cada serie temporal única en el Gráfico Resumen corresponde al valor de un equipo para la métrica seleccionada.

Inventario de tu infraestructura impulsada por GPU

Esta tabla desglosa tu infraestructura impulsada por GPU por cualquier etiqueta de tu elección. Si no has especificado una etiqueta adicional en el campo Agrupar por, los resultados se agrupan por tu vista seleccionada: Clúster, servidor o Dispositivo.

Por defecto, la tabla de resultados muestra las siguientes columnas:

  • Tipo de dispositivo
  • Actividad del motor gráfico
  • Actividad de SM (solo si System Probe está habilitado)
  • Utilización del núcleo
  • Utilización de la memoria
  • Costo de inactividad
  • Recomendación

Puedes hacer clic en el ícono de engranaje para personalizar qué métricas se muestran en la tabla. Expande la sección a continuación para ver una lista completa de las métricas disponibles.

MétricaDefiniciónNombre de la Métrica
Utilización de CPUEl porcentaje de tiempo que la CPU pasó ejecutando procesos en el espacio de usuario. Se muestra como porcentaje.system.cpu.user
Tipo de dispositivoTipo de dispositivo GPU.gpu_device
Dispositivos totalesConteo de todos los dispositivos que envían datos durante este período de tiempo.gpu.device.total
Dispositivos asignados(solo disponible si se utiliza Kubernetes) Conteo de dispositivos que han sido asignados a una carga de trabajo.gpu.device.total
Dispositivos activosConteo de dispositivos que se utilizan activamente para una carga de trabajo / ocupados. Si se utiliza Kubernetes: cantidad de dispositivos asignados que se utilizan activamente para una carga de trabajo.gpu.gr_engine_active
Dispositivos EfectivosCantidad de dispositivos que se utilizan y funcionan durante más del 50% de su vida útil.gpu.sm_active
Actividad del Motor GráficoPorcentaje de tiempo que el motor gráfico estuvo activo.gpu.gr_engine_active
Actividad de SMPorcentaje de tiempo que el multiprocesador de transmisión estuvo activo.gpu.sm_active
Reloj de SMFrecuencia del reloj de SM en MHz.gpu.clock_speed.sm
Rendimiento de RX de PCIeBytes recibidos a través de PCI desde el dispositivo GPU por segundo.gpu.pci.throughput.rx
Rendimiento de TX de PCIeBytes transmitidos a través de PCI al dispositivo GPU por segundo.gpu.pci.throughput.tx
PotenciaUso de energía para el dispositivo GPU.
Nota: En arquitecturas GA100 y anteriores, esto representa la potencia instantánea en ese momento.
Para arquitecturas más nuevas, representa el consumo promedio de energía (Watts) durante un segundo.
gpu.power.usage
TemperaturaTemperatura de un dispositivo GPU.gpu.temperature
Núcleos Utilizados(Solo se emite si hay procesos activos) Número promedio de núcleos GPU que un proceso estaba utilizando en el intervalo.gpu.core.usage
Núcleos de GPUNúmero de núcleos de GPU que el proceso, contenedor o dispositivo tiene disponibles.gpu.core.limit
Memoria Usada(Solo se emite si hay procesos activos) La memoria utilizada por este proceso en el momento en que se envió la métrica.gpu.memory.usage
Límite de MemoriaLa cantidad máxima de memoria que un proceso, contenedor o dispositivo podría asignar.gpu.memory.limit
Toneladas Métricas de CO2Las toneladas métricas de dióxido de carbono equivalente (MTCO2e) son una unidad de medida que compara las emisiones de gases de efecto invernadero según su potencial de calentamiento global (GWP). Se calcula multiplicando la cantidad de un gas por su GWP. Por ejemplo, si el metano tiene un GWP de 21, entonces 1 millón de toneladas métricas de metano es equivalente a 21 millones de toneladas métricas de dióxido de carbono.Fórmula basada en gpu.power.usage
Utilización del Núcleo(Solo disponible si el Sistema de Sondeo está habilitado) Cores Used/Cores Limit para procesos de GPU. Medida de la Utilización Temporal del Núcleo.gpu_core_utilization
Utilización de MemoriaMemoria de GPU utilizada / Límite de Memoria de GPU para procesos de GPU.gpu_memory_utilization
Costo de Inactividad(Solo no cero para intervalos de tiempo mayores a 2 días) El costo de los recursos de GPU que están reservados y asignados, pero no utilizados.

Panel lateral de detalles

Hacer clic en cualquier fila en la tabla de Flota abre un panel lateral con más detalles para el clúster, host o dispositivo seleccionado.

Entidades Conectadas

El monitoreo de GPU de Datadog no necesita depender del Exportador DCGM de NVIDIA. Utiliza el Agente de Datadog para observar las GPU directamente, proporcionando información sobre el uso y los costos de las GPU para los pods y procesos. En la sección Entidades Conectadas de cualquier vista de detalle, puedes ver la actividad de SM, la utilización de núcleos de GPU (solo si el Sistema de Sondeo está habilitado) y el uso de memoria de pods, procesos y trabajos de Slurm. Esto te ayuda a identificar qué cargas de trabajo reducir u optimizar para disminuir el gasto total.

Nota: La pestaña Pods solo está disponible si estás utilizando Kubernetes.

Dentro de este panel lateral, tienes un embudo específico del clúster que identifica:

  • Número de dispositivos Totales, Asignados (solo para usuarios de Kubernetes), Activos y Efectivos dentro de ese clúster en particular

  • Costo total estimado y costo de inactividad de ese clúster

  • Entidades conectadas de ese clúster: pods, procesos y trabajos de Slurm

  • Cuatro métricas clave (personalizables) para ese clúster: Utilización de Núcleo (solo si el Sistema de Sondeo está habilitado), Utilización de Memoria, Rendimiento PCIe y Actividad Gráfica

  • Tabla de hosts asociados con ese clúster

    Panel lateral específico del clúster que desglosa dispositivos inactivos, costos y entidades conectadas

Dentro de este panel lateral, tienes una vista específica del host que identifica:

  • Metadatos relacionados con el host, como proveedor, tipo de instancia, utilización de CPU, memoria del sistema utilizada, memoria total del sistema, utilización de IO del sistema, actividad de SM y temperatura

  • (solo disponible para usuarios de Kubernetes) Los dispositivos GPU específicos asignados a ese host ordenados por Actividad del Motor Gráfico

  • Entidades Conectadas de ese host: pods, procesos y trabajos de Slurm

    Panel lateral específico del host que muestra los dispositivos GPU vinculados a ese host y Entidades Conectadas

Dentro de este panel lateral, tienes una vista específica del dispositivo que identifica:

  • Recomendaciones (si las hay) sobre cómo utilizar este dispositivo de manera más efectiva

  • Detalles relacionados con el dispositivo: tipo de dispositivo, actividad de SM y temperatura

  • Cuatro métricas clave relacionadas con las GPU: Actividad de SM, Utilización de Memoria, Potencia y Actividad del Motor Gráfico

  • Entidades conectadas de ese clúster: pods y procesos

    Panel lateral específico del dispositivo que muestra recomendaciones sobre cómo utilizar el dispositivo de manera más efectiva y otra telemetría clave.

Recomendaciones de instalación

Datadog supervisa activamente su infraestructura y detecta brechas de instalación que pueden disminuir el valor que obtiene de la Monitorización de GPU. En este modal, puede encontrar recomendaciones de actualización de instalación para obtener el valor óptimo de la Monitorización de GPU. Por ejemplo, asegurarse de que sus hosts tengan instalada la última versión del Agente de Datadog, instalar la última versión del controlador de NVIDIA y verificar los hosts mal configurados.

Para ver características avanzadas de Monitorización de GPU, como la atribución de recursos de GPU por procesos relacionados o trabajos de SLURM, debe habilitar Live Processes y la integración de Slurm, respectivamente.

Modal que contiene orientación de instalación para una experiencia de usuario más fluida en la Monitorización de GPU.

Para saber más