Versión de la integración1.0.0
Los productos TPU de Google Cloud ponen las ventajas de las Tensor Processing Units (TPU) a disposición de todos los investigadores de ML, ingenieros de ML, desarrolladores y científicos de datos que ejecutan modelos de ML de última generación, a través de un recurso informático en la nube escalable y fácil de utilizar.
Utiliza la integración de Google Cloud Platform con Datadog para recopilar métricas de TPU de Google Cloud.
Configuración
Instalación
Para utilizar Google Cloud TPU, solo tienes que configurar la integración de Google Cloud Platform.
Recopilación de logs
Los logs de Google Cloud TPU se recopilan con Google Cloud Logging y se envían a un trabajo de Dataflow a través de un tema Cloud Pub/Sub. Si aún no lo has hecho, configura la generación de logs con la plantilla de Datadog Dataflow.
Una vez hecho esto, exporta tus logs de TPU de Google Cloud de Google Cloud Logging al tema Pub/Sub:
- Ve a la página de Google Cloud Logging y filtra logs de Google Cloud TPU.
- Haz clic en Create Export (Crear exportación) y asigna un nombre al sumidero.
- Elige “Cloud Pub/Sub” como destino y selecciona el tema Pub/Sub creado para tal fin. Nota: El tema Pub/Sub puede encontrarse en un proyecto diferente.
- Haz clic en Create (Crear) y espera a que aparezca el mensaje de confirmación.
Datos recopilados
Métricas
| |
|---|
gcp.tpu.cpu.utilization (gauge) | Utilización de CPUs en el worker de TPU como porcentaje. Se muestra como porcentaje |
gcp.tpu.memory.usage (gauge) | Uso de memoria en bytes. Se muestra como byte |
gcp.tpu.network.received_bytes_count (count) | Bytes acumulados de datos que este servidor ha recibido a través de la red. Se muestra como byte |
gcp.tpu.network.sent_bytes_count (count) | Bytes acumulados de datos que este servidor ha enviado a través de la red. Se muestra como byte |
gcp.tpu.accelerator.duty_cycle (count) | Porcentaje de tiempo durante el periodo de muestreo en el que el acelerador estuvo procesando activamente Se muestra como porcentaje |
gcp.tpu.instance.uptime_total (count) | Tiempo transcurrido desde que se inició la máquina virtual, en segundos. Se muestra como segundo |
gcp.gke.node.accelerator.tensorcore_utilization (count) | Porcentaje actual del Tensorcore que se utiliza. Se muestra como porcentaje |
gcp.gke.node.accelerator.duty_cycle (count) | Porcentaje de tiempo durante el último periodo de muestreo (10s) durante el cual el acelerador estuvo procesando activamente. Se muestra como porcentaje |
gcp.gke.node.accelerator.memory_used (count) | Memoria total del acelerador asignada en bytes. Se muestra como byte |
gcp.gke.node.accelerator.memory_total (count) | Memoria total del acelerador en bytes. Se muestra como byte |
gcp.gke.node.accelerator.memory_bandwidth_utilization (count) | Porcentaje actual del ancho de banda de la memoria del acelerador que se está utilizando. Se muestra como porcentaje |
gcp.gke.container.accelerator.tensorcore_utilization (count) | Porcentaje actual del Tensorcore que se utiliza. Se muestra como porcentaje |
gcp.gke.container.accelerator.duty_cycle (count) | Porcentaje de tiempo durante el último periodo de muestreo (10s) durante el cual el acelerador estuvo procesando activamente. Se muestra como porcentaje |
gcp.gke.container.accelerator.memory_used (count) | Memoria total del acelerador asignada en bytes. Se muestra como byte |
gcp.gke.container.accelerator.memory_total (count) | Memoria total del acelerador en bytes. Se muestra como byte |
gcp.gke.container.accelerator.memory_bandwidth_utilization (count) | Porcentaje actual del ancho de banda de la memoria del acelerador que se está utilizando. Se muestra como porcentaje |
Eventos
La integración de las TPU de Google Cloud no incluye eventos.
Checks de servicio
La integración de las TPU de Google Cloud no incluye checks de servicio.
Solucionar problemas
¿Necesitas ayuda? Ponte en contacto con el soporte de Datadog.