TPU de Google Cloud

Versión de la integración1.0.0

Información general

Los productos TPU de Google Cloud ponen las ventajas de las Tensor Processing Units (TPU) a disposición de todos los investigadores de ML, ingenieros de ML, desarrolladores y científicos de datos que ejecutan modelos de ML de última generación, a través de un recurso informático en la nube escalable y fácil de utilizar.

Utiliza la integración de Google Cloud Platform con Datadog para recopilar métricas de TPU de Google Cloud.

Configuración

Instalación

Para utilizar Google Cloud TPU, solo tienes que configurar la integración de Google Cloud Platform.

Recopilación de logs

Los logs de Google Cloud TPU se recopilan con Google Cloud Logging y se envían a un trabajo de Dataflow a través de un tema Cloud Pub/Sub. Si aún no lo has hecho, configura la generación de logs con la plantilla de Datadog Dataflow.

Una vez hecho esto, exporta tus logs de TPU de Google Cloud de Google Cloud Logging al tema Pub/Sub:

  1. Ve a la página de Google Cloud Logging y filtra logs de Google Cloud TPU.
  2. Haz clic en Create Export (Crear exportación) y asigna un nombre al sumidero.
  3. Elige “Cloud Pub/Sub” como destino y selecciona el tema Pub/Sub creado para tal fin. Nota: El tema Pub/Sub puede encontrarse en un proyecto diferente.
  4. Haz clic en Create (Crear) y espera a que aparezca el mensaje de confirmación.

Datos recopilados

Métricas

gcp.tpu.cpu.utilization
(gauge)
Utilización de CPUs en el worker de TPU como porcentaje.
Se muestra como porcentaje
gcp.tpu.memory.usage
(gauge)
Uso de memoria en bytes.
Se muestra como byte
gcp.tpu.network.received_bytes_count
(count)
Bytes acumulados de datos que este servidor ha recibido a través de la red.
Se muestra como byte
gcp.tpu.network.sent_bytes_count
(count)
Bytes acumulados de datos que este servidor ha enviado a través de la red.
Se muestra como byte
gcp.tpu.accelerator.duty_cycle
(count)
Porcentaje de tiempo durante el periodo de muestreo en el que el acelerador estuvo procesando activamente
Se muestra como porcentaje
gcp.tpu.instance.uptime_total
(count)
Tiempo transcurrido desde que se inició la máquina virtual, en segundos.
Se muestra como segundo
gcp.gke.node.accelerator.tensorcore_utilization
(count)
Porcentaje actual del Tensorcore que se utiliza.
Se muestra como porcentaje
gcp.gke.node.accelerator.duty_cycle
(count)
Porcentaje de tiempo durante el último periodo de muestreo (10s) durante el cual el acelerador estuvo procesando activamente.
Se muestra como porcentaje
gcp.gke.node.accelerator.memory_used
(count)
Memoria total del acelerador asignada en bytes.
Se muestra como byte
gcp.gke.node.accelerator.memory_total
(count)
Memoria total del acelerador en bytes.
Se muestra como byte
gcp.gke.node.accelerator.memory_bandwidth_utilization
(count)
Porcentaje actual del ancho de banda de la memoria del acelerador que se está utilizando.
Se muestra como porcentaje
gcp.gke.container.accelerator.tensorcore_utilization
(count)
Porcentaje actual del Tensorcore que se utiliza.
Se muestra como porcentaje
gcp.gke.container.accelerator.duty_cycle
(count)
Porcentaje de tiempo durante el último periodo de muestreo (10s) durante el cual el acelerador estuvo procesando activamente.
Se muestra como porcentaje
gcp.gke.container.accelerator.memory_used
(count)
Memoria total del acelerador asignada en bytes.
Se muestra como byte
gcp.gke.container.accelerator.memory_total
(count)
Memoria total del acelerador en bytes.
Se muestra como byte
gcp.gke.container.accelerator.memory_bandwidth_utilization
(count)
Porcentaje actual del ancho de banda de la memoria del acelerador que se está utilizando.
Se muestra como porcentaje

Eventos

La integración de las TPU de Google Cloud no incluye eventos.

Checks de servicio

La integración de las TPU de Google Cloud no incluye checks de servicio.

Solucionar problemas

¿Necesitas ayuda? Ponte en contacto con el soporte de Datadog.