Google Cloud Vertex AI

Información general

Google Cloud Vertex AI permite a los desarrolladores de machine learning, científicos de datos e ingenieros de datos realizar sus proyectos, desde la ideación hasta el despliegue, de forma rápida y rentable. Entrena modelos de machine learning personalizados de alta calidad con experiencia y esfuerzo mínimos en machine learning.

Configuración

Instalación

Recopilación de métricas

Google Cloud Vertex AI se incluye en el paquete de la integración de Google Cloud Platform. Si aún no lo has hecho, configura primero la integración de Google Cloud Platform para empezar a recopilar métricas listas para usar.

Configuración

Para recopilar etiquetas (labels) de Vertex AI como etiquetas (tags), activa el rol de Visor de recursos en la nube.

Puedes utilizar suplantación de cuenta de servicio y la detección automática del proyecto para integrar Datadog con Google Cloud.

Este método te permite monitorizar todos los proyectos visibles para una cuenta de servicio mediante la asignación de roles de IAM en los proyectos pertinentes. Puedes asignar estos roles a proyectos individualmente, o puedes configurar Datadog para monitorizar grupos de proyectos asignando estos roles a nivel de organización o carpeta. Asignar roles de esta manera permite a Datadog detectar automáticamente y monitorizar todos los proyectos en el ámbito determinado, incluidos los nuevos proyectos que puedan añadirse al grupo en el futuro.

Recopilación de logs

Los logs de Google Cloud Vertex AI se recopilan con Google Cloud Logging y se envían a un trabajo de Dataflow a través de un tema Cloud Pub/Sub. Si aún no lo has hecho, configura el registro con la plantilla de Datadog Dataflow.

Una vez hecho esto, exporta tus logs de Google Cloud Vertex AI desde Google Cloud Logging al tema Pub/Sub:

  1. Ve a la página de Google Cloud Logging y filtra logs de Google Cloud Vertex AI.
  2. Haz clic en Create sink (Crear sumidero) y asigna al sumidero el nombre correspondiente.
  3. Elige “Cloud Pub/Sub” como destino y selecciona el tema Pub/Sub creado para tal fin. Nota: El tema Pub/Sub puede encontrarse en un proyecto diferente.
  4. Haz clic en Create (Crear) y espera a que aparezca el mensaje de confirmación.

Datos recopilados

Métricas

gcp.aiplatform.executing_vertexai_pipeline_jobs
(gauge)
Número de trabajos de pipeline en ejecución.
gcp.aiplatform.executing_vertexai_pipeline_tasks
(gauge)
Número de tareas de pipeline en ejecución.
gcp.aiplatform.featureonlinestore.online_serving.request_count
(count)
Número de solicitudes recibidas.
gcp.aiplatform.featureonlinestore.online_serving.serving_bytes_count
(count)
Recuento de bytes de respuesta de servicio.
Se muestra como byte
gcp.aiplatform.featureonlinestore.online_serving.serving_latencies.avg
(count)
La latencia media de las solicitudes del lado del servidor.
Se muestra en milisegundos
gcp.aiplatform.featureonlinestore.online_serving.serving_latencies.samplecount
(count)
El recuento de muestras para la latencia de solicitudes del lado del servidor.
Se muestra como milisegundo
gcp.aiplatform.featureonlinestore.online_serving.serving_latencies.sumsqdev
(count)
La suma de la desviación al cuadrado para la latencia de la solicitud del lado del servidor.
Se muestra como milisegundo
gcp.aiplatform.featureonlinestore.running_sync
(gauge)
Número de sincronizaciones en curso en un momento dado.
gcp.aiplatform.featureonlinestore.serving_data_ages.avg
(count)
Medida media de la antigüedad de los datos de servicio en segundos. Hora actual menos hora sincronizada.
Se muestra en segundos
gcp.aiplatform.featureonlinestore.serving_data_ages.samplecount
(count)
El recuento de muestras para medir la antigüedad de los datos de servicio en segundos. Hora actual menos hora sincronizada.
Se muestra en segundos
gcp.aiplatform.featureonlinestore.serving_data_ages.sumsqdev
(count)
La suma de la desviación al cuadrado para medir la antigüedad de los datos de servicio en segundos. Hora actual menos hora sincronizada.
Se muestra como segundo
gcp.aiplatform.featureonlinestore.serving_data_by_sync_time
(gauge)
Desglose de datos en Feature Online Store por fecha y hora de sincronización.
gcp.aiplatform.featureonlinestore.storage.bigtable_cpu_load
(gauge)
La carga media de la CPU de los nodos de Feature Online Store.
gcp.aiplatform.featureonlinestore.storage.bigtable_cpu_load_hottest_node
(gauge)
La carga de CPU del nodo más reciente de Feature Online Store.
gcp.aiplatform.featureonlinestore.storage.bigtable_nodes
(gauge)
El número de nodos de Feature Online Store (Bigtable).
gcp.aiplatform.featureonlinestore.storage.multi_region_bigtable_cpu_load
(gauge)
Carga media de la CPU de los nodos de Feature Online Store con réplicas multirregionales.
gcp.aiplatform.featureonlinestore.storage.multi_region_bigtable_nodes
(gauge)
El número de nodos para Feature Online Store (Bigtable) con réplicas multirregionales.
gcp.aiplatform.featureonlinestore.storage.optimized_nodes
(gauge)
Número de nodos de Feature Online Store (optimizada).
gcp.aiplatform.featureonlinestore.storage.stored_bytes
(gauge)
Bytes almacenados en Feature Online Store.
Se muestra como byte
gcp.aiplatform.featurestore.cpu_load
(gauge)
La carga media de la CPU para un nodo en el almacenamiento en línea de Featurestore.
gcp.aiplatform.featurestore.cpu_load_hottest_node
(gauge)
La carga de la CPU para el nodo más reciente en el almacenamiento en línea de Featurestore.
gcp.aiplatform.featurestore.node_count
(gauge)
El número de nodos para el almacenamiento en línea de Featurestore.
gcp.aiplatform.featurestore.online_entities_updated
(count)
Número de entidades actualizadas en el almacenamiento en línea de Featurestore.
Se muestra como byte
gcp.aiplatform.featurestore.online_serving.latencies.avg
(count)
Las latencias medias de servicio en línea por EntityType.
Se muestra en milisegundos
gcp.aiplatform.featurestore.online_serving.latencies.samplecount
(count)
Recuento de muestras de latencias de servicio en línea por EntityType.
Se muestra en milisegundos
gcp.aiplatform.featurestore.online_serving.latencies.sumsqdev
(count)
La suma de la desviación al cuadrado de las latencias de servicio en línea por EntityType.
Se muestra en milisegundos
gcp.aiplatform.featurestore.online_serving.request_bytes_count
(count)
Tamaño de la solicitud por EntityType.
Se muestra como byte
gcp.aiplatform.featurestore.online_serving.request_count
(count)
Recuento de servicios en línea de Featurestore por tipo de entidad.
gcp.aiplatform.featurestore.online_serving.response_size
(count)
Tamaño de la respuesta por EntityType.
Se muestra como byte
gcp.aiplatform.featurestore.storage.billable_processed_bytes
(gauge)
Número de bytes facturados por los datos fuera de línea procesados.
Se muestra como byte
gcp.aiplatform.featurestore.storage.stored_bytes
(gauge)
Bytes almacenados en Featurestore.
Se muestra como byte
gcp.aiplatform.featurestore.streaming_write.offline_processed_count
(count)
Número de solicitudes de escritura en streaming procesadas para el almacenamiento fuera de línea.
gcp.aiplatform.featurestore.streaming_write.offline_write_delays.avg
(count)
El tiempo medio (en segundos) desde que se llama a la API de escritura hasta que se escribe en el almacenamiento fuera de línea.
Se muestra como segundo
gcp.aiplatform.featurestore.streaming_write.offline_write_delays.samplecount
(count)
El recuento de muestras para el tiempo (en segundos) desde que se llama a la API de escritura hasta que se escribe en el almacenamiento fuera de línea.
Se muestra como segundo
gcp.aiplatform.featurestore.streaming_write.offline_write_delays.sumsqdev
(count)
La suma de la desviación al cuadrado para el tiempo (en segundos) desde que se llama a la API de escritura hasta que se escribe en el almacenamiento fuera de línea.
Se muestra como segundo
gcp.aiplatform.generate_content_input_tokens_per_minute_per_base_model
(count)
Generación de tokens de entrada de contenido por minuto por proyecto por modelo base.
gcp.aiplatform.generate_content_requests_per_minute_per_project_per_base_model
(count)
Generación de solicitudes de contenidos por minuto por proyecto por modelo de base.
gcp.aiplatform.matching_engine.cpu.request_utilization
(gauge)
La fracción de la CPU solicitada que está actualmente en uso en un contenedor de servidor coincidente.
gcp.aiplatform.matching_engine.current_replicas
(gauge)
Número de réplicas activas utilizadas por el DeployedIndex.
gcp.aiplatform.matching_engine.current_shards
(gauge)
Número de fragmentos del DeployedIndex.
gcp.aiplatform.matching_engine.memory.used_bytes
(gauge)
La memoria utilizada en bytes para un contenedor de servidor de coincidencias.
Se muestra como byte
gcp.aiplatform.matching_engine.query.latencies.avg
(count)
La latencia media de las solicitudes del lado del servidor.
Se muestra en milisegundos
gcp.aiplatform.matching_engine.query.latencies.samplecount
(count)
El recuento de muestras para la latencia de solicitudes del lado del servidor.
Se muestra como milisegundo
gcp.aiplatform.matching_engine.query.latencies.sumsqdev
(count)
La suma de la desviación al cuadrado para la latencia de la solicitud del lado del servidor.
Se muestra como milisegundo
gcp.aiplatform.matching_engine.query.request_count
(count)
Número de solicitudes recibidas.
gcp.aiplatform.matching_engine.stream_update.datapoint_count
(count)
Número de puntos de datos insertados o eliminados correctamente.
gcp.aiplatform.matching_engine.stream_update.latencies.avg
(count)
La media de las latencias entre que el usuario recibe un UpsertDatapointsResponse o RemoveDatapointsResponse y que la actualización surte efecto.
Se muestra en milisegundos
gcp.aiplatform.matching_engine.stream_update.latencies.samplecount
(count)
El recuento de muestras para las latencias entre que el usuario recibe un UpsertDatapointsResponse o RemoveDatapointsResponse y esa actualización surte efecto.
Se muestra como milisegundo
gcp.aiplatform.matching_engine.stream_update.latencies.sumsqdev
(count)
La suma de la desviación al cuadrado de las latencias entre que el usuario recibe un UpsertDatapointsResponse o RemoveDatapointsResponse y que la actualización surte efecto.
Se muestra como milisegundo
gcp.aiplatform.matching_engine.stream_update.request_count
(count)
Número de solicitudes de actualización de flujo.
gcp.aiplatform.online_prediction_dedicated_requests_per_base_model_version
(count)
Solicitudes dedicadas de predicción en línea por minuto por proyecto por versión del modelo base.
gcp.aiplatform.online_prediction_dedicated_tokens_per_base_model_version
(count)
Tokens dedicados de predicción en línea por minuto por proyecto por versión del modelo base.
gcp.aiplatform.online_prediction_requests_per_base_model
(count)
Solicitudes de predicción en línea por minuto por proyecto por modelo base.
Se muestra como solicitud
gcp.aiplatform.online_prediction_tokens_per_minute_per_base_model
(count)
Tokens de predicción en línea por minuto por proyecto por modelo de base.
gcp.aiplatform.pipelinejob.duration
(gauge)
Segundos de ejecución del trabajo de pipeline que se está ejecutando (desde la creación hasta el final).
Se muestra como segundo
gcp.aiplatform.pipelinejob.task_completed_count
(count)
Número acumulado de PipelineTasks completados.
gcp.aiplatform.prediction.online.accelerator.duty_cycle
(gauge)
Fracción de CPU asignada por la réplica del modelo desplegado y actualmente en uso. Puede superar el 100 % si el tipo de máquina tiene varias CPUs. Muestreo cada 60 segundos. Tras el muestreo, los datos no son visibles durante 360 segundos.
Se muestra como fracción
gcp.aiplatform.prediction.online.accelerator.memory.bytes_used
(gauge)
Cantidad de memoria del acelerador asignada por la réplica del modelo desplegado.
Se muestra como byte
gcp.aiplatform.prediction.online.cpu.utilization
(gauge)
Fracción de CPU asignada por la réplica del modelo desplegado y actualmente en uso. Puede superar el 100 % si el tipo de máquina tiene varias CPUs. Muestreo cada 60 segundos. Tras el muestreo, los datos no son visibles durante 360 segundos.
Se muestra como fracción
gcp.aiplatform.prediction.online.deployment_resource_pool.accelerator.duty_cycle
(gauge)
Fracción media de tiempo durante el último periodo de muestreo en el que el acelerador o aceleradores estuvieron procesando activamente.
gcp.aiplatform.prediction.online.deployment_resource_pool.accelerator.memory.bytes_used
(gauge)
Cantidad de memoria del acelerador asignada por la réplica del grupo de recursos de despliegue.
Se muestra como byte
gcp.aiplatform.prediction.online.deployment_resource_pool.cpu.utilization
(gauge)
Fracción de CPU asignada por la réplica del grupo de recursos de despliegue y actualmente en uso. Puede superar el 100 % si el tipo de máquina tiene varias CPUs.
Se muestra como porcentaje
gcp.aiplatform.prediction.online.deployment_resource_pool.memory.bytes_used
(gauge)
Cantidad de memoria asignada por la réplica del grupo de recursos de despliegue y actualmente en uso.
Se muestra como byte
gcp.aiplatform.prediction.online.deployment_resource_pool.network.received_bytes_count
(count)
Número de bytes recibidos a través de la red por la réplica del grupo de recursos de despliegue.
Se muestra como byte
gcp.aiplatform.prediction.online.deployment_resource_pool.network.sent_bytes_count
(count)
Número de bytes enviados a través de la red por la réplica del grupo de recursos de despliegue.
Se muestra como byte
gcp.aiplatform.prediction.online.deployment_resource_pool.replicas
(gauge)
Número de réplicas activas utilizadas por el conjunto de recursos de despliegue.
gcp.aiplatform.prediction.online.deployment_resource_pool.target_replicas
(gauge)
Número objetivo de réplicas activas necesarias para el grupo de recursos de despliegue.
gcp.aiplatform.prediction.online.error_count
(count)
Número de errores de predicción en línea.
Se muestra como error
gcp.aiplatform.prediction.online.memory.bytes_used
(gauge)
Cantidad de memoria asignada por la réplica del modelo desplegado y actualmente en uso. Muestreo cada 60 segundos. Después del muestreo, los datos no son visibles hasta 360 segundos.
Se muestra como byte
gcp.aiplatform.prediction.online.network.received_bytes_count
(count)
Número de bytes recibidos a través de la red por la réplica del modelo desplegado. Muestreo cada 60 segundos. Tras el muestreo, los datos no son visibles hasta 360 segundos.
Se muestra como byte
gcp.aiplatform.prediction.online.network.sent_bytes_count
(count)
Número de bytes enviados a través de la red por la réplica del modelo desplegado. Muestreo cada 60 segundos. Tras el muestreo, los datos no son visibles hasta 360 segundos.
Se muestra como byte
gcp.aiplatform.prediction.online.prediction_count
(count)
Número de predicciones en línea.
Se muestra como predicción
gcp.aiplatform.prediction.online.prediction_latencies.avg
(gauge)
Latencia media de predicción en línea del modelo desplegado.
Se muestra como microsegundo
gcp.aiplatform.prediction.online.prediction_latencies.samplecount
(count)
Latencia de predicción en línea del modelo público desplegado. Muestreo cada 60 segundos. Tras el muestreo, los datos no son visibles hasta 360 segundos.
Se muestra como microsegundo
gcp.aiplatform.prediction.online.private.prediction_latencies.avg
(gauge)
Latencia media de predicción en línea del modelo privado desplegado.
Se muestra como microsegundo
gcp.aiplatform.prediction.online.private.prediction_latencies.samplecount
(count)
Latencia de predicción en línea del modelo privado desplegado. Muestreo cada 60 segundos. Tras el muestreo, los datos no son visibles hasta 360 segundos.
Se muestra como microsegundo
gcp.aiplatform.prediction.online.private.response_count
(count)
Recuento de respuestas de predicción en línea del modelo privado desplegado.
Se muestra como respuesta
gcp.aiplatform.prediction.online.replicas
(count)
Número de réplicas activas utilizadas por el modelo desplegado. Muestreo cada 60 segundos. Tras el muestreo, los datos no son visibles durante un máximo de 120 segundos.
Se muestra como worker
gcp.aiplatform.prediction.online.response_count
(count)
Número de códigos de respuesta de predicción en línea diferentes.
Se muestra como respuesta
gcp.aiplatform.prediction.online.target_replicas
(count)
Número objetivo de réplicas activas necesarias para el modelo desplegado. Muestreo cada 60 segundos. Tras el muestreo, los datos no son visibles durante un máximo de 120 segundos.
Se muestra como worker
gcp.aiplatform.publisher.online_serving.character_count
(count)
Recuento acumulado de caracteres de entrada/salida.
gcp.aiplatform.publisher.online_serving.characters.avg
(count)
La distribución media del recuento de caracteres de entrada/salida.
gcp.aiplatform.publisher.online_serving.characters.samplecount
(count)
El recuento de muestras para la distribución del recuento de caracteres de entrada/salida.
gcp.aiplatform.publisher.online_serving.characters.sumsqdev
(count)
La suma de la desviación al cuadrado para la distribución del recuento de caracteres de entrada/salida.
gcp.aiplatform.publisher.online_serving.consumed_throughput
(count)
Rendimiento global utilizado (teniendo en cuenta la tasa de consumo) en términos de caracteres.
gcp.aiplatform.publisher.online_serving.first_token_latencies.avg
(count)
Duración media desde que se recibe la solicitud hasta que se devuelve el primer token al cliente.
Se muestra en milisegundos
gcp.aiplatform.publisher.online_serving.first_token_latencies.samplecount
(count)
Recuento de muestras de la duración desde la recepción de la solicitud hasta el envío del primer token al cliente.
Se muestra en milisegundos
gcp.aiplatform.publisher.online_serving.first_token_latencies.sumsqdev
(count)
La suma de la desviación al cuadrado de la duración desde que se recibe la solicitud hasta que se envía el primer token al cliente.
Se muestra en milisegundos
gcp.aiplatform.publisher.online_serving.model_invocation_count
(count)
Número de invocaciones del modelo (solicitudes de predicción).
gcp.aiplatform.publisher.online_serving.model_invocation_latencies.avg
(count)
La media de las latencias de invocación del modelo (latencias de predicción).
Se muestra en milisegundos
gcp.aiplatform.publisher.online_serving.model_invocation_latencies.samplecount
(count)
El recuento de muestras para las latencias de invocación del modelo (latencias de predicción).
Se muestra como milisegundo
gcp.aiplatform.publisher.online_serving.model_invocation_latencies.sumsqdev
(count)
La suma de la desviación al cuadrado de las latencias de invocación del modelo (latencias de predicción).
Se muestra en milisegundos
gcp.aiplatform.publisher.online_serving.token_count
(count)
Recuento acumulado de token de entrada/salida.
gcp.aiplatform.publisher.online_serving.tokens.avg
(count)
La distribución media del recuento de tokens de entrada/salida.
gcp.aiplatform.publisher.online_serving.tokens.samplecount
(count)
El recuento de muestras para la distribución del recuento de tokens de entrada/salida.
gcp.aiplatform.publisher.online_serving.tokens.sumsqdev
(count)
La suma de la desviación cuadrática para la distribución de recuento de tokens de entrada/salida.
gcp.aiplatform.quota.generate_content_input_tokens_per_minute_per_base_model.exceeded
(count)
Número de intentos de superar el límite de la métrica de cuota aiplatform.googleapis.com/generate_content_input_tokens_per_minute_per_base_model.
gcp.aiplatform.quota.generate_content_input_tokens_per_minute_per_base_model.limit
(gauge)
Límite actual de la métrica de cuota aiplatform.googleapis.com/generate_content_input_tokens_per_minute_per_base_model.
gcp.aiplatform.quota.generate_content_input_tokens_per_minute_per_base_model.usage
(count)
Uso actual de la métrica de cuota aiplatform.googleapis.com/generate_content_input_tokens_per_minute_per_base_model.
gcp.aiplatform.quota.generate_content_requests_per_minute_per_project_per_base_model.exceeded
(count)
Número de intentos de superar el límite de la métrica de cuota aiplatform.googleapis.com/generate_content_requests_per_minute_per_project_per_base_model.
gcp.aiplatform.quota.generate_content_requests_per_minute_per_project_per_base_model.limit
(gauge)
Límite actual de la métrica de cuota aiplatform.googleapis.com/generate_content_requests_per_minute_per_project_per_base_model.
gcp.aiplatform.quota.generate_content_requests_per_minute_per_project_per_base_model.usage
(count)
Uso actual de la métrica de cuota aiplatform.googleapis.com/generate_content_requests_per_minute_per_project_per_base_model.
gcp.aiplatform.quota.online_prediction_dedicated_requests_per_base_model_version.exceeded
(count)
Número de intentos de superar el límite de la métrica de cuota aiplatform.googleapis.com/online_prediction_dedicated_requests_per_base_model_version.
gcp.aiplatform.quota.online_prediction_dedicated_requests_per_base_model_version.limit
(gauge)
Límite actual de la métrica de cuota aiplatform.googleapis.com/online_prediction_dedicated_requests_per_base_model_version.
gcp.aiplatform.quota.online_prediction_dedicated_requests_per_base_model_version.usage
(count)
Uso actual de la métrica de cuota aiplatform.googleapis.com/online_prediction_dedicated_requests_per_base_model_version.
gcp.aiplatform.quota.online_prediction_dedicated_tokens_per_base_model_version.exceeded
(count)
Número de intentos de superar el límite de la métrica de cuota aiplatform.googleapis.com/online_prediction_dedicated_tokens_per_base_model_version.
gcp.aiplatform.quota.online_prediction_dedicated_tokens_per_base_model_version.limit
(gauge)
Límite actual de la métrica de cuota aiplatform.googleapis.com/online_prediction_dedicated_tokens_per_base_model_version.
gcp.aiplatform.quota.online_prediction_dedicated_tokens_per_base_model_version.usage
(count)
Uso actual de la métrica de cuota aiplatform.googleapis.com/online_prediction_dedicated_tokens_per_base_model_version.
gcp.aiplatform.quota.online_prediction_requests_per_base_model.exceeded
(count)
Número de intentos de superar el límite de la métrica de cuota aiplatform.googleapis.com/online_prediction_requests_per_base_model.
Se muestra como error
gcp.aiplatform.quota.online_prediction_requests_per_base_model.limit
(gauge)
Límite actual de la métrica de cuota aiplatform.googleapis.com/online_prediction_requests_per_base_model.
Se muestra como solicitud
gcp.aiplatform.quota.online_prediction_requests_per_base_model.usage
(count)
Uso actual de la métrica de cuota aiplatform.googleapis.com/online_prediction_requests_per_base_model.
Se muestra como solicitud
gcp.aiplatform.quota.online_prediction_tokens_per_minute_per_base_model.exceeded
(count)
Número de intentos de superar el límite de la métrica de cuota aiplatform.googleapis.com/online_prediction_tokens_per_minute_per_base_model.
gcp.aiplatform.quota.online_prediction_tokens_per_minute_per_base_model.limit
(gauge)
Límite actual de la métrica de cuota aiplatform.googleapis.com/online_prediction_tokens_per_minute_per_base_model.
gcp.aiplatform.quota.online_prediction_tokens_per_minute_per_base_model.usage
(count)
Uso actual de la métrica de cuota aiplatform.googleapis.com/online_prediction_tokens_per_minute_per_base_model.

Checks de servicio

Google Cloud Vertex AI no incluye checks de servicios.

Eventos

Google Cloud Vertex AI no incluye eventos.

Solucionar problemas

¿Necesitas ayuda? Ponte en contacto con el soporte de Datadog.

Referencias adicionales

Más enlaces, artículos y documentación útiles: