Información general

AWS Glue es un servicio de ETL (extracción, transformación y carga) totalmente gestionado que hace más simple y rentable la categorización, limpieza, mejora y traslado fiable de datos entre varios almacenes de datos.

Habilita esta integración para ver todas tus métricas de Glue en Datadog.

Configuración

Instalación

Si aún no lo has hecho, configura primero la integración de Amazon Web Services.

Recopilación de métricas

  1. En la página de la integración de AWS, asegúrate de que Glue está habilitado en la pestaña Metric Collection.
  2. Instala la integración de Datadog y Amazon Glue.

Recopilación de logs

Activar logging

Configura AWS Glue para enviar logs a un bucket de S3 o a CloudWatch.

Nota: Si vas a loguear en un bucket de S3, asegúrate de que amazon_glue está configurado como Target prefix (Prefijo de destino).

Enviar logs a Datadog

  1. Si aún no lo has hecho, configura la función de Lambda del Datadog Forwarder.

  2. Una vez instalada la función de Lambda, añade manualmente un activador en el bucket de S3 o grupo de logs de CloudWatch que contenga tus logs de AWS Glue en la consola de AWS:

Datos recopilados

Métricas

aws.glue.driver.executor_allocation_manager.executors.number_all_executors
(gauge)
El número de ejecutores de trabajos en ejecución activa.
aws.glue.driver.executor_allocation_manager.executors.number_max_needed_executors
(gauge)
El número máximo de ejecutores (en ejecución activa y pendientes) de trabajo necesarios para satisfacer la carga actual.
aws.glue.glue_alljvm_heap_usage
(gauge)
La fracción media de memoria utilizada por el heap JVM para este controlador (escala: 0-1) para todos los ejecutores.
Se muestra como porcentaje
aws.glue.glue_alljvm_heap_used
(gauge)
El número de bytes de memoria utilizados por el heap JVM para todos los ejecutores.
Se muestra como byte
aws.glue.glue_alls_3filesystem_readbytes
(gauge)
El número medio de bytes leídos de Amazon S3 por todos los ejecutores desde el informe anterior.
aws.glue.glue_allsystem_cpu_system_load
(gauge)
Fracción media de la carga del sistema de la CPU utilizada (escala: 0-1) por todos los ejecutores.
Se muestra como porcentaje
aws.glue.glue_driver_aggregate_bytes_read
(count)
El número de bytes leídos de todas las fuentes de datos por todas las tareas de Spark completadas que se ejecutan en todos los ejecutores.
Se muestra como byte
aws.glue.glue_driver_aggregate_elapsed_time
(count)
El tiempo transcurrido de ETL en milisegundos (no incluye los tiempos de arranque del trabajo).
Se muestra en milisegundos
aws.glue.glue_driver_aggregate_num_completed_stages
(count)
El número de etapas completadas en el trabajo.
aws.glue.glue_driver_aggregate_num_completed_tasks
(count)
El número de tareas completadas en el trabajo.
aws.glue.glue_driver_aggregate_num_failed_tasks
(count)
Número de tareas fallidas.
aws.glue.glue_driver_aggregate_num_killed_tasks
(count)
Número de tareas eliminadas.
aws.glue.glue_driver_aggregate_records_read
(count)
El número de registros leídos de todas las fuentes de datos por todas las tareas de Spark completadas que se ejecutan en todos los ejecutores.
aws.glue.glue_driver_aggregate_shuffle_bytes_written
(count)
El número de bytes escritos por todos los ejecutores para mezclar datos entre ellos desde el informe anterior.
aws.glue.glue_driver_aggregate_shuffle_local_bytes_read
(count)
El número de bytes leídos por todos los ejecutores para mezclar datos entre ellos desde el informe anterior.
aws.glue.glue_driver_block_manager_disk_disk_space_used_mb
(gauge)
El número medio de megabytes de espacio en disco utilizado en todos los ejecutores.
aws.glue.glue_driver_jvm_heap_usage
(gauge)
La fracción media de memoria utilizada por el heap JVM para este controlador (escala: 0-1) para el controlador.
Se muestra como porcentaje
aws.glue.glue_driver_jvm_heap_used
(gauge)
El número de bytes de memoria utilizados por el heap JVM para el controlador.
Se muestra como byte
aws.glue.glue_driver_s3_filesystem_readbytes
(gauge)
El número medio de bytes leídos de Amazon S3 por el controlador desde el informe anterior.
aws.glue.glue_driver_s3_filesystem_writebytes
(gauge)
El número medio de bytes escritos en Amazon S3 por el controlador desde el informe anterior.
aws.glue.glue_driver_system_cpu_system_load
(gauge)
Fracción media de la carga del sistema de la CPU utilizada (escala: 0-1) por el controlador.
Se muestra como porcentaje
aws.glue.glue_executor_id_jvm_heap_usage
(gauge)
La fracción media de memoria utilizada por el heap JVM para este controlador (escala: 0-1) para el ejecutor identificado.
Se muestra como porcentaje
aws.glue.glue_executor_id_jvm_heap_used
(gauge)
El número de bytes de memoria utilizados por el heap JVM para el ejecutor identificado.
Se muestra como byte
aws.glue.glue_executor_id_system_cpu_system_load
(gauge)
La fracción media de la carga del sistema de la CPU utilizada (escala: 0-1) por el ejecutor identificado.
Se muestra como porcentaje
aws.glue.glue_executor_ids_3_filesystem_readbytes
(gauge)
El número medio de bytes leídos de Amazon S3 por el ejecutor identificado desde el informe anterior.
aws.glue.glue_executor_ids_3_filesystem_writebytes
(gauge)
El número medio de bytes escritos en Amazon S3 por el ejecutor identificado desde el informe anterior.

Eventos

La integración de AWS Glue no incluye ningún evento.

Checks de servicio

La integración de AWS Glue no incluye ningún check de servicio.

Solucionar problemas

¿Necesitas ayuda? Ponte en contacto con el soporte de Datadog.