Google Cloud Dataproc

Información general

Data Jobs Monitoring te ayuda a observar, solucionar problemas y optimizar los costes de tus tareas de Spark en tus clústeres Dataproc.

Google Cloud Dataproc es un servicio de nube rápido, fácil de utilizar y totalmente gestionado para ejecutar clústeres Apache Spark y Apache Hadoop de una forma más sencilla y rentable.

Utiliza la integración Google Cloud Platform en Datadog para recopilar métricas de Google Cloud Dataproc.

Configuración

Instalación

Si aún no lo has hecho, configura primero la integración de Google Cloud Platform. No hay más pasos de instalación.

Recopilación de logs

Los logs de Google Cloud Dataproc se recopilan con Google Cloud Logging y se envían a un trabajo de Dataflow a través de un tema Cloud Pub/Sub. Si aún no lo has hecho, configura la generación de logs con la plantilla de Datadog Dataflow.

Una vez hecho esto, exporta tus logs de Google Cloud Dataproc de Google Cloud Logging al tema Pub/Sub:

  1. Ve a la página de Google Cloud Logging y filtra logs de Google Cloud Dataproc.
  2. Haz clic en Create Export (Crear exportación) y asigna un nombre al sumidero.
  3. Elige “Cloud Pub/Sub” como destino y selecciona el tema Pub/Sub creado para tal fin. Nota: El tema Pub/Sub puede encontrarse en un proyecto diferente.
  4. Haz clic en Create (Crear) y espera a que aparezca el mensaje de confirmación.

Datos recopilados

Métricas

gcp.dataproc.batch.spark.executors
(gauge)
Indica el número de ejecutores de batches Spark.
Se muestra como worker
gcp.dataproc.cluster.capacity_deviation
(gauge)
Diferencia entre el recuento de nodos esperado en el clúster y los gestores de nodos YARN activos reales.
gcp.dataproc.cluster.hdfs.datanodes
(gauge)
Indica el número de HDFS DataNodes que se están ejecutando en un clúster.
_Se muestra como nodo
gcp.dataproc.cluster.hdfs.storage_capacity
(gauge)
Indica la capacidad del sistema HDFS que se ejecuta en un clúster en GB.
Se muestra en gibibytes
gcp.dataproc.cluster.hdfs.storage_utilization
(gauge)
Porcentaje de almacenamiento HDFS utilizado actualmente.
Se muestra como porcentaje
gcp.dataproc.cluster.hdfs.unhealthy_blocks
(gauge)
Indica el número de bloques no sanos en el clúster.
Se muestra como bloque
gcp.dataproc.cluster.job.completion_time.avg
(gauge)
Tiempo que tardan en finalizar los trabajos desde que el usuario envía un trabajo hasta que Dataproc informa de que ha finalizado.
Se muestra en milisegundos
gcp.dataproc.cluster.job.completion_time.samplecount
(count)
Recuento de muestras del tiempo de finalización de un trabajo en el clúster.
Se muestra en milisegundos
gcp.dataproc.cluster.job.completion_time.sumsqdev
(gauge)
Suma de la desviación al cuadrado del tiempo de finalización de un trabajo en el clúster.
Se muestra en segundos
gcp.dataproc.cluster.job.duration.avg
(gauge)
Tiempo que los trabajos han pasado en un estado determinado.
Se muestra en milisegundos
gcp.dataproc.cluster.job.duration.samplecount
(count)
Recuento de muestras de la duración de un trabajo en el clúster
Se muestra en milisegundos
gcp.dataproc.cluster.job.duration.sumsqdev
(gauge)
Suma de la desviación al cuadrado de la duración de un trabajo en el clúster.
Se muestra en segundos
gcp.dataproc.cluster.job.failed_count
(count)
Indica el número de trabajos que han fallado en un clúster.
Se muestra en trabajo
gcp.dataproc.cluster.job.running_count
(gauge)
Indica el número de trabajos que se están ejecutando en un clúster.
Se muestra como trabajo
gcp.dataproc.cluster.job.submitted_count
(count)
Indica el número de trabajos que se han enviado a un clúster.
Se muestra como trabajo
gcp.dataproc.cluster.mig_instances.failed_count
(count)
Indica el número de fallos de instancia de un grupo de instancias gestionado.
gcp.dataproc.cluster.nodes.expected
(gauge)
Indica el número de nodos que se esperan en un clúster.
Se muestra como nodo
gcp.dataproc.cluster.nodes.failed_count
(count)
Indica el número de nodos que han fallado en un clúster.
Se muestra como nodo
gcp.dataproc.cluster.nodes.recovered_count
(count)
Indica el número de nodos que se han detectado como fallidos y se han eliminado con éxito del clúster.
Se muestra como nodo
gcp.dataproc.cluster.nodes.running
(gauge)
Indica el número de nodos en estado de ejecución.
Se muestra como nodo
gcp.dataproc.cluster.operation.completion_time.avg
(gauge)
Tiempo que han tardado en finalizar las operaciones desde el momento en que el usuario envía una operación hasta el momento en que Dataproc informa que ha finalizado.
Se muestra en milisegundos
gcp.dataproc.cluster.operation.completion_time.samplecount
(count)
Recuento de muestras del tiempo de finalización de una operación de clúster.
Se muestra en milisegundos
gcp.dataproc.cluster.operation.completion_time.sumsqdev
(gauge)
Suma de la desviación al cuadrado del tiempo de finalización de una operación de cluster.
Se muestra en segundos
gcp.dataproc.cluster.operation.duration.avg
(gauge)
Tiempo que han pasado las operaciones en un estado determinado.
Se muestra en milisegundos
gcp.dataproc.cluster.operation.duration.samplecount
(count)
Recuento de muestras de la duración de una operación de cluster.
Se muestra en milisegundos
gcp.dataproc.cluster.operation.duration.sumsqdev
(gauge)
Suma de la desviación al cuadrado de la duración de una operación de cluster.
Se muestra en segundos
gcp.dataproc.cluster.operation.failed_count
(count)
Indica el número de operaciones que han fallado en un clúster.
Se muestra como operación
gcp.dataproc.cluster.operation.running_count
(gauge)
Indica el número de operaciones que se están ejecutando en un clúster.
Se muestra como operación
gcp.dataproc.cluster.operation.submitted_count
(count)
Indica el número de operaciones que se han enviado a un clúster.
Se muestra como operación
gcp.dataproc.cluster.yarn.allocated_memory_percentage
(gauge)
Porcentaje de memoria YARN se asigna.
Se muestra como porcentaje
gcp.dataproc.cluster.yarn.apps
(gauge)
Indica el número de aplicaciones YARN activas.
gcp.dataproc.cluster.yarn.containers
(gauge)
Indica el número de contenedores YARN.
Se muestra como contenedor
gcp.dataproc.cluster.yarn.memory_size
(gauge)
Indica el tamaño de la memoria YARN en GB.
Se muestra en gibibytes
gcp.dataproc.cluster.yarn.nodemanagers
(gauge)
Indica el número de NodeManagers YARN que se ejecutan en el clúster.
gcp.dataproc.cluster.yarn.pending_memory_size
(gauge)
Solicitud de memoria actual, en GB, que está pendiente de ser atendida por el programador.
Se muestra en gibibytes
gcp.dataproc.cluster.yarn.virtual_cores
(gauge)
Indica el número de núcleos virtuales en YARN.
Se muestra como núcleo
gcp.dataproc.job.state
(gauge)
Indica si un trabajo se encuentra actualmente en un estado determinado o no.
gcp.dataproc.job.yarn.memory_seconds
(gauge)
Indica los segundos de memoria consumidos por el trabajo job_id por application_id Yarn.
gcp.dataproc.job.yarn.vcore_seconds
(gauge)
Indica los segundos VCore consumidos por el trabajo job_id por application_id Yarn.
gcp.dataproc.node.problem_count
(count)
Número total de veces que se ha producido un tipo específico de problema.
gcp.dataproc.node.yarn.nodemanager.health
(gauge)
Estado de salud de YARN NodeManager.
gcp.dataproc.session.spark.executors
(gauge)
Indica el número de ejecutores de sesiones Spark.
Se muestra como worker

Eventos

La integración Google Cloud Dataproc no incluye eventos.

Checks de servicio

La integración Google Cloud Dataproc no incluye checks de servicio.

Solucionar problemas

¿Necesitas ayuda? Ponte en contacto con el servicio de asistencia de Datadog.