Join the Preview!

Data Pipeline Lineage está en Vista previa. Si te interesa esta característica, completa el formulario para solicitar acceso.

Request Access

Data Pipeline Lineage de Datadog te ayuda a monitorizar el flujo de datos de tus pipelines de extremo a extremo, incluida la ingesta, el procesamiento y el almacenamiento. Gracias a la visibilidad ampliada de tus pipelines, trabajos y almacenes de datos en una vista unificada, puedes detectar problemas con tus datos, identificar errores de flujo ascendente relacionados y solucionar los problemas más rápidamente.

Puedes visualizar el linaje de datos entre componentes (datos en streaming, trabajos de procesamiento de datos, almacenes de datos) con dependencias ascendentes y descendentes, monitorizar el rendimiento y detectar problemas como la demora del consumidor, cambios de esquema, junto con los datos descendentes afectados.

Para esta característica, se requiere la configuración tanto Data Streams Monitoring como Data Jobs Monitoring.

Tecnologías compatibles

TipoTecnología
Streaming
  • Servicios para productores y consumidores de Java
  • Kafka
  • RabbitMQ
  • SQS
  • SNS
  • Kinesis
Procesamiento
  • Trabajos de Apache Spark en ejecución en Kubernetes
  • Trabajos de Apache Spark en ejecución en EMR en EKS
Almacenamiento
  • S3
  • Snowflake

¿No encuentras tu stack tecnológico aquí? Envía una solicitud.

Configuración

  1. Configura Data Streams Monitoring en tus servicios de productor y consumidor. Sigue las instrucciones de la documentación de configuración de Data Streams Monitoring. Si utilizas Java, asegúrate de tener el cliente de Datadog APM para Java v1.34.0+.

  2. Configura Data Jobs Monitoring en tus cargas de trabajo de Spark. Consulta las instrucciones para Spark en Kubernetes o Spark en EMR.

  3. Activa Data Streams Monitoring para tus trabajos de Spark. Añade -Ddd.data.streams.enabled=true a la línea de comandos spark-submit.

    Por ejemplo:

    spark-submit \
    --conf spark.driver.extraJavaOptions="-Ddd.data.jobs.enabled=true -Ddd.data.streams.enabled=true" \
    --conf spark.executor.extraJavaOptions="-Ddd.data.jobs.enabled=true -Ddd.data.streams.enabled=true" \
    application.jar
    
  4. Para los servicios de Snowflake, instala los clientes de APM. Instala el cliente de APM de Java o Python de Datadog para cualquier servicio que interactúe con Snowflake. Establece la variable de entorno DD_TRACE_REMOVE_INTEGRATION_SERVICE_NAMES_ENABLED en true.

Ver los pipelines en Datadog

La vista Map (Mapa) en Data Streams Monitoring. Se muestra el flujo de datos de izquierda a derecha en una visualización de pipeline.

Después de configurar Data Pipeline Lineage, ve a la página Data Streams Monitoring en Datadog y selecciona Map (Mapa) para ver los pipelines visualizados.

Referencias adicionales