Data Streams Monitoring

Data Streams Monitoring proporciona un método estandarizado para que los equipos comprendan y gestionen los pipelines a escala y así facilita:

Mide el estado de los pipelines con latencias de extremo a extremo para eventos que atraviesan tu sistema.
Localiza los productores, consumidores o colas defectuosos y, a continuación, dirígete a logs o clústeres para solucionar los problemas con mayor rapidez.
Evita los retrasos en cascada equipando a los propietarios de servicio para impedir que la acumulación de eventos desborde los servicios de flujo descendente.

Lenguajes y tecnologías compatibles

Data Streams Monitoring instrumenta los clientes de Kafka (consumidores/productores). Si puedes instrumentar tu infraestructura de clientes, puedes utilizar Data Streams Monitoring.

	Java	Python	.NET	Node.js	Go	Ruby
Apache Kafka (autoalojado, Amazon MSK, Confluent Cloud o cualquier otra plataforma de alojamiento)
Amazon Kinesis
Amazon SNS
Amazon SQS
Azure Service Bus
Google Pub/Sub
IBM MQ
RabbitMQ

Data Streams Monitoring requiere versiones mínimas del rastreador Datadog. Para obtener más detalles, consulta cada página de configuración.

Compatibilidad con OpenTelemetry

Data Streams Monitoring es compatible con OpenTelemetry. Si has configurado Datadog APM para que funcione con OpenTelemetry, no es necesaria ninguna configuración adicional para utilizar Data Streams Monitoring. Consulta Compatibilidad de OpenTelemetry.

Instalación

Por lenguaje

Por tecnología

Explorar Data Streams Monitoring

Visualizar la arquitectura de tus pipelines de transmisión de datos

Visualización de un mapa de topología de DSM.

Data Streams Monitoring proporciona un [mapa de topología10 predefinido para que puedas visualizar el flujo de datos a través de tus pipelines e identificar los servicios productores/consumidores, las dependencias de las colas, la propiedad del servicio y las métricas de salud claves.

Medir el estado de los pipelines de extremo a extremo con las nuevas métricas

Con Data Streams Monitoring, puedes medir el tiempo que suelen tardar los eventos en recorrer el trayecto entre dos puntos cualesquiera de tu sistema asíncrono:

Nombre de la métrica	Etiquetas (tags) notables	Descripción
data_streams.latency	`start`, `end`, `env`	Latencia de extremo a extremo de un trayecto desde un origen especificado hasta un servicio de destino.
data_streams.kafka.lag_seconds	`consumer_group`, `partition`, `topic`, `env`	Retraso en segundos entre el productor y el consumidor. Requiere Java Agent v1.9.0 o posterior.
data_streams.payload_size	`consumer_group`, `topic`, `env`	Rendimiento entrante y saliente en bytes.

También puedes representar gráficamente y visualizar estas métricas en cualquier dashboard o notebook:

Monitor de Datadog Data Streams Monitoring

Monitorizar la latencia de extremo a extremo de cualquier ruta

Según cómo los eventos atraviesen tu sistema, diferentes rutas pueden conducir a un aumento de la latencia. Con la pestaña Medida, puedes seleccionar un servicio de inicio y un servicio final para obtener información sobre la latencia de extremo a extremo para identificar cuellos de botella y optimizar el rendimiento. Crea fácilmente un monitor para esa ruta o expórtalo a un dashboard.

También puedes hacer clic en un servicio para abrir un panel lateral detallado y ver la pestaña Pathways (Rutas) para conocer la latencia entre el servicio y servicios de flujo ascendente.

Alerta de ralentización en aplicaciones basadas en eventos

Las ralentizaciones causadas por un retraso elevado de los consumidores o por mensajes obsoletos pueden provocar fallos en cascada y aumentar la caída del sistema. Gracias a las alertas predefinidas, puedes determinar con precisión dónde se producen los cuellos de botella en tus pipelines y responder a ellos de inmediato. Para complementar métricas, Datadog proporciona integraciones adicionales para tecnologías de colas de mensajes como Kafka y SQS.

A través de las plantillas de monitor predefinidas de Data Stream Monitoring puedes configurar monitores de métricas como el retraso del consumidor, el rendimiento y la latencia en un solo clic.

Plantillas de monitor de Datadog Data Streams Monitoring — Haz clic en 'Add Monitors and Synthetic Tests' (Añadir monitores y tests Synthetic para ver los monitores recomendados

Atribuye los mensajes entrantes a cualquier cola, servicio o clúster

Un retraso elevado en un servicio consumidor, un mayor uso de recursos en un intermediario de Kafka y un aumento del tamaño de la cola de RabbitMQ o Amazon SQS se explican con frecuencia por cambios en la forma en que los servicios adyacentes están produciendo o consumiendo estas entidades.

Haz clic en la pestaña Rendimiento de cualquier servicio o cola en Data Streams Monitoring para detectar rápidamente cambios en el rendimiento y ver de qué servicio ascendente o descendente proceden los cambios. Una vez configurado el Catálogo de software, puedes cambiar inmediatamente al canal Slack del equipo correspondiente o al ingeniero de turno.

Al filtrar a un único clúster de Kafka, RabbitMQ o Amazon SQS, puedes detectar cambios en el tráfico entrante o saliente para todos los temas o colas detectados que se ejecuten en ese clúster:

Cambiar rápidamente para identificar las causas raíz en la infraestructura, los logs o las trazas (traces)

Datadog vincula automáticamente la infraestructura que alimenta tus servicios y los logs relacionados a través del Etiquetado de servicios unificado, para que puedas localizar fácilmente los cuellos de botella. Haz clic en las pestañas Infra, Logs o Trazas para solucionar el problema de por qué ha aumentado la latencia de la ruta o el retraso del consumidor.

Monitorizar el rendimiento y el estado del conector

A DSM topology (topología) map, showing a connector called 'analytics-sink'. The visualization indicates that the connector has a status of FAILED.

Datadog puede detectar automáticamente tus conectores gestionados de Confluent Cloud y visualizarlos en el mapa de Data Streams Monitoring topology (topología) . Instala y configura la integración de Confluent Cloud para recopilar información de tus conectores de Confluent Cloud, incluido el rendimiento, el estado y las dependencias de temas.