Amazon MSK

Información general

Amazon Managed Streaming para Apache Kafka (MSK) es un servicio totalmente gestionado que facilita la creación y ejecución de aplicaciones que utilizan Apache Kafka para procesar datos de streaming.

Esta integración utiliza un rastreador que recopila métricas de CloudWatch. Lee la página Amazon MSK (Agent) para obtener información sobre la monitorización de MSK a través del Datadog Agent.

Configuración

Habilita el rastreador de Amazon MSK para ver las métricas de MSK desde CloudWatch en Datadog.

Instalación

Si aún no lo has hecho, configura primero la integración de Amazon Web Services.

Recopilación de métricas

  1. En la página de integración de AWS, asegúrate de que Kafka está activado en la pestaña Metric Collection.

  2. Instala la integración de Amazon MSK.

Recopilación de logs

Activar logging

Configura Amazon MSK para enviar logs a un bucket de S3 o a CloudWatch.

Notas:

  • Si vas a loguear en un bucket de S3, asegúrate de que amazon_msk está configurado como Target prefix (Prefijo de destino).
  • Si vas a loguear en un grupo de logs de CloudWatch, asegúrate de que tu nombre contiene la subcadena msk.

Enviar logs a Datadog

  1. Si aún no lo has hecho, configura la función de Datadog Forwarder Lambda.

  2. Una vez instalada la función de Lambda, añade manualmente un activador en el bucket de S3 o grupo de logs de CloudWatch que contenga tus logs de Amazon MSK en la consola de AWS:

Datos recopilados

Métricas

aws.kafka.active_controller_count
(gauge)
Solo debe estar activo un controlador por clúster en cada momento.
aws.kafka.active_controller_count.maximum
(gauge)
Solo debe estar activo un controlador por clúster en cada momento.
aws.kafka.bytes_in_per_sec
(rate)
El número de bytes por segundo recibidos de los clientes.
Se muestra como byte
aws.kafka.bytes_out_per_sec
(rate)
El número de bytes por segundo enviados a los clientes.
Se muestra como byte
aws.kafka.cpu_idle
(gauge)
El porcentaje de tiempo de inactividad de la CPU.
Se muestra como porcentaje
aws.kafka.cpu_system
(gauge)
El porcentaje de CPU en el espacio del núcleo.
Se muestra como porcentaje
aws.kafka.cpu_user
(gauge)
El porcentaje de CPU en el espacio de usuario.
Se muestra como porcentaje
aws.kafka.estimated_max_time_lag
(gauge)
Tiempo estimado (en segundos) para drenar MaxOffsetLag.
Se muestra como segundo
aws.kafka.estimated_time_lag
(gauge)
Tiempo estimado (en segundos) para drenar el desfase de la partición.
Se muestra como segundo
aws.kafka.fetch_consumer_local_time_ms_mean
(gauge)
El tiempo medio en milisegundos que la solicitud del consumidor se procesa en el líder.
Se muestra como milisegundo
aws.kafka.fetch_consumer_request_queue_time_ms_mean
(gauge)
El tiempo medio en milisegundos que la solicitud del consumidor espera en la cola de solicitudes.
Se muestra como milisegundo
aws.kafka.fetch_consumer_response_queue_time_ms_mean
(gauge)
El tiempo medio en milisegundos que la solicitud del consumidor espera en la cola de respuesta.
Se muestra como milisegundo
aws.kafka.fetch_consumer_total_time_ms_mean
(gauge)
El tiempo total medio en milisegundos que los consumidores emplean en obtener datos del agente.
Se muestra como milisegundo
aws.kafka.fetch_follower_local_time_ms_mean
(gauge)
El tiempo medio en milisegundos que la solicitud del seguidor se procesa en el líder.
Se muestra como milisegundo
aws.kafka.fetch_follower_request_queue_time_ms_mean
(gauge)
El tiempo medio en milisegundos que la solicitud del seguidor espera en la cola de solicitudes.
Se muestra como milisegundo
aws.kafka.fetch_follower_response_queue_time_ms_mean
(gauge)
El tiempo medio en milisegundos que la solicitud de seguidor espera en la cola de respuesta.
Se muestra como milisegundo
aws.kafka.fetch_follower_response_send_time_ms_mean
(gauge)
El tiempo medio en milisegundos para que el seguidor envíe una respuesta.
Se muestra como milisegundo
aws.kafka.fetch_follower_total_time_ms_mean
(gauge)
El tiempo total medio en milisegundos que los seguidores emplean en obtener datos del agente.
Se muestra como milisegundo
aws.kafka.fetch_message_conversions_per_sec
(rate)
Número de conversiones de mensajes fetch por segundo para el agente.
aws.kafka.fetch_throttle_byte_rate
(gauge)
El número de bytes acelerados por segundo.
aws.kafka.fetch_throttle_queue_size
(gauge)
Número de mensajes en la cola de aceleración.
aws.kafka.fetch_throttle_time
(gauge)
El tiempo medio de aceleración en milisegundos.
Se muestra en milisegundos
aws.kafka.global_partition_count
(gauge)
Número total de particiones en todos los agentes del clúster.
aws.kafka.global_partition_count.maximum
(gauge)
Número máximo total de particiones en todos los agentes del clúster.
aws.kafka.global_topic_count
(gauge)
Número total de temas promediado por el número de agentes en el clúster.
aws.kafka.global_topic_count.maximum
(gauge)
Número total máximo de temas promediado por el número de agentes del clúster.
aws.kafka.kafka_app_logs_disk_used
(gauge)
El porcentaje de espacio en disco utilizado para los logs de aplicación.
Se muestra como porcentaje
aws.kafka.kafka_data_logs_disk_used
(gauge)
El porcentaje de espacio en disco utilizado para los logs de datos.
Se muestra como porcentaje
aws.kafka.leader_count
(gauge)
El número de réplicas del líder.
aws.kafka.max_offset_lag
(gauge)
El desfase máximo entre todas las particiones de un tema.
aws.kafka.memory_buffered
(gauge)
El tamaño en bytes de la memoria intermedia para el agente.
Se muestra como byte
aws.kafka.memory_cached
(gauge)
El tamaño en bytes de la memoria caché del agente.
Se muestra como byte
aws.kafka.memory_free
(gauge)
El tamaño en bytes de la memoria que está libre y disponible para el agente.
Se muestra como byte
aws.kafka.memory_used
(gauge)
El tamaño en bytes de la memoria que está en uso para el agente.
Se muestra como byte
aws.kafka.messages_in_per_sec
(rate)
Número de mensajes recibidos de clientes por segundo.
aws.kafka.network_processor_avg_idle_percent
(gauge)
El porcentaje medio de tiempo que los procesadores de red están inactivos.
Se muestra como porcentaje
aws.kafka.network_rx_dropped
(count)
El número de paquetes recibidos abandonados.
aws.kafka.network_rx_errors
(count)
Número de errores de recepción de red del agente.
aws.kafka.network_rx_packets
(count)
Número de paquetes recibidos por el agente.
aws.kafka.network_tx_dropped
(count)
Número de paquetes de transmisión perdidos.
aws.kafka.network_tx_errors
(count)
El número de errores de transmisión de red para el agente.
aws.kafka.network_tx_packets
(count)
Número de paquetes transmitidos por el agente.
aws.kafka.offline_partitions_count
(gauge)
Número total de particiones que están desconectadas en el clúster.
aws.kafka.offset_lag
(gauge)
Retraso de los consumidores a nivel de partición en el número de desplazamientos.
aws.kafka.partition_count
(gauge)
El número de particiones para el agente.
aws.kafka.produce_local_time_ms_mean
(gauge)
El tiempo medio en milisegundos para que el seguidor envíe una respuesta.
Se muestra como milisegundo
aws.kafka.produce_message_conversions_per_sec
(rate)
Número de conversiones de mensajes producidos por segundo para el agente.
aws.kafka.produce_message_conversions_time_ms_mean
(gauge)
Tiempo medio en milisegundos empleado en las conversiones de formato de los mensajes.
Se muestra en milisegundos
aws.kafka.produce_request_queue_time_ms_mean
(gauge)
El tiempo medio en milisegundos que los mensajes de solicitud pasan en la cola.
Se muestra como milisegundo
aws.kafka.produce_response_queue_time_ms_mean
(gauge)
El tiempo medio en milisegundos que los mensajes de respuesta pasan en la cola.
Se muestra como milisegundo
aws.kafka.produce_response_send_time_ms_mean
(gauge)
El tiempo medio en milisegundos empleado en enviar mensajes de respuesta.
Se muestra como milisegundo
aws.kafka.produce_throttle_byte_rate
(gauge)
El número de bytes acelerados por segundo.
aws.kafka.produce_throttle_queue_size
(gauge)
Número de mensajes en la cola de aceleración.
aws.kafka.produce_throttle_time
(gauge)
El tiempo medio de aceleración del producto en milisegundos.
Se muestra en milisegundos
aws.kafka.produce_total_time_ms_mean
(gauge)
El tiempo medio de producción en milisegundos.
Se muestra en milisegundos
aws.kafka.replication_bytes_in_per_sec
(rate)
El número de bytes por segundo recibidos de otros agentes.
Se muestra como byte
aws.kafka.replication_bytes_out_per_sec
(rate)
El número de bytes por segundo enviados a otros agentes.
Se muestra como byte
aws.kafka.request_bytes_mean
(gauge)
Número medio de bytes de solicitud para el agente.
aws.kafka.request_exempt_from_throttle_time
(gauge)
El tiempo medio empleado en los subprocesos de red y E/S del agente para procesar las solicitudes exentas de la aceleración.
aws.kafka.request_handler_avg_idle_percent
(gauge)
Porcentaje medio de tiempo en que los subprocesos del identificador de solicitud están inactivos.
aws.kafka.request_throttle_queue_size
(gauge)
Número de mensajes en la cola de aceleración.
aws.kafka.request_throttle_time
(gauge)
El tiempo medio de aceleración de la solicitud en milisegundos.
Se muestra en milisegundos
aws.kafka.request_time
(gauge)
El tiempo medio empleado en los subprocesos de red y E/S del agente para procesar las solicitudes que están exentas de la aceleración.
aws.kafka.root_disk_used
(gauge)
El porcentaje del disco raíz utilizado por el agente.
Se muestra como porcentaje
aws.kafka.sum_offset_lag
(gauge)
El desfase agregado para todas las particiones de un tema.
aws.kafka.swap_free
(gauge)
El tamaño en bytes de la memoria swap disponible para el agente.
Se muestra como byte
aws.kafka.swap_used
(gauge)
El tamaño en bytes de la memoria swap que está en uso para el agente.
Se muestra como byte
aws.kafka.tcp_connections
(gauge)
Muestra el número de segmentos TCP entrantes y salientes con el indicador SYN activado.
aws.kafka.traffic_bytes
(gauge)
Muestra el tráfico de red en bytes globales entre clientes (productores y consumidores) y agentes. No se informa del tráfico entre agentes.
Se muestra como byte
aws.kafka.under_replicated_partitions
(gauge)
El número de particiones subreplicadas para el agente.
aws.kafka.volume_queue_length
(gauge)
Número de solicitudes de operaciones de lectura y escritura que esperan ser completadas en un periodo de tiempo especificado.
aws.kafka.volume_read_bytes
(gauge)
El número de bytes leídos en un periodo de tiempo especificado.
Se muestra como byte
aws.kafka.volume_read_ops
(gauge)
Número de operaciones de lectura en un periodo de tiempo determinado.
aws.kafka.volume_total_read_time
(gauge)
El número total de segundos empleados por todas las operaciones de lectura que se completaron en un periodo de tiempo especificado.
Se muestra como segundo
aws.kafka.volume_total_write_time
(gauge)
El número total de segundos empleados por todas las operaciones de escritura que se completaron en un periodo especificado.
Se muestra como segundo
aws.kafka.volume_write_bytes
(gauge)
El número de bytes escritos en un periodo de tiempo especificado.
Se muestra como byte
aws.kafka.volume_write_ops
(gauge)
Número de operaciones de escritura en un periodo determinado.
aws.kafka.zoo_keeper_request_latency_ms_mean
(gauge)
Latencia media en milisegundos para las solicitudes de ZooKeeper desde el agente.
aws.kafka.bw_in_allowance_exceeded
(count)
El número de paquetes formados debido a que el ancho de banda agregado de entrada excedió el máximo para el agente.
aws.kafka.bw_out_allowance_exceeded
(count)
El número de paquetes formados porque el ancho de banda agregado de salida excedió el máximo para el agente.
aws.kafka.conn_track_allowance_exceeded
(count)
El número de paquetes formados porque el seguimiento de la conexión superó el máximo para el agente. El seguimiento de la conexión está relacionado con los grupos de seguridad que realizan un seguimiento de cada conexión establecida para garantizar que los paquetes de retorno se entregan según lo esperado.
aws.kafka.connection_close_rate
(rate)
El número de conexiones cerradas por segundo por oyente. Este número se agrega por oyente y se filtra para los oyentes cliente.
aws.kafka.connection_creation_rate
(rate)
El número de nuevas conexiones establecidas por segundo por oyente. Este número se agrega por oyente y se filtra para los oyentes cliente.
aws.kafka.consumer_response_send_time_ms_mean
(gauge)
El tiempo medio en milisegundos para que el consumidor envíe una respuesta.
Se muestra como milisegundo
aws.kafka.cpu_credit_balance
(gauge)
Esta métrica puede ayudarte a monitorizar el saldo de crédito de CPU en los agentes.
aws.kafka.cpu_credit_usage
(gauge)
Esta métrica puede ayudarte a monitorizar el uso de crédito de CPU en las instancias. Si el uso de la CPU se mantiene por encima del nivel de referencia del 20%, se puede agotar el saldo de crédito de la CPU, lo que puede tener un impacto negativo en el rendimiento del clúster. Puedes monitorizar y notificar esta métrica para tomar acciones correctivas.
aws.kafka.memory_heap_after_gc
(gauge)
Porcentaje de memoria de heap total disponible tras la recopilación de elementos no usado.
Se muestra como porcentaje
aws.kafka.pps_allowance_exceeded
(count)
El número de paquetes formados porque el PPS bidireccional excedió el máximo para el agente.
aws.kafka.under_minlsr_partition_count
(gauge)
El número de particiones bajo minlsr para el agente

Eventos

El rastreador de Amazon MSK no incluye ningún evento.

Checks de servicio

La integración de Amazon MSK no incluye ningún check de servicio.

Solucionar problemas

¿Necesitas ayuda? Ponte en contacto con el soporte de Datadog.

Referencias adicionales

Más enlaces, artículos y documentación útiles: