Alertas de Watchdog

Documentos > Datadog WatchdogTM > Alertas de Watchdog

Información general

Watchdog busca proactivamente anomalías en tus sistemas y aplicaciones. Cada anomalía se muestra en el Watchdog Alert Explorer con más información sobre lo ocurrido, el posible impacto en otros sistemas y la causa raíz.

Página de alertas de Watchdog con una alerta pendiente sobre anomalías en logs por logs con errores, una alerta resuelta sobre anomalías en logs por logs con errores y una alerta resuelta sobre tasas de error a través del análisis de la causa raíz

Detalles de la alerta de Watchdog

Una tarjeta de descripción general de alertas contiene las siguientes secciones:

Captura de pantalla de una tarjeta de alerta de Watchdog que muestra una tasa de error elevada del endpoint send-sms en sms-service

Status (Estado): la anomalía puede ser ongoing, resolved o expired. (Una anomalía es expired, si ha estado pendiente durante más de 48 horas).
Timeline (Línea temporal): describe el periodo en el que se produce la anomalía.
Message (Mensaje): describe la anomalía.
Graph (Gráfico): representa visualmente la anomalía.
*Tags (Etiquetas): muestra el alcance de la anomalía.
Impact (Impacto) (si está disponible): describe a qué usuarios, vistas o servicios afecta la anomalía.

Al hacer clic en cualquier parte de la tarjeta de información general de las alertas, se abre el panel de detalles de las alertas.

Además de repetir la información de la tarjeta de información general de las alertas, la pestaña Overview (Información general) puede contener uno o varios de los siguientes campos:

Expected Bounds (Límites esperados): haz clic en la casilla de verificación Show expected bounds (Mostrar límites esperados). El gráfico cambia de color para diferenciar entre un comportamiento esperado y uno anómalo.
Suggested Next Steps (Siguientes pasos sugeridos): describe los pasos para la investigación y la clasificación del comportamiento anómalo.
Monitors (Monitores): enumera los monitores asociados a tu alerta. Cada monitor mostrado tiene incluido en su alcance la métrica de la alerta actual y sus etiquetas asociadas.

Además, Watchdog te sugiere uno o más monitores que puedes crear para recibir notificaciones si la anomalía vuelve a ocurrir. Estos monitores aún no existen, por lo que la tabla muestra su estado como suggested. Haz clic en Enable Monitor (Habilitar monitor) para habilitar el monitor sugerido para tu organización. Aparecerán una serie de iconos que te permitirán abrir, editar, clonar, silenciar o eliminar el nuevo monitor.

Watchdog Alert Explorer

Puedes utilizar el intervalo de tiempo, la barra de búsqueda o las facetas para filtrar tu fuente de alertas de Watchdog.

Time range (Intervalo de tiempo): utiliza el selector de intervalo de tiempo, situado en la parte superior derecha, para ver las alertas detectadas en un intervalo de tiempo específico. Puedes ver cualquier alerta que se haya producido en los últimos 6 meses.
Search bar (Barra de búsqueda): escribe texto en la casilla de búsqueda Filter alerts (Filtrar alertas) para buscar alertas por título.
Facets (Facetas): la parte izquierda de la fuente de alertas de Watchdog contiene las siguientes facetas de búsqueda. Marca las casillas correspondientes para filtrar tus alertas por faceta.

Facetas disponibles:

Grupo de todas las alertas	Descripción
Categoría de alerta	Mostrar todas las alertas de `apm`, `infrastructure` o `logs`.
Tipo de alerta	Selecciona alertas mediante métricas de APM o integraciones de la infraestructura.
Estado de la alerta	Selecciona las alertas en función de su estado (`ongoing`, `resolved` o `expired`).
Etiqueta principal de APM	Etiqueta principal de APM definida desde la cual mostrar alertas.
Entorno	Entorno desde el cual mostrar alertas. Consulta el etiquetado de servicios unificado para obtener más información sobre la etiqueta `env`.
Servicio	Servicio desde el cual mostrar alertas. Consulta el etiquetado de servicios unificado para obtener más información sobre la etiqueta `service`.
Usuario final afectado	(Requiere RUM). Si Watchdog ha encontrado usuarios finales afectados. Consulta el análisis de los impactos para obtener más información.
Causa raíz	(Requiere APM). Si Watchdog ha encontrado la causa raíz de la anomalía o del error crítico. Consulta el análisis de las causas raíz para obtener más información.
Equipo	Equipo propietario de los servicios afectados. Enriquecido a partir del catálogo de servicios.
Tipos de anomalías en logs	Muestra únicamente anomalías en logs de este tipo. Los tipos compatibles son los nuevos patrones de logs y los incrementos en patrones de logs existentes.
Origen del log	Muestra únicamente las alertas que contienen logs procedentes de este origen.
Estado del log	Muestra únicamente las alertas que contienen logs con este estado de log.

Cobertura de las alertas de Watchdog

Las alertas de Watchdog cubren varias aplicaciones y métricas de infraestructura:

Los logs ingeridos se analizan a nivel del consumo, donde Watchdog realiza agregados sobre los patrones detectados, así como etiquetas environment, service, source y status. Estos logs agregados se analizan en busca de comportamientos anómalos, como los siguientes:

Una aparición de logs con un estado de advertencia o error.
Un aumento repentino de logs con un estado de advertencia o error.

Todas las anomalías en logs se muestran como informaciones en el Log Explorer, y coinciden con el contexto de búsqueda y con cualquier restricción aplicada a tu rol. Las anomalías en logs que Watchdog considera particularmente severe se muestran en el Watchdog Alert Explorer y pueden ser alertadas configurando un monitor de logs de Watchdog. Una anomalía severe se define de la siguiente forma:

Contiene logs con errores.
Tiene una duración mínima de 10 minutos (para evitar errores transitorios).
Presenta un incremento significativo (para evitar pequeños incrementos).
Tiene una baja puntuación de noise (para evitar tener muchas alertas para un determinado servicio). La puntuación de noise se calcula a nivel del servicio, de la siguiente forma:
- Observando el número de patrones de error (cuanto más alto, más ruidoso).
- Calculando la cercanía entre los patrones (cuanto más cercanos, más ruidosos).

Historial de datos requerido

Watchdog requiere algunos datos para establecer una referencia del comportamiento esperado. En el caso de las anomalías en logs, el historial mínimo es de 24 horas. Watchdog empieza a encontrar anomalías una vez que dispone del historial mínimo requerido y mejora a medida que crece el historial. Los mejores resultados se obtienen con seis semanas de historial.

Desactivación de la detección de anomalías en logs

Para desactivar la detección de anomalías en logs, ve a la página del pipeline de Log Management y haz clic en el conmutador Log Anomalies (Anomalías en logs).

Watchdog escanea todos los servicios y recursos para buscar anomalías en las siguientes métricas:

Tasa de error
Latencia
Aciertos (índice de solicitudes)

Watchdog filtra los endpoints o los servicios poco utilizados para reducir el ruido y evitar anomalías en pequeñas cantidades de tráfico. Además, si se detecta una anomalía en la tasa de aciertos, que no tiene impacto en la latencia o en la tasa de errores, se ignora la anomalía.

Historial de datos requerido

Watchdog requiere algunos datos para establecer una referencia del comportamiento esperado. En el caso de las anomalías en métricas, el historial mínimo es de dos semanas. Watchdog empieza a encontrar anomalías una vez que dispone del historial mínimo requerido y mejora a medida que este crece. Los mejores resultados se obtienen con seis semanas de historial.

Watchdog escanea todos los servicios y recursos para buscar anomalías en las siguientes métricas:

Tasa de error
Latencia
Aciertos (tasa de solicitudes)

Watchdog filtra los endpoints y servicios poco utilizados para reducir el ruido y evitar anomalías en pequeñas cantidades de tráfico. Además, si se detecta una anomalía en la tasa de aciertos pero no tiene impacto en la latencia o la tasa de errores, se ignora la anomalía.

Historial de datos requerido

Watchdog requiere datos para establecer una línea de referencia del comportamiento esperado. Para anomalías de métricas, el historial mínimo es de dos semanas. Watchdog empieza a encontrar anomalías una vez que se dispone del historial mínimo requerido, y Watchdog mejora a medida que este aumenta. Los mejores resultados se obtienen con seis semanas de historial.

Watchdog consulta las métricas de infraestructura de las siguiente integraciones:

Sistema, para el uso de memoria a nivel de host (fugas de memoria) y la tasa de retransmisión de TCP.
Redis
PostgreSQL
MySQL
SQLServer
Cassandra
Oracle Database
NGINX
Docker
Kubernetes
Amazon Web Services:

Historial de datos requerido

Detección personalizada de anomalías

Watchdog utiliza los mismos algoritmos estacionales que los monitores de energía y los dashboards. Para buscar anomalías en otras métricas o para personalizar la sensibilidad, están disponibles los siguientes algoritmos:

Dónde encontrar las alertas de Watchdog

Las alertas de Watchdog aparecen en las siguientes ubicaciones de Datadog:

El Watchdog Alert Explorer
En cualquier página de servicios de APM individual
En el catálogo de software
En el panel de Watchdog Insights, disponible en todos los exploradores

En los prismáticos de Watchdog en las páginas APM

Cuando Watchdog detecta una irregularidad en una métrica de APM, el icono rosa de los prismáticos de Watchdog aparece junto al servicio afectado en el catálogo de software de APM.

Captura de pantalla del catálogo de software que muestra cinco servicios. Un icono rosa de prismáticos sigue al nombre del servicio de almacenes web.

Puedes ver más detalles sobre anomalías en métricas si te desplazas hasta la parte superior de una página de servicios con el carrusel de Watchdog Insights.

También puedes encontrar el icono de Watchdog en los gráficos de métricas.

Gráfico que muestra la latencia del servicio en segundos en el eje Y y la hora del día en el eje X. Todo el gráfico aparece resaltado en rosa y las palabras May 2: 13:31 Ongoing (2 de mayo: 13:31 en curso) aparecen en la parte superior

Haz clic en el icono de los prismáticos para ver una tarjeta de alerta de Watchdog con más detalles.

Gestión de alertas archivadas

Para archivar una alerta de Watchdog, abre el panel lateral y haz clic en el icono de la carpeta en la esquina superior derecha. Al archivarla, la alerta se oculta del explorador, así como de otras ubicaciones de Datadog, como por ejemplo la página de inicio. Si se archiva una alerta, el icono rosa de los prismáticos de Watchdog no aparece junto al servicio o al recurso correspondiente.

Para ver las alertas archivadas, selecciona la opción Show N archived alerts (Mostrar N alertas archivadas) de la casilla de verificación, en la parte superior izquierda del Watchdog Alert Explorer. Esta opción sólo está disponible si hay al menos una alerta archivada. Puedes ver quién ha archivado cada alerta y cuándo lo ha hecho, y también puedes restaurar las alertas archivadas en tu fuente.

Nota: El archivado no impide que Watchdog etiquete futuros problemas relacionados con el servicio o el recurso.