Solucionar problemas de alertas de monitores

Información general

En esta guía, se proporciona información general de algunos conceptos fundamentales que pueden ayudarte a determinar si el comportamiento de alerta de tu monitor es válido. Si sospechas que las evaluaciones del monitor no reflejan con exactitud los datos subyacentes, utiliza esta guía para inspeccionar el monitor y solucionar los siguientes problemas:

Monitorizar estados

Mientras que las evaluaciones de monitor no tienen estado, lo que significa que el resultado de una evaluación no depende de los resultados de evaluaciones anteriores, los propios monitores sí tienen estado y este se actualiza en función de los resultados de la evaluación de sus consultas y configuraciones. La evaluación de un monitor con una situación determinada no provocará necesariamente que el estado del monitor cambie a la misma situación. A continuación se indican algunas causas potenciales:

Las métricas son demasiado escasas en una ventana de evaluación de métricas de monitor

Si las métricas están ausentes de la ventana de evaluación de un monitor y el monitor no está configurado para anticipar condiciones de ausencia de datos, la evaluación puede ser skipped. En tal caso, el estado del monitor no se actualiza, por lo que un monitor que previamente tenía el estado OK permanece OK. Lo mismo ocurre con un monitor con el estado Alert. Utiliza el gráfico del historial de la página de estado del monitor y selecciona el grupo y el periodo de tiempo que te interesan. Si los datos están escasamente poblados, consulta Monitorizar la aritmética y las métricas escasas para obtener más información.

Monitorizar actualizaciones de estado generadas por condiciones externas

Algunas veces, el estado de un monitor también puede actualizarse en ausencia de una evaluación de monitor, por ejemplo, debido a una resolución automática.

Estado “No Data” (Sin datos) con la función rollup

Si tus monitores se están evaluando inesperadamente en un estado “No Data” (Sin datos), considera revisar los ajustes de los intervalos de rollups y evaluación. Por ejemplo, si un monitor tiene un intervalo de rollup de 4 minutos y otro de evaluación 20 minutos, produce un punto de datos cada 4 minutos, lo que lleva a un máximo de 5 puntos de datos dentro de la ventana. Si la opción “Require Full Window” (Requerir intervalo completo) está activada, la evaluación puede dar como resultado “No Data” (Sin datos) porque el intervalo no está completamente lleno.

Para la mayoría de los casos de uso, desactiva el ajuste “Require Full Window” (Requerir intervalo completo) a menos que tu caso específico exija datos completos para una evaluación precisa. Para obtener más información, consulta Rollups en monitores.

Verificar la presencia de datos

Si el estado del monitor no es el que esperabas, confirma el comportamiento de la fuente de datos subyacente. En el caso de un monitor de métricas, puedes utilizar el gráfico del historial para ver los puntos de datos extraídos por la consulta de métricas. Los grupos N/A no se incluyen en los monitores, pero son visibles en las consultas del dashboard.

Condiciones de alerta

Algunas veces, el comportamiento inesperado de un monitor puede ser el resultado de una mala configuración de las condiciones de alerta, que varían según el tipo de monitor. Si tu consulta de monitor utiliza la función as_count(), consulta la guía as_count() en evaluaciones de monitores.

Si utilizas umbrales de recuperación, comprueba las condiciones enumeradas en la guía de umbrales de recuperación para ver si el comportamiento es el esperado.

Monitorizar estados y grupos

Tanto en las evaluaciones como en los estados de monitores, el seguimiento se realiza por grupos.

Para un monitor de alertas múltiples, un grupo es un conjunto de etiquetas (tags) con un valor para cada clave de agrupación (por ejemplo, env:dev, host:myhost para un monitor agrupado por env y host). Para una alerta simple, sólo hay un grupo (*) que representa todo lo que hay dentro del contexto del monitor.

Por defecto, Datadog mantiene los grupos de monitores disponibles en la interfaz de usuario durante 24 horas, o 48 horas para los monitores de host, a menos que se modifique la consulta. Para obtener más información, consulta Monitorizar los cambios de configuración que no surten efecto.

Si anticipas la creación de nuevos grupos de monitores dentro del contexto de tus monitores con alertas múltiples, tal vez quieras configurar un periodo de espera para la evaluación de estos nuevos grupos. Esto puede ayudarte a evitar alertas sobre comportamientos esperados para los nuevos grupos, como un alto uso de recursos asociado a la creación de un nuevo contenedor. Para obtener más información, consulta Periodo de espera para nuevo grupo.

Si tu monitor realiza consultas de métricas en la nube basadas en crawlers, utiliza un periodo de espera de evaluación para asegurarte de que hayan llegado las métricas antes de la evaluación del monitor. Consulta Periodo de espera para métricas en la nube para obtener más información sobre los cronogramas de los crawlers de integraciones en la nube.

Problemas con las notificaciones

Si tu monitor se comporta como se espera, pero produce notificaciones no deseadas, existen varias opciones para reducir o suprimir las notificaciones:

Notificaciones de ausencia

Si sospechas que las notificaciones no se están entregando correctamente, consulta los siguientes elementos para garantizar que las notificaciones puedan entregarse:

Notificaciones múltiples Opsgenie

Si utilizas las notificaciones múltiples @opsgenie-[...] en tu monitor, enviamos esas notificaciones con el mismo alias Opsgenie. Debido a una característica de Opsgenie, Opsgenie descartará lo que considere una duplicación.

Para leer más