Reducir el flapping de alertas
Un problema frecuente o un tema sensible podría ser la fatiga de las alertas o cuando las alertas presentan “flapping” (pasan rápidamente del estado “ok” al de “alerta”).
En Datadog hay funciones que a menudo ofrecen alertas menos ruidosas y más significativas.
Reevaluar el valor del umbral de alerta
- La forma más sencilla de reducir el flapping cuando la alerta <-> ok o los cambios de estado son frecuentes podría ser aumentando/disminuyendo la condición del umbral.
Uso del umbral min
- Esto activa la alerta sólo cuando todos los puntos de datos de la métrica durante el periodo de tiempo infringen el umbral.
Reformular la consulta utilizando funciones: tasas, promedios móviles o diferenciales temporales
- Esto significa que puedes comparar la diferencia de los valores del flujo (stream) de la métrica con los valores de la semana anterior y establecer condiciones de alerta basadas en la diferencia.
- Un diferencial temporal permite combinar funciones y también puede ofrecer una vista histórica. Por ejemplo:
abs(system.cpu.system{*} - week_before(system.cpu.system{*}))
- Si tu métrica experimenta picos con frecuencia y estos no son intrínsecamente indicativos de problemas, aplicarle un índice o un promedio te permitirá establecer un umbral más significativo.
Considerar los estados de otros monitores que utilizan alertas compuestas
- Un monitor compuesto te permite combinar dos o más alertas creadas previamente.
Por ejemplo: si el uso de CPU es alto Y el uso de disco es alto en un host, se activa la alerta.
Uso de algunos módulos de análisis integrados con anomalías o outliers
- La detección de anomalías utiliza un cierto análisis de temporalidad para emitir una alerta cuando un flujo de datos se comporta de forma históricamente incoherente.
- La detección de outliers utiliza otros flujos de datos del mismo contexto para emitir una alerta cuando un flujo se comporta de manera diferente en comparación con sus pares.
- Ambas opciones también pueden utilizarse junto con las alertas compuestas.
Si el problema es el enrutamiento de las alertas, de seguro te interesarán las variables de plantilla y la separación de los estados de advertencia o alerta mediante variables condicionales.
Más enlaces, artículos y documentación útiles: