CRD para monitores de Datadog

Documentos > Monitorización de contenedores > Datadog Operator > CRD para monitores de Datadog

Para desplegar un monitor de Datadog, puedes utilizar el Datadog Operator y la definición de recursos personalizados (CRD) DatadogMonitor.

Requisitos previos

Configuración

Crea un archivo con las especificaciones de configuración de despliegue de tu DatadogMonitor.

Ejemplo:

La siguiente especificación crea un monitor de métricas que alerta sobre la consulta avg(last_10m):avg:system.disk.in_use{*} by {host} > 0.5.

datadog-metric-monitor.yaml

   apiVersion: datadoghq.com/v1alpha1
   kind: DatadogMonitor
   metadata:
     name: datadog-monitor-test
     namespace: datadog
   spec:
     query: "avg(last_10m):avg:system.disk.in_use{*} by {host} > 0.5"
     type: "metric alert"
     name: "Test monitor made from DatadogMonitor"
     message: "1-2-3 testing"
     tags:
       - "test:datadog"
     priority: 5
     controllerOptions:
       disableRequiredTags: false
     options:
       evaluationDelay: 300
       includeTags: true
       locked: false
       newGroupDelay: 300
       notifyNoData: true
       noDataTimeframe: 30
       renotifyInterval: 1440
       thresholds:
         critical: "0.5"
         warning: "0.28"
   

Consulta la lista completa de campos de configuración.

Despliega tu DatadogMonitor:

kubectl apply -f /path/to/your/datadog-metric-monitor.yaml

Ejemplos adicionales

Monitores de métrica

Otros monitores

Todos los campos de configuración disponibles

La siguiente tabla enumera todos los campos de configuración disponibles para el recurso personalizado DatadogMonitor.

message: obligatorio: cadena
Un mensaje para incluir con las notificaciones para este monitor.
name: obligatorio: cadena
El nombre del monitor.
query: obligatorio: cadena
La consulta del monitor.
type: obligatorio: enumeración
El tipo de monitor.
Valores de enumeración permitidos: metric alert, query alert, service check, event alert, log alert, process alert, rum alert, trace-analytics alert, slo alert, event-v2 alert, audit alert, composite
controllerOptions.disableRequiredTags: booleano
Desactiva la adición automática de etiquetas requeridas a los monitores.
priority: int64
Un número entero de 1 (alto) a 5 (bajo) que indica la gravedad de la alerta.
restrictedRoles: [cadena]
Una lista de identificadores únicos de roles para definir qué roles pueden editar el monitor. Los identificadores únicos de todos los roles pueden extraerse de la API de roles y se encuentran en el campo data.id.
tags: [cadena]
Etiquetas asociadas a tu monitor.
options: objeto
Lista de opciones asociadas a tu monitor. Consulta las Opciones.

Opciones

Los siguientes campos se establecen en la propiedad options.

Por ejemplo:

apiVersion: datadoghq.com/v1alpha1
kind: DatadogMonitor
metadata:
  name: datadog-monitor-test
  namespace: datadog
spec:
  query: "avg(last_10m):avg:system.disk.in_use{*} by {host} > 0.5"
  type: "metric alert"
  name: "Test monitor made from DatadogMonitor"
  message: "1-2-3 testing"
  options:
    enableLogsSample: true
    thresholds:
      critical: "0.5"
      warning: "0.28"

enableLogsSample

booleano
Enviar o no una muestra de log cuando se dispara el monitor de logs.

escalationMessage

cadena
Un mensaje para incluir con una nueva notificación.

evaluationDelay

int64
Tiempo (en segundos) para retrasar la evaluación, como un entero no negativo. Por ejemplo: si el valor se establece en 300 (5min), el marco temporal se establece en last_5m, y la hora es 7:00, entonces el monitor evalúa los datos de 6:50 a 6:55. Esto es útil para AWS CloudWatch y otras métricas de relleno para asegurar que el monitor siempre tiene datos durante la evaluación.

groupRetentionDuration

cadena
El tramo de tiempo tras el cual los grupos con datos perdidos se eliminan del estado del monitor. El valor mínimo es una hora y el máximo 72 horas. Los valores de ejemplo son: 60m, 1h y 2d. Esta opción solo está disponible para los monitores de APM Trace Analytics, Audit Trail, CI, Error Tracking, Evento, Logs y RUM.

groupbySimpleMonitor

booleano
OBSOLETO: si el monitor de alerta de log activa una alerta única o múltiples alertas cuando algún grupo supera un umbral. Utiliza notifyBy en su lugar.

includeTags

booleano
Un booleano que indica si las notificaciones de este monitor insertan automáticamente sus etiquetas desencadenantes en el título.

locked

booleano
OBSOLETO: si el monitor está bloqueado o no (solo editable por el creador y los administradores). Utiliza restrictedRoles en su lugar.

newGroupDelay

int64
Tiempo (en segundos) para permitir que un host arranque y que las aplicaciones se inicien completamente antes de comenzar la evaluación de los resultados de monitor. Debe ser un entero no negativo.

noDataTimeframe

int64
El número de minutos antes de que el monitor notifique después de que los datos dejen de informar. Datadog recomienda al menos 2 veces el plazo del monitor para alertas de métricas o 2 minutos para checks de servicio. Si se omite, se utiliza el doble del plazo de evaluación para las alertas de métricas y 24 horas para los checks de servicio.

notificationPresetName

enumeración
Activa la visualización del contenido adicional enviado en la notificación del monitor.
Valores permitidos: show_all, hide_query, hide_handles, hide_all
Por defecto: show_all

notifyAudit

booleano
Un booleano que indica si los usuarios etiquetados son notificados de los cambios en este monitor.

notifyBy

[cadena]
Cadena que indica la granularidad con la que alerta un monitor. Solo disponible para monitores con agrupaciones. Por ejemplo, si tienes un monitor agrupado por clúster, espacio de nombres y pod, y establece notifyBy en ["cluster"], entonces tu monitor solo notifica en cada nuevo clúster que infrinja las condiciones de alerta.
Las etiquetas mencionadas en notifyBy deben ser un subconjunto de las etiquetas de agrupación de la consulta. Por ejemplo, una consulta agrupada por clúster y espacio de nombres no puede notificar sobre la región.
Si se define notifyBy como [*], el monitor notificará como una alerta simple.

notifyNoData

booleano
Un booleano que indica si este monitor notifica cuando los datos dejan de informar.
Por defecto: false.

onMissingData

enumeración
Controla cómo se tratan los grupos o monitores si una evaluación no devuelve ningún punto de datos. La opción por defecto tiene un comportamiento diferente según el tipo de consulta de monitor. Para los monitores que utilizan consultas Count, una evaluación de monitor vacía se trata como 0 y se compara con las condiciones de umbral. Para los monitores que utilizan cualquier tipo de consulta que no sea Count, por ejemplo Gauge, Measure o Rate, el monitor muestra el último estado conocido. Esta opción solo está disponible para los monitores de APM Trace Analytics, Audit Trail, CI, Error Tracking, Evento, Logs y RUM.
Valores de enumeración permitidos: default, show_no_data, show_and_notify_no_data, resolve

renotifyInterval

int64
Número de minutos transcurridos desde la última notificación antes de que el monitor vuelva a notificar sobre el estado actual. Solo vuelve a notificar si no se ha resuelto.

renotifyOccurrences

int64
El número de veces que se debe enviar mensajes de nueva notificación sobre el estado actual en el intervalo de nueva notificación proporcionado.

renotifyStatuses

[cadena]
Los tipos de estados del monitor para los que se envían mensajes de nueva notificación.
Si renotifyInterval es nulo, por defecto es nulo.
Si renotifyInterval no es nulo, por defecto es ["Alert", "No Data"]
Valores para el estado del monitor: Alert, No Data, Warn

requireFullWindow

booleano
Booleano que indica si el monitor necesita una ventana completa de datos antes de ser evaluada. Datadog recomienda encarecidamente que se establezca en false para métricas dispersas; de lo contrario, se omitirán algunas evaluaciones.
Por defecto: false.

schedulingOptions

objeto
Opciones de configuración para la programación de horarios:

customSchedule

object
Opciones de configuración para la costumbre schedule (horario):

recurrence

[objeto]
Matriz de recurrencias de horario personalizado.

rrule: cadena
La regla de recurrencia en formato iCalendar. Por ejemplo, FREQ=MONTHLY;BYMONTHDAY=28,29,30,31;BYSETPOS=-1.
start: cadena
La fecha de inicio de la regla de recurrencia definida en el formato YYYY-MM-DDThh:mm:ss. Si se omite, se utiliza la fecha de creación del monitor.
timezone: cadena
La zona horaria en formato tz database, en la que se define la regla de recurrencia. Por ejemplo, America/New_York o UTC.

evaluationWindow

objeto
Opciones de configuración de la ventana de evaluación. Si se define hour_starts, no se puede definir ningún otro campo. En caso contrario, day_starts and month_startsdeben configurarse en conjunto.

dayStarts: string
La hora del día en la que inicia un intervalo de evaluación acumulativa de un día. Debe definirse en formato UTC HH:mm .
hourStarts: entero
La hora del día en la que inicia un intervalo de evaluación acumulativa de una hora.
monthStarts: entero
El día del mes en el que inicia un intervalo de evaluación acumulativa de un mes.

thresholdWindows

objeto
Opciones de intervalo de tiempo de alerta:

recoveryWindow: cadena
Describe el tiempo que una métrica anómala debe ser normal antes de que la alerta se recupere.
triggerWindow: cadena
Describe el tiempo que una métrica debe ser anómala antes de que se active una alerta.

thresholds

objeto
Lista de los diferentes umbrales de monitor disponibles:

critical: cadena
El umbral CRÍTICO del monitor.
criticalRecovery: cadena
El umbral de recuperación CRÍTICO del monitor.
ok: cadena
El umbral OK del monitor.
unknown: cadena
El umbral DESCONOCIDO del monitor.
warning: cadena
El umbral ADVERTENCIA del monitor.
warningRecovery: cadena
El umbral de recuperación ADVERTENCIA del monitor.

timeoutH