Watchdog Insights

Información general

Para investigar una incidencia es preciso seguir el método de prueba y error. Por experiencia, los ingenieros familiarizados con un área específica saben dónde indagar primero en busca de posibles problemas. Con Watchdog Insights, todos los ingenieros, incluso los menos experimentados, pueden centrarse en los datos más importantes y agilizar el proceso de investigación de incidencias.

En la mayor parte de las funcionalidades de Datadog, Watchdog ofrece dos tipos de información:

  • Anomalías: Todas las alertas de Watchdog precalculadas que coinciden con la consulta de búsqueda activa que Watchdog ha encontrado al analizar los datos de tu organización. Consulta la lista completa en el explorador de alertas de Watchdog.
  • Outliers: Calculados a partir de los datos de producto que coinciden con la consulta activa, los outliers muestran etiquetas (tags) que aparecen con demasiada frecuencia en algunos tipos de eventos (por ejemplo, errores) o impulsan al alza de algunas métricas continuas (por ejemplo, latencia).
Explorador de logs que muestra el banner de Watchdog Insights con cinco anomalías de logs

Explorar la información

El carrusel de Watchdog Insights se encuentra cerca de la parte superior de las siguientes páginas de productos:

Despliega el carrusel para consultar la información general. Las informaciones de mayor prioridad (basadas en Insight type, State, Status, Start time, Anomaly type) aparecen a la izquierda.

Carrusel de Watchdog Insights en el explorador de logs, que muestra tres anomalías: nuevos logs con errores en servicios de almacenes web, un pico en logs con errores en servicios de recomendación de productos y otro pico en logs con errores en servicios de recomendación de productos

Haz clic en View all (Ver todo) para expandir el panel. Se abrirá un panel lateral a la derecha, con una lista vertical de informaciones de Watchdog Insights. Cada entrada muestra una vista detallada, con más información que la ficha de resumen.

Cada outlier viene con interacciones integradas y un panel lateral con información para solucionar problemas. Las interacciones y el panel lateral de cada información varían en función del tipo de Watchdog Insight.

Filtro en la consulta de Insight

Para ajustar la vista actual a fin de que coincida con una información de Watchdog, pasa el cursor arriba de la esquina superior derecha de una ficha de resumen de información. Aparecerán dos iconos. Haz clic en el icono del triángulo invertido, con el texto Filter on Insight (Filtro de información). La página se actualiza para mostrar un lista de entradas correspondientes a la información filtrada.

Filtrar el explorador según el contexto de la información

Compartir un outlier

Para compartir un determinado outlier, haz clic en él en el panel de información para abrir el panel lateral de detalles. Haz clic en el botón Copy Link (Copiar enlace), situado en la parte superior del panel de detalles:

Panel lateral del outlier que muestra cómo copiar un enlace

El enlace al outlier caduca con la conservación de los datos subyacentes. Por ejemplo, si los logs utilizados para crear el outlier se conservan durante 15 días, el enlace al outlier caduca con el logs al cabo de 15 días.

Tipos de outliers

Outliers con errores

Los outliers con errores muestran campos como etiquetas o atributos con facetas que contienen características de errores que coinciden con la consulta actual. Los pares key:value estadísticamente sobrerrepresentados entre los errores proporcionan pistas sobre las causas de los problemas.

Algunos ejemplos típicos de outliers con errores son env:staging, docker_image:acme:3.1 y http.useragent_details.browser.family:curl.

En la vista de la ficha del banner, se puede ver:

  • El nombre del campo
  • La proporción de errores y logs globales a la que contribuye el campo
Ficha de outliers con errores que muestra una barra roja con el 73,3% del total de errores y una barra azul con el 8,31% del total de errores

En la vista completa del panel lateral, se puede ver:

  • Las series temporales de logs con errores que contienen el campo
  • Etiquetas que suelen asociarse a logs con errores
  • Una lista completa de patrones de logs
Panel lateral de outliers con errores

Los outliers de APM están disponibles en todas las páginas de APM en las que está disponible el carrusel de Watchdog Insights:

Outliers con errores

Los outliers con errores muestran campos como etiquetas que contienen características de errores que coinciden con la consulta actual. Los pares key:value estadísticamente sobrerrepresentados entre los errores proporcionan pistas sobre la causa de los problemas.

Algunos ejemplos típicos de outliers con errores son env:staging, availability_zone:us-east-1a, cluster_name:chinook y version:v123456.

En la vista de la ficha del banner, se puede ver:

  • El nombre del campo
  • La proporción de errores y trazas globales a la que contribuye el campo
Ficha de outliers con errores que muestra una barra roja con el 24,2% del total de errores y una barra azul con el 12,1% del total de errores

En la vista completa del panel lateral, se puede ver:

  • Las series temporales de trazas de errores que contienen el campo
  • Etiquetas que suelen asociarse a trazas de errores
  • Una lista completa de problemas relacionados con el seguimiento de errores y tramos (spans) con fallos
Panel lateral de outliers con errores

Outliers con latencia

Los outliers con latencia muestran campos como etiquetas que están asociados a cuellos de botella del rendimiento que coinciden con la consulta de búsqueda actual. Los pares key:value con un peor rendimiento que la referencia pueden proporcionar pistas sobre los cuellos de botella del rendimiento entre un subconjunto de tramos de APM.

Los outliers con latencia se calculan para la duración de tramo.

En la vista de la ficha del banner, se puede ver:

  • El nombre del campo

  • La distribución de latencia para tramos que contienen la etiqueta y la referencia para el resto de los datos.

  • Un percentil del valor de la latencia de interés para la etiqueta del outlier y la diferencia con la referencia para el resto de los datos.

    Ficha del banner de outliers con latencia

En el panel lateral completo, puedes ver un gráfico de distribución de la latencia de las etiquetas y la referencia. El eje X tiene incrementos de p50, p75, p99 y max, junto con un lista de eventos de APM que contienen el campo.

Vista de la totalidad del panel lateral de outliers con latencia

Outlier con contención de bloqueo

En la vista de la ficha del banner, se puede ver:

  • El nombre del servicio afectado
  • El número de hilos afectados
  • El ahorro potencial de CPU (y el ahorro de costes estimado)
Perfilado de información en la contención de bloqueo

En el panel lateral completo, puedes ver instrucciones sobre cómo resolver la contención de bloqueo:

Panel lateral con toda la información sobre cómo abordar outliers con contención de bloqueo

Outlier con recolección de residuos

En la vista de la ficha del banner, se puede ver:

  • El nombre del servicio afectado
  • La cantidad de tiempo de CPU utilizado para realizar la recolección de residuos
Perfilado de información en la recolección de residuos

En el panel lateral completo, puedes ver instrucciones sobre cómo configurar mejor la recolección de residuos para liberar algo de tiempo de CPU:

Panel lateral con toda la información sobre cómo abordar outliers con recolección de residuos

Outlier con compilación de expresiones regulares

En la vista de la ficha del banner, se puede ver:

  • El nombre del servicio afectado
  • Tiempo de CPU dedicado a la compilación de expresiones regulares
Perfilado de información en la compilación de expresiones regulares

En el panel lateral completo, puedes ver instrucciones sobre cómo mejorar el tiempo de compilación de expresiones regulares, así como ejemplos de funciones dentro de tu código que podrían mejorarse:

Panel lateral con toda la información sobre cómo abordar outliers con compilación de expresiones regulares

En Database Monitoring, Watchdog ofrece información sobre las siguientes métricas:

  • CPU
  • Commits
  • IO
  • Background
  • Concurrency
  • Idle

Encuentra las bases de datos afectadas por uno o varios outliers utilizando el carrusel de información.

Carrusel para filtrar bases de datos con información

A continuación, se establece un recubrimiento de las bases de datos, con píldoras rosas que resaltan las distintas informaciones y ofrecen más información sobre lo ocurrido.

Recubrimiento de información de Watchdog en bases de datos para resaltar lo que ocurre

Outlier con error

Los outliers con errores muestran campos como etiquetas o atributos con facetas que contienen características de errores que coinciden con la consulta de búsqueda actual. Los pares key:value estadísticamente sobrerrepresentados entre los errores proporcionan pistas sobre las causas de los problemas. Ejemplos típicos de errores outliers son env:staging, version:1234 y browser.name:Chrome.

En la vista de la ficha del banner, se puede ver:

  • El nombre del campo
  • La proporción de errores totales y eventos RUM generales a la que contribuye el campo
  • Etiquetas relacionadas

En el panel lateral completo, puedes ver un gráfico de series temporales sobre el número total de errores RUM con el campo, junto con gráficos circulares de impacto y una lista de eventos RUM que contienen el campo.

Panel lateral completo de outliers con errores

Outlier con latencia

Los outliers con latencia muestran campos como etiquetas o atributos de facetas que están asociados a cuellos de botella del rendimiento que coinciden con la consulta de búsqueda actual. Los pares key:value con un peor rendimiento que la referencia pueden proporcionar pistas sobre los cuellos de botella del rendimiento entre un subconjunto de usuarios reales.

Los outliers con latencia se calculan para métricas de Core Web Vitals como First Contentful Paint, First Input Delay, Cumulative Layout Shift y tiempo de carga. Para más información, consulta Monitorización del rendimiento de la página.

En la vista de la ficha del banner, se puede ver:

  • El nombre del campo
  • El valor de la métrica de rendimiento que contiene el campo y la referencia para el resto de los datos

En el panel lateral completo, puedes ver un gráfico de series temporales sobre la métrica de rendimiento. El eje X tiene incrementos de p50, p75, p99 y max, junto con una lista de eventos RUM que contienen el campo.

Vista del panel lateral completo de outliers con latencia

Para las infraestructuras serverless, Watchdog muestra la siguiente información:

  • Cold Start Ratio Up/Down
  • Error Invocation Ratio Up/Down
  • Memory Usage Up/Down
  • OOM Ratio Up/Down
  • Estimated Cost Up/Down
  • Init Duration Up/Down
  • Runtime Duration Up/Down

Encuentra funciones serverless afectadas por uno o varios outliers utilizando el carrusel de información.

Faceta para filtrar funciones serverless con información

A continuación, se coloca un recubrimiento, con píldoras rosas que resaltan las distintas informaciones y ofrecen más información sobre lo ocurrido.

Recubrimiento de una función con informaciones de Watchdog para resaltar lo que ocurre

Para el explorador de procesos, el carrusel de Watchdog Insights refleja todas las anomalías del proceso para el contexto actual del explorador de procesos.

Para el explorador de Kubernetes, el carrusel de Watchdog Insights refleja todas las anomalías de Kubernetes para el contexto actual del explorador de Kubernetes.

Leer más