Si seleccionas un servicio en el Catálogo de servicios, accederás a la Página de servicios detallada. Un servicio es un conjunto de procesos que hacen el mismo trabajo, por ejemplo, un marco web o una base de datos (lee más sobre cómo se definen los servicios en Empezando con APM).
El panel Service Health (Estado del servicio) ofrece un resumen en tiempo real de las señales del servicio para que comprendas si un servicio requiere tu atención.
El Estado del servicio tiene en cuenta muchos tipos de señales (como monitores, incidencias, Watchdog Insights y problemas de rastreo de errores) y resalta las alertas más críticas. Además, el panel de Estado del servicio proporciona enlaces a las incidencias asociadas, lo que te ayuda a tomar las medidas necesarias.
Pasa el ratón por encima de un servicio y haz clic en Full Page (Página completa).
Selecciona Service Health (Estado del servicio).
El panel de Estado del servicio muestra el estado de tu servicio como Ok, Warning, o Alert (OK, Advertencia o Alerta) si se cumple al menos una de las siguientes condiciones:
Estado
Condición
Alerta
Monitores: - Se activa un monitor de alerta P1 no silenciado. - Se activa un monitor no silenciado con una configuración de integración de página (PagerDuty u Opsgenie).
Incidencias: - Una incidencia de cualquier gravedad está activa.
Watchdog Insights: - Un despliegue defectuoso está activo. - Una alerta de latencia/tasa de error de APM en curso está activa.
Advertencia
Monitores: - Se activa un monitor de alerta P2 no silenciado. - Se activa un monitor de advertencia P1 no silenciado. - Se dispara un monitor no silenciado con una configuración de integración de página (PagerDuty u Opsgenie).
Incidencias: - Una incidencia de cualquier gravedad se encuentra en estado estable.
Watchdog Insights: - Una alerta de anomalía de log en curso está activa.
Problemas de rastreo de errores: - Una incidencia nueva (en menos de 48 horas) requiere revisión.
Ok*
Ninguna señal de estado crítico o de alerta está activa.
Monitor de servicio
El panel de Monitor de servicio resalta monitores activos y tests Synthetics vinculadas a tu servicio.
Datadog también propone una lista de monitores en función de tu tipo de servicio:
Nota: Etiqueta cualquier monitor o test Synthetic con service:<SERVICE_NAME> para adjuntarlo a un servicio de APM.
Watchdog Insights
El carrusel de Watchdog Insights resalta anomalías y outliers detectados en etiquetas (tags) específicas, lo que te permite investigar la causa raíz de un problema. La información se descubre a partir de APM, Continuous Profiler, Log Management y datos de infraestructura que incluyen la etiqueta del servicio. Esta información es la misma que aparece en cada una de las páginas de producto. Por ejemplo, los mismos outliers de log en la página de servicios puede encontrarse en el Logs Explorer.
Haz clic en una información para ver más detalles, como el periodo de la información, los logs o trazas (traces) relacionados y los próximos pasos sugeridos.
Tarjetas de resumen
La Página de servicios incluye tarjetas de resumen con información destacada sobre el estado del servicio. Detecta fácilmente posibles despliegues defectuosos, haz clic en la tarjeta para ver los detalles o trazas del último despliegue, o ver todos los despliegues en este servicio. Ve los nuevos problemas marcados en tu servicio a través de nuestra integración con el Rastreo de errores, donde los errores se agregan automáticamente a problemas.
Nuestros Objetivos de nivel de servicio (SLOs) e Incidencias te permiten monitorizar el estado de los SLOs y de las incidencias en curso, para que puedas tener siempre presentes los objetivos de rendimiento. Haz clic en las tarjetas para crear un nuevo SLO en el servicio o declarar una incidencia. El resumen de señales de seguridad destaca cómo tus servicios reaccionan ante las amenazas de las aplicaciones.
Total amount of errors (Número total de solicitudes)
La cantidad de Errors per second (Errores por segundo)
% Error Rate (Porcentaje de error)
Mapa de dependencias:
El Dependency Map (Mapa de dependencias) muestra los servicios de carga y descarga.
Subservicios: cuando hay múltiples servicios implicados, un cuarto gráfico (en la misma opción de conmutador que el Mapa de dependencias) desglosa tu %of time spent (Porcentaje de tiempo empleado) de tu servicio por servicios o tipo.
Esto representa el tiempo relativo empleado por trazas en los servicios de descarga desde el actual servicio a los otros servicios o tipo.
Nota: Para servicios como Postgres o Redis, que son operaciones “finales” que no llaman a otros servicios, no hay un gráfico de subservicios.
Watchdog realiza una detección automática de anomalías en los gráficos de solicitudes, latencia y error. Si se detecta una anomalía, aparecerá una superposición en el gráfico y un icono de Watchdog sobre el que puedes hacer clic para obtener más detalles en un panel lateral.
Exportar
En la esquina superior derecha de cada gráfico haz clic en la flecha para exportar tu gráfico a un dashboard preexistente:
Recursos
Consulta los gráficos de solicitudes, latencia y error desglosados por recurso para identificar los recursos problemáticos. Los recursos son acciones concretas para tus servicios (normalmente endpoints o consultas individuales). Más información en Empezando con APM.
A continuación, hay una lista de recursos asociados a tu servicio. Ordena los recursos de este servicio por solicitudes, latencia, errores y tiempo, para identificar áreas de alto tráfico o posibles problemas. Ten en cuenta que estas columnas de métrica son configurables (ver imagen inferior).
Haz clic en un recurso para abrir un panel lateral que muestra los gráficos predefinidos del recurso (sobre solicitudes, errores y latencia), un mapa de dependencias de recursos y una tabla de resumen de tramos. Utiliza las teclas de navegación del teclado para alternar entre recursos en la lista de Recursos y comparar recursos en un servicio. Para ver la página de recursos completa, haz clic en Open Full Page (Abrir página completa).
Requests (Solicitudes): cantidad absoluta de solicitudes rastreadas (por segundos)
Requests per second (Solicitudes): cantidad absoluta de solicitudes rastreadas por segundos
Total time (Tiempo total): suma de todo el tiempo empleado en este recurso
Avg/p75/p90/p95/p99/Max Latency (Latencia media/p75/p90/p95/p99/máxima): la latencia media/p75/p90/p95/p99/máxima de tus solicitudes rastreadas.
Errores: Cantidad absoluta de errores para un recurso determinado.
Error Rate (Porcentaje de error): porcentaje de error de un recurso determinado
Secciones adicionales
Despliegues
Un servicio configurado con las etiquetas de versión mostrará las versiones en la pestaña Deployment (Despliegue). La sección de versiones muestra todas las versiones del servicio que estuvieron activas durante el intervalo de tiempo seleccionado, con las versiones activas en la parte superior.
Por defecto, puedes ver:
Los nombres de las versiones desplegadas para este servicio a lo largo del tiempo.
Las horas a las que las trazas que corresponden a esta versión fueron vistas por primera y última vez.
Un indicador de Error Types (Tipos de error), que muestra cuántos tipos de error aparecen en cada versión que no aparecían en la versión inmediatamente anterior.
Nota: Este indicador muestra errores que no se veían en trazas de la versión anterior. No significa que esta versión haya introducido necesariamente estos errores. Buscar nuevos tipos de error puede ser una buena forma de empezar a investigar errores.
Solicitudes por segundo.
Porcentaje de errores sobre el total de solicitudes.
Puedes añadir o eliminar columnas de este cuadro y tus selecciones se guardarán. Las columnas adicionales disponibles son:
Endpoints activos en una versión que no estaban en la versión anterior.
Tiempo activo, que muestra el tiempo transcurrido desde la primera traza hasta la última traza enviada a Datadog para esa versión.
Número total de solicitudes.
Número total de errores.
Latencia medida por p50, p75, p90, p95, p99 o máx.
Ve las incidencias en tu servicio, que son errores similares agregados para convertir un flujo (stream) de errores ruidoso en incidencias manejables y te ayudan a evaluar el impacto de los errores de tu servicio. Obtén más información sobre las incidencias en Rastreo de errores.
Esta pestaña tiene gráficos de información general que muestran qué recursos tienen más problemas y una lista de los problemas más comunes que ocurren en tu servicio. Haz clic en un problema en la lista para ver los detalles en un panel lateral, incluida su stack trace, las versiones de código relacionadas y el total de errores ocurridos desde el inicio.
Seguridad
Comprende la postura de seguridad del servicio, incluidas las vulnerabilidades conocidas expuestas en las bibliotecas del servicio y las señales de seguridad en tu servicio, que se crean automáticamente cuando Datadog detecta ataques de aplicaciones que los afectan. Las señales identifican amenazas significativas para que las revises en lugar de evaluar cada intento de ataque individual. Obtén más información sobre Seguridad de las aplicaciones.
La sección superior de la pestaña de seguridad tiene gráficos generales que muestran el número y la gravedad de las vulnerabilidades, una cronología de los ataques, los tipos de ataques y la información del atacante (IP del cliente o usuario autenticado).
La siguiente sección del panel enumera todas las vulnerabilidades y señales relativas al servicio. Haz clic en una vulnerabilidad de seguridad para abrir un panel lateral con detalles relevantes para investigar más en detalle y remediar la vulnerabilidad. Haz clic en una señal de seguridad para obtener información sobre cuál es la amenaza detectada y qué medidas puedes tomar para remediarla.
Bases de datos
Consulta la lista de las dependencias de bases de datos descendentes identificadas por Database Monitoring e identifica la latencia o outliers de carga.
Más información sobre la conexión de DBM y APM.
Infraestructura
Si tu servicio se está ejecutando en Kubernetes, puedes ver una pestaña Infrastructure (Infraestructura) en la página de servicios. La tabla en vivo de Pods de Kubernetes muestra información detallada sobre tus pods, como por ejemplo si el uso de memoria está cerca de su límite, y te permite mejorar la asignación de recursos si los recursos de computación aprovisionados exceden lo necesario para un rendimiento óptimo de la aplicación.
La sección de métricas de Kubernetes contiene un resumen muy claro del estado de tu infraestructura para el periodo seleccionado, e incluye métricas de CPU, memoria, red y disco.
Si las métricas de tiempo de ejecución están activadas en el cliente de rastreo, verás una pestaña Runtime metrics (Métricas de rastreo) correspondiente al lenguaje del tiempo de ejecución de tu servicio. Más información en Métricas de tiempo de ejecución.
Elaboración de perfiles
Verás una pestaña de Profiling (Elaboración de perfiles) si Continuous Profiler está configurado para tu servicio.
Utiliza la información de la pestaña Profiling (Elaboración de perfiles) para correlacionar un cambio de latencia y rendimiento con un cambio de rendimiento del código.
En este ejemplo, puedes ver cómo la latencia está vinculada a un aumento de contención de bloqueos en /GET train que es causado por la siguiente línea de código:
Thread.sleep(DELAY_BY.minus(elapsed).toMillis());
Trazas
Ve la lista de trazas asociadas con el servicio en la pestaña de trazas, que ya está filtrada por tu servicio, entorno y nombre de operación. Desglosa los tramos problemáticos utilizando facetas centrales como el estado, el recurso y el tipo de error. Para obtener más información, haz clic en un tramo para ver una gráfica de llamas de su traza y más detalles.
Log Patterns
Ve los patrones comunes en los logs de tu servicio y utiliza facetas como el estado en la barra de búsqueda para filtrar la lista de patrones. Haz clic en un patrón para abrir el panel lateral y ver más detalles, como qué eventos desencadenaron la cascada. Más información en Log Patterns.