Una investigación eficaz de incidentes comienza con la identificación y categorización del incidente, seguidas de una exhaustiva recopilación de datos para establecer una cronología detallada de los eventos. La página Detalles de incidentes de Datadog te ayuda a investigar incidentes a través de una plataforma centralizada para la monitorización, la investigación, la corrección, la colaboración y el análisis en tiempo real. Incluye dashboards dinámicos y periodos de tiempo interactivos que ayudan a los respondedores a visualizar los datos y patrones del incidente. Utiliza los detalles de incidentes para:
- Agregar y visualizar datos en tiempo real para que los equipos de ayuda identifiquen las causas raíz y evalúen las repercusiones de forma eficaz.
- Comunicar, realizar un seguimiento del progreso y coordine los esfuerzos de corrección utilizando las funciones de colaboración en equipo.
- Alternar entre varias vistas para explorar los servicios y las dependencias afectados, garantizando una investigación y resolución exhaustivas.
Detalles de incidentes
Cada incidente en Datadog tiene su propia página de Detalles de incidentes, donde puedes gestionar campos de propiedades, señales, tareas, documentos, respondedores y notificaciones. La página Detalles de incidentes contiene un encabezado global para acceder rápidamente a las acciones clave. El resto de la página está dividido en secciones con pestañas que agrupan datos de incidentes relacionados.
Encabezado global
El encabezado global proporciona acceso a los selectores de estado y gravedad y a los enlaces a tus integraciones de incidentes. Para obtener más información sobre cómo configurar enlaces automáticos de Slack y Microsoft Teams para cada nuevo incidente, consulta la documentación Configuración de incidentes.
Una vez resuelto un incidente, aparece una opción en el encabezado para generar un notebook postmortem utilizando una plantilla postmortem. Para configurar tus plantillas postmortem en la aplicación, ve a la página Configuración de incidentes y define la estructura y el contenido de tus postmortems.
La pestaña Información general sirve como página principal para ver las propiedades de un incidente y definir su impacto en el cliente. Por defecto, incluye propiedades como Causa raíz, Servicios, Equipos, Método de detección y Resumen. Estas propiedades se clasifican en las secciones Qué ha ocurrido, Por qué ha ocurrido y Atributos.
Añade más campos de propiedades utilizando los pares <KEY>:<VALUE>
de las etiquetas (tags) de métricas de Datadog o crea campos personalizados a través de Configuración de incidentes. Asigna valores a estas propiedades para mejorar las búsquedas y consultas en la Página principal de incidentes y en Análisis de gestión de incidentes. Para priorizar la información crítica, puedes reordenar los campos de propiedades y colocarlos bajo diferentes encabezados.
Para los incidentes del lado del cliente, especifica los detalles del impacto añadiéndolos en la sección Impacts (Impactos):
- Haz clic en Add (Añadir).
- Especifica la fecha y la hora de inicio del impacto.
- Especifica la fecha y la hora de finalización del impacto o déjalas en blanco si el impacto aún está activo.
- Describe la naturaleza del impacto sobre los clientes en
Scope of impact
. - Haz clic en Save (Guardar).
Además de alojar los campos de tus propiedades, la pestaña Información general también proporciona los siguientes módulos de resumen en una sola vista:
Módulo del resumen | Descripción |
---|
Cronología resumida | Muestra las marcas de tiempo en las que se produjeron cambios en el estado del incidente, así como cuándo comenzó y finalizó el impacto. Esto proporciona una visión muy clara del ciclo de vida del incidente. |
Últimas notificaciones | Muestra la notificación más reciente enviada del incidente, con acceso rápido a la lista completa de notificaciones en la pestaña Notificación. |
Tareas pendientes | Muestra la tarea incompleta más reciente, con acceso rápido a toda la lista de tareas en la pestaña Corrección. |
Respondedores | Muestra el comandante actual del incidente, así como los avatares del resto de los respondedores asignados al incidente. |
Entradas de líneas de tiempo recientes | Muestra las cinco entradas de líneas de tiempo más recientes del incidente, con acceso rápido para ver toda la pestaña Línea de tiempo. Para obtener más información, consulta la documentación Línea de tiempo. |
Herramientas de investigación adicionales
Tras declarar un incidente, los respondedores pueden utilizar la página Detalles de incidentes para aplicar la información disponible, de modo que puedan describir y analizar el incidente en profundidad.
Para obtener más información sobre herramientas de investigación, consulta las siguientes páginas:
Referencias adicionales
Más enlaces, artículos y documentación útiles: