Únete a una sesión web de capacitación
Explora e inscríbete en las sesiones de Foundation Enablement. Descubre cómo Datadog Incident Management permite a equipos y SRE de DevOps gestionar más eficazmente sus flujos de trabajo de respuesta ante incidentes de principio a fin, ahorrando tiempo y reduciendo la frustración cuando más importa.
SIGN UPIncident Management de Datadog ayuda a los miembros de tu equipo a identificar, mitigar y analizar las interrupciones y amenazas a los servicios de tu organización. Con Incident Management, puedes diseñar un proceso de respuesta mejorado mediante automatización que ayude a tu equipo a reunirse en torno de un marco y un kit de herramientas compartidos. También puedes utilizar análisis de incident (incidente) para evaluar la eficacia de tu proceso de respuesta de incident (incidente).
Los incidents (incidentes) conviven en Datadog con tus métricas, traces (trazas) y logs. Tus equipos pueden declarar incidentes desde alertas de monitor (noun), señales de seguridad, eventos, casos y más. También puedes configurar monitores para que declaren incidentes automáticamente.
Para empezar
Incident Management no requiere instalación. Para empezar, sigue un curso del Centro de aprendizaje, lee nuestro tutorial guiado o declara un incidente.
Más información sobre de Incident Management:
Ver tus incidentes
Para ver tus incidentes, ve a la page (página) Incidentes para ver una fuente de todos los incidentes en curso.
- Filtra tus incidentes a través de las propiedades enumeradas a la izquierda, incluidas Estado, Gravedad y Tiempo de reparación (horas).
- Utiliza el campo Buscar para introducir atributos de etiqueta (tag) o palabras clave.
- Exporta los resultados de tu búsqueda con el botón Exportar situado en la parte superior de la lista de incidentes.
- Configura los campos adicionales que aparecen para todos los incidentes en Configuración de incidentes.
También puedes ver tu lista de incidentes desde la pantalla de inicio de tu dispositivo móvil y gestionar/crear incidentes descargando la aplicación móvil de Datadog, disponible en Apple App Store y Google Play Store.
Descripción de la incidencia
Al declarar un incident (incidente), es fundamental proporcionar una descripción exhaustiva, detallando lo ocurrido, por qué ha ocurrido y los atributos relacionados para garantizar que todas las partes interesadas en el proceso de gestión de incident (incidente) estén plenamente informadas. Los elementos esenciales de una declaración de incident (incidente) incluyen un título, el nivel de gravedad y los responsables del incident (incidente). Una documentación de gestión eficaz de incident (incidente) incluye:
- Actualización de los detalles de incident (incidente), incluido su estado, efecto, causa raíz, métodos de detección y efecto en el servicio.
- Formación y gestión de un equipo de respuesta, uso de roles personalizados de respondedor y aprovechamiento de los atributos de metadatos para una evaluación detallada de incident (incidente).
- Configuración de notificaciones para mantener informadas a todas las partes interesadas a lo largo del proceso de resolución de incidentes.
Para obtener más información, consulta la documentación Describir un incidente.
Evalúe datos de incidentes
Incident Analytics te proporciona información de la eficacia y el rendimiento de tu proceso de respuesta ante incidentes, ya que te permite agregar y analizar estadísticas de incidentes anteriores. Las métricas clave, como el tiempo de resolución y el impacto en el cliente, pueden rastrearse a lo largo del tiempo. Puedes consultar estos análisis a través de widgets gráficos en dashboards y notebooks. Datadog ofrece plantillas personalizables, como el dashboard de información general de Incident Management y un informe de incidentes de notebooks, para ayudarte a empezar.
Para ver más detalles sobre las medidas recopiladas y las configuraciones de gráficos paso a paso para visualizar tus datos, consulta Incident Management Analytics.
Integraciones
Incident Management se integra estrechamente con otros productos de Datadog, entre ellos:
Integraciones de terceros
Incident Management se integra con aplicaciones de terceros, como:
- Atlassian Statuspage para crear y actualizar incidentes de Statuspage.
- Confluence para generar informes retrospectivos de incidentes.
- CoScreen para poner en marcha reuniones de colaboración multiusuario de pantalla compartida, control remoto, y chat de audio y vídeo integrado.
- CoTerm para seguir en tiempo real las actividades de corrección de incidentes basadas en terminales.
- Jira para crear un ticket de Jira para una incidencia.
- Microsoft Teams para crear canales y reuniones de vídeo para incidencias.
- PagerDuty y OpsGenie para paginar tus ingenieros de guardia y auto-resolver páginas tras la resolución de incident (incidente).
- ServiceNow para crear un ticket de ServiceNow para los incidentes.
- Slack para crear canales de incidentes.
- Webhooks para enviar notificaciones de incidencias mediante webhooks (por ejemplo, envío de SMS a Twilio).
- Zoom para lanzar videollamadas para incidentes.
Referencias adicionales
Más enlaces, artículos y documentación útiles: