Migrar desde tu actual proveedor de servicios de guardia

Este producto no es compatible con el sitio Datadog seleccionado. ().

La migración desde tu actual proveedor de servicios de guardia a Datadog On-Call permite a los equipos centralizar la monitorización y la respuesta ante incidentes, reducir la complejidad de las alertas y unificar la monitorización y la respuesta ante incidentes. Esta guía te proporciona una estrategia por fases para ayudarte a planificar, probar y finalizar con éxito una migración.

Muchas organizaciones empiezan probando Datadog On-Call con un pequeño número de equipos para comprobar la funcionalidad y evaluar su aptitud operativa. Partiendo de esa base, esta guía te mostrará los pasos clave para pasar de la evaluación a la adopción plena en producción.

Aprenderás a:

  • Crear un inventario y evaluar la configuración actual de tus servicios de guardia
  • Configurar Datadog On-Call en función de la estructura de tu equipo y de las vías de escalado
  • Validar los flujos de trabajo de enrutamiento y escalado de alertas
  • Desconectarte de tu proveedor legacy de forma segura
  • Monitorizar, mantener y escalar tus nuevos procesos de guardia

La guía también incluye listas de validación, estrategias de reversión y salvaguardas para garantizar una transición fiable y de bajo riesgo.

¿Quién debe utilizar esta guía?

Esta guía está dirigida a los ingenieros y las partes interesadas que participan en la migración de servicios de guardia, incluyendo ingenieros de fiabilidad del sitio (SRE), ingenieros de DevOps, jefes de equipo y otras personas responsables de configurar o gestionar los flujos de trabajo de respuesta ante incidentes.

Crear un inventario y asignar tu configuración actual

Empieza por crear un inventario de todas las herramientas que actualmente llaman a tu equipo de guardia. Esto incluye:

  • Monitorización de plataformas (como Datadog, CloudWatch y Prometheus)
  • Sistemas de tickets (como Jira y Zendesk)
  • Herramientas personalizadas de alertas o flujos de trabajo

Para cada herramienta, documenta el método de integración actual, ya sea a través de integraciones nativas, webhooks, ingestión de correo electrónico o scripts personalizados.

Al evaluar la configuración actual de tus servicios de guardia, empieza a identificar cómo se traducirán sus componentes (horarios, rutas de escalado, anulaciones y grupos de respuesta) en el modelo de configuración de Datadog On-Call. Esta es también una buena oportunidad para simplificar una lógica de escalado compleja u obsoleta y estandarizar las políticas entre los equipos. Evita migrar configuraciones que no se utilizan o legacy, a menos que exista una clara necesidad operativa de conservarlas.

Para favorecer una fase de configuración continua, asegúrate de obtener:

  • Controles de acceso y permisos del equipo
  • Asignación de intervinientes de emergencia y preferencias de notificación
  • Anular Windows y expectativas de transición

Un modelo de alerta unificado en Datadog puede ayudar a reducir la carga operativa y mejorar la visibilidad, pero solo si tus entradas están claramente definidas y cuidadosamente asignadas desde el principio.

Diseñar tu estrategia de migración

El éxito de una migración depende de un plan claro y por fases que alinee a las partes interesadas, reduzca los riesgos y mantenga abierta la comunicación. Divide tu migración en etapas controlables:

  1. Detección: Documenta flujos de trabajo actuales, integraciones, reglas de alerta y requisitos del equipo.
  2. Configuración: Configura Datadog On-Call en función de tu configuración actual y de las mejoras deseadas.
  3. Validación y tests: Confirma que las alertas se enrutan correctamente y que la lógica de escalado se comporta como se espera.
  4. Traspaso: Transición de la responsabilidad de alerta a Datadog On-Call, normalmente utilizando una ventana de enrutamiento doble.
  5. Limpieza: Pon fuera de servicio los sistemas legacy, verifica la estabilidad y actualiza la documentación y los libros de ejecución.

Asigna responsables claros a cada fase y comunica los plazos con antelación. Utiliza un canal compartido (como Slack o Microsoft Teams) para coordinar tareas, compartir actualizaciones y señalar bloqueos en tiempo real.

Configurar Datadog On-Call

Antes de empezar a configurar Datadog On-Call, revisa el concepto de Equipos. Los equipos son la base de los servicios de guardia y se utilizan para definir:

  • Horarios
  • Políticas de escalado
  • Reglas de notificación
  • Propiedad de los incidentes

Después de revisar el modelo de equipo y asignar tus recursos existentes, ya puedes configurar Datadog On-Call para reflejar tu estructura deseada.

Si estás migrando desde PagerDuty, Datadog proporciona una herramienta de migración exclusiva que puede ayudarte a importar selectivamente horarios y políticas de escalado. Utilízala durante la configuración para reducir el esfuerzo manual y evitar migrar configuraciones que no se utilizan.

Durante la configuración, asegúrate de:

  • Revisar los permisos del equipo y el control de acceso
  • Definir los intervinientes de emergencia y las preferencias de notificación
  • Configurar la anulación de Windows y las expectativas de transición de los servicios de guardia

Una configuración minuciosa garantiza un traspaso continuo y ayuda a los equipos a responder eficientemente desde el primer día.

Validar y monitorizar la migración

Antes de poner fuera de servicio tu sistema legacy, realiza tests exhaustivos para confirmar que Datadog On-Call enruta, escala y notifica correctamente a todos los equipos de todos los escenarios de alerta.

Lista de validación

  • Enrutar alertas de monitores críticos: Identifica tus monitores con mayor gravedad y activa alertas de test para confirmar que se enrutan al equipo de Datadog On-Call adecuado. Asegúrate de que las entregas sean puntuales y que los metadatos estén correctos.
  • Verificar cadenas de escalado: Simula alertas no reconocidas para garantizar que los escalados siguen la secuencia prevista. Incluye escalados temporales y de respaldo. Confirma la recepción por parte de todos los intervinientes previstos.
  • Verificar canales de notificación: Asegúrate de que los miembros del equipo reciben alertas a través de todos los métodos configurados, incluyendo correo electrónico, SMS, notificaciones push y voz. Pide a los destinatarios que confirmen la entrega y la claridad del contenido.
  • Probar anulaciones y transiciones: Configura una anulación temporal para un miembro del equipo y confirma que las alertas se enrutan correctamente durante ese periodo. Repítelo con una transición entre turnos para detectar casos extremos.
  • Confirmar la visibilidad en Slack o Teams: Activa una alerta de prueba y confirma que aparece en los canales de incidentes de Slack o Teams con las etiquetas (tags), la propiedad y los enlaces correctos para confirmarla o resolverla.
  • Simular incidentes en Synthetic: Activa manualmente alertas de Synthetic o utiliza monitores ficticios para probar flujos de trabajo completos de incidencias, incluyendo el reconocimiento, el escalado y la resolución.
  • Cobertura de horarios de auditoría: Revisa minucioisamente los horarios del equipo para asegurarte de que no queden horas sin cubrir, incluyendo fechas festivas y fines de semana.
  • Comparar con el proveedor legacy: Si utilizas el enrutamiento dual, comprueba que ambos sistemas reciben alertas y siguen un comportamiento de escalado similar. Registra y resuelve cualquier discrepancia antes del traspaso.

Enrutamiento dual en la práctica

Muchas organizaciones optan por ejecutar un enrutamiento dual durante la validación, enviando alertas en paralelo a su proveedor legacy y a Datadog On-Call. Esto permite a los equipos:

  • Comparar el enrutamiento de las alertas y el comportamiento del escalado en tiempo real
  • Confirmar que no existen lagunas entre los sistemas
  • Reducir el riesgo durante el periodo de transición

Utiliza el editor de monitores en bloque de Datadog para añadir identificadores de Datadog On-Call junto con los destinos existentes. Una vez que hayas confirmado el rendimiento y la cobertura, podrás eliminar las rutas de alerta legacy y finalizar el traspaso.

Monitorizar la migración

Utiliza dashboards de Datadog para observar el rendimiento de la migración en tiempo real. Controla:

  • Volumen de alertas por proveedor
  • Latencia de confirmación y escalado
  • Incidencias que no cuentan con la propiedad de un equipo

Estas señales ayuda a confirmar la preparación, a detectar errores de configuración y a señalar problemas antes del traspaso completo.

Desconectar y retirar sistemas legacy

Una vez completada la confirmación y cuando todos los equipos utilicen activamente Datadog On-Call, comienza a retirar tu proveedor legacy. Para minimizar las interrupciones, la mayoría de los equipos lo hacen de forma gradual:

  • Retirando primero las vías de alerta de baja gravedad o poco frecuentes
  • Eliminando horarios, políticas de escalado y claves de enrutamiento obsoletos
  • Archivando las configuraciones legacy o expórtandolas como documentación de referencia

Comprueba minuciosamente que todos los monitores apuntan exclusivamente a Datadog On-Call y que las integraciones legacy ya no están en uso. Si durante el periodo de enrutamiento dual se detectan incoherencias o lagunas, resuélvelas antes de finalizar el traspaso.

Finalizar este paso garantiza una transición limpia y elimina el riesgo de confundir o pasar por alto las alertas durante la respuesta a incidentes.

Sostener y escalar la práctica de tus servicios de guardia

Una vez finalizada la migración principal a Datadog On-Call, céntrate en las operaciones a largo plazo y en la mejora continua. Utiliza las siguientes prácticas para mantener la buena salud de tus procesos de guardia, mantener la preparación del equipo y desarrollar tu configuración a medida que crecen tus necesidades.

  • Establecer una responsabilidad permanente: Asigna a tu equipo una clara responsabilidad de Datadog On-Call. Esto incluye el mantenimiento de los horarios, la incorporación de nuevos intervinientes y la adaptación a los cambios de las funciones a lo largo del tiempo.
  • Incorporar análisis retrospectivos: Revisa los incidentes ocurridas durante o después de la migración para identificar cualquier problema de escalado o alerta que se haya pasado por alto. Incorpora estas lecciones a tu documentación de tests y libros de ejecución.
  • Realizar un seguimiento del estado de los servicios de guardia: Utiliza On-Call Analytics para monitorizar el volumen de alertas por interviniente, las tendencias MTTA/MTTR, la fatiga de las notificaciones y los escalados recurrentes.
  • Mantenerse al día: Suscríbete a las actualizaciones del producto Incident Response para mantenerte al día con las nuevas funciones, mejoras y funciones obsoletas.
  • Profundizar en tu conocimiento del producto: Explora la documentación de Datadog sobre Gestión de incidentes, Horarios e Integraciones para ampliar tu uso de la plataforma.
  • Únete a la comunidad: Conéctate con colegas e ingenieros de Datadog en la Datadog Slack Community para compartir las prácticas recomendadas, obtener consejos y dar tu opinión.
  • Programar una evaluación retrospectiva: Entre 30 y 60 días después de la migración, organiza una evaluación retrospectiva para reunir las lecciones aprendidas y actualizar la documentación, las guías internas y los planes de tests.

Referencias adicionales

Más enlaces, artículos y documentación útiles: