現在のオンコールプロバイダーからの移行

Docs > オンコール > On-Call ガイド > 現在のオンコールプロバイダーからの移行

現在のオンコールプロバイダーから Datadog On-Call へ移行すると、監視とインシデントレスポンスを一元化し、アラートの複雑さを低減し、監視とインシデントレスポンスを統合できます。このガイドは、移行を計画・テストし、成功裏に完了させるための段階的なアプローチを提供します。

多くの組織は、機能の検証と運用上の適合性の評価のために、少数のチームで Datadog On-Call のパイロットから開始します。その基盤を踏まえ、本ガイドは評価段階から本番での全面採用へ移行するための主要ステップを順に説明します。

このガイドで学べること:

現在のオンコールセットアップの棚卸しと評価を行う方法
チーム構成とエスカレーションパスに基づいて Datadog On-Call を構成する方法
アラートルーティングとエスカレーションワークフローを検証する方法
既存のレガシープロバイダーから安全に切り替える方法
新しいオンコールプロセスを監視・運用・拡張する方法

また、本ガイドには、移行の信頼性を高めリスクを抑えるための検証チェックリスト、ロールバックストラテジー、セーフガードも含まれます。

本ガイドの対象者

本ガイドは、オンコール移行に関与するエンジニアおよびステークホルダーを対象としています。サイトリライアビリティエンジニア (SRE)、DevOps エンジニア、チームリード、その他、インシデントレスポンスのワークフローを構成または管理する責任を持つ方を含みます。

現在のセットアップの棚卸しとマッピング

まず、現在オンコールチームをページングしているすべてのツールのインベントリを作成します。これには次が含まれます:

監視プラットフォーム (Datadog、CloudWatch、Prometheus など)
チケットシステム (Jira や Zendesk など)
カスタムアラーティングツールやワークフローツール

各ツールについて、現在の連携方法を記録します。ネイティブ連携、ウェブフック、メール取り込み、カスタムスクリプトなどです。

現行のオンコールセットアップを評価する中で、その構成要素 (スケジュール、エスカレーションパス、オーバーライド、レスポンダーグループなど) が Datadog On-Call の構成モデルにどのように対応づけられるかを明らかにし始めてください。また、複雑または古いエスカレーションロジックを簡素化し、チーム横断でポリシーを標準化する良い機会でもあります。明確な運用上の必要性がない限り、未使用またはレガシー構成は移行しないでください。

円滑な構成フェーズを支えるため、次の情報も必ず把握します:

チームのアクセスコントロールと権限
フォールバックレスポンダーの割り当てと通知設定
オーバーライドウィンドウとハンドオフの取り決め

Datadog における統一されたアラーティングモデルは運用のオーバーヘッドを削減し、可視性を高めるのに役立ちますが、その効果は、入力が最初から明確に定義され、慎重にマッピングされている場合に限られます。

移行戦略を設計する

移行を成功させるには、ステークホルダーの足並みを揃え、リスクを低減し、オープンなコミュニケーションを維持する、明確で段階的な計画が不可欠です。移行を次のような扱いやすいステージに分割します:

Discovery: 現行のワークフロー、連携、アラートルール、チーム要件を文書化します。
Configuration: 既存のセットアップと望む改善点に基づいて Datadog On-Call をセットアップします。
Validation and testing: アラートが正しくルーティングされ、エスカレーションロジックが期待どおりに動作することを確認します。
Cutover: 通常はデュアルルーティングウィンドウを用いて、アラート対応の責務を Datadog On-Call へ移行します。
Cleanup: レガシーシステムを廃止し、安定性を検証し、ドキュメントとランブックを更新します。

各フェーズに明確なオーナーを割り当て、タイムラインを早期に周知します。タスクの調整、更新の共有、ブロッカーの即時可視化には、Slack や Microsoft Teams といった共有チャンネルを活用します。

Datadog On-Call を構成する

Datadog On-Call の構成を始める前に、Teams の概念を確認してください。Teams は On-Call 体制の基盤であり、次の定義に用いられます:

Schedules
Escalation policies
Notification rules
Incident ownership

チームモデルを確認し既存アセットをマッピングしたら、望む体制を反映するよう Datadog On-Call を構成する準備が整います。

PagerDuty から移行する場合、Datadog は専用の移行ツールを提供しており、Schedules と Escalation policies を選択的にインポートするのに役立ちます。未使用の構成を移行してしまうことを避け、手作業を減らすため、セットアップ時に活用してください。

セットアップ中は次の点も忘れずに行います:

チームのアクセスコントロールと権限の見直し
フォールバックレスポンダーと通知設定の定義
オーバーライドウィンドウとオンコールのハンドオフの取り決めの設定

丁寧な構成はスムーズなカットオーバーを保証し、初日からチームが効果的に対応できるようにします。

移行を検証し、監視する

レガシーシステムを廃止する前に、すべてのチームおよびあらゆるアラートシナリオにおいて、Datadog On-Call が適切にルーティング、エスカレーション、通知していることを確認するための包括的なテストを実施します。

検証チェックリスト

クリティカルな Monitors からアラートをルーティング: 最高重大度の Monitors を特定し、テストアラートをトリガーして、適切な Datadog On-Call チームにルーティングされることを確認します。迅速な配信とメタデータの正確性をチェックします。
エスカレーションチェーンを検証: 未 Acknowledge のアラートをシミュレートして、エスカレーションが意図した順序に従うことを確認します。時間ベースとフォールバックの両方のエスカレーションを含めます。想定されたすべてのレスポンダーで受信を検証します。
通知チャンネルを確認: メール、SMS、プッシュ通知、音声など、設定済みのすべての方法でチームメンバーがアラートを受信できることを確認します。受信者に配信の有無と内容の明確さを確認してもらいます。
オーバーライドとハンドオフをテスト: チームメンバーに一時的なオーバーライドを設定し、その期間中にアラートが正しくルーティングされることを検証します。シフト間のハンドオフでも繰り返し、エッジケースを洗い出します。
Slack または Teams の可視性を検証: テストアラートをトリガーし、正しい Slack または Teams のインシデントチャンネルに、正確な tags、オーナーシップ、Acknowledge または Resolve へのリンク付きで表示されることを確認します。
シンセティックインシデントをシミュレート: 手動でシンセティックなアラートをトリガーするか、ダミーモニターを使用して、Acknowledge、エスカレーション、解決までのインシデントワークフロー全体をテストします。
スケジュールカバレッジを監査: 休日や週末を含め、チームの Schedules に未カバーの時間がないかクロスチェックします。
レガシープロバイダーと比較: デュアルルーティングを使用している場合、両方のシステムがアラートを受信し、類似のエスカレーション動作を取ることを検証します。カットオーバー前に差分を記録し、解消します。

デュアルルーティングの実践

多くの組織は検証中にデュアルルーティングを実施し、アラートをレガシープロバイダーと Datadog On-Call の両方に並行送信します。これにより、チームは次のことが可能になります:

アラートルーティングとエスカレーション動作をリアルタイムで比較する
システム間のギャップが存在しないことを確認する
切り替え期間のリスクを低減する

Datadog の Monitor Bulk Editor を使用して、既存の送信先に加えて Datadog On-Call のハンドルを追加します。パフォーマンスとカバレッジを検証したら、レガシーのアラートルートを削除し、カットオーバーを確定できます。

移行をモニタリング

Datadog Dashboards を使用して、移行のパフォーマンスをリアルタイムに観測します。次の指標に注目します:

プロバイダー別のアラートボリューム
Acknowledge およびエスカレーションの遅延
チームのオーナーシップが欠けているインシデント

これらのシグナルは、準備状況の検証、誤構成の検出、フルカットオーバー前の早期課題の顕在化に役立ちます。

カットオーバーしてレガシーシステムを廃止

検証が完了し、すべてのチームが Datadog On-Call を積極的に使用していることを確認したら、レガシープロバイダーの段階的な廃止を開始します。多くのチームは次のように段階的に進めます:

低重大度または発生頻度の低いアラートパスから先に廃止する
廃止予定の Schedules、Escalation policies、routing keys を削除する
レガシー構成をアーカイブするか、参照用にドキュメントとしてエクスポートする

すべての Monitors が Datadog On-Call のみに送信するよう設定され、レガシー連携がもはや使用されていないことをダブルチェックします。デュアルルーティング期間に不整合やギャップが判明した場合は、カットオーバーを確定する前に対処します。

これを完了することで、クリーンな移行が保証され、インシデントレスポンス中の混乱やアラートの取りこぼしのリスクが排除されます。

オンコール運用を維持・拡張

Datadog On-Call への中核的な移行が完了したら、長期運用と継続的改善にフォーカスを移します。以下のプラクティスを用いて、オンコールプロセスの健全性を保ち、チームの備えを維持し、ニーズの成長に合わせてセットアップを進化させましょう。

継続的なオーナーシップを確立: チーム内で Datadog On-Call の明確なオーナーシップを割り当てます。Schedules の維持、新規 responders のオンボーディング、時間の経過に伴う機能変更への適応を含みます。
ポストモーテムを取り入れる: 移行中または移行後に発生したインシデントを振り返り、見落とされたエスカレーションやアラート上の問題を特定します。得られた学びをテスト計画やランブックのドキュメントに反映します。
オンコールの健全性をトラッキング: On-Call Analytics を使用して、レスポンダーごとのアラートボリューム、MTTA/MTTR の傾向、通知疲労、再発するエスカレーションを監視します。
最新情報を把握: Incident Response product updates を購読して、新機能、改善点、非推奨事項をフォローします。
プロダクト知識を深める: Datadog のドキュメント Incident Management、Schedules、Integrations を参照し、プラットフォームの活用範囲を広げます。
コミュニティに参加: Datadog Slack Community で同業者や Datadog エンジニアと交流し、ベストプラクティスの共有、アドバイスの取得、フィードバックの提供を行います。
レトロスペクティブをスケジュール: 移行後 30～60 日以内にレトロスペクティブを実施し、得られた教訓を記録して、ドキュメント、社内ガイド、テストプランを更新します。