- 重要な情報
- はじめに
- 用語集
- ガイド
- エージェント
- インテグレーション
- OpenTelemetry
- 開発者
- API
- CoScreen
- アプリ内
- Service Management
- インフラストラクチャー
- アプリケーションパフォーマンス
- 継続的インテグレーション
- ログ管理
- セキュリティ
- UX モニタリング
- 管理
Datadog Incident Management は、メトリクス、トレース、またはログで発見した問題の追跡とコミュニケーションに役立ちます。
このガイドでは、Datadog サイトを使用してインシデントを宣言する、調査と修復の進行に合わせてインシデントを更新する、およびインシデントが解決したときに事後分析を生成する方法について説明します。この例では、Slack インテグレーションが有効になっていることを前提としています。
シナリオ: エラーが大量に発生し、いくつかのサービスが遅延している可能性があるとモニターから警告されたと仮定します。お客様に影響が出ているかどうかは不明です。
このガイドでは、Datadog クリップボードを使ってインシデントを宣言する方法を説明します。クリップボードを使うと、グラフ、モニター、ダッシュボード全体、またはノートブックなど、さまざまなソースから情報を収集することができます。これにより、インシデントを宣言する際に可能な限り多くの情報を収集することができます。
タイトル | インシデントのタイトルは、チームで使用している命名規則に従って設定します。これは実際のインシデントではないため、テストインシデントであることが明確になるよう TEST という言葉を含めます。タイトルの例: [TEST] My incident test |
重大度 | お客様に影響があるかどうか、また関連するサービスにどのような影響があるかが不明であるため、Unknownに設定します。各重大度の意味については、アプリ内の説明を参照し、チームのガイドラインに従ってください。 |
インシデントコマンダー | 今回のテストではあなたに割り当てられたままにしてください。実際のインシデントが発生した場合はインシデント調査のリーダーに割り当てられます。インシデントの進行状況に合わせてインシデントコマンダーを更新することができます。 |
通知 | 今回のテストでは、他のメンバーや他のサービスに警告を出さないよう空白にしておきます。実際のインシデントでは、調査や修復のために通知すべき人やサービスを追加します。これらの通知は Slack や PagerDuty にも送信できます。 |
メモ & リンク | インシデントを宣言する理由についての補足情報を追加します。グラフやログ、その他のキービジュアルなどがこれに該当します。選択したグラフとモニターはすでに含まれていますが、その他のシグナルを追加することができます。例えば、このガイドの URL をコピーして貼り付けます。 |
/datadog incident
ショートカットを使ってインシデントを宣言し、タイトル、重大度、顧客への影響を設定することもできます。新しいインシデントが発生すると、そのインシデント専用の新しい Slack チャンネルが自動的に作成され、チームとのコミュニケーションをそこに集約してトラブルシューティングを開始することができます。所属するオーガニゼーションの Slack インテグレーションがグローバルなインシデントチャンネルを更新するよう設定されている場合は、そのチャンネルが新しいインシデントで更新されます。
この例では、新しいインシデントチャンネルに追加されたのはあなたのユーザーのみです。実際のインシデントで Notifications に人やサービスを追加すると、その全員が自動的にインシデントチャンネルに追加されます。
Slack インテグレーションが有効になっていない場合は、Add Chat をクリックして、インシデントに関するやり取りに使用しているチャットサービスへのリンクを追加します。
インシデントに関する議論が行われているコールへのリンクを追加するには、Add Video Call をクリックします。
インシデントページには、Overview、Timeline、Remediation、Notifications という 4 つの主なセクションがあります。インシデントの進行に合わせてこれらのセクションを更新し、全員に現在の状況を知らせます。
シナリオ: いくつか調査を行った結果、根本的な原因はホストのメモリ不足であることがわかりました。また、一部のお客様が影響を受けており、ページの読み込みが遅くなっているとの情報も得ました。15 分前に最初のお客様からの報告があり、インシデントのレベルは SEV-3 です。
Overview セクションで、調査が進むにつれてインシデントのフィールドや顧客の影響を更新することができます。
重大度レベルと根本原因を更新する:
TEST: Host is running out of memory.
/datadog incident update
コマンドを使って進行中の問題のタイトル、重大度、ステータスを更新することもできます。顧客への影響を追加する:
TEST: Some customers seeing pages loading slowly.
Timeline には、インシデントのフィールドや情報の追加・変更が時系列で表示されます。
I found the host causing the issue.
I am working on a fix.
(修正対応中) とメッセージを投稿します。インシデントチャンネル内の Slack コメントはタイムラインに追加できるため、インシデントの調査や軽減に関わる重要なコミュニケーションをまとめることができます。
シナリオ: この種の問題の対処法についてのノートブックがあり、そこに問題を解決するために必要なタスクが含まれています。
Remediation セクションでは、問題の調査やインシデント発生後の修復タスクについてのドキュメントやタスクを記録することができます。
+
をクリックして、Datadog ノートブックへのリンクを追加します。Documents セクションの更新内容はすべて、Incident Update タイプとしてタイムラインに追加されます。Run the steps in the notebook.
シナリオ: 問題が軽減され、チームは状況を監視しています。インシデントのステータスは安定しています。
Notifications セクションで、インシデントのステータス更新を伝える通知を送信することができます。
シナリオ: 問題による顧客への影響も解消し、問題が解決したことが確認されました。チームは問題を振り返るために事後調査を希望しています。
事後分析は Datadog ノートブックとして生成され、調査と修復の際に参照されたタイムラインイベントとリソースが含まれます。これにより、問題の原因や今後の予防方法を簡単に確認し、さらに文書化することができます。Datadog ノートブックはライブコラボレーションをサポートしているため、リアルタイムでチームメンバーと共同編集を行うことができます。
問題の再発を防ぐためにあなたおよびチームが完了しなければならないフォローアップタスクがある場合は、それらを追加して、Remediation の Incident Tasks セクションで追跡します。
Datadog Incident Management はオーガニゼーションのニーズに基づいて、異なる重大度とステータスレベルでカスタマイズすることはもちろん、インシデントに関連する APM サービスやチームなどの追加情報も含めることができます。詳細については、Incident Management ページのこちらのセクションを参照してください。
また、通知のルールを設定して、インシデントの重大度レベルに応じて特定の人やサービスに自動的に通知することもできます。詳しくは、インシデント設定のドキュメントをご覧ください。
Incident Management をカスタマイズするには、インシデント設定ページにアクセスします。画面左側の Datadog メニューから、Monitors > Incidents (Incident Management のウェルカム画面が表示されたら、Get Started をクリックします) に進みます。そして、画面上部の Settings をクリックします。
Apple App Store と Google Play Store で提供されている Datadog モバイルアプリでは、Datadog アカウントでアクセスできるすべてのインシデントを作成、表示、検索、フィルターできるため、ノートパソコンを開かずに迅速に対応・解決することができます。
また、インシデントの宣言と編集、Slack や Zoom などとのインテグレーションにより、チームへの迅速なコミュニケーションも可能です。
お役に立つドキュメント、リンクや記事: