インシデント管理

Datadog for Government site では、インシデント管理をご利用いただけません。

組織のサービス中断につながる可能性のあるイベントは、すべてインシデントと見なすことができます。多くの場合、こうしたイベントを処理するためのフレームワークを用意する必要があります。Datadog のインシデント管理機能は、組織がインシデントを効果的に識別して軽減できるシステムを提供します。

インシデントは、収集しているメトリクス、トレース、ログとともに Datadog に存在します。自分に関連するインシデントを表示してフィルタリングできます。

Datadog パラダイムでは、次のいずれかがインシデントを宣言するための適切な状況です。

  • 問題が顧客またはサービスに影響を及ぼしている、またはその可能性があります。
  • あなたは、インシデントを呼び出す必要があるかどうかがわかりません。他の人に通知し、重大度を適切に上げます。

使用方法

インシデント管理にインストールは必要ありません。インシデントを表示するには、Incidents ページに移動して、すべての進行中インシデントのフィードを確認します。Incident Settings で、すべてのインシデントに表示される追加フィールドを構成できます。

: Apple App Store および Google Play Store で入手できる Datadog モバイルアプリをダウンロードして、モバイルデバイスのホーム画面からインシデント一覧を表示し、インシデントを管理/作成することができます。

モバイルアプリでのインシデント

インシデントの作成

グラフから作成

グラフ上でエクスポートボタンをクリックすると表示される Declare incident ボタンをクリックすることで、グラフから直接インシデントを宣言できます。インシデント作成モーダルが表示され、グラフがシグナルとして追加されます。

グラフからインシデントを作成

クリップボードから作成

Datadog クリップボードから複数のモニターとグラフを収集し、インシデントを生成します。クリップボードにダッシュボードを追加するには、いずれかのグラフを複製し、Open Clipboard を選択します。次に、関連するグラフとモニターすべてをクリップボードに追加し、Add to New Incident をクリックします。クリップボード上のすべてがシグナルとしてインシデントに追加されます。

クリップボードにダッシュボードを追加
クリップボードからインシデントを作成

: インシデントからのエクスポートに加え、クリップボードのデータを新しいダッシュボードやノートブックにエクスポートできます。

モニターから作成

Declare incident ボタンをクリックすることで、モニターから直接インシデントを宣言できます。インシデント作成モーダルが表示され、モニターがシグナルとして追加されます。

モニターからインシデントを作成

既存のインシデントにモニターを追加することもできます。

既存のインシデントにモニターを追加

セキュリティシグナルから

サイドパネルの右上にあるケバブボタンをクリックし、Declare incident をクリックして、Cloud SIEM または Cloud Workload Security のシグナルから直接インシデントを宣言することができます。

サイドパネルの右上にあるエクスポートボタンを選択し、Export to incident をクリックして、Application Security Management のシグナルからインシデントを宣言します。

セキュリティシグナルからインシデントを作成

Incidents ページから作成

Datadog UINew Incident をクリックし、インシデントを作成します。

インシデント宣言モーダル

インシデント作成モーダルは、オーガニゼーションで使用されている重大度とステータスのヘルパーテキストと説明を含む折りたたみ可能なサイドパネルをレスポンダーに提供します。ヘルパーのテキストと説明は、Incident Settings でカスタマイズできます。

インシデント情報の設定

Slack から作成

Datadog インテグレーションを Slack で有効化すると、どの Slack チャンネルからでもスラッシュコマンド /datadog incident を使用して新しいインシデントを宣言できます。

作成モーダルで、説明タイトル (Title) に入力し、カスタマーへの影響 (Yes、No、Unknown) を選択して、重大度 (Severity) を (Unknown または 1~5) から選択します。

インシデントを宣言しているユーザーが Slack を Datadog アカウントと接続済みの場合、デフォルトではそのユーザーがインシデント調査責任者 (IC) になります。IC は、必要に応じて後からアプリ内で変更できます。インシデントを宣言しているユーザーが Datadog アカウントを所有していない場合、IC は一般の Slack app user に割り当てられ、アプリ内の別の IC に割り当てることができます。

Datadog Slack アプリの使用については、こちらを確認してください。

Slack からインシデントを作成

インシデントを宣言しているユーザーが Datadog アカウントを所有している場合、デフォルトではそのユーザーがインシデント調査責任者 (IC) になります。インシデントを宣言しているユーザーが Datadog アカウントを所有していない場合、IC は一般の Slack app user に割り当てられます。IC は Datadog アプリのインシデントページで変更できます。

Slack でインシデントを宣言すると、インシデントチャネルが生成されます。

Datadog Slack インテグレーションについては、ドキュメントを参照してください。

Slack をご利用の のお客様は、https://help.datadoghq.com/ でチケットを提出して、Slack アプリに関する最新情報を入手してください。

インシデントの説明

インシデントの作成場所に関わらず、インシデントについてできる限り詳細な説明を添えて、社内のインシデント管理プロセスに関わるメンバーと情報を共有することが重要です。

インシデントを作成すると、インシデントモーダルが表示されます。このモーダルにはいくつかの重要な要素が含まれています。

Severity Level: インシデントの重大度を SEV-1 (最も重大) から SEV-5 (最も軽微) で表します。インシデントを調査中で重大度がまだわからない場合は UNKNOWN を選択します。

  • SEV-1: 重大な影響
  • SEV-2: 大きな影響
  • SEV-3: 中程度の影響
  • SEV-4: 小さい影響
  • SEV-5: 軽微な問題
  • UNKNOWN: 初期調査

: 各重大度レベルの説明は、組織の要件に合わせてカスタマイズできます。

Title: インシデントにわかりやすいタイトルを付けます。

Signals: インシデントを宣言している理由。これは、グラフやログなどの視覚情報にすることができます。

Incident commander: この人物はインシデント調査のリーダーとして割り当てられます。

Additional notifications: 他のチームまたは人々に通知します。

Declare Incident をクリックして、インシデントの作成を完了します。

インシデントとインシデントタイムラインの更新

インシデントのステータスは、インシデントの概要ページ、または、専用のインシデントチャネルの Slack から直接更新できます。その Slack チャネルからインシデントを更新するには、スラッシュコマンド /datadog incident update を使用して、更新モーダルを開きます。

影響セクションを更新し、顧客への影響、影響の開始と終了時刻、およびインシデントがまだアクティブであるかどうかを指定します。また、このセクションには、完了する影響範囲の記述が必要です。

インシデントのヘッダーには、インシデントの状況、重大度、タイムスタンプ、影響、期間のほか、インシデントに対応した人物が表示されます。また、対応者に最新情報を通知することもできます。Datadog Slack アプリを使用していない場合は、チャット、ビデオ会議、事後分析 (追加されている場合) 用のリンクが用意されています。

タイムラインのデータは自動的に分類されるため、ファセットを使用してタイムラインの内容にフィルターを設定できます。この機能は、調査が長期におよぶ長期的なインシデントの場合、特に便利です。これにより、IC や対応者は関係者、進捗状況、調査済みの事柄についてフィルターを設定しやすくなります。タイムラインノートの作成者は、タイムスタンプや作成されたメッセージメモは編集できます。また、タイムラインコールにフラグを立てて、インシデントをモニタリングしている人に対して強調できます。

ステータスレベル

デフォルトのステータスは、ActiveStableResolved です。Completed は有効化/無効化できます。各ステータスレベルの説明は、組織の要件に合わせてカスタマイズできます。

  • Active: インシデントが他者に影響している。
  • Stable: インシデントはもはや他者に影響していないが、調査が未完了。
  • Resolved: インシデントはもはや他者に影響しておらず、調査も完了している。
  • Completed: すべての修復作業が完了している。

インシデントのステータスが変化すると、Datadog は次のように解決までの時間を追跡します。

ステータスの遷移解決されたタイムスタンプ
Active から ResolvedActive から Completed現在の時刻
Active から Resolved から CompletedActive から Completed から Resolved変更なし
Active から Completed から Active から Resolved最後の遷移にオーバーライド

評価フィールド

評価フィールドは、インシデントごとに定義できるメタデータとコンテキストから成ります。このフィールドは key:value メトリクスタグになっており、設定でフィールドキーを追加すると、概要ページでインシデントの影響を評価する際に、値を利用できるようになります。例えば、「アプリケーション」フィールドを追加できます。次のフィールドはすべてのインシデントの評価に利用できます。

  • Root Cause: このテキストフィールドには、インシデントの根本原因の説明、トリガー、要因を入力できます。
  • Detection Method: デフォルトの選択肢「Customer、Employee、Monitor、Other、Unknown」から、インシデントがどのように検出されたか指定します。
  • Services: APM を構成済みの場合は、インシデント評価に APM サービスを利用できます。APM サービスの構成については、ドキュメントを参照してください。
    • Datadog APM を使用していない場合は、サービス名を CSV ファイルでアップロードできます。CSV ファイルでアップロードされた値は、インシデント管理のインシデント評価にのみ使用できます。
    • Datadog は、大文字と小文字を区別しないことによるサービス名の重複を排除します。そのため、“My Service” や “my service” といった名前を使用している場合、手動で追加した名前のみが表示されます。
    • Datadog は、手動でアップロードしたリストを優先して APM サービス名をオーバーライドします。
    • 利用しているサービスが APM サービスで、過去 7 日間にメトリクスが何もポストされていない場合、検索結果には表示されません。
    • Datadog 製品をさらに統合すると、サービスへの影響をより正確に評価できます。サービスのプロパティフィールドは、Datadog APM を使用しているカスタマーの APM サービスが自動的に入力されます。
  • Teams: 組織で定義されているチームから選択してください。CSV ファイルからチームリストをアップロードする必要はありません。

収集データ

インシデント管理は、次の分析メジャーを収集します。

  • インシデント数
  • 顧客への影響期間
  • ステータスアクティブ期間
  • ステータス安定期間
  • 修理までの時間 (顧客への影響の終了時間 - 作成された時間)
  • 解決までの時間 (解決された時間 - 作成された時間)

インシデント管理グラフの詳細については、インシデント管理分析を参照してください。

インテグレーション

Slack との統合に加えて、インシデント管理は以下とも統合されます。

  • PagerDutyOpsGenie は、オンコールエンジニアにインシデント通知を送信します。
  • Jira は、インシデントの Jira チケットを作成します。
  • Webhook は、Webhook を使用してインシデント通知を送信します (たとえば、SMS を Twilio に送信)。

準備はいいですか?

Incident Management 入門ガイドのワークフロー例を実行してください。

その他の参考資料