インシデント管理

インシデント管理

Datadog for Government site では、インシデント管理をご利用いただけません。

組織のサービス中断につながる可能性のあるイベントは、すべてインシデントと見なすことができます。多くの場合、こうしたイベントを処理するためのフレームワークを用意する必要があります。Datadog のインシデント管理機能は、組織がインシデントを効果的に識別して軽減できるシステムを提供します。

インシデントは、収集しているメトリクス、トレース、ログとともに Datadog に存在します。自分に関連するインシデントを表示してフィルタリングできます。

Datadog パラダイムでは、次のいずれかがインシデントを宣言するための適切な状況です。

  • 問題が顧客またはサービスに影響を及ぼしている、またはその可能性があります。
  • あなたは、インシデントを呼び出す必要があるかどうかがわかりません。他の人に通知し、重大度を適切に上げます。

使用方法

インシデント管理にインストールは必要ありません。インシデントを表示するには、Incidents ページに移動して、すべての進行中インシデントのフィードを確認します。Incident Settings で、すべてのインシデントに表示される追加フィールドを構成できます。

インシデントの作成

グラフから作成

グラフ上でエクスポートボタンをクリックすると表示される Declare incident ボタンをクリックすることで、グラフから直接インシデントを宣言できます。インシデント作成モーダルが表示され、グラフがシグナルとして追加されます。

クリップボードから作成

Datadog クリップボードから複数のモニターとグラフを収集し、インシデントを生成します。クリップボードにダッシュボードを追加するには、いずれかのグラフを複製し、Open Clipboard を選択します。次に、関連するグラフとモニターすべてをクリップボードに追加し、Add to New Incident をクリックします。クリップボード上のすべてがシグナルとしてインシデントに追加されます。

: インシデントからのエクスポートに加え、クリップボードのデータを新しいダッシュボードやノートブックにエクスポートできます。

モニターから作成

グラフ上でエクスポートボタンをクリックすると表示される Declare incident ボタンをクリックすることで、モニターから直接インシデントを宣言できます。インシデント作成モーダルが表示され、モニターがシグナルとして追加されます。

既存のインシデントにモニターを追加することもできます。

インシデントページから作成

インシデント UINew Incident ボタンをクリックし、インシデントを作成します。

Slack から作成

Datadog インテグレーションを Slack で有効化すると、どの Slack チャンネルからでもスラッシュコマンド /datadog incident を使用して新しいインシデントを宣言できます。

作成モーダルで、説明タイトル (Title) に入力し、カスタマーへの影響 (Yes、No、Unknown) を選択して、重大度 (Severity) を (Unknown または 1~5) から選択します。

インシデントを宣言しているユーザーが Slack を Datadog アカウントと接続済みの場合、デフォルトではそのユーザーがインシデント調査責任者 (IC) になります。IC は、必要に応じて後からアプリ内で変更できます。インシデントを宣言しているユーザーが Datadog アカウントを所有していない場合、IC は一般の Slack app user に割り当てられ、アプリ内の別の IC に割り当てることができます。

Datadog Slack アプリの使用については、こちらを確認してください。

インシデントを宣言しているユーザーが Datadog アカウントを所有している場合、デフォルトではそのユーザーがインシデント調査責任者 (IC) になります。インシデントを宣言しているユーザーが Datadog アカウントを所有していない場合、IC は一般の Slack app user に割り当てられます。IC は Datadog アプリのインシデントページで変更できます。

Slack でインシデントを宣言すると、インシデントチャネルが生成されます。

Datadog Slack インテグレーションについては、ドキュメントを参照してください。

インシデントの説明

インシデントの作成場所に関わらず、インシデントについてできる限り詳細な説明を添えて、社内のインシデント管理プロセスに関わるメンバーと情報を共有することが重要です。

インシデントを作成すると、インシデントモーダルが表示されます。このモーダルにはいくつかの重要な要素が含まれています。

Severity Level: インシデントの重大度を SEV-1 (最も重大) から SEV-5 (最も軽微) で表します。インシデントを調査中で重大度がまだわからない場合は UNKNOWN を選択します。

  • SEV-1: 重大な影響
  • SEV-2: 大きな影響
  • SEV-3: 中程度の影響
  • SEV-4: 小さい影響
  • SEV-5: 軽微な問題
  • UNKNOWN: 初期調査

: 各重大度レベルの説明は、組織の要件に合わせてカスタマイズできます。

Title: インシデントにわかりやすいタイトルを付けます。

Signals: インシデントを宣言している理由。これは、グラフやログなどの視覚情報にすることができます。

Incident commander: この人物はインシデント調査のリーダーとして割り当てられます。

Additional notifications: 他のチームまたは人々に通知します。

“Declare Incident” をクリックして、インシデントの作成を完了します。

インシデントとインシデントタイムラインの更新

インシデントのステータスは、インシデントの概要ページ、または、専用のインシデントチャネルの Slack から直接更新できます。Slack からインシデントを更新するには、スラッシュコマンド /datadog incident update を使用して、更新モーダルをプルアップします。

また、影響セクションを更新して、顧客への影響の有無、インシデントタイムライン、アクティブ/非アクティブを指定できます。このセクションでは、影響範囲の説明の入力も求められます。

インシデントのヘッダーには、インシデントの状況、重大度、タイムスタンプ、影響、期間のほか、インシデントに対応した人物が表示されます。また、対応者に最新情報を通知することもできます。Datadog Slack アプリを使用していない場合は、チャット、ビデオ会議、事後分析 (追加されている場合) 用のリンクが用意されています。

タイムラインのデータは自動的に分類されるため、ファセットを使用してタイムラインの内容にフィルターを設定できます。この機能は、調査が長期におよぶ長期的なインシデントの場合、特に便利です。これにより、IC や対応者は関係者、進捗状況、調査済みの事柄についてフィルターを設定しやすくなります。タイムラインノートの作成者は、タイムスタンプや作成されたメッセージメモは編集できます。また、タイムラインコールにフラグを立てて、インシデントをモニタリングしている人に対して強調できます。

ステータスレベル

デフォルトのステータスは、ActiveStableResolved です。Completed は有効化/無効化できます。各ステータスレベルの説明は、組織の要件に合わせてカスタマイズできます。

  • Active: インシデントが他者に影響している。
  • Stable: インシデントはもはや他者に影響していないが、調査が未完了。
  • Resolved: インシデントはもはや他者に影響しておらず、調査も完了している。
  • Completed: すべての修復作業が完了している。

評価フィールド

評価フィールドは、インシデントごとに定義できるメタデータとコンテキストから成ります。このフィールドはkey:value メトリクスタグになっており、設定でフィールドキーを追加すると、概要ページでインシデントの影響を評価する際に、値を利用できるようになります。例えば、「アプリケーション」フィールドを追加できます。次のフィールドはすべてのインシデントの評価に利用できます。

  • Root Cause: このテキストフィールドには、インシデントの根本原因の説明、トリガー、要因を入力できます。
  • Detection Method: デフォルトの選択肢「Customer、Employee、Monitor、Other、Unknown」から、インシデントがどのように検出されたか指定します。
  • Services: APM を構成済みの場合は、インシデント評価に APM サービスを利用できます。APM サービスの構成については、ドキュメントを参照してください。
    • Datadog APM を使用していない場合は、サービス名を CSV ファイルでアップロードできます。CSV ファイルでアップロードされた値は、インシデント管理のインシデント評価にのみ使用できます。
    • Datadog は、大文字と小文字を区別しないことによるサービス名の重複を排除します。そのため、“My Service” や “my service” といった名前を使用している場合、手動で追加した名前のみが表示されます。
    • Datadog は、手動でアップロードしたリストを優先して APM サービス名をオーバーライドします。
    • 利用しているサービスが APM サービスで、過去 7 日間にメトリクスが何もポストされていない場合、検索結果には表示されません。
    • Datadog 製品をさらに統合すると、サービスへの影響をより正確に評価できます。サービスのプロパティフィールドは、Datadog APM を使用しているカスタマーの APM サービスが自動的に入力されます。
  • Teams: アップロードした CSV ファイルから入力されます。CSV ファイルでアップロードされた値は、インシデント管理のインシデント評価にのみ使用できます。

ワークフローの例

問題を発見

ダッシュボードを確認しているシナリオを考えてみます。ある特定のサービスが特に高いエラー数を示していることに気づきました。ウィジェットの右上にある Export ボタンを使用して、インシデントを宣言できます。

インシデントを宣言しチームに編成

New Incident モーダルを使用してチームを編成し、通知します。インシデント作成元のグラフは、自動的にシグナルとしてアタッチされます。この問題の解決を開始するために必要なコンテキストをチームに与える他のシグナルをアタッチします。Slack と PagerDuty のインテグレーションにより、これらのサービスを通じて通知を送信できます。

コミュニケーションを取り、トラブルシューティングを開始

Datadog Slack アプリがインストールされている場合、Slack インテグレーションによりインシデント専用の新しいチャネルが自動的に作成されるため、チームとのコミュニケーションを統合してトラブルシューティングを開始できます。

Slack をご利用の EU 外のお客様は、Datadog Slack アプリにベータアクセスでサインアップしてください。Slack をご利用の EU 内のお客様は、support@datadoghq.com にメールを送信して、Slack アプリに関する最新情報を入手してください。

インシデントを更新し事後分析を生成

状況の変化に応じてインシデントを更新します。問題が軽減されたことを示す場合はステータスを Stable に設定します。この問題が顧客にどのように影響したかを組織に知らせる場合は、顧客影響フィールドを設定します。次に、インシデントが完全に修復されたら、ステータスを Resolved に設定します。選択可能な 4 番目のステータスとして Completed があります。これは、すべての修復ステップが完了したかどうかを追跡するために使用できます。このステータスは、Incident Settings で有効にできます。

各インシデントの Properties セクションでステータスと重大度を更新できます。

インシデントのステータスが変化すると、Datadog は次のように解決までの時間を追跡します。

ステータスの遷移解決されたタイムスタンプ
Active から ResolvedActive から Completed現在の時刻
Active から Resolved から CompletedActive から Completed から Resolved変更なし
Active から Completed から Active から Resolved最後の遷移にオーバーライド

インシデントを「Resolved」に移動すると、事後分析が自動的に生成されます。

フォローアップし、インシデントについて学ぶ

軽減タスクまたはインシデント発生後の修復タスクを作成します。テキストフィールドにタスクを追加し、期日を設定し、チームメンバーを割り当てることで、ここのタスクをすべて追跡できます。タスクが終了したら、ボックスにチェックを入れて完了します。

事後分析文書にリンクして問題点を正確に振り返り、フォローアップタスクを追加します。Datadog Notebooks で作成された事後分析は、ライブコラボレーションに対応しています。既存のノートブックにリンクするには、Other Docs の下の+印をクリックします。チームメイトとリアルタイムで編集するには、リンクされたノートブックをクリックします。