- 重要な情報
- はじめに
- 用語集
- ガイド
- エージェント
- インテグレーション
- OpenTelemetry
- 開発者
- API
- CoScreen
- アプリ内
- Service Management
- インフラストラクチャー
- アプリケーションパフォーマンス
- 継続的インテグレーション
- ログ管理
- セキュリティ
- UX モニタリング
- 管理
組織のサービス中断につながる可能性のあるイベントは、すべてインシデントと見なすことができます。多くの場合、こうしたイベントを処理するためのフレームワークを用意する必要があります。Datadog のインシデント管理機能は、組織がインシデントを効果的に識別して軽減できるシステムを提供します。
インシデントは、収集しているメトリクス、トレース、ログとともに Datadog に存在します。自分に関連するインシデントを表示してフィルタリングできます。
Datadog パラダイムでは、次のいずれかがインシデントを宣言するための適切な状況です。
インシデント管理にインストールは必要ありません。インシデントを表示するには、Incidents ページに移動して、すべての進行中インシデントのフィードを確認します。Incident Settings で、すべてのインシデントに表示される追加フィールドを構成できます。
注: Apple App Store および Google Play Store で入手できる Datadog モバイルアプリをダウンロードして、モバイルデバイスのホーム画面からインシデント一覧を表示し、インシデントを管理/作成することができます。
グラフ上でエクスポートボタンをクリックすると表示される Declare incident ボタンをクリックすることで、グラフから直接インシデントを宣言できます。インシデント作成モーダルが表示され、グラフがシグナルとして追加されます。
Datadog クリップボードから複数のモニターとグラフを収集し、インシデントを生成します。クリップボードにダッシュボードを追加するには、いずれかのグラフを複製し、Open Clipboard を選択します。次に、関連するグラフとモニターすべてをクリップボードに追加し、Add to New Incident をクリックします。クリップボード上のすべてがシグナルとしてインシデントに追加されます。
注: インシデントからのエクスポートに加え、クリップボードのデータを新しいダッシュボードやノートブックにエクスポートできます。
Declare incident ボタンをクリックすることで、モニターから直接インシデントを宣言できます。インシデント作成モーダルが表示され、モニターがシグナルとして追加されます。
既存のインシデントにモニターを追加することもできます。
サイドパネルの右上にあるケバブボタンをクリックし、Declare incident をクリックして、Cloud SIEM または Cloud Workload Security のシグナルから直接インシデントを宣言することができます。
サイドパネルの右上にあるエクスポートボタンを選択し、Export to incident をクリックして、Application Security Management のシグナルからインシデントを宣言します。
Datadog UI で New Incident をクリックし、インシデントを作成します。
インシデント作成モーダルは、オーガニゼーションで使用されている重大度とステータスのヘルパーテキストと説明を含む折りたたみ可能なサイドパネルをレスポンダーに提供します。ヘルパーのテキストと説明は、Incident Settings でカスタマイズできます。
Datadog インテグレーションを Slack で有効化すると、どの Slack チャンネルからでもスラッシュコマンド /datadog incident
を使用して新しいインシデントを宣言できます。
作成モーダルで、説明タイトル (Title) に入力し、カスタマーへの影響 (Yes、No、Unknown) を選択して、重大度 (Severity) を (Unknown または 1~5) から選択します。
インシデントを宣言しているユーザーが Slack を Datadog アカウントと接続済みの場合、デフォルトではそのユーザーがインシデント調査責任者 (IC) になります。IC は、必要に応じて後からアプリ内で変更できます。インシデントを宣言しているユーザーが Datadog アカウントを所有していない場合、IC は一般の Slack app user
に割り当てられ、アプリ内の別の IC に割り当てることができます。
Datadog Slack アプリの使用については、こちらを確認してください。
インシデントを宣言しているユーザーが Datadog アカウントを所有している場合、デフォルトではそのユーザーがインシデント調査責任者 (IC) になります。インシデントを宣言しているユーザーが Datadog アカウントを所有していない場合、IC は一般の Slack app user
に割り当てられます。IC は Datadog アプリのインシデントページで変更できます。
Slack でインシデントを宣言すると、インシデントチャネルが生成されます。
Datadog Slack インテグレーションについては、ドキュメントを参照してください。
Slack をご利用の のお客様は、https://help.datadoghq.com/ でチケットを提出して、Slack アプリに関する最新情報を入手してください。
インシデントの作成場所に関わらず、インシデントについてできる限り詳細な説明を添えて、社内のインシデント管理プロセスに関わるメンバーと情報を共有することが重要です。
インシデントを作成すると、インシデントモーダルが表示されます。このモーダルにはいくつかの重要な要素が含まれています。
Severity Level: インシデントの重大度を SEV-1 (最も重大) から SEV-5 (最も軽微) で表します。インシデントを調査中で重大度がまだわからない場合は UNKNOWN を選択します。
注: 各重大度レベルの説明は、組織の要件に合わせてカスタマイズできます。
Title: インシデントにわかりやすいタイトルを付けます。
Signals: インシデントを宣言している理由。これは、グラフやログなどの視覚情報にすることができます。
Incident commander: この人物はインシデント調査のリーダーとして割り当てられます。
Additional notifications: 他のチームまたは人々に通知します。
Declare Incident をクリックして、インシデントの作成を完了します。
インシデントのステータスは、インシデントの概要ページ、または、専用のインシデントチャネルの Slack から直接更新できます。その Slack チャネルからインシデントを更新するには、スラッシュコマンド /datadog incident update
を使用して、更新モーダルを開きます。
影響セクションを更新し、顧客への影響、影響の開始と終了時刻、およびインシデントがまだアクティブであるかどうかを指定します。また、このセクションには、完了する影響範囲の記述が必要です。
インシデントのヘッダーには、インシデントの状況、重大度、タイムスタンプ、影響、期間のほか、インシデントに対応した人物が表示されます。また、対応者に最新情報を通知することもできます。Datadog Slack アプリを使用していない場合は、チャット、ビデオ会議、事後分析 (追加されている場合) 用のリンクが用意されています。
タイムラインのデータは自動的に分類されるため、ファセットを使用してタイムラインの内容にフィルターを設定できます。この機能は、調査が長期におよぶ長期的なインシデントの場合、特に便利です。これにより、IC や対応者は関係者、進捗状況、調査済みの事柄についてフィルターを設定しやすくなります。タイムラインノートの作成者は、タイムスタンプや作成されたメッセージメモは編集できます。また、タイムラインコールにフラグを立てて、インシデントをモニタリングしている人に対して強調できます。
デフォルトのステータスは、Active、Stable、Resolved です。Completed は有効化/無効化できます。各ステータスレベルの説明は、組織の要件に合わせてカスタマイズできます。
インシデントのステータスが変化すると、Datadog は次のように解決までの時間を追跡します。
ステータスの遷移 | 解決されたタイムスタンプ |
---|---|
Active から Resolved 、Active から Completed | 現在の時刻 |
Active から Resolved から Completed 、Active から Completed から Resolved | 変更なし |
Active から Completed から Active から Resolved | 最後の遷移にオーバーライド |
評価フィールドは、インシデントごとに定義できるメタデータとコンテキストから成ります。このフィールドは key:value メトリクスタグになっており、設定でフィールドキーを追加すると、概要ページでインシデントの影響を評価する際に、値を利用できるようになります。例えば、「アプリケーション」フィールドを追加できます。次のフィールドはすべてのインシデントの評価に利用できます。
インシデント管理は、次の分析メジャーを収集します。
インシデント管理グラフの詳細については、インシデント管理分析を参照してください。
Slack との統合に加えて、インシデント管理は以下とも統合されます。
Incident Management 入門ガイドのワークフロー例を実行してください。