Watchdog アラート

Docs > Datadog WatchdogTM > Watchdog アラート

概要

Watchdog はシステムおよびアプリケーション上の異常をプロアクティブに探します。そして、異常の発生状況、他のシステムへの影響、根本原因などの情報が Watchdog アラートエクスプローラーに表示されます。

エラーログの進行中のログ異常アラートが 1 つ、エラーログの解決済みログ異常アラートが 1 つ、根本原因分析によって解決されたエラーレートアラートが 1 つ表示されている Watchdog Alerts ページ

Watchdog アラートの詳細

アラート概要カードには、以下の項目があります。

sms-service の send-sms エンドポイントにおけるエラーレートの上昇を示す Watchdog アラートカードのスクリーンショット

Status: 異常は ongoing (進行中)、resolved (解決済み)、expired (期限切れ) のいずれかになります (48 時間以上継続中の異常は expired です)。
Timeline: 異常が発生した期間が記述されます。
Message: 異常の内容が説明されます。
Graph: 異常が視覚的に表現されます。
Tags: 異常の範囲が表示されます。
Impact (利用可能な場合): 異常がどのユーザー、ビュー、またはサービスに影響を及ぼすかが説明されます。

アラート概要カードの任意の場所をクリックすると、アラートの詳細ペインが表示されます。

アラート概要カードの情報を繰り返すだけでなく、Overview タブには、以下のフィールドを 1 つ以上含めることができます。

Expected Bounds: Show expected bounds チェックボックスをクリックします。グラフの色が変わり、予想される動作と異常な動作が区別されます。
Suggested Next Steps: 異常な動作の調査およびトリアージの手順が説明されます。
Monitors: アラートに関連付けされたモニターがリストされます。表示されるモニターにはそれぞれ、現在のアラートのメトリクスとそのスコープに含まれる関連タグがあります。

さらに、Watchdog は異常が再発した際に通知するために作成可能な 1 つ以上のモニターを提案します。これらのモニターはまだ存在していないため、テーブルではその状態が suggested として記載されています。Enable Monitor をクリックして、組織に提案されたモニターを有効にします。一連のアイコンがポップアップ表示され、新しいモニターを開く、編集する、複製する、ミュートする、または削除することができます。

Watchdog アラートエクスプローラー

Watchdog アラートフィードの絞り込みには、タイムレンジ、検索バー、ファセットを使用できます。

タイムレンジ: 右上にあるタイムレンジセレクターを使用し、特定の時間範囲内で検出されたアラートを表示します。過去 6 か月までのアラートを表示できます。
検索バー: Filter alerts 検索ボックスにテキストを入力すると、アラートのタイトルを検索できます。
ファセット: Watchdog アラートフィードの左側には、以下の検索ファセットがあります。対応するボックスにチェックを入れると、アラートをファセットで絞り込むことができます。

利用可能なファセット:

すべてのアラートグループ	説明
アラートカテゴリ	すべての `apm`、`infrastructure` または `logs` アラートを表示。
アラートタイプ	APM やインフラストラクチャーインテグレーションのメトリクスを使用してアラートを選択します。
Alert Status	ステータス (`ongoing` (進行中)、`resolved` (解決済み)、`expired` (期限切れ)) に基づいてアラートを選択します。
APM プライマリタグ	表示するアラートのある定義済み APM プライマリタグ。
環境	表示するアラートのある環境。`env` タグの詳細については、統合サービスタグ付けを参照してください。
サービス	表示するアラートのあるサービス。`service` タグの詳細については、統合サービスタグ付けを参照してください。
End User Impacted	(要 RUM)。Watchdog が影響を受けるエンドユーザーを発見した場合。詳細については、影響分析を参照してください。
Root Cause	(要 APM)。Watchdog が異常または重大な障害の根本原因を発見した場合。詳細は根本原因分析を参照してください。
チーム	影響を受けるサービスを担当するチーム。サービスカタログからリッチ化されます。
ログ異常の種類	この種類のログ異常のみ表示します。サポートされている種類は、新しいログパターンと、既存のログパターンの増加です。
ログのソース	このソースからのログを含むアラートのみ表示します。
ログのステータス	このログステータスのログを含むアラートのみ表示します。

Watchdog アラートカバレッジ

Watchdog アラートは、複数のアプリケーションとインフラストラクチャーのメトリクスをカバーしています。

取り込まれたログはインテークレベルで分析され、Watchdog が検出したパターンと environment、service、source、status タグについて集計を行います。これらの集計されたログは、以下のような異常な動作がないかスキャンされます。

警告またはエラーステータスを持つログの出現。
警告やエラーステータスのログの急増。

すべてのログ異常はログエクスプローラーにインサイトとして表示され、検索コンテキストとロールに適用された制限に一致します。 Watchdog が特に severe (重大) と判断したログ異常は Watchdog アラートエクスプローラーに表示され、Watchdog ログモニターをセットアップすることでアラートを発することができます。 severe (重大) な異常とは以下のように定義されます。

エラーログが含まれている。
10 分以上続いている (一時的なエラーを除外するため)。
大幅に増加している (小幅な増加を除外するため)。
noise スコアが低く設定されている (特定のサービスに対して過多なアラートを避けるため)。noise スコアはサービスレベルで次のように計算されます。
- エラーパターンの数を見る (多いほどノイズが多い)。
- パターンが互いにどれだけ近いかを計算する (近いほどノイズが多い)。

必要なデータ履歴

Watchdog は予想される動作のベースラインを確立するために、ある程度のデータが必要です。ログ異常に関しては、最低限必要な履歴は 24 時間です。最低限の履歴が揃った後、Watchdog は異常を検出し始め、履歴が増えるほどに改善されます。最も良いパフォーマンスは 6 週間の履歴で得られます。

ログ異常検出を無効にする

ログ異常検出を無効にするには、ログ管理パイプラインページに移動し、Log Anomalies トグルをクリックします。

Watchdog はすべてのサービスとリソースをスキャンして、以下のメトリクスに異常がないか調べます。

エラー率
レイテンシー
ヒット数（リクエスト率）

Watchdog はほとんど使われていないエンドポイントやサービスを除外することで、ノイズを減らし、少ないトラフィックにおける異常の検出を避けます。また、ヒットレートに異常があってもレイテンシーやエラーレートに影響がなければ、その異常は無視されます。

必要なデータ履歴

Watchdog は予想される動作のベースラインを確立するために、ある程度のデータが必要です。メトリクス異常に関しては、最低限必要な履歴は 2 週間です。最低限の履歴が揃った後、Watchdog は異常を検出し始め、履歴が増えるほどに改善されます。最も良いパフォーマンスは 6 週間の履歴で得られます。

Watchdog は、すべてのサービスとリソースをスキャンして、次のメトリクスに異常がないか調べます。

エラー率
レイテンシー
ヒット数（リクエスト率）

Watchdog は、ノイズを減らし、少量のトラフィックでの異常を回避するために、使用頻度の低いエンドポイントやサービスを除外します。また、ヒット率に異常が検出されても、レイテンシーやエラー率に影響がない場合は、その異常を無視します。

必要なデータ履歴

Watchdog は、期待される動作のベースラインを確立するためにデータを必要とします。メトリクス異常の場合、最低 2 週間のデータ履歴が必要です。必要な履歴が揃った後、Watchdog は異常を検出し始め、履歴が増えるにつれて精度が向上します。最良のパフォーマンスは 6 週間の履歴で得られます。

Watchdog は、以下のインテグレーションからインフラストラクチャーメトリクスを収集します。

システム: ホストレベルのメモリ使用量 (メモリリーク) および TCP 再送率。
Redis
PostgreSQL
NGINX
Docker
Kubernetes
Amazon Web Services:

必要なデータ履歴

Watchdog は、期待される動作のベースラインを確立するためにある程度のデータを必要とします。メトリクス異常の場合、最低 2 週間のデータ履歴が必要です。必要な履歴が揃った後、Watchdog は異常を検出し始め、履歴が増えるにつれて精度が向上します。最良のパフォーマンスは 6 週間の履歴で得られます。

カスタム異常検出

Watchdog は、モニターやダッシュボードと同じ季節的アルゴリズムを使用します。他のメトリクスで異常を検索したり、感度をカスタマイズするために、以下のアルゴリズムが利用可能です。

Watchdog Alert を確認する場所

Datadog 内で Watchdog アラートが表示される場所は以下の通りです。

Watchdog Alert Explorer
個々の APM サービスページ
サービスカタログ内
すべてのエクスプローラーで利用可能な Watchdog Insights パネル

APM ページ上の Watchdog の双眼鏡

Watchdog が APM メトリクスの異常を検出すると、APM サービスカタログの影響を受けたサービスの横にピンクの Watchdog 双眼鏡アイコンが表示されます。

{{< img src=“watchdog/service_list.png” alt=“サービスカタログのスクリーンショット、5 つのサービスが表示されています。Web ストアのサービス名の後にピンクの双眼鏡のアイコンが付いています。” style=“width:75%;” >}}

Watchdog Insights カルーセルでサービスページのトップに移動すると、メトリクス異常の詳細を見ることができます。

Watchdog のアイコンは、メトリクスグラフにも表示されます。

サービスのレイテンシー (秒) をY軸に、時間帯を X 軸にとったグラフ。グラフ全体がピンク色で表示され、上部に「May 2: 13:31 Ongoing」と表示されている

双眼鏡のアイコンをクリックすると、詳細情報が記載された Watchdog Alert カードが表示されます。

アーカイブされたアラートの管理

Watchdog Alert をアーカイブするには、サイドパネルを開き、右上のフォルダーアイコンをクリックします。アーカイブすると、エクスプローラーや Datadog の他の場所 (ホームページなど) からアラートが非表示になります。アラートがアーカイブされると、関連するサービスやリソースの横にピンクの Watchdog 双眼鏡アイコンは表示されなくなります。

アーカイブされたアラートを見るには、Watchdog Alert Explorer の左上にある Show N archived alerts チェックボックスオプションを選択します。このオプションは、少なくとも 1 つのアラートがアーカイブされている場合にのみ利用可能です。各アラートのアーカイブ日時やアーカイブしたユーザーを確認したり、アーカイブされたアラートをフィードに復元することができます。

注: アーカイブ後であっても、Watchdog はサービスやリソースに関連する問題にフラグを立てます。