Watchdog アラート

概要

Watchdog はシステムおよびアプリケーション上の異常をプロアクティブに探します。そして、異常の発生状況、他のシステムへの影響、根本原因などの情報が Watchdog アラートエクスプローラーに表示されます。

エラーログの進行中のログ異常アラートが 1 つ、エラーログの解決済みログ異常アラートが 1 つ、根本原因分析によって解決されたエラーレートアラートが 1 つ表示されている Watchdog Alerts ページ

Watchdog アラートの詳細

アラート概要カードには、以下の項目があります。

sms-service の send-sms エンドポイントにおけるエラーレートの上昇を示す Watchdog アラートカードのスクリーンショット
  1. Status: 異常は ongoing (進行中)、resolved (解決済み)、expired (期限切れ) のいずれかになります (48 時間以上継続中の異常は expired です)。
  2. Timeline: 異常が発生した期間が記述されます。
  3. Message: 異常の内容が説明されます。
  4. Graph: 異常が視覚的に表現されます。
  5. Tags: 異常の範囲が表示されます。
  6. Impact (利用可能な場合): 異常がどのユーザー、ビュー、またはサービスに影響を及ぼすかが説明されます。

アラート概要カードの任意の場所をクリックすると、アラートの詳細ペインが表示されます。

アラート概要カードの情報を繰り返すだけでなく、Overview タブには、以下のフィールドを 1 つ以上含めることができます。

  • Expected Bounds: Show expected bounds チェックボックスをクリックします。グラフの色が変わり、予想される動作と異常な動作が区別されます。
  • Suggested Next Steps: 異常な動作の調査およびトリアージの手順が説明されます。
  • Monitors: アラートに関連付けされたモニターがリストされます。表示されるモニターにはそれぞれ、現在のアラートのメトリクスとそのスコープに含まれる関連タグがあります。

さらに、Watchdog は異常が再発した際に通知するために作成可能な 1 つ以上のモニターを提案します。これらのモニターはまだ存在していないため、テーブルではその状態が suggested として記載されています。Enable Monitor をクリックして、組織に提案されたモニターを有効にします。一連のアイコンがポップアップ表示され、新しいモニターを開く、編集する、複製する、ミュートする、または削除することができます。

Watchdog アラートエクスプローラー

Watchdog アラートフィードの絞り込みには、タイムレンジ、検索バー、ファセットを使用できます。

  • タイムレンジ: 右上にあるタイムレンジセレクターを使用し、特定の時間範囲内で検出されたアラートを表示します。過去 6 か月までのアラートを表示できます。
  • 検索バー: Filter alerts 検索ボックスにテキストを入力すると、アラートのタイトルを検索できます。
  • ファセット: Watchdog アラートフィードの左側には、以下の検索ファセットがあります。対応するボックスにチェックを入れると、アラートをファセットで絞り込むことができます。

利用可能なファセット:

すべてのアラートグループ説明
アラートカテゴリすべての apminfrastructure または logs アラートを表示。
アラートタイプAPM やインフラストラクチャーインテグレーションのメトリクスを使用してアラートを選択します。
Alert Statusステータス (ongoing (進行中)、resolved (解決済み)、expired (期限切れ)) に基づいてアラートを選択します。
APM プライマリタグ表示するアラートのある定義済み APM プライマリタグ
環境表示するアラートのある環境。env タグの詳細については、統合サービスタグ付けを参照してください。
サービス表示するアラートのあるサービス。service タグの詳細については、統合サービスタグ付けを参照してください。
End User Impacted(要 RUM)。Watchdog が影響を受けるエンドユーザーを発見した場合。詳細については、影響分析を参照してください。
Root Cause(要 APM)。Watchdog が異常または重大な障害の根本原因を発見した場合。詳細は根本原因分析を参照してください。
チーム影響を受けるサービスを担当するチーム。サービスカタログからリッチ化されます。
ログ異常の種類この種類のログ異常のみ表示します。サポートされている種類は、新しいログパターンと、既存のログパターンの増加です。
ログのソースこのソースからのログを含むアラートのみ表示します。
ログのステータスこのログステータスのログを含むアラートのみ表示します。

Watchdog アラートカバレッジ

Watchdog アラートは、複数のアプリケーションとインフラストラクチャーのメトリクスをカバーしています。

取り込まれたログはインテークレベルで分析され、Watchdog が検出したパターンと environmentservicesourcestatus タグについて集計を行います。 これらの集計されたログは、以下のような異常な動作がないかスキャンされます。

  • 警告またはエラーステータスを持つログの出現。
  • 警告やエラーステータスのログの急増。

すべてのログ異常はログエクスプローラーにインサイトとして表示され、検索コンテキストとロールに適用された制限に一致します。 Watchdog が特に severe (重大) と判断したログ異常は Watchdog アラートエクスプローラーに表示され、Watchdog ログモニター をセットアップすることでアラートを発することができます。 severe (重大) な異常とは以下のように定義されます。

  • エラーログが含まれている。
  • 10 分以上続いている (一時的なエラーを除外するため)。
  • 大幅に増加している (小幅な増加を除外するため)。
  • noise スコアが低く設定されている (特定のサービスに対して過多なアラートを避けるため)。noise スコアはサービスレベルで次のように計算されます。
    • エラーパターンの数を見る (多いほどノイズが多い)。
    • パターンが互いにどれだけ近いかを計算する (近いほどノイズが多い)。

必要なデータ履歴

Watchdog は予想される動作のベースラインを確立するために、ある程度のデータが必要です。ログ異常に関しては、最低限必要な履歴は 24 時間です。 最低限の履歴が揃った後、Watchdog は異常を検出し始め、履歴が増えるほどに改善されます。最も良いパフォーマンスは 6 週間の履歴で得られます。

ログ異常検出を無効にする

ログ異常検出を無効にするには、ログ管理パイプラインページに移動し、Log Anomalies トグルをクリックします。

Watchdog はすべてのサービスとリソースをスキャンして、以下のメトリクスに異常がないか調べます。

  • エラー率
  • レイテンシー
  • ヒット数(リクエスト率)

Watchdog はほとんど使われていないエンドポイントやサービスを除外することで、ノイズを減らし、少ないトラフィックにおける異常の検出を避けます。また、ヒットレートに異常があってもレイテンシーやエラーレートに影響がなければ、その異常は無視されます。

必要なデータ履歴

Watchdog は予想される動作のベースラインを確立するために、ある程度のデータが必要です。メトリクス異常に関しては、最低限必要な履歴は 2 週間です。 最低限の履歴が揃った後、Watchdog は異常を検出し始め、履歴が増えるほどに改善されます。最も良いパフォーマンスは 6 週間の履歴で得られます。

Watchdog は、すべてのサービスとリソースをスキャンして、次のメトリクスに異常がないか調べます。

  • エラー率
  • レイテンシー
  • ヒット数(リクエスト率)

Watchdog は、ノイズを減らし、少量のトラフィックでの異常を回避するために、使用頻度の低いエンドポイントやサービスを除外します。また、ヒット率に異常が検出されても、レイテンシーやエラー率に影響がない場合は、その異常を無視します。

必要なデータ履歴

Watchdog は、期待される動作のベースラインを確立するためにデータを必要とします。メトリクス異常の場合、最低 2 週間のデータ履歴が必要です。 必要な履歴が揃った後、Watchdog は異常を検出し始め、履歴が増えるにつれて精度が向上します。最良のパフォーマンスは 6 週間の履歴で得られます。

Watchdog は、以下のインテグレーションからインフラストラクチャーメトリクスを収集します。

必要なデータ履歴

Watchdog は、期待される動作のベースラインを確立するためにある程度のデータを必要とします。メトリクス異常の場合、最低 2 週間のデータ履歴が必要です。 必要な履歴が揃った後、Watchdog は異常を検出し始め、履歴が増えるにつれて精度が向上します。最良のパフォーマンスは 6 週間の履歴で得られます。

カスタム異常検出

Watchdog は、モニターやダッシュボードと同じ季節的アルゴリズムを使用します。他のメトリクスで異常を検索したり、感度をカスタマイズするために、以下のアルゴリズムが利用可能です。

Watchdog Alert を確認する場所

Datadog 内で Watchdog アラートが表示される場所は以下の通りです。

APM ページ上の Watchdog の双眼鏡

Watchdog が APM メトリクスの異常を検出すると、APM サービスカタログの影響を受けたサービスの横にピンクの Watchdog 双眼鏡アイコンが表示されます。

{{< img src=“watchdog/service_list.png” alt=“サービスカタログのスクリーンショット、5 つのサービスが表示されています。Web ストアのサービス名の後にピンクの双眼鏡のアイコンが付いています。” style=“width:75%;” >}}

Watchdog Insights カルーセルでサービスページのトップに移動すると、メトリクス異常の詳細を見ることができます。

Watchdog のアイコンは、メトリクスグラフにも表示されます。

サービスのレイテンシー (秒) をY軸に、時間帯を X 軸にとったグラフ。グラフ全体がピンク色で表示され、上部に「May 2: 13:31 Ongoing」と表示されている

双眼鏡のアイコンをクリックすると、詳細情報が記載された Watchdog Alert カードが表示されます。

アーカイブされたアラートの管理

Watchdog Alert をアーカイブするには、サイドパネルを開き、右上のフォルダーアイコンをクリックします。アーカイブすると、エクスプローラーや Datadog の他の場所 (ホームページなど) からアラートが非表示になります。アラートがアーカイブされると、関連するサービスやリソースの横にピンクの Watchdog 双眼鏡アイコンは表示されなくなります。

アーカイブされたアラートを見るには、Watchdog Alert Explorer の左上にある Show N archived alerts チェックボックスオプションを選択します。このオプションは、少なくとも 1 つのアラートがアーカイブされている場合にのみ利用可能です。各アラートのアーカイブ日時やアーカイブしたユーザーを確認したり、アーカイブされたアラートをフィードに復元することができます。

: アーカイブ後であっても、Watchdog はサービスやリソースに関連する問題にフラグを立てます。