Watchdog アラート

概要

Watchdog はシステムおよびアプリケーション上の異常をプロアクティブに探します。そして、異常の発生状況、他のシステムへの影響、根本原因などの情報が Watchdog アラートエクスプローラーに表示されます。

エラーログの進行中のログ異常アラートが 1 つ、エラーログの解決済みログ異常アラートが 1 つ、根本原因分析によって解決されたエラーレートアラートが 1 つ表示されている Watchdog Alerts ページ

Watchdog アラートの詳細

アラート概要カードには、以下の項目があります。

sms-service の send-sms エンドポイントにおけるエラーレートの上昇を示す Watchdog アラートカードのスクリーンショット
  1. Status: 異常は ongoing (進行中)、resolved (解決済み)、expired (期限切れ) のいずれかになります (48 時間以上継続中の異常は expired です)。
  2. Timeline: 異常が発生した期間が記述されます。
  3. Message: 異常の内容が説明されます。
  4. Graph: 異常が視覚的に表現されます。
  5. Tags: 異常の範囲が表示されます。
  6. Impact (利用可能な場合): 異常がどのユーザー、ビュー、またはサービスに影響を及ぼすかが説明されます。

アラート概要カードの任意の場所をクリックすると、アラートの詳細ペインが表示されます。

アラート概要カードの情報を繰り返すだけでなく、Overview タブには、以下のフィールドを 1 つ以上含めることができます。

  • Expected Bounds: Show expected bounds チェックボックスをクリックします。グラフの色が変わり、予想される動作と異常な動作が区別されます。
  • Suggested Next Steps: 異常な動作の調査およびトリアージの手順が説明されます。
  • Monitors: アラートに関連付けされたモニターがリストされます。表示されるモニターにはそれぞれ、現在のアラートのメトリクスとそのスコープに含まれる関連タグがあります。

さらに、Watchdog は異常が再発した際に通知するために作成可能な 1 つ以上のモニターを提案します。これらのモニターはまだ存在していないため、テーブルではその状態が suggested として記載されています。Enable Monitor をクリックして、組織に提案されたモニターを有効にします。一連のアイコンがポップアップ表示され、新しいモニターを開く、編集する、複製する、ミュートする、または削除することができます。

Watchdog アラートエクスプローラー

Watchdog アラートフィードの絞り込みには、タイムレンジ、検索バー、ファセットを使用できます。

  • タイムレンジ: 右上にあるタイムレンジセレクターを使用し、特定の時間範囲内で検出されたアラートを表示します。過去 6 か月までのアラートを表示できます。
  • 検索バー: Filter alerts 検索ボックスにテキストを入力すると、アラートのタイトルを検索できます。
  • ファセット: Watchdog アラートフィードの左側には、以下の検索ファセットがあります。対応するボックスにチェックを入れると、アラートをファセットで絞り込むことができます。

利用可能なファセット:

すべてのアラートグループ説明
アラートカテゴリすべての apminfrastructure または logs アラートを表示。
アラートタイプAPM やインフラストラクチャーインテグレーションのメトリクスを使用してアラートを選択します。
Alert Statusステータス (ongoing (進行中)、resolved (解決済み)、expired (期限切れ)) に基づいてアラートを選択します。
APM プライマリタグ表示するアラートのある定義済み APM プライマリタグ
環境表示するアラートのある環境。env タグの詳細については、統合サービスタグ付けを参照してください。
サービス表示するアラートのあるサービス。service タグの詳細については、統合サービスタグ付けを参照してください。
End User Impacted(要 RUM)。Watchdog が影響を受けるエンドユーザーを発見した場合。詳細については、影響分析を参照してください。
Root Cause(要 APM)。Watchdog が異常または重大な障害の根本原因を発見した場合。詳細は根本原因分析を参照してください。
チーム影響を受けるサービスを担当するチーム。サービスカタログからリッチ化されます。
ログ異常の種類この種類のログ異常のみ表示します。サポートされている種類は、新しいログパターンと、既存のログパターンの増加です。
ログのソースこのソースからのログを含むアラートのみ表示します。
ログのステータスこのログステータスのログを含むアラートのみ表示します。

Watchdog アラートカバレッジ

Watchdog アラートは、複数のアプリケーションとインフラストラクチャーのメトリクスをカバーしています。

取り込まれたログはインテークレベルで分析され、Watchdog が検出したパターンと environmentservicesourcestatus タグについて集計を行います。 これらの集計されたログは、以下のような異常な動作がないかスキャンされます。

  • 警告またはエラーステータスを持つログの出現。
  • 警告やエラーステータスのログの急増。

すべてのログ異常はログエクスプローラーにインサイトとして表示され、検索コンテキストとロールに適用された制限に一致します。 Watchdog が特に severe (重大) と判断したログ異常は Watchdog アラートエクスプローラーに表示され、Watchdog ログモニター をセットアップすることでアラートを発することができます。 severe (重大) な異常とは以下のように定義されます。

  • エラーログが含まれている。
  • 10 分以上続いている (一時的なエラーを除外するため)。
  • 大幅に増加している (小幅な増加を除外するため)。
  • noise スコアが低く設定されている (特定のサービスに対して過多なアラートを避けるため)。noise スコアはサービスレベルで次のように計算されます。
    • エラーパターンの数を見る (多いほどノイズが多い)。
    • パターンが互いにどれだけ近いかを計算する (近いほどノイズが多い)。

必要なデータ履歴

Watchdog は予想される動作のベースラインを確立するために、ある程度のデータが必要です。ログ異常に関しては、最低限必要な履歴は 24 時間です。 最低限の履歴が揃った後、Watchdog は異常を検出し始め、履歴が増えるほどに改善されます。最も良いパフォーマンスは 6 週間の履歴で得られます。

ログ異常検出を無効にする

ログ異常検出を無効にするには、ログ管理パイプラインページに移動し、Log Anomalies トグルをクリックします。

Watchdog はすべてのサービスとリソースをスキャンして、以下のメトリクスに異常がないか調べます。

  • エラー率
  • レイテンシー
  • ヒット数(リクエスト率)

Watchdog はほとんど使われていないエンドポイントやサービスを除外することで、ノイズを減らし、少ないトラフィックにおける異常の検出を避けます。また、ヒットレートに異常があってもレイテンシーやエラーレートに影響がなければ、その異常は無視されます。

必要なデータ履歴

Watchdog は予想される動作のベースラインを確立するために、ある程度のデータが必要です。メトリクス異常に関しては、最低限必要な履歴は 2 週間です。 最低限の履歴が揃った後、Watchdog は異常を検出し始め、履歴が増えるほどに改善されます。最も良いパフォーマンスは 6 週間の履歴で得られます。

Watchdog は以下のインテグレーションからインフラストラクチャーメトリクスを調べます。

必要なデータ履歴

Watchdog は予想される動作のベースラインを確立するために、ある程度のデータが必要です。メトリクス異常に関しては、最低限必要な履歴は 2 週間です。 最低限の履歴が揃った後、Watchdog は異常を検出し始め、履歴が増えるほどに改善されます。最も良いパフォーマンスは 6 週間の履歴で得られます。

カスタム異常検出

Watchdog は、モニターやダッシュボードと同じ季節性アルゴリズムを使用しています。他のメトリクスに異常がないか探したり、感度をカスタマイズするには、以下のアルゴリズムが利用可能です。

Watchdog アラートの入手先

Datadog 内で Watchdog アラートが表示される場所は以下の通りです。

APM ページの Watchdog 双眼鏡

Watchdog が APM メトリクスに異常を検出すると、APM サービスカタログの影響を受けるサービスの横にピンクの Watchdog 双眼鏡アイコンが表示されます。

サービスカタログの画面、5 つのサービスが表示されています。Web ストアのサービス名の後にピンクの双眼鏡のアイコンがついています。

Watchdog Insights カルーセルでサービス詳細画面のトップに移動すると、メトリクス異常の詳細を確認することができます。

Watchdog のアイコンは、メトリクスグラフにも表示されます。

サービスのレイテンシー (秒) をY軸に、時間帯を X 軸にとったグラフ。グラフ全体がピンク色で表示され、上部に「May 2: 13:31 Ongoing」と表示されている

双眼鏡のアイコンをクリックすると、詳細が書かれた Watchdog アラートのカードが表示されます。

アーカイブされたアラートの管理

Watchdog アラートをアーカイブするには、サイドパネルを開き、右上隅のフォルダアイコンをクリックします。アーカイブすると、アラートがエクスプローラーから非表示になり、Datadog の他の場所 (ホームページなど) からも非表示になります。アラートがアーカイブされると、関連するサービスやリソースの横にピンクの Watchdog 双眼鏡アイコンが表示されなくなります。

アーカイブされたアラートを見るには、Watchdog アラートエクスプローラーの左上の Show N archived alerts* のチェックボックスオプションを選択します。このオプションは、少なくとも 1 つのアラートがアーカイブされている場合にのみ利用可能です。また、各アラートを誰がいつアーカイブしたかを確認したり、アーカイブされたアラートをフィードに復元したりすることができます。

: アーカイブ後であっても、Watchdog はサービスやリソースに関連する問題にフラグを立てます。