Watchdog

Watchdog

概要

Watchdog は、アプリケーションやインフラストラクチャーの潜在的な問題を自動的に検出する APM パファーマンスおよびインフラストラクチャーメトリクスのアルゴリズム機能です。Watchdog は以下の傾向やパターンを監視します。異常検知やダッシュボードを起動するのと同様の季節アルゴリズムを活用します。Watchdog は以下の傾向やパターンを監視します。

Watchdog は、適合率の急激な上昇などといったメトリクスの異常を検出します。Watchdog ページには、それぞれの異常に関する「Watchdog ストーリー」が表示されます。各「ストーリー」には、検出されたメトリクスの異常を表すグラフが含まれ、関連する時間枠およびエンドポイントに関する詳細が表示されます。誤警報を避けるために、Watchdog は十分な時間をかけてデータを観察してから問題を報告しています。これにより、信頼度の高い警報を実現しています。異常の確認に必要な最小データ量は求める異常検知により異なり、4 日間~2 週間の範囲になります。

APM の根本原因分析 (ベータ版)

Watchdog Root Cause Analysis (RCA) は現在ベータ版です。このフォームを使用してアクセスをリクエストしてください。

Watchdog RCA を使用すると、APM のお客様は、アプリケーションとインフラストラクチャー全体のさまざまな症状間の因果関係を特定できます。この情報は、根本原因分析をスピードアップし、平均修復時間 (MTTR) を短縮するのに役立ちます。

Watchdog は、関連データをグループ化し、グループ間の接続を描画し、焦点を当てる最も重要な領域に優先順位を付けることができます。

Watchdog は、次のタイプのシグナル間の関係を考慮します。

  • APM エラー率、遅延、およびヒット率の増加
  • APM サービスのバージョンが変更された新しいデプロイ
  • APM エラートレース
  • 新しい APM リソースの導入
  • トレースされたデータベースクエリへの変更
  • Agent ベースのインフラストラクチャーメトリクス (CPU 使用率が高い、メモリ使用率が高い、ディスク使用率が高い、ホストに到達できないなど)
  • エラーログパターンの異常
  • 自分のモニターからトリガーされたアラート

Watchdog は、インフラストラクチャーのさまざまな部分 (ログ、トレース、メトリクス) からのシグナルと異常を相互に関連付け、それらを証拠として各 RCA ストーリーに追加します。これを有効にするには、テレメトリ全体で統一されたタグ付けを設定することをお勧めします。

ストーリーの詳細

ストーリーをクリックすると、検出された異常に関する詳細が表示されます。

このストーリーでは、3 つの異なるアベイラビリティーゾーンにおける ELB のレイテンシー値がグラフに示されています。Watchdog は、3 つのアベイラビリティーゾーンで有効になっている単一の負荷分散からこのメトリクス内の類似の異常検知を検出し、結果を 1 つのストーリーとして自動的にまとめます。低レイテンシーの継続後、3 つの全てのアベイラビリティーゾーンでメトリクスが急上昇したことがわかります (グラフでは、領域に異常検知の期間が強調表示されています)。

予測される範囲

右上の Show expected bounds を選択すると、予測された動作の上限/下限しきい値がグラフに表示されます。

ストーリーのアーカイブ

アーカイブするには、ストーリーの右上にあるフォルダーアイコンを使用します。アーカイブをすると、ホームページのような Datadog アプリケーションやフィードからストーリーを隠します。ストーリーはアーカイブされると、関連するサービスやリソースの横に、Watchdog の黄色い双眼鏡アイコンは表示されません。

アーカイブされたストーリーを閲覧するには、左上の「Show N archived stories」オプションにチェックマークを入れます。ストーリーをアーカイブした人物や時間を確認したり、フィードに戻すこともできます。

: アーカイブ後であっても、Watchdog はサービスやリソースに関連する問題にフラグを立てます。

依存関係マップ

あるサービスで異常検知が発動すると、たいていは関連するサービスでも同様の異常が検知されます。たとえば、あるサービスのデータベースクエリが制限された場合、その下流サービスのレイテンシーは上昇します。これは 2 つの切り離された問題としてではなく、単一の根本原因から派生した 1 つの問題として捉えて解決策を練る必要があります。

Watchdog は、複数のサービスに影響する問題を検出すると、関連する APM の異常を自動的に 1 つのストーリーにグループ化します。ストーリーには、問題が発生したサービスと影響を受けたダウンストリームの依存関係を示す依存関係マップが含まれます。 これにより、問題の影響を可視化し、問題の原因への迅速なパスを提供し、解決に進むことができます。

関連ダッシュボード

詳細調査を迅速に行うために、Datadog ではストーリーに関連するダッシュボードを活用することを推奨しています。この場合、Datadog はダッシュボード内のどのメトリクスがストーリーのインサイトに関連しているかを表示します。

モニター

ストーリーに間連付けされたモニターが下側に表示されます。表示されるモニターにはそれぞれ、現在のストーリーのメトリクスとそのスコープに含まれる関連タグがあります。

さらに、Watchdog は1つ以上のモニターをストーリーが再度発生した際トリガーするように構成することを推奨します。Enable Monitorボタンをクリックして、オーガニゼーションのために有効にします。Watchdog モニターの作成の詳細は、Watchdog モニターに関するドキュメントを参照してください。

ストーリーを絞り込む

Watchdog ストーリーの絞り込みには、タイムレンジ、検索バー、ファセットを使用できます。

タイムレンジ

右上のタイムレンジセレクターを使用して、指定したタイムレンジのストーリーを表示します。2019 年 3 月まで遡り、過去 13 か月までのストーリを表示できます

検索バー

Filter stories 検索ボックスに入力すると、ストーリーのタイトルを検索できます。

ファセット

ファセットは Watchdog ストーリーに関連付けられているため、次を用いて検索できます。

ファセット説明
ストーリーカテゴリすべての apm または infrastructure ストーリーを表示。
ストーリータイプAPM またはインフラストラクチャーインテグレーションストーリーからのどのメトリクスを表示すべきか。
APM 環境表示するストーリーのある APM 環境
APM プライマリタグ表示するストーリーのある定義済み APM プライマリタグ
APM サービス表示するストーリーのある APM サービス

サービス一覧画面内の Watchdog

メトリクスに異常が検出された場合、APM サービス一覧では、その異常が発生しているサービスの横に Watchdog の黄色い双眼鏡アイコンが表示されます。双眼鏡の横の数字は、Watchdog がそのサービス内で認識した問題の数を示しています。

特定のサービスで通常と異なる動作が検出された場合、対応するサービス詳細画面を開くと、ページの中央、アプリケーションパフォーマンスのグラフとレイテンシー分散セクションの間に、その異常に関する Watchdog セクションが表示されます。このセクションには、関連する「Watchdog ストーリー」が表示されます。

Watchdog とアラート

Watchdog RCA は、アプリケーションの異常を検出すると、ストーリーを作成し、トリガーされたユーザー定義のモニターにリンクします。Watchdog ストーリーは、トリガーされたモニターページの上部に直接表示されます。

トラブルシューティング

ご不明な点は、Datadog のサポートチームまでお問合せください。

その他の参考資料