Watchdog
Dash が新機能を発表!インシデントマネジメント、Continuous Profiler など多数の機能が追加されました! Dash イベントで発表された新機能!

Watchdog

概要

Watchdog は、アプリケーションやインフラストラクチャーの潜在的な問題を自動的に検出する APM パファーマンスおよびインフラストラクチャーメトリクスのアルゴリズム機能です。Watchdog は以下の傾向やパターンを監視します。

Watchdog は、適合率の急激な上昇などといったメトリクスの異常を検出します。Watchdog ページには、それぞれの異常に関する「Watchdog ストーリー」が表示されます。各「ストーリー」には、検出されたメトリクスの異常を表すグラフが含まれ、関連する時間枠およびエンドポイントに関する詳細が表示されます。誤警報を避けるために、Watchdog は十分な時間をかけてデータを観察してから問題を報告しています。これにより、信頼度の高い警報を実現しています。

ストーリーの詳細

ストーリーをクリックすると、検出された異常に関する詳細が表示されます。

このストーリーでは、3 つの異なるアベイラビリティーゾーンにおける ELB のレイテンシー値がグラフに示されています。Watchdog は、3 つのアベイラビリティーゾーンで有効になっている単一の負荷分散からこのメトリクス内の類似の異常検知を検出し、結果を 1 つのストーリーとして自動的にまとめます。低レイテンシーの継続後、3 つの全てのアベイラビリティーゾーンでメトリクスが急上昇したことがわかります (グラフでは、領域に異常検知の期間が強調表示されています)。

予測される範囲

右上の Show expected bounds を選択すると、予測された動作の上限/下限しきい値がグラフに表示されます。

アーカイブされたストーリー

アーカイブするには、ストーリーの右上にあるフォルダーアイコンを使用します。アーカイブをすると、ホームページのような Datadog アプリケーションやフィードからストーリーを隠します。ストーリーはアーカイブされると、関連するサービスやリソースの横に、Watchdog の黄色い双眼鏡アイコンは表示されません。

アーカイブされたストーリーを閲覧するには、左上の「Show N archived stories」オプションにチェックマークを入れます。ストーリーをアーカイブした人物や時間を確認したり、フィードに戻すこともできます。

: アーカイブ後であっても、Watchdog はサービスやリソースに関連する問題にフラグを立てます。

依存関係マップ

あるサービスで異常検知が発動すると、たいていは関連するサービスでも同様の異常が検知されます。たとえば、あるサービスのデータベースクエリが制限された場合、その下流サービスのレイテンシーは上昇します。これは 2 つの切り離された問題としてではなく、単一の根本原因から派生した 1 つの問題として捉えて解決策を練る必要があります。

Watchdog は複数のサービスに影響する問題が検知された場合に、関連する APM の異常検知を単一のストーリーに自動でグループ化してこのようなトラブルシューティングをサポートします。このストーリーには、そもそもの問題が発生したサービスと、そこから影響を受けた下流の依存関係を示す依存関係マップが含まれています。マップを活用することで問題のインパクトを迅速に把握し、根本原因を解明するためのインサイトを得ることができます。

以下のスクリーンショットは、問題の概要から始まり、異常検知を捉えたグラフを示す Watchdog のストーリーです。この下の依存関係マップに、問題の完全なスコープが描写されます。問題は ad-server-http-client サービスに起因し、その下流サービスである web-storeweb-store-mongo に影響しています。依存関係マップの下には影響を受けたサービスの一覧表とヒット率、レイテンシー、エラー率のメトリクスが表示されます。この場合、表内のデータは下流サービスのレイテンシーが上昇したことを示しています。

関連ダッシュボード

詳細調査を迅速に行うために、Datadog ではストーリーに関連するダッシュボードを活用することを推奨しています。この場合、Datadog はダッシュボード内のどのメトリクスがストーリーのインサイトに関連しているかを表示します。

モニター

ストーリーに間連付けされたモニターが下側に表示されます。表示されるモニターにはそれぞれ、現在のストーリーのメトリクスとそのスコープに含まれる関連タグがあります。

さらに、Watchdog は1つ以上のモニターをストーリーが再度発生した際トリガーするように構成することを推奨します。Enable Monitorボタンをクリックして、オーガニゼーションのために有効にします。Watchdog モニターの作成の詳細は、Watchdog モニターに関するドキュメントを参照してください。

ストーリーを絞り込む

Watchdog ストーリーの絞り込みには、タイムレンジ、検索バー、ファセットを使用できます。

タイムレンジ

右上のタイムレンジセレクターを使用して、指定したタイムレンジのストーリーを表示します。2019 年 3 月まで遡り、過去 13 か月までのストーリを表示できます

検索バー

Filter stories 検索ボックスに入力すると、ストーリーのタイトルを検索できます。

ファセット

ファセットは Watchdog ストーリーに関連付けられているため、次を用いて検索できます。

ファセット説明
ストーリーカテゴリすべての apm または infrastructure ストーリーを表示。
ストーリータイプAPM またはインフラストラクチャーインテグレーションストーリーからのどのメトリクスを表示すべきか。
APM 環境表示するストーリーのある APM 環境
APM プライマリタグ表示するストーリーのある定義済み APM プライマリタグ
APM サービス表示するストーリーのある APM サービス

サービス一覧画面内の Watchdog

メトリクスに異常が検出された場合、APM サービス一覧では、その異常が発生しているサービスの横に Watchdog の黄色い双眼鏡アイコンが表示されます。双眼鏡の横の数字は、Watchdog がそのサービス内で認識した問題の数を示しています。

特定のサービスで通常と異なる動作が検出された場合、対応するサービス詳細画面を開くと、ページの中央、アプリケーションパフォーマンスのグラフとレイテンシー分散セクションの間に、その異常に関する Watchdog セクションが表示されます。このセクションには、関連する「Watchdog ストーリー」が表示されます。

その他の参考資料