Watchdog Insights

概要

インシデントの調査には、試行錯誤が必要です。特定の分野に精通したエンジニアは、その経験をもとに、まずどこに潜在的な問題があるのかを知っています。Watchdog Insights を使うことで、経験の浅いエンジニアも含め、すべてのエンジニアが最も重要なデータに注意を払い、インシデント調査を加速させることができます。

Datadog の大半を通して、Watchdog は以下の 2 種類のインサイトを返します。

  • 異常: Watchdog が組織のデータをスキャンして見つけた、アクティブな検索クエリに一致するすべての事前計算された Watchdog アラートWatchdog アラートエクスプローラーで全リストにアクセスできます。
  • Outliers: Tags that appear too frequently in some event types (for example, errors) or drive some continuous metrics upwards (for example, latency). Outliers are dynamically calculated on the data matching the active query and the time frame.
Watchdog Insights のバナーと 5 つのログ異常が表示されたログエクスプローラー

インサイトの確認

Watchdog Insights のカルーセルは、以下の製品ページの上部付近にあります。

カルーセルを展開すると、概要が表示されます。最も優先度の高いインサイト (Insight typeStateStatusStart timeAnomaly type に基づく) が左側に表示されます。

ログエクスプローラーの Watchdog Insights カルーセルには、Web ストアサービスの新しいエラーログ、商品レコメンドサービスのエラーログの急増、商品レコメンドサービスのエラーログの別の急増の 3 つの異常が表示されています

View all をクリックするとパネルが展開されます。右側からサイドパネルが開き、Watchdog Insights の垂直リストが表示されます。各エントリには詳細表示があり、サマリーカードより多くの情報が表示されます。

すべての外れ値には、インタラクションが埋め込まれ、トラブルシューティング情報が記載されたサイドパネルが付属しています。各インサイトのインタラクションとサイドパネルは、Watchdog Insights タイプによって異なります。

Filter on Insight クエリ

To refine your current view to match a Watchdog Insight, hover over the top right corner of an Insight summary card. Two icons appear. Click on the inverted triangle icon with the tooltip Filter on Insight. The page refreshes to show a list of entries corresponding to the insight. Note: Filtering on Watchdog Insights automatically changes the scope you’re looking at. As a result, if you select an outlier insight, it is no longer visible, as it is treated as the baseline.

インサイトコンテキストでのエクスプローラーのフィルター

Share an outlier

To share a given outlier, click on it in the insight panel to open the details side panel. Click the Copy Link button at the top of the details panel:

Outlier side panel showing how to copy the link

The link to the outlier expires with the retention of the underlying data. For instance, if the logs used to build the outlier are retained for 15 days, the link to the outlier expires with the logs after 15 days.

Explore graph insights with Watchdog explains

Filter out the offending tag, in this case researcher-query, to compare the original against what the graph would look like without the offending tag
Datadog collects various types of data to provide insights into application performance, including metrics, traces, and logs, which tell you what, how, and why something is happening. Watchdog Explains analyzes high-level trends such as latency, error rates, or request count evolution to detect critical signals. Upon observing a spike in these graphs, Watchdog Explains helps you investigate the immediate questions:

  • What is the source of the spike?
  • Does this anomaly affect everyone or is an isolated incident?

For more information, see the Watchdog Explains documentation.

外れ値タイプ

エラー外れ値

エラー外れ値は、現在のクエリに一致するエラーの特性を含むファセットタグまたは属性などのフィールドを表示します。エラー間で統計的に過大評価されている key:value ペアは、問題の根本原因へのヒントになります。

典型的なエラー外れ値の例として、env:stagingdocker_image:acme:3.1http.useragent_details.browser.family:curl が挙げられます。

バナーカードビューでは、次のことがわかります。

  • フィールド名
  • フィールドが寄与するエラーと全体的なログの割合
エラー全体の 73.3% を占める赤いバーと、8.31% を占める青いバーを示すエラー外れ値カード

フルサイドパネルビューでは、次のことがわかります。

  • フィールドを含むエラーログの時系列
  • エラーログに関連付けられることが多いタグ
  • ログパターンの包括的なリスト
エラー外れ値サイドパネル

APM の外れ値は、Watchdog Insights カルーセルが利用可能なすべての APM ページで利用できます。

エラー外れ値

エラー外れ値は、現在のクエリに一致するエラーの特性を含むタグなどのフィールドを表示します。エラー間で統計的に過大評価されている key:value ペアは、問題の根本原因へのヒントになります。

典型的なエラー外れ値には、env:stagingavailability_zone:us-east-1acluster_name:chinookversion:v123456 などがあります。

バナーカードビューでは、次のことがわかります。

  • フィールド名
  • フィールドが寄与するエラーと全体的なトレースの割合
エラー全体の 24.2% を占める赤いバーと、12.1% を占める青いバーを示すエラー外れ値カード

フルサイドパネルビューでは、次のことがわかります。

  • フィールドを含むエラートレースの時系列
  • エラートレースに関連付けられることが多いタグ
  • 関連するエラー追跡の問題と失敗スパンの包括的なリスト
エラー外れ値サイドパネル

レイテンシー外れ値

レイテンシー外れ値は、現在の検索クエリに一致する、パフォーマンスのボトルネックに関連付けられているタグなどのフィールドを表示します。ベースラインよりもパフォーマンスが悪い key:value ペアは、APM スパンのサブセット間のパフォーマンスのボトルネックへのヒントになります。

レイテンシー外れ値は、スパン期間に対して計算されます。

バナーカードビューでは、次のことがわかります。

  • フィールド名

  • タグを含むスパンのレイテンシー分布と残りのデータのベースライン

  • 外れ値タグの対象レイテンシー値のパーセンタイルと、残りのデータのベースラインとの差

    Latency Outlier banner card

フルサイドパネルでは、タグとベースラインのレイテンシー分布グラフを見ることができます。X 軸には p50p75p99max の増分と、フィールドを含む APM イベントのリストが表示されます。

レイテンシー外れ値フルサイドパネルビュー

Lock contention outlier

バナーカードビューでは、次のことがわかります。

  • 影響を受けるサービスの名前
  • 影響を受けるスレッドの数
  • 潜在的な CPU の節約 (および推定コスト節約)
Profiling insight on Lock Contention

In the full side panel, you can see instructions on how to resolve the lock contention:

Side panel with all the information on how to address the Lock Contention outlier

ガベージコレクション外れ値

バナーカードビューでは、次のことがわかります。

  • 影響を受けるサービスの名前
  • The amount of CPU time used to perform garbage collection
ガベージコレクションに関するプロファイリングのインサイト

フルサイドパネルでは、ガベージコレクションをより適切に構成して CPU 時間を解放する方法を確認できます。

Side panel with all the information on how to address the Garbage Collection outlier

正規表現コンパイル外れ値

バナーカードビューでは、次のことがわかります。

  • 影響を受けるサービスの名前
  • The amount of CPU time spent on compiling regexes
正規表現コンパイルに関するプロファイリングのインサイト

フルサイドパネルでは、正規表現のコンパイル時間を改善する方法や、コード内で改善できる関数の例を確認できます。

Side panel with all the information on how to address the Regex Compilation outlier

Database Monitoring では、Watchdog は以下のメトリクスに関するインサイトを表面化します。

  • CPU
  • Commits
  • IO
  • Background
  • Concurrency
  • Idle

インサイトカルーセルを使用して、1 つまたは複数の外れ値の影響を受けたデータベースを発見します。

インサイトでデータベースをフィルターするカルーセル

そして、データベースにオーバーレイが設定され、さまざまなインサイトをハイライトするピンクの錠剤が表示され、何が起こったかを詳細に確認することができます。

Watchdog インサイトがデータベースにオーバーレイされ、何が起きているのかがハイライトされています

エラー外れ値

エラー外れ値は、現在の検索クエリに一致するエラーの特徴を含むファセット化されたタグまたは属性のようなフィールドを表示します。エラーの中で統計的に多く出現する key:value のペアは、問題の根本的な原因を探るヒントを与えてくれます。エラーの外れ値の典型的な例としては、env:stagingversion:1234browser.name:Chrome などがあります。

バナーカードビューでは、次のことがわかります。

  • フィールド名
  • フィールドが寄与する総エラーと全体的な RUM イベントの割合
  • 関連タグ

フルサイドパネルでは、そのフィールドを含む RUM エラーの総数に関する時系列グラフと、影響度を示す円グラフおよびそのフィールドを含む RUM イベントのリストが表示されます。

エラー外れ値フルサイドパネル

レイテンシー外れ値

レイテンシー外れ値は、現在の検索クエリに一致する、パフォーマンスのボトルネックに関連付けられているファセットタグまたは属性などのフィールドを表示します。ベースラインよりもパフォーマンスが悪い key:value ペアは、実際のユーザーのサブセット間のパフォーマンスのボトルネックへのヒントになります。

レイテンシー外れ値は、First Contentful Paint、First Input Delay、Cumulative Layout Shift などの Core Web Vitals、および Loading Time に対して計算されます。詳しくは、ページのパフォーマンスの監視をご覧ください。

バナーカードビューでは、次のことがわかります。

  • フィールド名
  • フィールドと残りのデータのベースラインを含むパフォーマンスメトリクス値

フルサイドパネルでは、パフォーマンスメトリクスに関する時系列グラフが表示されます。X 軸には p50p75p99max の増分と、フィールドを含む RUM イベントのリストが表示されます。

レイテンシー外れ値フルサイドパネルビュー

サーバーレスインフラストラクチャーに対して、Watchdog は以下のようなインサイトを提示します。

  • Cold Start Ratio Up/Down
  • Error Invocation Ratio Up/Down
  • Memory Usage Up/Down
  • OOM Ratio Up/Down
  • Estimated Cost Up/Down
  • Init Duration Up/Down
  • Runtime Duration Up/Down

インサイトカルーセルを使用して、1 つまたは複数の外れ値の影響を受けたサーバーレス関数を発見します。

インサイトでサーバーレス関数をフィルターするファセット

An overlay is then set on the function, with pink pills highlighting the different insights and giving more information about what happened.

Watchdog インサイトが関数にオーバーレイされ、何が起きているのかがハイライトされています

For Process Explorer, the Watchdog Insight carousel reflects all Process anomalies for the current context of the Process Explorer.

Kubernetes エクスプローラーの場合、Watchdog インサイトカルーセルには、Kubernetes エクスプローラーの現在のコンテキストのすべての Kubernetes の異常が反映されます。

参考資料