Watchdog Insights

概要

インシデントの調査には、試行錯誤が必要です。特定の分野に精通したエンジニアは、その経験をもとに、まずどこに潜在的な問題があるのかを知っています。Watchdog Insights を使うことで、経験の浅いエンジニアも含め、すべてのエンジニアが最も重要なデータに注意を払い、インシデント調査を加速させることができます。

Datadog の大半を通して、Watchdog は以下の 2 種類のインサイトを返します。

  • 異常: Watchdog が組織のデータをスキャンして見つけた、アクティブな検索クエリに一致するすべての事前計算された Watchdog アラートWatchdog アラートエクスプローラーで全リストにアクセスできます。
  • 外れ値: アクティブなクエリに一致する製品データで計算される外れ値は、いくつかのイベントタイプ (エラーなど) であまりにも頻繁に出現するタグや、いくつかの連続メトリクス (レイテンシーなど) を上昇させるタグを表面化します。
Watchdog Insights のバナーと 5 つのログ異常が表示されたログエクスプローラー

インサイトの確認

Watchdog Insights のカルーセルは、以下の製品ページの上部付近にあります。

カルーセルを展開すると、概要が表示されます。最も優先度の高いインサイト (Insight typeStateStatusStart timeAnomaly type に基づく) が左側に表示されます。

ログエクスプローラーの Watchdog Insights カルーセルには、Web ストアサービスの新しいエラーログ、商品レコメンドサービスのエラーログの急増、商品レコメンドサービスのエラーログの別の急増の 3 つの異常が表示されています

View all をクリックするとパネルが展開されます。右側からサイドパネルが開き、Watchdog Insights の垂直リストが表示されます。各エントリには詳細表示があり、サマリーカードより多くの情報が表示されます。

すべての外れ値には、インタラクションが埋め込まれ、トラブルシューティング情報が記載されたサイドパネルが付属しています。各インサイトのインタラクションとサイドパネルは、Watchdog Insights タイプによって異なります。

Filter on Insight クエリ

現在のビューを Watchdog Insight に合わせて絞り込むには、インサイトサマリーカードの右上隅にカーソルを合わせます。2 つのアイコンが表示されます。ツールチップ Filter on Insight が表示された逆三角形のアイコンをクリックします。ページが更新され、そのインサイトに対応するエントリーのリストが表示されます。

インサイトコンテキストでのエクスプローラーのフィルター

外れ値の共有

特定の外れ値を共有するには、インサイトパネルでその外れ値をクリックし、詳細サイドパネルを開きます。詳細パネルの上部にある Copy Link ボタンをクリックします。

リンクのコピー方法が表示された外れ値のサイドパネル

外れ値へのリンクは、基礎となるデータの保持期間とともに失効します。たとえば、外れ値の構築に使用されるログが 15 日間保持される場合、外れ値へのリンクは、ログとともに 15 日後に失効します。

外れ値タイプ

エラー外れ値

エラー外れ値は、現在のクエリに一致するエラーの特性を含むファセットタグまたは属性などのフィールドを表示します。エラー間で統計的に過大評価されている key:value ペアは、問題の根本原因へのヒントになります。

典型的なエラー外れ値の例として、env:stagingdocker_image:acme:3.1http.useragent_details.browser.family:curl が挙げられます。

バナーカードビューでは、次のことがわかります。

  • フィールド名
  • フィールドが寄与するエラーと全体的なログの割合
エラー全体の 73.3% を占める赤いバーと、8.31% を占める青いバーを示すエラー外れ値カード

フルサイドパネルビューでは、次のことがわかります。

  • フィールドを含むエラーログの時系列
  • エラーログに関連付けられることが多いタグ
  • ログパターンの包括的なリスト
エラー外れ値サイドパネル

APM の外れ値は、Watchdog Insights カルーセルが利用可能なすべての APM ページで利用できます。

エラー外れ値

エラー外れ値は、現在のクエリに一致するエラーの特性を含むタグなどのフィールドを表示します。エラー間で統計的に過大評価されている key:value ペアは、問題の根本原因へのヒントになります。

典型的なエラー外れ値には、env:stagingavailability_zone:us-east-1acluster_name:chinookversion:v123456 などがあります。

バナーカードビューでは、次のことがわかります。

  • フィールド名
  • フィールドが寄与するエラーと全体的なトレースの割合
エラー全体の 24.2% を占める赤いバーと、12.1% を占める青いバーを示すエラー外れ値カード

フルサイドパネルビューでは、次のことがわかります。

  • フィールドを含むエラートレースの時系列
  • エラートレースに関連付けられることが多いタグ
  • 関連するエラー追跡の問題と失敗スパンの包括的なリスト
エラー外れ値サイドパネル

レイテンシー外れ値

レイテンシー外れ値は、現在の検索クエリに一致する、パフォーマンスのボトルネックに関連付けられているタグなどのフィールドを表示します。ベースラインよりもパフォーマンスが悪い key:value ペアは、APM スパンのサブセット間のパフォーマンスのボトルネックへのヒントになります。

レイテンシー外れ値は、スパン期間に対して計算されます。

バナーカードビューでは、次のことがわかります。

  • フィールド名
  • タグを含むスパンのレイテンシー分布と残りのデータのベースライン
  • 外れ値タグの対象レイテンシー値のパーセンタイルと、残りのデータのベースラインとの差
レイテンシー外れ値バナーカード

フルサイドパネルでは、タグとベースラインのレイテンシー分布グラフを見ることができます。X 軸には p50p75p99max の増分と、フィールドを含む APM イベントのリストが表示されます。

レイテンシー外れ値フルサイドパネルビュー

ロック競合外れ値

バナーカードビューでは、次のことがわかります。

  • 影響を受けるサービスの名前
  • 影響を受けるスレッドの数
  • 潜在的な CPU の節約 (および推定コスト節約)
ロック競合に関するプロファイリングのインサイト

フルサイドパネルでは、ロック競合を解消する方法を確認できます。

ロック競合外れ値への対処方法に関するすべての情報が記載されたサイドパネル

ガベージコレクション外れ値

バナーカードビューでは、次のことがわかります。

  • 影響を受けるサービスの名前
  • ガベージコレクションの実行に使用される CPU 時間
ガベージコレクションに関するプロファイリングのインサイト

フルサイドパネルでは、ガベージコレクションをより適切に構成して CPU 時間を解放する方法を確認できます。

ガベージコレクション外れ値への対処方法に関するすべての情報が記載されたサイドパネル

正規表現コンパイル外れ値

バナーカードビューでは、次のことがわかります。

  • 影響を受けるサービスの名前
  • 正規表現のコンパイルに使用される CPU 時間
正規表現コンパイルに関するプロファイリングのインサイト

フルサイドパネルでは、正規表現のコンパイル時間を改善する方法や、コード内で改善できる関数の例を確認できます。

正規表現コンパイル外れ値への対処方法に関するすべての情報が記載されたサイドパネル

Database Monitoring では、Watchdog は以下のメトリクスに関するインサイトを表面化します。

  • CPU
  • Commits
  • IO
  • Background
  • Concurrency
  • Idle

インサイトカルーセルを使用して、1 つまたは複数の外れ値の影響を受けたデータベースを発見します。

インサイトでデータベースをフィルターするカルーセル

そして、データベースにオーバーレイが設定され、さまざまなインサイトをハイライトするピンクの錠剤が表示され、何が起こったかを詳細に確認することができます。

Watchdog インサイトがデータベースにオーバーレイされ、何が起きているのかがハイライトされています

エラー外れ値

エラー外れ値は、現在の検索クエリに一致するエラーの特徴を含むファセット化されたタグまたは属性のようなフィールドを表示します。エラーの中で統計的に多く出現する key:value のペアは、問題の根本的な原因を探るヒントを与えてくれます。エラーの外れ値の典型的な例としては、env:stagingversion:1234browser.name:Chrome などがあります。

バナーカードビューでは、次のことがわかります。

  • フィールド名
  • フィールドが寄与する総エラーと全体的な RUM イベントの割合
  • 関連タグ

フルサイドパネルでは、そのフィールドを含む RUM エラーの総数に関する時系列グラフと、影響度を示す円グラフおよびそのフィールドを含む RUM イベントのリストが表示されます。

エラー外れ値フルサイドパネル

レイテンシー外れ値

レイテンシー外れ値は、現在の検索クエリに一致する、パフォーマンスのボトルネックに関連付けられているファセットタグまたは属性などのフィールドを表示します。ベースラインよりもパフォーマンスが悪い key:value ペアは、実際のユーザーのサブセット間のパフォーマンスのボトルネックへのヒントになります。

レイテンシー外れ値は、First Contentful Paint、First Input Delay、Cumulative Layout Shift などの Core Web Vitals、および Loading Time に対して計算されます。詳しくは、ページのパフォーマンスの監視をご覧ください。

バナーカードビューでは、次のことがわかります。

  • フィールド名
  • フィールドと残りのデータのベースラインを含むパフォーマンスメトリクス値

フルサイドパネルでは、パフォーマンスメトリクスに関する時系列グラフが表示されます。X 軸には p50p75p99max の増分と、フィールドを含む RUM イベントのリストが表示されます。

レイテンシー外れ値フルサイドパネルビュー

サーバーレスインフラストラクチャーに対して、Watchdog は以下のようなインサイトを提示します。

  • Cold Start Ratio Up/Down
  • Error Invocation Ratio Up/Down
  • Memory Usage Up/Down
  • OOM Ratio Up/Down
  • Estimated Cost Up/Down
  • Init Duration Up/Down
  • Runtime Duration Up/Down

インサイトカルーセルを使用して、1 つまたは複数の外れ値の影響を受けたサーバーレス関数を発見します。

インサイトでサーバーレス関数をフィルターするファセット

そして、関数にオーバーレイが設定され、ピンクのハイライトがさまざまなインサイトを強調し、何が起こったかについての詳細情報を提供します。

Watchdog インサイトが関数にオーバーレイされ、何が起きているのかがハイライトされています

プロセスエクスプローラーの場合、Watchdog インサイトカルーセルには、プロセスエクスプローラーの現在のコンテキストのすべてのプロセスの異常が反映されます。

Kubernetes エクスプローラーの場合、Watchdog インサイトカルーセルには、Kubernetes エクスプローラーの現在のコンテキストのすべての Kubernetes の異常が反映されます。

参考資料