- 重要な情報
- はじめに
- 用語集
- ガイド
- エージェント
- インテグレーション
- OpenTelemetry
- 開発者
- API
- CoScreen
- アプリ内
- Service Management
- インフラストラクチャー
- アプリケーションパフォーマンス
- 継続的インテグレーション
- ログ管理
- セキュリティ
- UX モニタリング
- 管理
インシデントの調査には、試行錯誤が必要です。特定の分野に精通したエンジニアは、その経験をもとに、まずどこに潜在的な問題があるのかを知っています。Watchdog Insights を使うことで、経験の浅いエンジニアも含め、すべてのエンジニアが最も重要なデータに注意を払い、インシデント調査を加速させることができます。
Datadog の大半を通して、Watchdog は以下の 2 種類のインサイトを返します。
Watchdog Insights のカルーセルは、以下の製品ページの上部付近にあります。
カルーセルを展開すると、概要が表示されます。最も優先度の高いインサイト (Insight type
、State
、Status
、Start time
、Anomaly type
に基づく) が左側に表示されます。
View all をクリックするとパネルが展開されます。右側からサイドパネルが開き、Watchdog Insights の垂直リストが表示されます。各エントリには詳細表示があり、サマリーカードより多くの情報が表示されます。
すべての外れ値には、インタラクションが埋め込まれ、トラブルシューティング情報が記載されたサイドパネルが付属しています。各インサイトのインタラクションとサイドパネルは、Watchdog Insights タイプによって異なります。
現在のビューを Watchdog Insight に合わせて絞り込むには、インサイトサマリーカードの右上隅にカーソルを合わせます。2 つのアイコンが表示されます。ツールチップ Filter on Insight が表示された逆三角形のアイコンをクリックします。ページが更新され、そのインサイトに対応するエントリーのリストが表示されます。
特定の外れ値を共有するには、インサイトパネルでその外れ値をクリックし、詳細サイドパネルを開きます。詳細パネルの上部にある Copy Link ボタンをクリックします。
外れ値へのリンクは、基礎となるデータの保持期間とともに失効します。たとえば、外れ値の構築に使用されるログが 15 日間保持される場合、外れ値へのリンクは、ログとともに 15 日後に失効します。
エラー外れ値は、現在のクエリに一致するエラーの特性を含むファセットタグまたは属性などのフィールドを表示します。エラー間で統計的に過大評価されている key:value
ペアは、問題の根本原因へのヒントになります。
典型的なエラー外れ値の例として、env:staging
、docker_image:acme:3.1
、http.useragent_details.browser.family:curl
が挙げられます。
バナーカードビューでは、次のことがわかります。
フルサイドパネルビューでは、次のことがわかります。
APM の外れ値は、Watchdog Insights カルーセルが利用可能なすべての APM ページで利用できます。
エラー外れ値は、現在のクエリに一致するエラーの特性を含むタグなどのフィールドを表示します。エラー間で統計的に過大評価されている key:value
ペアは、問題の根本原因へのヒントになります。
典型的なエラー外れ値には、env:staging
、availability_zone:us-east-1a
、cluster_name:chinook
、version:v123456
などがあります。
バナーカードビューでは、次のことがわかります。
フルサイドパネルビューでは、次のことがわかります。
レイテンシー外れ値は、現在の検索クエリに一致する、パフォーマンスのボトルネックに関連付けられているタグなどのフィールドを表示します。ベースラインよりもパフォーマンスが悪い key:value
ペアは、APM スパンのサブセット間のパフォーマンスのボトルネックへのヒントになります。
レイテンシー外れ値は、スパン期間に対して計算されます。
バナーカードビューでは、次のことがわかります。
フルサイドパネルでは、タグとベースラインのレイテンシー分布グラフを見ることができます。X 軸には p50
、p75
、p99
、max
の増分と、フィールドを含む APM イベントのリストが表示されます。
バナーカードビューでは、次のことがわかります。
フルサイドパネルでは、ロック競合を解消する方法を確認できます。
バナーカードビューでは、次のことがわかります。
フルサイドパネルでは、ガベージコレクションをより適切に構成して CPU 時間を解放する方法を確認できます。
バナーカードビューでは、次のことがわかります。
フルサイドパネルでは、正規表現のコンパイル時間を改善する方法や、コード内で改善できる関数の例を確認できます。
Database Monitoring では、Watchdog は以下のメトリクスに関するインサイトを表面化します。
CPU
Commits
IO
Background
Concurrency
Idle
インサイトカルーセルを使用して、1 つまたは複数の外れ値の影響を受けたデータベースを発見します。
そして、データベースにオーバーレイが設定され、さまざまなインサイトをハイライトするピンクの錠剤が表示され、何が起こったかを詳細に確認することができます。
エラー外れ値は、現在の検索クエリに一致するエラーの特徴を含むファセット化されたタグまたは属性のようなフィールドを表示します。エラーの中で統計的に多く出現する key:value
のペアは、問題の根本的な原因を探るヒントを与えてくれます。エラーの外れ値の典型的な例としては、env:staging
や version:1234
、browser.name:Chrome
などがあります。
バナーカードビューでは、次のことがわかります。
フルサイドパネルでは、そのフィールドを含む RUM エラーの総数に関する時系列グラフと、影響度を示す円グラフおよびそのフィールドを含む RUM イベントのリストが表示されます。
レイテンシー外れ値は、現在の検索クエリに一致する、パフォーマンスのボトルネックに関連付けられているファセットタグまたは属性などのフィールドを表示します。ベースラインよりもパフォーマンスが悪い key:value
ペアは、実際のユーザーのサブセット間のパフォーマンスのボトルネックへのヒントになります。
レイテンシー外れ値は、First Contentful Paint、First Input Delay、Cumulative Layout Shift などの Core Web Vitals、および Loading Time に対して計算されます。詳しくは、ページのパフォーマンスの監視をご覧ください。
バナーカードビューでは、次のことがわかります。
フルサイドパネルでは、パフォーマンスメトリクスに関する時系列グラフが表示されます。X 軸には p50
、p75
、p99
、max
の増分と、フィールドを含む RUM イベントのリストが表示されます。
サーバーレスインフラストラクチャーに対して、Watchdog は以下のようなインサイトを提示します。
Cold Start Ratio Up/Down
Error Invocation Ratio Up/Down
Memory Usage Up/Down
OOM Ratio Up/Down
Estimated Cost Up/Down
Init Duration Up/Down
Runtime Duration Up/Down
インサイトカルーセルを使用して、1 つまたは複数の外れ値の影響を受けたサーバーレス関数を発見します。
そして、関数にオーバーレイが設定され、ピンクのハイライトがさまざまなインサイトを強調し、何が起こったかについての詳細情報を提供します。
プロセスエクスプローラーの場合、Watchdog インサイトカルーセルには、プロセスエクスプローラーの現在のコンテキストのすべてのプロセスの異常が反映されます。
Kubernetes エクスプローラーの場合、Watchdog インサイトカルーセルには、Kubernetes エクスプローラーの現在のコンテキストのすべての Kubernetes の異常が反映されます。