APM Investigator

プレビューへのアクセスをリクエスト!

APM Investigator はプレビュー版です。アクセスをリクエストするには、Datadog サポートにお問い合わせください。

概要

APM Investigator は、ガイド付きのステップ バイ ステップ ワークフローによってアプリケーションのレイテンシー問題を診断・解決するのに役立ちます。分析ツールを 1 つのインターフェイスに統合し、根本原因を特定して対応できます。

APM Investigator の UI

主な機能

APM Investigator では、次のことが可能です:

  • 遅いリクエスト クラスターを調査: レイテンシー スキャッター プロットから問題のあるリクエストを直接選択します。
  • レイテンシーの発生源を特定: レイテンシーが自サービス、ダウンストリーム 依存関係、データベース、サード パーティ API のどこから発生しているかを判定します。
  • 範囲を絞り込む: タグ分析 を使用して、特定のデータ センター、クラスター、ユーザー セグメントに問題を絞り込みます。
  • 根本原因を発見: 不具合のあるデプロイ、データベース遅延、サード パーティ サービスの障害、インフラストラクチャーの問題、サービス レベルの問題を検出します。

調査の開始

APM サービス ページまたはリソース ページから調査を開始します。

  1. レイテンシー問題を示しているサービスに移動します。
  2. 異常を示す Latency グラフを見つけます。
  3. グラフにカーソルを合わせて Investigate をクリックします。これで調査用のサイド パネルが開きます。
APM Investigator のエントリポイント

調査ワークフロー

コンテキストを定義: 遅いスパンと正常なスパンを選択

レイテンシー分析を開始するには、ポイント プロットで 2 つのゾーンを選択します:

  • Slow: 問題のある遅いスパン
  • Normal: ベースラインとなる正常なスパン
Watchdog が検出したレイテンシー異常はあらかじめ選択されています。
ポイント プロットでの遅いスパンの選択

この遅いスパンと正常なスパンの比較により、その後のすべての分析が実行されます。

ステップ 1: レイテンシーのボトルネックを特定

インベスティゲーターは、レイテンシーが自サービスか、そのダウンストリーム 依存関係 (サービス、データベース、サード パーティ API) のどこから発生しているかを識別します。

分析アプローチ: インベスティゲーターは、選択した遅い期間と正常な期間のトレース データを比較します。レイテンシー増加の原因となったサービスを特定するため、次の 2 点を比較します:

実行時間: それぞれのサービスの「self‑time」(ダウンストリーム 依存関係の待機時間を除いた自己処理時間) を 2 つのデータ セット間で比較します。最も絶対的にレイテンシーが増加したサービスが主な注目対象となります。

  • サービス間の呼び出しパターン: サービス間のリクエスト数の変化を解析します。たとえば、サービス Y からダウンストリーム サービス X への呼び出しが大幅に増加している場合、インベスティゲーターは Y をボトルネックと判断する可能性があります。

この総合的な分析に基づき、インベスティゲーターはレイテンシー ボトルネックとなり得るサービスを推奨します。ボトルネック セクションを展開すると、遅いトレースと正常なトレースの比較詳細を確認できます。テーブルには、サービスごとの self‑time の変化とインバウンド リクエスト数の変化が表示されます。

次の例は、遅いトレースと正常なトレースを並べて比較する 2 つのフレーム グラフを示しています。矢印で例示トレースを切り替え、View をクリックするとフル ページ ビューでトレースを開けます。

レイテンシー ボトルネック セクション

サービスの最近の変更を調査するには、行にカーソルを合わせたときに表示される + アイコンをクリックし、調査のコンテキストとして追加します。

ステップ 2: 最近の変更と相関付け

インベスティゲーターは、サービスまたはレイテンシー ボトルネック サービスでの最近のデプロイがレイテンシー増加を引き起こしたかどうかを判断するのに役立ちます。

Recent changes セクションには次が表示されます:

  • 変更トラッキング ウィジェットで、レイテンシー スパイクのタイムライン付近に発生したデプロイ
  • バージョン別に分解されたレイテンシー グラフ
最近の変更

分析アプローチ: APM Investigator は、このデータをバックグラウンドで解析し、レイテンシー増加のタイミングでデプロイが発生している場合に、このセクションを確認すべきかどうかをフラグ付けします。

ステップ 3: Tag Analysis で共通パターンを発見

インベスティゲーターは、タグ分析 を活用して、遅いトレースと正常なトレースを区別する共通属性を見つけるのにも役立ちます。Tag Analysis は、遅いデータ セットと正常なデータ セットの間で分布が大きく異なるディメンションをハイライトします。

遅いトレースに共通するパターン

このセクションでは次が表示されます:

  • すべてのスパン ディメンションにわたる、遅いデータ セットと正常なデータ セットのタグ分布
  • org_id, kubernetes_cluster, datacenter.name など、レイテンシー問題の理解に役立つ可能性が高い、最も判別力の高いディメンションのハイライト

APM Investigator は、ディメンションに顕著な差が見られる場合にのみ、このセクションを表示します。

エンド ユーザーへの影響

ポイント プロットの上部には、問題の影響を受けたエンド ユーザー数、アカウント、およびアプリケーション ページ (例: /checkout) のプレビューが表示されます。この情報は、RUM とトレース の接続を有効にしている場合に収集されます。

エンド ユーザーへの影響

根本原因

インベスティゲーターは、すべての分析ステップ (レイテンシー ボトルネック、最近の変更、タグ分析) の結果を統合し、根本原因の仮説を生成します。例: 「このダウンストリーム サービスのデプロイによりレイテンシーが増加した」。

APM Investigator は、トレースと変更データを自動解析して、問題の診断と対応を迅速化し、Mean Time to Resolution (MTTR) を短縮するのに役立ちます。

参考資料

お役に立つドキュメント、リンクや記事: