- 重要な情報
- はじめに
- 用語集
- ガイド
- エージェント
- インテグレーション
- OpenTelemetry
- 開発者
- API
- CoScreen
- アプリ内
- Service Management
- インフラストラクチャー
- アプリケーションパフォーマンス
- 継続的インテグレーション
- ログ管理
- セキュリティ
- UX モニタリング
- 管理
Watchdog Root Cause Analysis (RCA) は、インシデントのトリアージにおける予備調査を自動化することにより、平均復旧時間 (MTTR) の短縮を支援します。Watchdog の AI エンジンは、アプリケーションパフォーマンスの異常と関連するコンポーネント間の相互依存性を識別し、症状間の因果関係を導き出します。Watchdog は APM の異常を見つけると、その異常の原因や影響についてより深い洞察を得るために根本原因の分析を開始します。
Watchdog RCA は APM を使用する必要があります。Watchdog が影響を受けるサービスに対して、関連する全ての Datadog テレメトリーをフルに活用するために、Datadog は統合タグ付けを設定することを推奨しています。
Watchdog RCA は、分析に際して以下のデータソースを考慮します。
Watchdog Root Cause Analysis には、根本原因、重大な障害、影響という 3 つの要素が含まれます。
根本原因とは、アプリケーションのパフォーマンス問題につながる状態の変化のことです。考えられる状態の変化には、インフラストラクチャーの可用性の違い、トラフィックの急増、またはコードのデプロイが含まれます。
Watchdog は、4 種類の根本原因をサポートしています。
Watchdog は、レイテンシーの増加や新たなエラーなど、アプリケーションパフォーマンスの低下をインシデントの根本原因として分類することはありません。Datadog では、アプリケーションパフォーマンスの低下という初期症状を、以下に示すように重大な障害と呼んでいます。
Critical Failure セクションでは、根本原因が最初に (そして最も直接的に) アプリケーションパフォーマンスの低下を引き起こす場所と方法を強調します。重大な障害には、常にレイテンシーまたはエラー率の増加が含まれます。
Watchdog RCA は、根本原因によって間接的に影響を受けるサービスも特定します。Impact にリストされたパフォーマンスの低下は、重大な障害が解決されれば回復すると予想されます。RUM ユーザーの場合、Watchdog はどのビューパスとユーザーがパフォーマンス異常の影響を受けたかも自動的に評価します。
お役に立つドキュメント、リンクや記事: