- 重要な情報
- はじめに
- 用語集
- ガイド
- エージェント
- インテグレーション
- OpenTelemetry
- 開発者
- API
- CoScreen
- アプリ内
- Service Management
- インフラストラクチャー
- アプリケーションパフォーマンス
- 継続的インテグレーション
- ログ管理
- セキュリティ
- UX モニタリング
- 管理
Watchdog はシステムおよびアプリケーション上の異常をプロアクティブに探します。そして、異常の発生状況、他のシステムへの影響、根本原因などの情報が Watchdog アラートエクスプローラーに表示されます。
アラート概要カードには、以下の項目があります。
ongoing
(進行中)、resolved
(解決済み)、expired
(期限切れ) のいずれかになります (48 時間以上継続中の異常は expired
です)。アラート概要カードの任意の場所をクリックすると、アラートの詳細ペインが表示されます。
アラート概要カードの情報を繰り返すだけでなく、Overview タブには、以下のフィールドを 1 つ以上含めることができます。
さらに、Watchdog は異常が再発した際に通知するために作成可能な 1 つ以上のモニターを提案します。これらのモニターはまだ存在していないため、テーブルではその状態が suggested
として記載されています。Enable Monitor をクリックして、組織に提案されたモニターを有効にします。一連のアイコンがポップアップ表示され、新しいモニターを開く、編集する、複製する、ミュートする、または削除することができます。
Watchdog アラートフィードの絞り込みには、タイムレンジ、検索バー、ファセットを使用できます。
利用可能なファセット:
すべてのアラートグループ | 説明 |
---|---|
アラートカテゴリ | すべての apm 、infrastructure または logs アラートを表示。 |
アラートタイプ | APM やインフラストラクチャーインテグレーションのメトリクスを使用してアラートを選択します。 |
Alert Status | ステータス (ongoing (進行中)、resolved (解決済み)、expired (期限切れ)) に基づいてアラートを選択します。 |
APM プライマリタグ | 表示するアラートのある定義済み APM プライマリタグ。 |
環境 | 表示するアラートのある環境。env タグの詳細については、統合サービスタグ付けを参照してください。 |
サービス | 表示するアラートのあるサービス。service タグの詳細については、統合サービスタグ付けを参照してください。 |
End User Impacted | (要 RUM)。Watchdog が影響を受けるエンドユーザーを発見した場合。詳細については、影響分析を参照してください。 |
Root Cause | (要 APM)。Watchdog が異常または重大な障害の根本原因を発見した場合。詳細は根本原因分析を参照してください。 |
チーム | 影響を受けるサービスを担当するチーム。サービスカタログからリッチ化されます。 |
ログ異常の種類 | この種類のログ異常のみ表示します。サポートされている種類は、新しいログパターンと、既存のログパターンの増加です。 |
ログのソース | このソースからのログを含むアラートのみ表示します。 |
ログのステータス | このログステータスのログを含むアラートのみ表示します。 |
Watchdog アラートは、複数のアプリケーションとインフラストラクチャーのメトリクスをカバーしています。
取り込まれたログはインテークレベルで分析され、Watchdog が検出したパターンと environment
、service
、source
、status
タグについて集計を行います。
これらの集計されたログは、以下のような異常な動作がないかスキャンされます。
すべてのログ異常はログエクスプローラーにインサイトとして表示され、検索コンテキストとロールに適用された制限に一致します。
Watchdog が特に severe
(重大) と判断したログ異常は Watchdog アラートエクスプローラーに表示され、Watchdog ログモニター をセットアップすることでアラートを発することができます。
severe
(重大) な異常とは以下のように定義されます。
noise
スコアが低く設定されている (特定のサービスに対して過多なアラートを避けるため)。noise
スコアはサービスレベルで次のように計算されます。Watchdog は予想される動作のベースラインを確立するために、ある程度のデータが必要です。ログ異常に関しては、最低限必要な履歴は 24 時間です。 最低限の履歴が揃った後、Watchdog は異常を検出し始め、履歴が増えるほどに改善されます。最も良いパフォーマンスは 6 週間の履歴で得られます。
ログ異常検出を無効にするには、ログ管理パイプラインページに移動し、Log Anomalies トグルをクリックします。
Watchdog はすべてのサービスとリソースをスキャンして、以下のメトリクスに異常がないか調べます。
Watchdog はほとんど使われていないエンドポイントやサービスを除外することで、ノイズを減らし、少ないトラフィックにおける異常の検出を避けます。また、ヒットレートに異常があってもレイテンシーやエラーレートに影響がなければ、その異常は無視されます。
Watchdog は予想される動作のベースラインを確立するために、ある程度のデータが必要です。メトリクス異常に関しては、最低限必要な履歴は 2 週間です。 最低限の履歴が揃った後、Watchdog は異常を検出し始め、履歴が増えるほどに改善されます。最も良いパフォーマンスは 6 週間の履歴で得られます。
Watchdog は以下のインテグレーションからインフラストラクチャーメトリクスを調べます。
Watchdog は予想される動作のベースラインを確立するために、ある程度のデータが必要です。メトリクス異常に関しては、最低限必要な履歴は 2 週間です。 最低限の履歴が揃った後、Watchdog は異常を検出し始め、履歴が増えるほどに改善されます。最も良いパフォーマンスは 6 週間の履歴で得られます。
Watchdog は、モニターやダッシュボードと同じ季節性アルゴリズムを使用しています。他のメトリクスに異常がないか探したり、感度をカスタマイズするには、以下のアルゴリズムが利用可能です。
Watchdog アラートは、Datadog 内の 3 つの場所に表示されます。
Watchdog が APM メトリクスに異常を検出すると、APM サービスカタログの影響を受けるサービスの横にピンクの Watchdog 双眼鏡アイコンが表示されます。
Watchdog Insights カルーセルでサービス詳細画面のトップに移動すると、メトリクス異常の詳細を確認することができます。
Watchdog のアイコンは、メトリクスグラフにも表示されます。
双眼鏡のアイコンをクリックすると、詳細が書かれた Watchdog アラートのカードが表示されます。
Watchdog アラートをアーカイブするには、サイドパネルを開き、右上隅のフォルダアイコンをクリックします。アーカイブすると、アラートがエクスプローラーから非表示になり、Datadog の他の場所 (ホームページなど) からも非表示になります。アラートがアーカイブされると、関連するサービスやリソースの横にピンクの Watchdog 双眼鏡アイコンが表示されなくなります。
アーカイブされたアラートを見るには、Watchdog アラートエクスプローラーの左上の Show N archived alerts* のチェックボックスオプションを選択します。このオプションは、少なくとも 1 つのアラートがアーカイブされている場合にのみ利用可能です。また、各アラートを誰がいつアーカイブしたかを確認したり、アーカイブされたアラートをフィードに復元したりすることができます。
注: アーカイブ後であっても、Watchdog はサービスやリソースに関連する問題にフラグを立てます。