Datadog サービスカタログ

選択したサイト () ではサービスカタログは利用できません。

概要

Datadog サービスカタログは、組織内のすべてのサービスに関する重要な情報にアクセスするための一元的な場所です。大規模なエンドツーエンドのサービスオーナシップの実現、リアルタイムのパフォーマンスインサイトの取得、信頼性とセキュリティリスクの検出と対処、アプリケーションの依存関係の管理などをすべて 1 箇所で行うことができます。Slack などのチームコミュニケーションツール、GitHub などのソース管理、Datadog ダッシュボード、各サービスのテレメトリーデータを受信して監視する Datadog ビューにアクセスできます。

APM サービスリストと比較して、サービスカタログには、トレースメトリクスを積極的に送信しないサービスが含まれています。これは、サービスを表示するためのインスツルメンテーションが必要ないことを意味します。また、サービスカタログには、USM と RUM により検出されたサービスも自動的に含まれます。サービスカタログは 1 時間の振り返り時間をサポートしています。サービスカタログに APM サービスが表示されていない場合、直近の 1 時間でアクティブなトレースメトリクスを送信していなかった可能性が高いです。APM サービスリストでは、これらのサービスを引き続き確認できます。

サービスカタログは、以下のような場合に有効です。

  • すべてのサービス、その構造、詳細情報へのリンクをわかりやすく表示することで、新しい開発者やサイトの信頼性エンジニアを育成する。
  • 正しい所有者情報とコミュニケーションチャンネルを確立し、モニタリングとトラブルシューティングの詳細へのアクセスを容易にすることで、すべての人のオンコール経験を向上させる。
  • エンジニアが既に使用している可観測性ツールに、ランブックやドキュメントなどのソリューションやトラブルシューティングツールへのリンクを直接埋め込む。
  • 信頼性を高め、上流と下流のサービスや依存関係の所有者を簡単に特定することで、インシデントの復旧をスピードアップする。
  • 可観測性データを報告していないサービスや、そのデータを監視していないサービスを検出する。
  • テレメトリー間のインサイトを最適化するために、良いタグ付けの実践を促進する。
  • エンジニアリングリーダーシップに、チームやサービス全体の信頼性プラクティスの概要を提供する。
  • SLO、モニター、オーナーシップのないサービスなどの問題を発見する。
  • アプリケーション攻撃にさらされるサービスをプロアクティブに特定します。
  • サービスの依存関係の中に存在する既知のセキュリティ脆弱性を見つけて修正することで、アプリケーションのリスクを低減する。

サービスカタログの閲覧

サービスカタログページでは、収集したデータから検出された、または誰かがサービスを登録して手動で宣言した Datadog 組織内のサービスの一覧を見ることができます。特定のサービスを見つけるには、その名前で検索します。リストをフィルターするには、1 つまたは複数のファセットを選択します。例えば、まだサービス定義がない検出されたサービスを見るには、Ownership Info > Telemetry Only ファセットをクリックします。リスト内の一致するサービスのみを表示するために、チーム名でフィルターをかけたり、表示されるメトリクスを特定の環境やクラスターにスコープすると便利な場合があります。

サービスカタログのリストは、サービスタイプ、サービス名、および他の多くの列でソート可能です。Ownership ビューでチームごとにソートし、空白を探すことで、所有権の欠落を見つけることができます。また、Reliability ビューで緊急度別にソートして、最もトリガーされたモニターがあるサービスを見ることができます。

サービス定義や可観測性データを収集する Datadog 製品によって提供されるサービスに関する情報は、Ownership、Reliability、Performance、Security のビューに整理されます。

Ownership ビュー

Ownership タブでは、ContactRepo 列のアイコンをクリックすると、サービス定義で指定されたツールやプロジェクトに移動することができます。例えば、所有するチームの Slack チャンネルや、サービスコードを含む GitHub リポジトリにアクセスすることができます。

Telemetry 列には、Datadog がサービスに対して収集しているテレメトリーデータの種類が表示されます。アイコンをクリックすると、対応する Datadog 製品のビューに誘導されます。例えば、Agent は Datadog にトレースを送信し、Traces アイコンをクリックすると APM でそれらを表示することができます。

Team または On Call の列で表を並べ替えると、各チームがどのサービスを担当しているかがわかり、所有権と責任がまだ特定されていないサービスを特定できます。

Reliability ビュー

Reliability タブには、サービスの安定性に関する情報が表示されます。リスト内の列をクリックして表をソートすると、以下のことがわかります。

  • 最近デプロイされたサービス、または長い間デプロイされていないサービスはどれか。
  • どのサービスでエラーが多く報告されているか、またそれが新しい問題であるかどうか。
  • どのサービスでインシデントが発生しているか。
  • どのサービスがトリガーされるモニターを持っているか。

右側の設定アイコンをクリックすると、サービスリストから列を非表示にすることができます。

Performance ビュー

Performance タブでは、サービスのパフォーマンスや最も注意を払う必要があるものを表示する方法がいくつか用意されています。

環境のドロップダウンはフィルターとして機能します。例えば、env:prod を選択すると、直近 1 時間に env:prod にパフォーマンスデータ (APM/USM テレメトリー) があるサービスだけがリストに表示されます。env:* を選択すると、サービスがテレメトリーを発するすべての環境を一目で確認でき、展開すると環境ごとの詳細なパフォーマンスメトリクスを見ることができます。 2 つ目のドロップダウンでは、Performance ビューにある APM データを、APM のトレースメトリクスsecond primary tag に再スコープすることができます。このドロップダウンは、リストに表示されるサービスの数には影響しません。

env:* でフィルターされ、クラスター名でスコープされたパフォーマンスビュー:*

列をクリックして表をソートすると、以下のことがわかります。

  • 最近デプロイされたサービス、または長い間デプロイされていないサービス
  • 1 秒間に最も多くのリクエストを受信している、またはトラフィックを受信していないサービス
  • 様々なパーセンタイルで最も高いレイテンシーを持つサービス
  • 最も高いエラー数またはエラー率を持っているサービス
  • 最も多くのポッド、ホスト、またはサーバーレス環境上で動作しているサービス
  • 関連するダッシュボードがあるサービス。関連するダッシュボードでは、より多くのパフォーマンスデータの内訳を確認でき、サービス定義にダッシュボードを追加する必要があるものを特定することができます
  • Apdex スコアが最高または最低であるサービス
  • トリガーされるモニターを持つサービス

右側の設定アイコンをクリックすると、リストからメトリクス列を非表示にすることができます。

Security ビュー

Security* タブでは、サービスのセキュリティポスチャを評価し、改善するためのいくつかの方法が用意されています。これには、オープンソースライブラリに存在する既知のセキュリティ脆弱性の数と重大度を理解する方法や、サービスが攻撃者からどのように狙われているかを確認する方法が含まれます。列をクリックして表をソートすると、以下のことがわかります。

  • 既知のセキュリティ脆弱性を示しているサービス (個別の重大性を含む)。
  • 攻撃を最も多く受けているサービス。
  • 最も多くの攻撃者に狙われているサービス。
  • 最も重大な脅威があるサービスで、サービスが攻撃によって影響を受ける。
  • Application Security Management によって監視され、保護されているサービス

セキュリティ脆弱性とシグナルの詳細な説明にアクセスするには、該当サービスの行をクリックして、詳細サイドパネルを開きます。あるいは、ポップオーバー表示された View Service Details ボタンをクリックして、サービス詳細画面のセキュリティタブを開きます。

右側の設定アイコンをクリックすると、サービスリストからメトリクス列を非表示にすることができます。

サービスを調査する

サービスをクリックすると、サイドパネルが開き、以下のような詳細が表示されます。

  • チームの連絡先、ソースコード、ドキュメントやダッシュボードなどの補足情報へのリンクなど、サービス定義にある所有権情報

  • デプロイステータス、SLO、進行中のインシデント、エラー情報などの信頼性情報

  • リクエスト、エラー、レイテンシー、ダウンストリームサービスが費やした時間を示すパフォーマンスグラフ

  • サービスのライブラリに存在する既知の脆弱性、攻撃の時期や種類、攻撃者の特定、サービスに影響を及ぼすセキュリティの脅威、ライブラリタブからソフトウェア部品表 (SBOM) をダウンロードする機能などのセキュリティ情報

    サービスカタログから個々のサービスを表示し、ライブラリタブと SBOM のダウンロード機能をハイライト
  • サービスのデータを収集できる Datadog 製品の構成の完全性ステータス

  • YAML によるサービス定義と、そのサービスのソースコードへのリンク。

  • このサービスの上流と下流にあるサービスを表示するインタラクティブなサービスマップ。

View Related をクリックし、ドロップダウンメニューからページを選択すると、APM サービスページやこのサービスのサービスマップなど、Datadog の関連ページ、または分散型トレーシング、インフラストラクチャー、ネットワークパフォーマンス、ログ管理、RUM、Continuous Profiler などの関連テレメトリーデータページにナビゲートします。

ロールベースアクセスおよび権限

一般的な情報は、ロールベースアクセスコントロールおよびロール権限を参照してください。

読み取り権限

サービスカタログの読み取り権限により、サービスカタログのデータを読み取ることができ、以下の機能が有効になります。

  • サービスカタログ一覧
  • Discover UI
  • サービス定義エンドポイント: /api/v2/services/definition/<service_name>

この権限は、Datadog Read Only Role および Datadog Standard Role でデフォルトで有効になっています。

書き込み権限

サービスカタログの書き込み権限は、ユーザーがサービスカタログのデータを変更することを許可します。書き込み権限は、以下の機能に対して必要です。

  • POST /api/v2/services/definitions エンドポイントを使ったサービス定義の挿入または更新
  • DELETE /api/v2/services/definition/<service_name> エンドポイントを使ったサービス定義の削除
  • Discover Services UI でオンボーディングプロセスを完了する

この権限は、Datadog Admin Role および Datadog Standard Role でデフォルトで有効になっています。

その他の参考資料