ライブプロセスモニタリングのベストプラクティス

概要

ライブプロセス製品を使用すると、インフラストラクチャー全体の実行中のプロセス数を監視できます。ライブプロセスモニターは、コンテナ化されていないプロセスに可観測性を追加するのに最適です。

ライブプロセスモニターを使用すると、以下が可能になります。

  • 顧客にサービスを提供するのに十分なプロセスの複製があることを確認します。
  • 特定のプロセスが実行されている際のアラート。

不適切に構成されたモニターは、誤検出を引き起こしやすいです。このガイドでは、信頼性の高いライブプロセスモニターを作成するための推奨ベストプラクティスを説明します。モニター作成プロセスの詳細については、ライブプロセスモニターの作成を参照してください。

ベストプラクティス

モニターのスコープ

Datadog は、モニターのスコープを数千プロセス以下にすることを推奨します。テキスト検索は曖昧なので、タグはモニターのスコープを調整する最も正確な方法です。

ワークフローの例:

  1. Monitors > New Monitor > Live Process ページに移動します。

  2. by tags フィールドでモニターにタグを追加します。

    • 例えば、command:puma を使用して puma コマンドに関連するプロセスを監視します。
タグを使用してスコープされたライブプロセスモニター
  1. オプションで、by text フィールドに検索テキストを追加して、モニターのスコープを絞り込みます。以下の例では、コマンドラインが cluster worker に一致するプロセスのみが含まれます。
テキスト検索を使ってスコープされたライブプロセスモニター
  1. モニターのスコープがまだすべてのモニターグループで数千プロセスを超える場合、追加のタグを使用して複数のモニターに分割します。
    • 例えば、env タグを使って prodstaging 用の別々のモニターを作成できます。

時間枠の選択

評価ウィンドウを大きくするとレスポンスが遅くなったり、アラートを見逃したりするという誤解がありますが、モニターはどのクエリ評価間隔を選んでも継続的にデータを評価します。評価間隔は、異常が存在するかどうかを判断するために使用されるデータポイントの数を決定するだけです。

評価ウィンドウを大きくすることで、ある動作が一時的ではなく一貫して発生している場合にのみアラートされるようにすることができます。

  • 誤検出を避けるには、最小間隔を 5 分に設定してください。
  • モニターがクラウドプロバイダーのインテグレーションに由来するタグを使用する場合、15 分の最小間隔を設定してください。
  • アラートの遅延を避けるには、1 時間の最大間隔を設定してください。

その他のガイドラインについては、アラート過多による疲弊を防ぐためのベストプラクティスを参照してください。