メトリクスモニター

概要

メトリクスモニターは連続的なデータのストリームに役立ちます。Datadog に送信されるメトリクスのいずれかが、一定の期間にしきい値から外れると、アラートを送信します。

Datadog でメトリクスモニターを作成するには、メインナビゲーションを使用して次のように移動します: Monitors –> New Monitor –> Metric

検出方法を選択します。

しきい値アラートは、メトリクス値を静的なしきい値と比較します。

アラートの評価では、Datadog が選択された期間の平均、最小、最大、合計の値を計算し、しきい値を上回って (または下回って) いるかどうかをチェックします。予期値がわかっている場合に使用される標準的なアラート向けです。ディストリビューションメトリクスは、選択期間におけるパーセンタイル計算の追加閾値オプションを提供します。

変化アラートは、N 分前の値と現在の値との絶対変化量または相対変化量を指定のしきい値と比較します。比較されるデータポイントは、単一ポイントではなく、define the metric セクションのパラメーターを使用して計算された値です。

アラートの評価には、現在の系列と N 分前の系列の差分 (正または負の値) を計算し、その値の選択された期間における平均、最小、最大、合計を計算します。その結果、系列がしきい値から外れる場合にアラートがトリガーされます。

このタイプのアラートは、しきい値を常に予測できる場合に、メトリクスのスパイク、ドロップ、あるいは緩やかな変化を追跡するのに役立ちます。

異常検知アラートは、過去の動作を使用して、メトリクスの異常な動作を検知します。

異常検知アラートは、過去の値を基に、系列に対して予期される値の範囲を計算します。異常検知アルゴリズムには、予期される範囲を時刻や曜日を使用して判断し、シンプルなしきい値アラートでは検知できない異常の検知を行うものがあります。たとえば、午前 10 時なら正常であっても、午前 5 時なら異常に高いと判断される系列を検知できます。

アラートの評価には、予期される範囲の内、外、上、下にある系列の割合を計算します。この割合がしきい値から外れる場合にアラートがトリガーされます。

詳細については、異常検知モニターのページを参照してください。

外れ値モニターは、グループの他のメンバー (ホスト、アベイラビリティーゾーン、パーティションなど) と比較して動作が異常であるメンバーを検知します。

アラートの評価では、すべてのグループが一緒にクラスター化され、同じ動作を示しているかをチェックします。1 つ以上のグループの動作が他のグループと異なる場合にアラートがトリガーされます。

詳細については、外れ値モニターのページを参照してください。

予測値アラートは、メトリクスの今後の動作を予測し、それを静的なしきい値と比較します。強い傾向や繰り返しパターンがあるメトリクスに適しています。

アラートの評価では、偏差の範囲を考慮してメトリクスの今後の値を予測します。この範囲のいずれかの部分がしきい値から外れる場合にアラートがトリガーされます。

詳細については、予測値モニターのページを参照してください。

メトリクスを定義する

Datadog に報告する任意のメトリクスは、モニターに利用できます。エディタと以下のステップを使用して、メトリクスを定義します。クエリ・パラメーターは、選択した検出方法に基づいて若干変化します。

手順必須デフォルト
メトリクスの選択なしsystem.cpu.user
from を定義するすべての場所env:prod
メトリクス集計を指定するavg bysum by
グループ化すべての条件host
アラートグループを設定するSimple AlertMulti Alert
モニタークエリの集計を指定するaveragesum
評価ウィンドウ5 minutes1 day

定義

オプション説明
平均系列の平均値が算出され、単一の値が生成されます。この値がしきい値と比較されます。このオプションは、モニタークエリに avg() 関数を追加します。
最大生成された系列で、どれか一つの値がしきい値を超えたら、アラートがトリガーされます。これは、max() 関数をモニタークエリに追加します。
最小クエリの評価ウィンドウ内のすべてのポイントがしきい値を超えたら、アラートがトリガーされます。これは、min() 関数をモニタークエリに追加します。
合計系列内のすべてのポイントの合計値がしきい値から外れている場合に、アラートがトリガーされます。このオプションは、モニタークエリに sum() 関数を追加します。
percentile(pXX)クエリの評価ウィンドウ内のポイントの pXX パーセンテージがしきい値から外れている場合に、アラートがトリガーされます。このオプションは、比較方法の選択に基づいて、モニタークエリに percentile 関数を追加します。ディストリビューションメトリクスタイプにのみ利用可能です。
アラートのグループ化Simple Alert を使用する場合、モニターはすべてのレポートソースを集計します。Multi Alert を使用する場合、モニターはグループパラメーターに従って、各報告ソースにアラートを適用します。詳細については、アラートのグループ化を参照してください。
評価ウィンドウモニターが評価する時間帯を指定します。5 minutes15 minutes1 hourcustom といったプリセットされた時間枠を使用して、1 分~730 時間 (1 ヶ月) の間で設定します。
手順必須デフォルト
メトリクスの選択なしsystem.cpu.user
from を定義するすべての場所env:prod
メトリクス集計を指定するavg bysum by
グループ化すべての条件host
アラートグループを設定するSimple AlertMulti Alert
モニタークエリの集計を指定するaveragesum
変更タイプを選択するchange% change
評価ウィンドウ5 minutes1 day
比較ウィンドウ5 minutes1 month

定義

オプション説明
change値の絶対変化量です。
% change過去の値と比較した値の変化率です。たとえば、過去の値が 2 で現在の値が 4 の場合、% change は 100% になります。
平均系列の平均値が算出され、単一の値が生成されます。この値がしきい値と比較されます。このオプションは、モニタークエリに avg() 関数を追加します。
最大生成された系列で、どれか一つの値がしきい値を超えたら、アラートがトリガーされます。これは、max() 関数をモニタークエリに追加します。
最小クエリの評価ウィンドウ内のすべてのポイントがしきい値を超えたら、アラートがトリガーされます。これは、min() 関数をモニタークエリに追加します。
合計系列内のすべてのポイントの合計値がしきい値から外れている場合に、アラートがトリガーされます。このオプションは、モニタークエリに sum() 関数を追加します。
percentile(pXX)クエリの評価ウィンドウ内のポイントの pXX パーセンテージがしきい値から外れている場合に、アラートがトリガーされます。このオプションは、比較方法の選択に基づいて、モニタークエリに percentile 関数を追加します。ディストリビューションメトリクスタイプにのみ利用可能です。
アラートのグループ化Simple Alert を使用する場合、モニターはすべてのレポートソースを集計します。Multi Alert を使用する場合、モニターはグループパラメーターに従って、各報告ソースにアラートを適用します。詳細については、アラートのグループ化を参照してください。
評価ウィンドウモニターが評価する時間帯を指定します。5 minutes15 minutes1 hourcustom といったプリセットされた時間枠を使用して、1 分~730 時間 (1 ヶ月) の間で設定します。

注:

  • パーセンタイル集計でディストリビューションメトリックを使用する場合、一致するパーセンタイルしきい値が自動的に指定されます。
  • モニターを作成するメトリクスの定義は、グラフを作成するメトリクスの定義と似ています。Advanced... オプションの使用について詳しくは、高度なグラフの作成を参照してください。
  • as_count() を使用する場合は動作が異なります。詳しくは、モニター評価での as_count() を参照してください。

アラートのグループ化

アラートは、メトリクスを定義する際に group by の手順で選択したグループに応じて自動的にグループ化されます。グループを設定していない場合は、デフォルトで Simple Alert (シンプルアラート) でグループ化されます。グループを選択している場合は、デフォルトで Multi Alert (マルチアラート) でグループ化されます。

シンプルアラートでは、すべての報告元ソースが集計され、その集計値が設定された条件を満たすと、アラートが 1 つ送信されます。これは単一のホストから送られるメトリクスをモニターする場合や、多数のホスト全体でメトリクスを合計してモニターする場合に最も適しています。

グループパラメーターに従い、複数のアラートが各ソースに適用されます。各グループで設定された条件を満たすと、アラートが送信されます。たとえば、system.disk.in_usehost および device でグループ化すると、容量不足のデバイスに対してアラートを個別に送信できます。 メトリクスが device タグを伴わない host のみで報告する場合、モニターグループにより hostdevice の両方で検出されません。複数アラートで評価される各グループにはタグ変数を利用でき、便利なコンテキストで通知を動的に入力します。

アラートの条件を設定する

メトリクスが above (上)、above or equal to (上または等しい)、below (下)、または below or equal to (下または等しい) の場合にトリガーします。値が 0 から 1 の間の場合、先行ゼロが必要です。例: 0.3

しきい値

しきい値には、アラートをトリガーする数値を設定します。メトリクスに何を選ぶかによって、エディターに表示される単位 (bytekibibytegibibyte など) が変わります。

Datadog には、アラートと警告の 2 種類の通知があります。モニターのリカバリはアラートや警告のしきい値に基づいて自動的に行われますが、条件を追加することもできます。リカバリのしきい値について詳しくは、リカバリのしきい値とはを参照してください。

オプション説明
アラートのしきい値アラートの通知のトリガーに使用される値
警告のしきい値警告の通知のトリガーに使用される値
アラートのリカバリのしきい値アラートのリカバリに対する追加条件を示すしきい値 (任意)
警告のリカバリのしきい値警告のリカバリに対する追加条件を示すしきい値 (任意)

しきい値を変更すると、エディター内でプレビューグラフにカットオフポイントを示すマーカーが表示されます。

メモ: しきい値を小数で入力する際、値が <1 の場合は先頭に 0 を付けます。たとえば、.5 ではなく 0.5 としてください。

高度なアラート条件

Data window

評価の際に、データウィンドウが一杯であることを判断するかどうかを Require または Do not require で指定できます。

この設定では、モニターを評価するタイミングをアラートエンジンが判断する方法を変更できます。

Do not require (デフォルト): モニターは認識されるとすぐに評価されます。データポイントがまばらである可能性がある場合は、この値の使用を検討します。このコンフィギュレーションでは、評価タイムフレームに単一のデータポイントがある場合でも、モニターが評価されます。

Require: 評価ウィンドウがデータで filled (いっぱい) と見なされるまで、モニターは評価されません。評価期間全体にわたってデータがある場合に通知を受けるには、このオプションを使用します。

評価タイムフレームがデータで filled (いっぱい) かどうかを定義するために、タイムフレームはより小さなバケットに分割されます。

次のロジックがバケットサイズを決定します。

  • 分単位の評価タイムフレーム: バケットサイズは 1 分です
  • 時間単位の評価タイムフレーム: バケットサイズは 10 分です
  • 日単位の評価タイムフレーム: バケットサイズは 1 時間です
  • 月単位の評価タイムフレーム: バケットサイズは 4 時間です

「ウィンドウがいっぱい」と見なされるには、モニターに次のものが必要です。

  1. 最初のバケットに少なくとも 1 つのデータポイント。最初のバケットは、ウィンドウで時系列的に一番早いバケットです。
  2. データポイントのない合計で最大 3 つのバケット (最初のバケットを含む)。

条件が満たされると、モニターが評価されます。それ以外の場合、評価はキャンセルされ、モニターの状態は変更されません。

たとえば、過去 2h にわたって評価するモニターは、10 分の 12 個のバケットに分割されます。最初のバケットにデータがあり、合計で最大 3 つのバケットが空の場合、モニターはいっぱいであると見なされます。

データB0B1B2B3B4B5B6B7B8B9B10B11ウィンドウはいっぱい?
ケース 1111111111111
ケース 2x11111111111
ケース 311xxx1111111
ケース 41xxx1111xx11

その他のオプション

高度なアラートオプション (データなし、自動解決など) の詳細な手順については、モニターコンフィギュレーションページを参照してください。

通知

Say what’s happeningNotify your team のセクションに関する詳しい説明は、通知 のページを参照してください。

その他の参考資料