メトリクスモニター

概要

メトリクスモニターは連続的なデータのストリームに役立ちます。Datadog に送信されるメトリクスのいずれかが、一定の期間にしきい値から外れると、アラートを送信します。

Datadog でメトリクスモニターを作成するには、Monitors > New Monitor に移動し、Metric モニタータイプを選択します。

検出方法を選択します。

しきい値アラートは、メトリクス値を静的なしきい値と比較します。

各アラートの評価時に、Datadog は選択した期間の平均値、最小値、最大値、または合計値を算出し、それがしきい値を上回っているか、下回っているか、等しいか、等しくないかをチェックします。これは予想される値が明確な標準的なアラートケース向けです。distribution メトリクス型 では、選択した期間のパーセンタイルを計算する追加のしきい値オプションが利用できます。

詳細はアラートの条件を設定するセクションを参照してください。

変化アラートは、N 分前の値と現在の値との絶対変化量または相対変化量を指定のしきい値と比較します。比較されるデータポイントは、単一ポイントではなく、define the metric セクションのパラメーターを使用して計算された値です。

アラートの評価には、現在の系列と N 分前の系列の差分 (正または負の値) を計算し、その値の選択された期間における平均、最小、最大、合計を計算します。その結果、系列がしきい値から外れる場合にアラートがトリガーされます。

このタイプのアラートは、しきい値を常に予測できる場合に、メトリクスのスパイク、ドロップ、あるいは緩やかな変化を追跡するのに役立ちます。

詳細は変化アラートモニターガイドを参照してください。

異常検出アラートは、過去の動作を使用して、メトリクスの異常な動作を検出します。

異常検出アラートは、過去の値を基に、系列に対して予期される値の範囲を計算します。異常検出アルゴリズムには、予期される範囲を時刻や曜日を使用して判断し、シンプルなしきい値アラートでは検出できない異常の検出を行うものがあります。たとえば、午前 10 時なら正常であっても、午前 5 時なら異常に高いと判断される系列を検出できます。

アラートの評価には、予期される範囲の内、外、上、下にある系列の割合を計算します。この割合がしきい値から外れる場合にアラートがトリガーされます。

詳細は異常検知モニターページを参照してください。

外れ値モニターは、グループの他のメンバー (ホスト、アベイラビリティーゾーン、パーティションなど) と比較して動作が異常であるメンバーを検出します。

アラートの評価では、すべてのグループが一緒にクラスター化され、同じ動作を示しているかをチェックします。1 つ以上のグループの動作が他のグループと異なる場合にアラートがトリガーされます。

詳細は外れ値モニターページを参照してください。

予測値アラートは、メトリクスの今後の動作を予測し、それを静的なしきい値と比較します。強い傾向や繰り返しパターンがあるメトリクスに適しています。

アラートの評価では、偏差の範囲を考慮してメトリクスの今後の値を予測します。この範囲のいずれかの部分がしきい値から外れる場合にアラートがトリガーされます。

詳細は予測値モニターページを参照してください。

メトリクスを定義する

Datadog に報告する任意のメトリクスは、モニターに利用できます。エディタと以下のステップを使用して、メトリクスを定義します。クエリパラメーターは、選択した検出方法に基づいて若干変化します。

しきい値検知用メトリクスモニターのメトリクスを定義する
手順必須デフォルト
メトリクスの選択はいなしsystem.cpu.user
from を定義するいいえすべての場所env:prod
メトリクス集計を指定するはいavg bysum by
グループ化いいえすべての条件host
モニタークエリの集計を指定するいいえaveragesum
評価ウィンドウいいえ5 minutes1 day

定義

オプション説明
平均系列の平均値が算出され、単一の値が生成されます。この値がしきい値と比較されます。このオプションは、モニタークエリに avg() 関数を追加します。
最大生成された系列で、どれか一つの値がしきい値を超えたら、アラートがトリガーされます。これは、max() 関数をモニタークエリに追加します。しきい値のその他の挙動については、「注」セクションを参照してください。
最小クエリの評価ウィンドウ内のすべてのポイントがしきい値を超えたら、アラートがトリガーされます。これは、min() 関数をモニタークエリに追加します。しきい値のその他の挙動については、「注」セクションを参照してください。
合計系列内のすべてのポイントの合計値がしきい値から外れている場合に、アラートがトリガーされます。このオプションは、モニタークエリに sum() 関数を追加します。
percentile(pXX)クエリの評価ウィンドウ内のポイントの pXX パーセンテージがしきい値から外れている場合に、アラートがトリガーされます。このオプションは、比較方法の選択に基づいて、モニタークエリに percentile 関数を追加します。ディストリビューションメトリクスタイプにのみ利用可能です。
評価ウィンドウモニターが評価する時間帯を指定します。5 minutes15 minutes1 hourcustom といったプリセットされた時間枠を使用して、1 分~730 時間 (1 ヶ月) の間で設定します。
変化検知用メトリクスモニターのメトリクスを定義する
手順必須デフォルト
メトリクスの選択はいなしsystem.cpu.user
from を定義するいいえすべての場所env:prod
メトリクス集計を指定するいいえavg bysum by
グループ化いいえすべての条件host
モニタークエリの集計を指定するいいえaveragesum
変更タイプを選択するいいえchange% change
評価ウィンドウいいえ5 minutes1 day
比較ウィンドウいいえ5 minutes1 month

定義

オプション説明
変化値の絶対変化量です。
% change過去の値と比較した値の変化率です。たとえば、過去の値が 2 で現在の値が 4 の場合、% change は 100% になります。
平均系列の平均値が算出され、単一の値が生成されます。この値がしきい値と比較されます。このオプションは、モニタークエリに avg() 関数を追加します。
最大生成された系列で、どれか一つの値がしきい値を超えたら、アラートがトリガーされます。これは、max() 関数をモニタークエリに追加します。しきい値のその他の挙動については、「注」セクションを参照してください。
最小クエリの評価ウィンドウ内のすべてのポイントがしきい値を超えたら、アラートがトリガーされます。これは、min() 関数をモニタークエリに追加します。しきい値のその他の挙動については、「注」セクションを参照してください。
合計系列内のすべてのポイントの合計値がしきい値から外れている場合に、アラートがトリガーされます。このオプションは、モニタークエリに sum() 関数を追加します。
percentile(pXX)クエリの評価ウィンドウ内のポイントの pXX パーセンテージがしきい値から外れている場合に、アラートがトリガーされます。このオプションは、比較方法の選択に基づいて、モニタークエリに percentile 関数を追加します。ディストリビューションメトリクスタイプにのみ利用可能です。
評価ウィンドウモニターが評価する時間帯を指定します。5 minutes15 minutes1 hourcustom といったプリセットされた時間枠を使用して、1 分~730 時間 (1 ヶ月) の間で設定します。

注:

  • パーセンタイルアグリゲータを使用する distribution メトリクスの場合、対応するパーセンタイルしきい値が自動的に指定されます。パーセンタイルアグリゲータを使用しているメトリクスは、通知メッセージ内にスナップショットグラフを生成しません。
  • max/min: これらの max と min の説明は、メトリクスがしきい値を上回ったときにモニターがアラートすることを想定しています。しきい値を下回ったときにアラートするモニターでは、max と min の動作は逆になります。
  • モニターを作成するメトリクスの定義は、グラフを作成するメトリクスの定義と似ています。Advanced... オプションの使用について詳しくは、高度なグラフの作成を参照してください。
  • as_count() を使用する場合は動作が異なります。詳しくは、モニター評価での as_count() を参照してください。
  • N/A グループはモニターに含まれないため、タグキーには値が必要です。

アラートの条件を設定する

メトリクスが以下のいずれかの場合にトリガーします:

  • above
  • above or equal to
  • below
  • below or equal to
  • equal to
  • not equal to

値が 0 と 1 の間にある場合、先頭に 0 が必要です (例: 0.3)。

高度なアラート条件

データウィンドウ

評価の際に、データウィンドウが一杯であることを判断するかどうかを Require または Do not require で指定できます。

この設定では、モニターを評価するタイミングをアラートエンジンが判断する方法を変更できます。

Do not require (デフォルト): モニターは認識されるとすぐに評価されます。データポイントがまばらである可能性がある場合は、この値の使用を検討します。この構成では、評価タイムフレームに単一のデータポイントがある場合でも、モニターが評価されます。

Require: 評価ウィンドウがデータで filled (満たされている) と見なされるまで、モニターは評価されません。評価期間全体にわたってデータがある場合に通知を受けるには、このオプションを使用します。

評価タイムフレームがデータで filled (満たされている) かどうかを定義するために、タイムフレームはより小さなバケットに分割されます。

次のロジックがバケットサイズを決定します。

  • 分単位の評価タイムフレーム: バケットサイズは 1 分です
  • 時間単位の評価タイムフレーム: バケットサイズは 10 分です
  • 日単位の評価タイムフレーム: バケットサイズは 1 時間です
  • 月単位の評価タイムフレーム: バケットサイズは 4 時間です

「フルウィンドウ」と見なされるには、モニターに次のものが必要です。

  1. 最初のバケットに少なくとも 1 つのデータポイント。最初のバケットは、ウィンドウで時系列的に一番早いバケットです。
  2. 合計で 3 つを超えるバケットにデータポイントが存在しない場合は認められません。

条件が満たされると、モニターが評価されます。それ以外の場合、評価はキャンセルされ、モニターの状態は変更されません。

たとえば、過去 2 時間 の評価を行うモニターは、10 分単位の 12 個のバケットに分割されます。最初のバケットにデータがあり、空のバケットが合計で 3 つまでの場合、モニターはフルであるみなされます。

データB0B1B2B3B4B5B6B7B8B9B10B11フルウィンドウ?
ケース 1111111111111はい
ケース 2x11111111111いいえ
ケース 311xxx1111111はい
ケース 41xxx1111xx11いいえ

評価ウィンドウについて、詳しくはモニターの構成ページを参照してください。

その他のオプション

高度なアラートオプション(no data、auto resolve)の手順については、モニターの構成ページを参照してください。

通知

Configure notifications and automations セクションの手順については、通知モニターの構成ページを参照してください。

その他の参考資料