メトリクスモニター
ネットワーク パフォーマンス モニタリングの正式提供を開始しました! ネットワーク パフォーマンス モニタリング提供開始!

メトリクスモニター

概要

メトリクスモニターは連続的なデータのストリームに役立ちます。Datadog に送信されるメトリクスのいずれかが、一定の期間にしきい値から外れると、アラートを送信します。

モニターの作成

Datadog でメトリクスモニターを作成するには、メインナビゲーションを使用して次のように移動します: *Monitors –> New Monitor –> Metric*。

検出方法を選択します。

しきい値アラートは、メトリクス値を静的なしきい値と比較します。

アラートの評価には、選択された期間の平均、最小、最大、合計の値をそれぞれ計算し、しきい値を上回って (または下回って) いるかどうかをチェックします。予期値がわかっている場合に使用される標準的なアラートです。

変化アラートは、N 分前の値と現在の値との絶対変化量または相対変化量を指定のしきい値と比較します。比較されるデータポイントは、単一ポイントではなく、*アラート条件*セクションのパラメーターを使用して計算された値です。

アラートの評価には、現在の系列と N 分前の系列の差分 (正または負の値) を計算し、その値の選択された期間における平均、最小、最大、合計を計算します。その結果、系列がしきい値から外れる場合にアラートがトリガーされます。

このタイプのアラートは、しきい値を常に予測できる場合に、メトリクスのスパイク、ドロップ、あるいは緩やかな変化を追跡するのに役立ちます。

異常検知アラートは、過去の動作を使用して、メトリクスの異常な動作を検知します。

異常検知アラートは、過去の値を基に、系列に対して予期される値の範囲を計算します。異常検知アルゴリズムには、予期される範囲を時刻や曜日を使用して判断し、シンプルなしきい値アラートでは検知できない異常の検知を行うものがあります。たとえば、午前 10 時なら正常であっても、午前 5 時なら異常に高いと判断される系列を検知できます。

アラートの評価には、予期される範囲の内、外、上、下にある系列の割合を計算します。この割合がしきい値から外れる場合にアラートがトリガーされます。

詳細については、異常検知モニターのページを参照してください。

外れ値モニターは、グループの他のメンバー (ホスト、アベイラビリティーゾーン、パーティションなど) と比較して動作が異常であるメンバーを検知します。

アラートの評価では、すべてのグループが一緒にクラスター化され、同じ動作を示しているかをチェックします。1 つ以上のグループの動作が他のグループと異なる場合にアラートがトリガーされます。

詳細については、外れ値モニターのページを参照してください。

予測値アラートは、メトリクスの今後の動作を予測し、それを静的なしきい値と比較します。強い傾向や繰り返しパターンがあるメトリクスに適しています。

アラートの評価では、偏差の範囲を考慮してメトリクスの今後の値を予測します。この範囲のいずれかの部分がしきい値から外れる場合にアラートがトリガーされます。

詳細については、予測値モニターのページを参照してください。

メトリクスを定義する

現在 Datadog に報告されている任意のメトリクスに対してモニターを作成できます。エディターを使用し、以下の手順でメトリクスを定義します。

手順必須デフォルト
メトリクスの選択はいなしsystem.cpu.user
送信元の定義いいえすべての場所env:prod
タグの除外いいえなしrole:testing
集計の指定はいavg bysum by
グループ化いいえすべての条件host

: モニターを作成するメトリクスの定義は、グラフを作成するメトリクスの定義と似ています。Advanced... オプションの使用について詳しくは、高度なグラフの作成を参照してください。

アラートのグループ化

アラートは、メトリクスを定義する際に group by の手順で選択したグループに応じて自動的にグループ化されます。グループを設定していない場合は、デフォルトで Simple Alert (シンプルアラート) でグループ化されます。グループを選択している場合は、デフォルトで Multi Alert (マルチアラート) でグループ化されます。

シンプルアラートでは、すべての報告元ソースが集計され、その集計値が設定された条件を満たすと、アラートが 1 つ送信されます。これは単一のホストから送られるメトリクスをモニターする場合や、多数のホスト全体でメトリクスを合計してモニターする場合に最も適しています。

マルチアラートでは、各報告元ソースでグループパラメーターに従ってアラートが送信されます。各グループで設定された条件を満たすと、アラートが送信されます。たとえば、system.disk.in_usehostdevice でグループ化すると、容量不足のホストデバイスに対してアラートを個別に送信できます。

アラートの条件を設定する

アラートの条件は、どの検出方法を選ぶかによって多少異なります。

  • メトリクスが aboveabove or equal tobelowbelow or equal to の場合にトリガーされる
  • しきい値は、on averageat least onceat all times あるいは in total
  • 期間は、直前の 5 minutes15 minutes1 hour など

定義:

オプション説明
on average系列の平均値が算出され、単一の値が生成されます。この値がしきい値と比較されます。このオプションは、モニタークエリに avg() 関数を追加します。
at least once生成された系列内の値がいずれか 1 つでもしきい値から外れている場合に、アラートがトリガーされます。このオプションは、比較方法の選択に基づいて、モニタークエリに関数を追加します。below を選択した場合は min()、above を選択した場合は max() が追加されます。
at all timesクエリの評価ウィンドウ内のすべてのポイントがしきい値から外れている場合に、アラートがトリガーされます。このオプションは、比較方法の選択に基づいて、モニタークエリに関数を追加します。above を選択した場合は min()、below を選択した場合は max() が追加されます。
in total系列内のすべてのポイントの合計値がしきい値から外れている場合に、アラートがトリガーされます。このオプションは、モニタークエリに sum() 関数を追加します。

: as_count() を使用する場合は動作が異なります。詳しくは、モニター評価での as_count() を参照してください。

  • averagemaximumminimum、または in total
  • change または % change
  • 期間は 5 minutes15 minutes1 hour など
  • 過去の 5 minutes15 minutes1 hour などと比較
  • しきい値と比較して aboveabove or equal tobelow、あるいは below or equal to か。

定義:

オプション説明
change値の絶対変化量です。
% change過去の値と比較した値の変化率です。たとえば、過去の値が 2 で現在の値が 4 の場合、% change は 100% になります。

しきい値

しきい値には、アラートをトリガーする数値を設定します。メトリクスに何を選ぶかによって、エディターに表示される単位 (bytekibibytegibibyte など) が変わります。

Datadog には、アラートと警告の 2 種類の通知があります。モニターのリカバリはアラートや警告のしきい値に基づいて自動的に行われますが、条件を追加することもできます。リカバリのしきい値について詳しくは、リカバリのしきい値とはを参照してください。

オプション説明
アラートのしきい値アラートの通知のトリガーに使用される値
警告のしきい値警告の通知のトリガーに使用される値
アラートのリカバリのしきい値アラートのリカバリに対する追加条件を示すしきい値 (任意)
警告のリカバリのしきい値警告のリカバリに対する追加条件を示すしきい値 (任意)

しきい値を変更すると、エディター内でプレビューグラフにカットオフポイントを示すマーカーが表示されます。

Data window

評価の際に、データウィンドウが一杯であることを判断するかどうかを Require または Do not require で指定できます。

この設定では、モニターを評価するタイミングをアラートエンジンが判断する方法を変更できます。

Require (デフォルト) - 評価ウィンドウがデータで一杯になるまでモニターが評価されません。たとえば、ホストが新しくプロビジョニングされた直後に CPU の使用率が 1、2 分ほど高くなることがありますが、その後すぐに収まるのでアラートをトリガーしたくない場合に使用します。

Do not require - モニターは認識されるとすぐに評価されます。データポイントが疎な場合は、これを指定しなければ、ウィンドウが一杯になったと判断しないままモニターが評価されない可能性があります。

No Data

データなしを通知しない場合は Do not notify を、データなしが N 分以上続いた時に通知する場合は Notify を設定します。

通常の状況下で、メトリクスがデータを常に報告している必要がある場合に、データなしを通知すると便利です。たとえば、Agent を持つホストが継続的に稼働している必要がある場合、system.cpu.idle メトリクスはデータを常に報告しなくてはなりません。このような場合は、データなしを通知するように設定するべきです。: データなしのウィンドウは、評価期間中に少なくとも 2 回動作する必要があります。

また、オートスケーリングが有効であり、起動と停止が自動で行われるホストグループに対してメトリクスをモニターする場合にこの設定を有効にすると、通知が数多く生成されるので、データなしの通知を有効にするべきではありません。

Auto Resolve

アラートをトリガーされた状態から解決するタイミングを、[Never]After 1 hourAfter 2 hours などで指定します。

メトリクスが定期的に報告を行う場合に、トリガーされたアラートを一定の期間の後に自動で解決したいことがあります。たとえば、エラーのログだけを報告するカウンターがある場合、エラーの数が 0 であれば報告が行われないため、アラートがいつまでも解決しません。このような場合、メトリクスからの報告がないまま一定の期間が経過したらアラートを解決するように設定できます。: モニターがアラートを自動で解決し、次回の評価でクエリーの値がリカバリのしきい値を満たしていない場合、モニターはもう一度アラートをトリガーします。

ほとんどの場合、アラートは問題が実際に修正されてから解決する必要があるため、この設定は不要です。つまり、通常はこれを [Never] にしておいて、メトリクスが設定されたしきい値を上回る (または下回る) 場合にだけアラートを解決するようにしてください。

Evaluation Delay

評価を N 秒遅らせます。

評価を遅らせる時間 (秒単位)。負以外の整数を指定してください。たとえば、遅延を 900 秒 (15 分) に、モニターが評価を行う期間を直前の 5 minutes に、時刻を 7:00 に設定すると、モニターは 6:40 から 6:45 までのデータを評価します。

: サービスプロバイダーがバックフィルを行うクラウドメトリクスには、遅延を 15 分に設定することをお勧めします。また、除算の計算式を使用する場合は、モニターが完全な値を評価できるよう、60 秒の遅延を設定すると役に立ちます。

通知

Say what’s happeningNotify your team のセクションに関する詳しい説明は、通知 のページを参照してください。

その他の参考資料