メトリクスモニターは連続的なデータのストリームに役立ちます。Datadog に送信されるメトリクスのいずれかが、一定の期間にしきい値から外れると、アラートを送信します。
Datadog でメトリクスモニターを作成するには、メインナビゲーションを使用して次のように移動します: Monitors –> New Monitor –> Metric。
しきい値アラートは、メトリクス値を静的なしきい値と比較します。
アラートの評価には、選択された期間の平均、最小、最大、合計の値をそれぞれ計算し、しきい値を上回って (または下回って) いるかどうかをチェックします。予期値がわかっている場合に使用される標準的なアラートです。
変化アラートは、N
分前の値と現在の値との絶対変化量または相対変化量を指定のしきい値と比較します。比較されるデータポイントは、単一ポイントではなく、アラート条件セクションのパラメーターを使用して計算された値です。
アラートの評価には、現在の系列と N
分前の系列の差分 (正または負の値) を計算し、その値の選択された期間における平均、最小、最大、合計を計算します。その結果、系列がしきい値から外れる場合にアラートがトリガーされます。
このタイプのアラートは、しきい値を常に予測できる場合に、メトリクスのスパイク、ドロップ、あるいは緩やかな変化を追跡するのに役立ちます。
異常検知アラートは、過去の動作を使用して、メトリクスの異常な動作を検知します。
異常検知アラートは、過去の値を基に、系列に対して予期される値の範囲を計算します。異常検知アルゴリズムには、予期される範囲を時刻や曜日を使用して判断し、シンプルなしきい値アラートでは検知できない異常の検知を行うものがあります。たとえば、午前 10 時なら正常であっても、午前 5 時なら異常に高いと判断される系列を検知できます。
アラートの評価には、予期される範囲の内、外、上、下にある系列の割合を計算します。この割合がしきい値から外れる場合にアラートがトリガーされます。
詳細については、異常検知モニターのページを参照してください。
外れ値モニターは、グループの他のメンバー (ホスト、アベイラビリティーゾーン、パーティションなど) と比較して動作が異常であるメンバーを検知します。
アラートの評価では、すべてのグループが一緒にクラスター化され、同じ動作を示しているかをチェックします。1 つ以上のグループの動作が他のグループと異なる場合にアラートがトリガーされます。
詳細については、外れ値モニターのページを参照してください。
予測値アラートは、メトリクスの今後の動作を予測し、それを静的なしきい値と比較します。強い傾向や繰り返しパターンがあるメトリクスに適しています。
アラートの評価では、偏差の範囲を考慮してメトリクスの今後の値を予測します。この範囲のいずれかの部分がしきい値から外れる場合にアラートがトリガーされます。
詳細については、予測値モニターのページを参照してください。
現在 Datadog に報告されている任意のメトリクスに対してモニターを作成できます。エディターを使用し、以下の手順でメトリクスを定義します。
手順 | 必須 | デフォルト | 例 |
---|---|---|---|
メトリクスの選択 | はい | なし | system.cpu.user |
送信元の定義 | いいえ | すべての場所 | env:prod |
タグの除外 | いいえ | なし | role:testing |
集計の指定 | はい | avg by | sum by |
グループ化 | いいえ | すべての条件 | host |
注: モニターを作成するメトリクスの定義は、グラフを作成するメトリクスの定義と似ています。Advanced...
オプションの使用について詳しくは、高度なグラフの作成を参照してください。
アラートは、メトリクスを定義する際に group by
の手順で選択したグループに応じて自動的にグループ化されます。グループを設定していない場合は、デフォルトで Simple Alert
(シンプルアラート) でグループ化されます。グループを選択している場合は、デフォルトで Multi Alert
(マルチアラート) でグループ化されます。
シンプルアラートでは、すべての報告元ソースが集計され、その集計値が設定された条件を満たすと、アラートが 1 つ送信されます。これは単一のホストから送られるメトリクスをモニターする場合や、多数のホスト全体でメトリクスを合計してモニターする場合に最も適しています。
マルチアラートでは、各報告元ソースでグループパラメーターに従ってアラートが送信されます。各グループで設定された条件を満たすと、アラートが送信されます。たとえば、system.disk.in_use
を host
や device
でグループ化すると、容量不足のホストデバイスに対してアラートを個別に送信できます。
アラートの条件は、どの検出方法を選ぶかによって多少異なります。
above
、above or equal to
、below
、below or equal to
の場合にトリガーされるon average
、at least once
、at all times
あるいは in total
5 minutes
、15 minutes
、1 hour
など、または custom
に 1 分~48 時間の値を設定します。定義:
オプション | 説明 |
---|---|
on average | 系列の平均値が算出され、単一の値が生成されます。この値がしきい値と比較されます。このオプションは、モニタークエリに avg() 関数を追加します。 |
at least once | 生成された系列内の値がいずれか 1 つでもしきい値から外れている場合に、アラートがトリガーされます。このオプションは、比較方法の選択に基づいて、モニタークエリに関数を追加します。below を選択した場合は min() 、above を選択した場合は max() が追加されます。 |
at all times | クエリの評価ウィンドウ内のすべてのポイントがしきい値から外れている場合に、アラートがトリガーされます。このオプションは、比較方法の選択に基づいて、モニタークエリに関数を追加します。above を選択した場合は min() 、below を選択した場合は max() が追加されます。 |
in total | 系列内のすべてのポイントの合計値がしきい値から外れている場合に、アラートがトリガーされます。このオプションは、モニタークエリに sum() 関数を追加します。 |
注: as_count()
を使用する場合は動作が異なります。詳しくは、モニター評価での as_count() を参照してください。
average
、maximum
、minimum
、または in total
change
または % change
5 minutes
、15 minutes
、1 hour
など、または custom
に 1 分~48 時間の値を設定します。5 minutes
、15 minutes
、1 hour
などと比較、または custom
に 1 分~48 時間前の値を設定します。above
、above or equal to
、below
、あるいは below or equal to
か。定義:
オプション | 説明 |
---|---|
change | 値の絶対変化量です。 |
% change | 過去の値と比較した値の変化率です。たとえば、過去の値が 2 で現在の値が 4 の場合、% change は 100% になります。 |
しきい値には、アラートをトリガーする数値を設定します。メトリクスに何を選ぶかによって、エディターに表示される単位 (byte
、kibibyte
、gibibyte
など) が変わります。
Datadog には、アラートと警告の 2 種類の通知があります。モニターのリカバリはアラートや警告のしきい値に基づいて自動的に行われますが、条件を追加することもできます。リカバリのしきい値について詳しくは、リカバリのしきい値とはを参照してください。
オプション | 説明 |
---|---|
アラートのしきい値 | アラートの通知のトリガーに使用される値 |
警告のしきい値 | 警告の通知のトリガーに使用される値 |
アラートのリカバリのしきい値 | アラートのリカバリに対する追加条件を示すしきい値 (任意) |
警告のリカバリのしきい値 | 警告のリカバリに対する追加条件を示すしきい値 (任意) |
しきい値を変更すると、エディター内でプレビューグラフにカットオフポイントを示すマーカーが表示されます。
メモ: しきい値を小数で入力する際、値が <1
の場合は先頭に 0
を付けます。たとえば、.5
ではなく 0.5
としてください。
評価の際に、データウィンドウが一杯であることを判断するかどうかを Require
または Do not require
で指定できます。
この設定では、モニターを評価するタイミングをアラートエンジンが判断する方法を変更できます。
Require (デフォルト) - 評価ウィンドウがデータで一杯になるまでモニターが評価されません。たとえば、ホストが新しくプロビジョニングされた直後に CPU の使用率が 1、2 分ほど高くなることがありますが、その後すぐに収まるのでアラートをトリガーしたくない場合に使用します。
Do not require - モニターは認識されるとすぐに評価されます。データポイントが疎な場合は、これを指定しなければ、ウィンドウが一杯になったと判断しないままモニターが評価されない可能性があります。
データなしを通知しない場合は Do not notify
を、データなしが N
分以上続いた時に通知する場合は Notify
を設定します。
正常な状態で、メトリクスが常にデータを報告するようにするには、「データなし」通知を利用すると便利です。たとえば、Agent を使用しているホストが継続的に稼働している必要がある場合、system.cpu.idle
メトリクスがデータを常に報告することが期待されます。このような場合は、「データなし」を通知するように設定します。
注: 「データなし」ウィンドウは、評価期間中に最低 2 回設定することを推奨します。
また、オートスケーリングが有効であり、起動と停止が自動で行われるホストグループに対してメトリクスをモニターする場合にこの設定を有効にすると、通知が数多く生成されるので、データなしの通知を有効にするべきではありません。データが長期間にわたって報告されていない場合、このオプションは有効であっても機能しません。
「データなし」を通知しないモニターの場合、グループがデータを報告しないとモニターは評価をスキップし、最終的にグループをドロップします。この期間、結果ページのバーは緑のままです。データがありグループが報告を再開すると、グリーンバーには OK ステータスとバックフィルが表示され、中断がなかったかのように見せます。
アラートをトリガーされた状態から解決するタイミングを、[Never]
、After 1 hour
、After 2 hours
などで指定します。
メトリクスが定期的に報告を行う場合に、トリガーされたアラートを一定の期間の後に自動で解決したいことがあります。たとえば、エラーのログだけを報告するカウンターがある場合、エラーの数が 0
であれば報告が行われないため、アラートがいつまでも解決しません。このような場合、メトリクスからの報告がないまま一定の期間が経過したらアラートを解決するように設定できます。注: モニターがアラートを自動で解決し、次回の評価でクエリーの値がリカバリのしきい値を満たしていない場合、モニターはもう一度アラートをトリガーします。
ほとんどの場合、アラートは問題が実際に修正されてから解決する必要があるため、この設定は不要です。つまり、通常はこれを [Never]
にしておいて、メトリクスが設定されたしきい値を上回る (または下回る) 場合にだけアラートを解決するようにしてください。
評価を N
秒遅らせます。
評価を遅らせる時間 (秒単位)。負以外の整数を指定してください。たとえば、遅延を 900 秒 (15 分) に、モニターが評価を行う期間を直前の 5 minutes
に、時刻を 7:00 に設定すると、モニターは 6:40 から 6:45 までのデータを評価します。
注: サービスプロバイダーがバックフィルを行うクラウドメトリクスには、遅延を 15 分に設定することをお勧めします。また、除算の計算式を使用する場合は、モニターが完全な値を評価できるよう、60 秒の遅延を設定すると役に立ちます。
Say what’s happening と Notify your team のセクションに関する詳しい説明は、通知 のページを参照してください。
お役に立つドキュメント、リンクや記事:
このページ