メトリクスベース SLO
Dash が新機能を発表!インシデントマネジメント、Continuous Profiler など多数の機能が追加されました! Dash イベントで発表された新機能!

メトリクスベース SLO

概要

メトリクスベースの SLO は、計数ベースのデータストリームでイベントの良し悪しを判断する場合に有用です。メトリクスクエリは良質なイベントの合計を同様の時間軸におけるイベント総数で割り、サービスレベル指標 (SLI) を算出します。

セットアップ

SLO ステータスページで、New SLO + を選択します。その後、Metric をクリックします。

クエリの定義

  1. 定義すべきクエリは 2 種類あります。ひとつは良質なイベントの合計を定義するもの、もうひとつはイベント自体の合計を定義するものです。
  2. タグを使用して特定のグループを含めるか除外するには、FROM フィールドを使用します。
  3. sum by Aggregator を使用して、リクエストを平均したり、すべてのリクエストの最大値または最小値を取る代わりに、すべてのリクエスト数を合計します。
  4. オプションで、SLI を特定のグループごとに分類する (追跡と視覚化のため) か、手順 1 と 2 の条件に含まれるすべての集計についてレポートします。

例: HTTP のリターンコードを追跡しており、メトリクスに code:2xx || code:3xx || code:4xx などのタグが含まれている場合の例。良質なイベントの合計は sum:httpservice.hits{code:2xx} + sum:httpservice.hits{code:4xx} です。イベント自体の合計を表す totalsum:httpservice.hits{!code:3xx} となります。

HTTP 3xx を省いた理由は、これらは一般的にリダイレクトされるもので、SLI として、または SLl に対してカウントされるべきではないためです。一方、3xx ベースでないエラーコードは合計に含める必要があります。total には HTTP 3xx を除いたすべてのタイプのデータを、また numerator には OK タイプのステータスコードのみを充当します。

メトリクスベース SLI のマルチグループ

メトリクスベース SLI を使用すると、SLI の最も重要な属性に集中できます。エディターでメトリクスベース SLI にグループを追加するには、datacenterpartitionavailability-zoneresource などのタグ、またはその他の関連グループを使用します。

これらの SLI をグループ化すると、個々のグループのステータス、適切なリクエスト数、残りのエラーバジェットを詳細パネルで視覚化できます。

: モニターベース SLI を使用している場合は、モニターグループを表示することもできます。

SLO ターゲットの設定

SLO ターゲットは、ターゲットパーセンテージとタイムウィンドウで構成されます。メトリクスベース SLO のターゲットを設定する場合、ターゲットパーセンテージは SLO の分母で示されたイベント合計のうち良質なイベントであるべき部分を指定し、タイムウィンドウは、ターゲットが追跡される必要があるローリング期間を指定します。

例: リクエストの 99% は、過去 7 日間でエラーが生じていないこと

SLO がターゲットパーセンテージを上回っている間、SLO のステータスは緑色のフォントで表示されます。ターゲットパーセンテージに違反すると、SLO のステータスは赤色のフォントで表示されます。オプションで、ターゲットパーセンテージより大きい警告パーセンテージを含めて、SLO 違反に近づいていることを示すこともできます。警告パーセンテージに違反している場合 (ただし、ターゲットパーセンテージには違反していない場合)、SLO ステータスは黄色のフォントで表示されます。

この指標を特定する

ここでは、説明および SLO と関連付けたいタグ内に、SLO の目的についてのコンテキスト情報を関連情報またはリソースも含めて追加できます。

その他の参考資料

お役に立つドキュメント、リンクや記事: