SLO チェックリスト

はじめに

SLO Manage ページに移動します。
ユーザーの目線から考えてみてください:
- ユーザーはアプリケーションをどのように操作していますか？
- アプリケーションを通じたユーザージャーニーはどのようなものですか？
- それらのジャーニーには、インフラストラクチャーのどの部分が関わっていますか？
- システムから何を期待していますか？何を達成したいと思っていますか？

SLI の種類	説明
可用性	サーバーはリクエストに正常に応答しましたか？
レイテンシー	サーバーがリクエストに応答するまでにどれぐらい時間がかかりましたか？
スループット	いくつのリクエストを処理できますか？

SLI の種類	説明
正確性	正しいデータが返されましたか？
鮮度	新しいデータまたは処理された結果が表示されるまでにどれぐらい時間がかかりますか？

可能な限り、メトリクスベースの SLO を使用してください。エラーバジェットが SLO 違反までに残された不良イベント数を反映する SLO にするのがベストプラクティスです。また、SLO の計算はイベント数に基づいてボリューム加重されます。
代わりに、アップタイムを追跡し時間ベースの SLI 計算を使用する SLO が必要な場合は、タイムスライス SLO を使用してください。モニターベースの SLO と異なり、タイムスライス SLO では SLO 用の基盤モニターを維持する必要がありません。
最後に、タイムスライス SLO でカバーできないユースケース—ノンメトリクスモニターや複数モニターに基づく SLO など—では、モニターベースの SLO を検討してください。

SLO タイプの詳細な比較については、SLO タイプ比較ガイドを参照してください。

SLI 計算は時間ベースですか、それともカウントベースですか?

Datadog では、次の SLO タイプを利用できます:

メトリクスベース SLO

例: リクエストの 99% は、30 日間で 250 ms 未満で完了する必要があります。

モニターベース SLO

例: すべてのユーザーリクエストのタイムレイテンシーの 99% は、いずれの 30 日の範囲内でも250 ms 未満である必要があります。

新しいモニターの作成が必要な場合は Monitor create ページを開きます。

タイムスライス SLO

例: すべてのユーザーリクエストのタイムレイテンシーの 99% は、いずれの 30 日の範囲内でも250 ms 未満である必要があります。

SLO に名前を付けます。
説明を追加します: SLO が追跡している対象と、それがエンドユーザーのエクスペリエンスにとってなぜ重要なのかを記述します。参考としてダッシュボードのリンクを追加することもできます。
タグを追加します: 一般的には team および service のタグが用いられます。