このページの PDF 版は
こちらよりご覧いただけます。
はじめに
SLO ページを開きます: Monitors › Service Level Objectives
ユーザーの目線から考えてみてください:
- ユーザーはアプリケーションをどのように操作していますか?
- アプリケーションを通じたユーザージャーニーはどのようなものですか?
- それらのジャーニーには、インフラストラクチャーのどの部分が関わっていますか?
- システムから何を期待していますか?何を達成したいと思っていますか?
関連する SLI の選択
ステップ 1
応答 / リクエスト
| |
---|
可用性 | サーバーはリクエストに正常に応答しましたか? |
レイテンシー | サーバーがリクエストに応答するまでにどれぐらい時間がかかりましたか? |
スループット | いくつのリクエストを処理できますか? |
Storage
| |
---|
可用性 | データにオンデマンドでアクセスできますか? |
レイテンシー | データの読み書きにどれぐらい時間がかかりますか? |
耐性 | データは必要なときに取り出せる状態ですか? |
パイプライン
| |
---|
正確性 | 正しいデータが返されましたか? |
鮮度 | 新しいデータまたは処理された結果が表示されるまでにどれぐらい時間がかかりますか? |
ステップ 2
タイムベースまたは計数ベース SLI のどちらが必要ですか?
タイムベースの SLI は Datadog モニターを使用します:
例: すべてのユーザーリクエストのタイムレイテンシーの 99% は、いずれの 30 日の範囲内でも250 ms 未満で
ある必要があります。
- 単一のモニター、
- 複数のモニター (最大 20) 、または
- 単一のマルチアラートモニターを選択し、特定のモニターグループ (最大20) で
SLO 計算に含めるものを選びます
新しいモニターの作成が必要な場合は Monitor create ページを開きます。
計数ベースの SLI は Datadog アカウント内のメトリクスを使用します。モニターは必要ありません:
例: リクエストの 99% は、30 日間で 250 ms 未満で完了する必要があります。
SLI の実装
- カスタムメトリクス (例: カウンター)
- インテグレーションメトリクス (例: ロードバランサー、HTTP リクエスト)
- Datadog APM (例: エラー、サービスのレイテンシー、リソース)
- Datadog ログ (例: 特定のイベントの発生数に応じてログから生成されたメトリクス)
ターゲット目標および時間枠の設定
- ターゲットを選択します:
99%
、99.5%
、99.9%
、99.95%
から選択するか、要件に合致するものを選びます。 - 時間枠を選択します: 過去
7
、30
または 90 日間
SLO の名前、説明、タグの追加
- SLO に名前を付けます。
- 説明を追加します: SLO が追跡している対象と、それがエンドユーザーのエクスペリエンスにとってなぜ重要なのかを記述します。参考としてダッシュボードのリンクを追加することもできます。
- タグを追加します: 一般的には
team
および service
のタグが用いられます。
ビューおよび検索
タグを使用して SLO のリストビューから SLO を検索します。
その他の参考資料