このページの PDF 版はこちらよりご覧いただけます。

はじめに

  1. SLO ページを開きます: Monitors › Service Level Objectives

  2. ユーザーの目線から考えてみてください:

    • ユーザーはアプリケーションをどのように操作していますか?
    • アプリケーションを通じたユーザージャーニーはどのようなものですか?
    • それらのジャーニーには、インフラストラクチャーのどの部分が関わっていますか?
    • システムから何を期待していますか?何を達成したいと思っていますか?

関連する SLI の選択

ステップ 1

応答 / リクエスト

可用性サーバーはリクエストに正常に応答しましたか?
レイテンシーサーバーがリクエストに応答するまでにどれぐらい時間がかかりましたか?
スループットいくつのリクエストを処理できますか?

Storage

可用性データにオンデマンドでアクセスできますか?
レイテンシーデータの読み書きにどれぐらい時間がかかりますか?
耐性データは必要なときに取り出せる状態ですか?

パイプライン

正確性正しいデータが返されましたか?
鮮度新しいデータまたは処理された結果が表示されるまでにどれぐらい時間がかかりますか?

ステップ 2

タイムベースまたは計数ベース SLI のどちらが必要ですか?

タイムベースの SLI は Datadog モニターを使用します:

例: すべてのユーザーリクエストのタイムレイテンシーの 99% は、いずれの 30 日の範囲内でも250 ms 未満で ある必要があります。

  1. 単一のモニター、
  2. 複数のモニター (最大 20) 、または
  3. 単一のマルチアラートモニターを選択し、特定のモニターグループ (最大20) で SLO 計算に含めるものを選びます

新しいモニターの作成が必要な場合は Monitor create ページを開きます。

計数ベースの SLI は Datadog アカウント内のメトリクスを使用します。モニターは必要ありません:

例: リクエストの 99% は、30 日間で 250 ms 未満で完了する必要があります。

SLI の実装

  1. カスタムメトリクス (例: カウンター)
  2. インテグレーションメトリクス (例: ロードバランサー、HTTP リクエスト)
  3. Datadog APM (例: エラー、サービスのレイテンシー、リソース)
  4. Datadog ログ (例: 特定のイベントの発生数に応じてログから生成されたメトリクス)

ターゲット目標および時間枠の設定

  1. ターゲットを選択します: 99%99.5%99.9%99.95% から選択するか、要件に合致するものを選びます。
  2. 時間枠を選択します: 過去 730 または 90 日間

SLO の名前、説明、タグの追加

  1. SLO に名前を付けます。
  2. 説明を追加します: SLO が追跡している対象と、それがエンドユーザーのエクスペリエンスにとってなぜ重要なのかを記述します。参考としてダッシュボードのリンクを追加することもできます。
  3. タグを追加します: 一般的には team および service のタグが用いられます。

ビューおよび検索

タグを使用して SLO のリストビューから SLO を検索します

その他の参考資料