ネストクエリ

概要

Datadog では、各メトリクスクエリは既定で 2 つの集計レイヤーで構成されます。ネストクエリを使うと、先に実行したクエリの結果を後続のクエリで再利用できます。

ネストクエリを使うことで、次のような強力な機能が利用できるようになります:

マルチレイヤー集計

Datadog では、各メトリクスクエリは 2 段階の集計で評価されます。まず時間で集計し、続いてタグ単位で集計します。マルチレイヤー集計を使うと、時間集計またはタグ集計のレイヤーをさらに重ねられます。集計の詳細は、メトリクスクエリの構造を参照してください。

マルチレイヤー時間集計

rollup 関数を使うと、マルチレイヤー時間集計を利用できます。メトリクスクエリには最初から rollup (時間集計) が含まれており、グラフに表示されるデータポイントの粒度を制御します。詳しくは、ロールアップドキュメントを参照してください。

後続の rollup を重ねることで、時間集計のレイヤーを追加できます。

最初の rollup では、次の集計子を使用できます:

avg
sum
min
max
count

マルチレイヤー時間集計で追加する後続レイヤーでは、次の時間集計子を使用できます:

avg
sum
min
max
count
arbitrary percentile pxx (p78, p99, p99.99, etc.)
stddev

マルチレイヤー時間集計は次の関数と組み合わせて使用できます:

サポートされる関数	説明
算術演算子	`+, -, *, /`
Timeshift 関数	`<METRIC_NAME>{}, -<TIME_IN_SECOND>` `hour_before(<METRIC_NAME>{})` `day_before(<METRIC_NAME>{})` `week_before(<METRIC_NAME>{})` `month_before(<METRIC_NAME>{*})`
Top-k 選択	`top(<METRIC_NAME>{*}, <LIMIT_TO>, '<BY>', '<DIR>')`

上記に含まれない関数は、マルチレイヤー時間集計と組み合わせられません。

時間集計のクエリ例

このクエリではまず、env と team でグループ化した各 EC2 インスタンスの CPU 使用率を平均し、5 分間隔にロールアップします。次にマルチレイヤー時間集計を適用し、このネストクエリの結果について 30m 間隔で時間方向の 95 パーセンタイルを算出します。

マルチレイヤー空間集計

空間集計の 1 つ目のレイヤーでグループ化に使うタグを指定したら、Group By 関数でマルチレイヤー空間集計を利用できます。

後続の Group By を重ねて、空間集計のレイヤーを追加できます。注: 最初の空間集計レイヤーでグループ化するタグを指定しない場合、マルチレイヤー空間集計は利用できません。

空間集計の最初のレイヤーでは、次の集計子をサポートします:

avg by
sum by
min by
max by

空間集計の追加レイヤーでは、次の集計子をサポートします:

avg by
sum by
min by
max by
arbitrary percentile pXX (p75, p99, p99.99, etc.)
stddev by

マルチレイヤー空間集計は次の関数と組み合わせて使用できます:

サポートされる関数	説明
算術演算子	`+, -, *, /`
Timeshift 関数	`<METRIC_NAME>{}, -<TIME_IN_SECOND>` `hour_before(<METRIC_NAME>{})` `day_before(<METRIC_NAME>{})` `week_before(<METRIC_NAME>{})` `month_before(<METRIC_NAME>{*})`
Top-k 選択	`top(<METRIC_NAME>{*}, <LIMIT_TO>, '<BY>', '<DIR>')`

上記に含まれない関数は、マルチレイヤー空間集計と組み合わせられません。

パーセンタイルの空間集計子を除き、空間集計子は引数が 1 つで、グループ化に使うタグキーを指定します。パーセンタイルの空間集計子は 2 つの引数が必要です:

任意のパーセンタイル pXX
グループ化するタグ

空間集計のクエリ例

初期クエリ avg:aws.ec2.cpuutilization{*} by {env,host}.rollup(avg, 300) は、env と host でグループ化した CPU 使用率の平均を 5 分ごとに計算します。続いてマルチレイヤー空間集計を適用し、env ごとに平均 CPU 使用率の最大値を算出します。

UI または JSON タブでは、次のように表示されます:

集計済みの count/rate/gauge に対するパーセンタイルと標準偏差

時間集計と空間集計のマルチレイヤー集計を使うと、count/rate/gauge のクエリ結果からパーセンタイルや標準偏差を取得できます。大規模データセットのばらつきや分布をつかみやすくなり、外れ値も見つけやすくなります。

注: ネストクエリ内のパーセンタイルまたは標準偏差の集計子は、すでに集計された count/rate/gauge メトリクスの結果を使って計算されます。未集計の生データ (raw) からグローバルに正確なパーセンタイルを求めたい場合は、代わりにディストリビューションメトリクスを使用してください。

マルチレイヤー時間集計でのパーセンタイル: クエリ例

マルチレイヤー時間集計では、パーセンタイルを使ってネストクエリの結果 (5 分ごとに env と team 別の平均 CPU 使用率) を要約できます。具体的には、このネストクエリの p95 値を 30 分ごとに計算します。

マルチレイヤー空間集計におけるパーセンタイル: クエリ例

マルチレイヤー空間集計では、パーセンタイルを使ってネストクエリの結果 (5 分ごとに env と team 別の平均 CPU 使用率) を要約できます。具体的には、このネストクエリの p95 値を、env の各ユニーク値ごとに算出します。

UI または JSON タブでは、次のように表示されます:

標準偏差のクエリ例

標準偏差は、データセットのばらつき (散らばり) を測る指標です。次のクエリでは、マルチレイヤー時間集計で標準偏差を使用し、ネストクエリ (API リクエスト数の合計を 4 時間で平均化したもの) の標準偏差を、より長い 12 時間区間で計算します:

UI または JSON タブでは、次のように表示されます:

過去の期間に対する高解像度クエリ

各メトリクスクエリには、表示されるデータポイントの粒度を制御する初期の時間集計レイヤー (rollup) が含まれています。Datadog では、クエリ対象期間が長くなるほど既定の rollup 間隔も粗くなるように設計されています。ネストクエリを使えば、長い過去期間でもより細かな高解像度データにアクセスできます。

高解像度のクエリ例

従来は、過去 1 か月のメトリクスをクエリすると、既定で 4 時間粒度のデータが表示されていました。ネストクエリを使うと、この過去期間でもより細かな粒度のデータを参照できます。以下は過去 1 か月を対象にした例です。まずクエリバッチカウントを 5 分間隔で rollup し、その後マルチレイヤー時間集計を適用して、このネストクエリの時間方向の標準偏差を 4 時間区間で算出します。こうすることで、より人が読み取りやすいグラフにできます。

注: Datadog では、最初の rollup はできるだけ細かい間隔で定義し、その後により粗い rollup 間隔のマルチレイヤー時間集計を使って、読みやすいグラフに整えることを推奨しています。

UI または JSON タブでは、次のように表示されます:

moving rollup

Datadog には、指定した時間ウィンドウでデータポイントを集計できる moving_rollup 関数があります。詳しくは moving rollup を参照してください。ネストクエリを使うと、この関数を拡張して lookback モードを取り込み、元のクエリウィンドウを超えるデータポイントも分析できるようになります。これにより、指定した時間ウィンドウにおけるクエリの傾向やパターンを、より包括的に把握できます。