クラウドメトリクスの遅延

概要

Datadog のクラウドインテグレーション (AWS、Azure、GCP など) を利用する場合、メトリクスは API によりクローラーで取り込まれます。クラウドプロバイダー API の制約により、メトリクスに遅延が発生する場合があります。

Summary

プロバイダーデフォルトのクローラー
Alibaba10 分ごと
AWS10 分ごと
Azure2 分ごと
Cloudflare15 分ごと
GCP5 分ごと

クラウドプロバイダー

特定のクラウドプロバイダーに関する仕様です。

Alibaba

Alibaba は 1 分単位でメトリクスを発行しています。そのため、メトリクスの遅延は 7~8 分程度になることが予想されます。

AWS

AWS はメトリクスに 2 つの粒度 (5 分と 1 分のメトリクス) を提供しています。CloudWatch から 5 分のメトリクスを受け取る場合、15〜20 分の遅延が発生することがあります。これは、CloudWatch が 5〜10分 のレイテンシーに Datadog のデフォルトである 10 分を加えてデータを利用できるようにするためです。キューイングと CloudWatch API の制限により、さらに 5 分かかることがあります。CloudWatch で 1 分のメトリクスを受信する場合、その可用性の遅延は約 2 分で、メトリクスを見るための合計レイテンシーは 10~12 分程度になる可能性があります。

さらに、CloudWatch API で提供されるのは、データを取得するためのメトリクス別のクロールだけです。CloudWatch API にはレート制限があり、認証証明書、リージョン、サービスの組み合わせに基づいて変化します。アカウント レベルにより、AWS で使用できるメトリクスは異なります。たとえば、AWS 上で詳細なメトリクスに対して支払いを行うと、短時間で入手できるようになります。この詳細なメトリクスのサービスのレベルは粒度にも適用され、一部のメトリクスは 1 分ごと、それ以外は 5 分ごとに使用可能になります。

Azure

Azure は 1 分単位でメトリクスを発行しています。そのため、メトリクスの遅延は 4~5 分程度になることが予想されます。

GCP

GCP は 1 分単位でメトリクスを発行しています。そのため、メトリクスの遅延は 7~8 分程度になることが予想されます。

アラート設定

Datadog でモニターを作成する際、遅延したメトリクスを選択すると、警告メッセージが表示されます。Datadog では、これらのメトリクスについて、タイムフレームを延長し、モニター評価を遅延させることを推奨しています。

メトリクスの高速化

システムレベルのメトリクスを実質的にゼロ遅延で取得するためには、可能な限り Datadog Agent をクラウドホストにインストールします。クラウドインスタンスに Agent をインストールするメリットの一覧は、ドキュメントクラウドインスタンスに Datadog Agent をインストールするメリットは何ですか?を参照してください。

AWS、Azure、GCP のインテグレーションを行う Datadog 側では、Datadog がすべてのメトリクスに対してデフォルトのメトリクスクローラーを高速化できる可能性があります。さらに、AWS の場合、Datadog はネームスペースに特化したクローラーを持っています。詳しくは Datadog サポートにお問い合わせください。

その他の参考資料