Surveiller votre utilisation des logs

Surveiller votre utilisation des logs

Ce guide vise à expliquer comment surveiller l’utilisation des logs grâce à des métriques d’estimation de l’utilisation. Les points suivants seront abordés :

  • Activer les métriques d’estimation de l’utilisation
  • Recevoir une alerte en cas de pic de trafic imprévu
  • Recevoir une alerte lorsque vous êtes sur le point de dépasser un seuil de budget associé à vos logs indexés
  • Importer le dashboard d’utilisation Log Management par défaut

Recevoir une alerte en cas de pic imprévu

Activer les métriques d’utilisation des logs conseillées

Activez les métriques d’utilisation des logs conseillées pour commencer à surveiller les nombres de logs ingérés, d’octets ingérés et de logs indexés. Accédez à la page Générer des métriques pour activer les métriques relatives à l’utilisation de vos logs (ces métriques sont gratuites et conservées pendant 15 mois) :

Consultez la section ci-dessous pour découvrir comment les exploiter dans des monitors de détection d’anomalie.

Remarque : il est conseillé de définir l’unité de la métrique datadog.estimated_usage.logs.ingested_bytes sur Byte depuis la page Metric Summary :

Monitors de détection d’anomalies

Pour définir des monitors de détection d’anomalie et recevoir une alerte en cas d’augmentation imprévue du nombre de logs indexés :

  1. Créez un monitor d’anomalie
  2. Sélectionnez la métrique datadog.estimated_usage.logs.ingested_events
  3. Ajoutez datadog_is_excluded:false dans la section from (pour surveiller les logs indexés et non ceux qui sont ingérés)
  4. Ajoutez le tag service et datadog_index dans group by (pour recevoir une notification si un service spécifique fait l’objet d’un pic ou arrête d’envoyer des logs vers un index quelconque)
  5. Définissez des conditions d’alerte en fonction de vos besoins (par exemple, fenêtre d’évaluation, nombre de fois où une valeur est en dehors de la plage attendue, etc.)
  6. Définissez un message de notification avec des instructions claires :

Exemple de notification avec des liens contextuels :

Une quantité de logs imprévue a été indexée dans l'index {{datadog_index.name}}

1. [Consultez les patterns de logs pour ce service](https://app.datadoghq.com/logs/patterns?from_ts=1582549794112&live=true&to_ts=1582550694112&query=service%3A{{service.name}})
2. [Appliquez un filtre pour exclure le pattern à l'origine du pic](https://app.datadoghq.com/logs/pipelines/indexes)

Dashboard d’estimation de l’utilisation

Il est également possible d’utiliser les métriques d’utilisation des logs pour créer un dashboard servant à estimer votre utilisation de la solution Log Management de Datadog. Voici un exemple de dashboard de ce type :

Rappel : les métriques utilisées dans ce dashboard sont des estimations et peuvent ne pas refléter les valeurs facturées.

Pour importer ce dashboard, copiez la définition JSON du dashboard d’estimation de l’utilisation et importez-la dans un nouveau screenboard :

Surveiller les logs indexés avec un seuil fixe

Recevez une notification si les volumes de logs indexés de votre infrastructure augmentent de manière imprévue, peu importe leur contexte (service, availability-zone, etc.) :

  1. Accédez à la vue Log Explorer de Datadog.
  2. Créez une requête de recherche qui correspond au volume à surveiller. Ne spécifiez pas de requête pour surveiller tous les logs de cet index.
  3. Cliquez sur Export to monitor.
  4. Spécifiez la valeur seuil pour un warning ou une error.
  5. Indiquez une notification explicite : Le volume de ce service vient d'atteindre un niveau trop élevé. Définissez un filtre d'exclusion supplémentaire ou augmentez le taux d'échantillonnage pour revenir à des valeurs normales.

Recevoir une alerte lorsqu’un index atteint son quota journalier

Il est également possible d'appliquer un quota journalier aux index pour empêcher que le nombre de logs indexés par jour dépasse une valeur donnée. Si vous appliquez une telle limite, nous vous conseillons de configurer le monitor ci-dessus de façon à recevoir une alerte lorsque 80 % de ce quota est atteint au cours des 24 dernières heures. Un événement est généré lorsque le quota journalier est atteint. Configurez un monitor pour être notifié de cet événement :

Voici un exemple de notification sur Slack :

Pour aller plus loin