Débuter avec les monitors

Présentation

Les alertes Datadog vous permettent de créer des monitors capables de surveiller activement des métriques, la disponibilité d’intégrations, des endpoints réseau, etc. Tirez profit des monitors pour vous focaliser sur les systèmes qui nécessitent une surveillance, une enquête approfondie ou une intervention.

Cette page présente le fonctionnement des monitors et décrit les instructions à suivre pour configurer un monitor de métrique. Ce type de monitor envoie des alertes et des notifications lorsqu’une métrique dépasse un certain seuil. Par exemple, un monitor de métrique peut vous envoyer une alerte lorsque votre espace disque disponible devient faible.

Ce guide aborde les sujets suivants :

  • Création et configuration de monitor
  • Configuration d’alertes de monitor
  • Personnalisation de messages de notification
  • Autorisations des monitors

Prérequis

Avant de commencer, vous devez disposer d’un compte Datadog associé à un host sur lequel l’Agent Datadog est installé. Pour en savoir plus sur l’Agent, consultez le guide Débuter avec l’Agent ou accéder à Integrations > Agent pour accéder aux instructions d’installation.

Pour vérifier que l’Agent Datadog est en cours d’exécution, vérifiez que la liste d’infrastructures affiche des données dans Datadog.

Créer un monitor

Pour créer un monitor, accédez à Monitors > New Monitor et sélectionnez Metric.

Configurer un monitor

La configuration d’un monitor vous permet de définir ce qui suit :

  • Choisir la méthode de détection : comment mesurez-vous ce qui fera l’objet d’une alerte ? Vous préoccupez-vous du fait que la valeur dʼune métrique lui fasse franchir un seuil ? Que le changement dʼune valeur entraîne le franchissement dʼun seuil ? De la présence dʼune valeur anormale, ou d’autre chose ?
  • Définition de la métrique : quelle est la valeur surveillée pour les alertes ? S’agit-il de l’espace disque disponible de votre système, ou encore du nombre d’erreurs de connexion détectées ?
  • Définir les conditions d’alerte : quʼest-ce qui justifie de réveiller un ingénieur ?
  • Configurer les notifications et les automatisations : quelles informations doivent figurer dans l’alerte ?
  • Définir les permissions et les notifications dʼaudit : qui a accès à ces alertes, et qui doit être notifié si l’alerte est modifiée ?

Choisir la méthode de détection

Lorsque vous créez un monitor de métrique, la méthode de détection Threshold Alert est sélectionnée par défaut. Une alerte de seuil compare les valeurs d’une métrique avec les seuils que vous avez définis. Ce monitor a pour objectif d’envoyer une alerte en fonction d’un seuil statique : aucune modification n’est donc nécessaire.

Définir la métrique

Pour recevoir une alerte en cas d’espace disque faible, utilisez la métrique system.disk.in_use de l’intégration Disk et calculez la moyenne par host et par device :

Définir la métrique pour system.disk.in_use avg par hôte et par appareil

Définir vos conditions d’alerte

Selon la documentation relative à l’intégration Disk, system.disk.in_use est la quantité d’espace disque utilisé sous forme de pourcentage du total. De ce fait, lorsque la métrique envoie une valeur de 0.7, l’appareil est plein à 70 %.

Pour recevoir une alerte en cas d’espace disque faible, le monitor doit se déclencher lorsque la valeur de la métrique est above (supérieure à) la valeur seuil. Vous êtes libre de définir la valeur seuil que vous souhaitez. Pour cette métrique, les valeurs comprises entre 0 et 1 sont appropriées :

Définissez les seuils suivants :

Alert threshold: > 0.9
Warning threshold: > 0.8

Pour cet exemple, laissez les autres paramètres par défaut tels quels. Pour en savoir plus, consultez la documentation relative aux monitors de métrique.

Définir les seuils dʼalerte et dʼavertissement pour que le monitor déclenche des alertes

Notifications et automatisations

Lorsque ce monitor déclenche une alerte, un message de notification est envoyé. Dans ce message, vous pouvez inclure des valeurs conditionnelles, des instructions pour la résolution ou un résumé de l’alerte. Un message de notification doit comporter au moins un titre et un message.

Titre

Le titre doit être unique pour chaque monitor. Étant donné qu’il s’agit d’un monitor à alertes multiples, vous pouvez utiliser des template variables de message pour ajouter le nom de l’élément de chaque groupe (host et device) :

Disk space is low on {{device.name}} / {{host.name}}

Message

Utilisez le message pour indiquer à votre équipe comment résoudre le problème, par exemple :

Étapes à suivre pour libérer de l'espace disque :
1. Supprimer les paquets non utilisés
2. Vider le cache APT
3. Désinstaller les applications superflues
4. Supprimer les fichiers en double

Pour ajouter des messages conditionnels basés sur des seuils d’alerte ou d’avertissement, consultez les variables de notification disponibles que vous pouvez inclure dans votre message.

Informer vos services et les membres de votre équipe

Envoyez des notifications à votre équipe par e-mail, Slack, PagerDuty, etc. Vous pouvez rechercher des membres de l’équipe et des comptes connectés à l’aide de la liste déroulante.

Ajouter un message et des automatisations de monitor à la notification de votre alerte

Pour ajouter un workflow à partir de Workflow Automation ou ajouter un cas de Case Management à la notification de l’alerte, cliquez sur Add Workflow ou Add Case. Vous pouvez également tagger lʼéquipe Datadog en utilisant l’identifiant @team.

Laissez les autres sections telles quelles. Pour plus d’informations sur le rôle de chaque option de configuration, consultez la documentation relative à la configuration de monitors.

Autorisations

Cliquez sur Edit Acces pour que seul le créateur du monitor et des rôles spécifiques de votre organisation puissent bénéficier dʼun accès en édition. Vous pouvez aussi choisir de sélectionner Notify pour recevoir une alerte lorsque le monitor est modifié.

Définir des autorisations dʼaccès pour un monitor et des options pour les notifications dʼaudit

Pour en savoir plus sur les rôles, consultez la section Contrôle d’accès à base de rôles.

Visualiser les monitors et les alertes de triage sur mobile

Vous pouvez consulter vos vues enregistrées de monitors et consulter ou désactiver des monitors avec l’application mobile Datadog, disponible sur l’App Store d’Apple et le Google Play Store. Vous pourrez ainsi procéder au triage des alertes même lorsque vous n’avez pas accès à votre ordinateur.

Incidents sur l'application mobile

Pour aller plus loin