Débuter avec les monitors
Présentation
Avec le système d’alertes de Datadog, vous pouvez créer des monitors qui vérifient en continu les métriques, la disponibilité des intégrations, les points de terminaison réseau, et bien plus. Utilisez les monitors pour mettre en évidence les systèmes nécessitant une observation, une inspection ou une intervention.
Cette page présente les monitors et décrit comment configurer un monitor de métrique. Un monitor de métrique déclenche des alertes et des notifications si une métrique dépasse ou passe en dessous d’un seuil défini. Par exemple, un monitor de métrique peut vous avertir lorsque l’espace disque devient insuffisant.
Ce guide couvre les étapes suivantes :
- Création et configuration d’un monitor
- Configuration des alertes de monitor
- Personnalisation des messages de notification
- Autorisations des monitors
Prérequis
Avant de commencer, vous devez disposer d’un compte Datadog lié à un host sur lequel l’Agent Datadog est installé. Pour en savoir plus, consultez le guide Débuter avec l’Agent, ou accédez à Integrations > Agent pour afficher les instructions d’installation.
Pour vérifier que l’Agent Datadog fonctionne correctement, assurez-vous que votre liste d’infrastructure dans Datadog est bien renseignée.
Créer un monitor
Pour créer un monitor, accédez à Monitors > New Monitor et sélectionnez Metric.
Les éléments principaux de la configuration d’un monitor sont les suivants :
- Choisir la méthode de détection : comment mesurez-vous ce qui fera l’objet d’une alerte ? Vous préoccupez-vous du fait que la valeur dʼune métrique lui fasse franchir un seuil ? Que le changement dʼune valeur entraîne le franchissement dʼun seuil ? De la présence dʼune valeur anormale, ou d’autre chose ?
- Définir la métrique : quelle valeur souhaitez-vous surveiller ? L’espace disque de votre système ? Le nombre d’erreurs lors des connexions ?
- Définir les conditions d’alerte : quʼest-ce qui justifie de réveiller un ingénieur ?
- Configurer les notifications et les automatisations : quelles informations doivent figurer dans l’alerte ?
- Définir les permissions et les notifications dʼaudit : qui a accès à ces alertes, et qui doit être notifié si l’alerte est modifiée ?
Choisir la méthode de détection
Lorsque vous créez un monitor de métrique, la méthode de détection Threshold Alert est sélectionnée par défaut. Une alerte de seuil compare les valeurs d’une métrique avec les seuils que vous avez définis. Ce monitor a pour objectif d’envoyer une alerte en fonction d’un seuil statique : aucune modification n’est donc nécessaire.
Définir la métrique
Pour recevoir une alerte en cas d’espace disque faible, utilisez la métrique system.disk.in_use
de l’intégration Disk et calculez la moyenne par host
et par device
:
Définir vos conditions d’alerte
Selon la documentation relative à l’intégration Disk, system.disk.in_use
est la quantité d’espace disque utilisé sous forme de pourcentage du total. De ce fait, lorsque la métrique envoie une valeur de 0.7
, l’appareil est plein à 70 %.
Pour recevoir une alerte en cas d’espace disque faible, le monitor doit se déclencher lorsque la valeur de la métrique est above
(supérieure à) la valeur seuil. Vous êtes libre de définir la valeur seuil que vous souhaitez. Pour cette métrique, les valeurs comprises entre 0
et 1
sont appropriées :
Définissez les seuils suivants :
Alert threshold: > 0.9
Warning threshold: > 0.8
Pour cet exemple, laissez les autres paramètres par défaut tels quels. Pour en savoir plus, consultez la documentation relative aux monitors de métrique.
Notifications et automatisations
Lorsque ce monitor déclenche une alerte, un message de notification est envoyé. Dans ce message, vous pouvez inclure des valeurs conditionnelles, des instructions pour la résolution ou un résumé de l’alerte. Un message de notification doit comporter au moins un titre et un message.
Titre
Le titre doit être unique pour chaque monitor. Étant donné qu’il s’agit d’un monitor à alertes multiples, vous pouvez utiliser des template variables de message pour ajouter le nom de l’élément de chaque groupe (host
et device
) :
Disk space is low on {{device.name}} / {{host.name}}
Message
Utilisez le message pour indiquer à votre équipe comment résoudre le problème, par exemple :
Étapes à suivre pour libérer de l'espace disque :
1. Supprimer les paquets non utilisés
2. Vider le cache APT
3. Désinstaller les applications superflues
4. Supprimer les fichiers en double
Pour ajouter des messages conditionnels basés sur des seuils d’alerte ou d’avertissement, consultez les variables de notification disponibles que vous pouvez inclure dans votre message.
Envoyez des notifications à votre équipe par e-mail, Slack, PagerDuty, etc. Vous pouvez rechercher des membres de l’équipe et des comptes connectés à l’aide de la liste déroulante.
Pour ajouter un workflow à partir de Workflow Automation ou ajouter un cas de Case Management à la notification de l’alerte, cliquez sur Add Workflow ou Add Case. Vous pouvez également tagger lʼéquipe Datadog en utilisant l’identifiant @team
.
Laissez les autres sections telles quelles. Pour plus d’informations sur le rôle de chaque option de configuration, consultez la documentation relative à la configuration de monitors.
Autorisations
Cliquez sur Edit Access pour restreindre la modification du monitor à son créateur, à certaines équipes, utilisateurs, groupes ou rôles spécifiques dans votre organisation. Vous pouvez aussi activer l’option Notify
pour recevoir une alerte en cas de modification du monitor.
Pour plus d’informations, consultez la page sur le contrôle d’accès granulaire.
Visualiser les monitors et les alertes de triage sur mobile
Vous pouvez consulter vos vues enregistrées de monitors et consulter ou désactiver des monitors avec l’application mobile Datadog, disponible sur l’App Store d’Apple et le Google Play Store. Vous pourrez ainsi procéder au triage des alertes même lorsque vous n’avez pas accès à votre ordinateur.
Pour aller plus loin
Documentation, liens et articles supplémentaires utiles: