Être alerté en cas de latence au 99e centile anormale pour un service de base de données

Temps de lecture : 3 minutes

Datadog vous permet de configurer des monitors pour surveiller la santé de vos services avec l’APM, vous évitant ainsi de devoir constamment la surveiller manuellement. La détection d’anomalies est une fonction algorithmique qui vous permet d’identifier un comportement anormal d’une métrique en fonction de ses données historiques, comme les tendances et les variations saisonnières en fonction du jour de la semaine ou de l’heure. Cette fonctionnalité est idéale pour les métriques qui affichent des tendances marquées et des patterns récurrents, qui seraient difficiles (voire impossibles) à surveiller avec des alertes de seuil.

  1. Ouvrez la page New Monitor et sélectionnez APM

  2. Choisissez votre environnement sous Primary Tags et choisissez la base de données à surveiller sous Service.

    L’option Resource vous permet de surveiller des requêtes spécifiques exécutées dans la base de données. Cet exemple s’intéressant toutefois uniquement aux performances générales, nous laissons *.

    Une fois le service choisi, l’étape suivante peut alors être définie. Un graphique s’affiche en haut de la page pour illustrer les performances de la métrique surveillée par le nouveau monitor.

    Vue de monitor avec alerte en cours
  3. Sélectionnez l’option Anomaly Alert, puis choisissez p99 latency (latence au 99e centile) pour l’option For.

    Une fois l’option Anomaly Alert choisie, le graphique affiche également le comportement normal attendu pour la métrique choisie, ici la latence au 99e centile.

  4. Définissez le champ Alert when sur 100%.

    Cela signifie que l’alerte se déclenchera uniquement si tous les événements de la période sélectionnée sont anormaux, ce qui est préférable lorsque vous débutez avec la détection d’anomalies. Plus tard, vous pourrez définir une valeur mieux adaptée à votre situation. Consultez la FAQ pour en savoir plus sur les monitors de détection d’anomalies.

  5. Changez la notification d’alerte.

    Dans cet exemple, vous pouvez laisser le contenu de notification par défaut ou choisir les membres de l’équipe à taguer dans l’alerte.

    Vue de monitor avec alerte en cours

    Consultez la présentation des notifications pour en savoir plus sur l’utilisation du markdown dans le texte de notification et sur les valeurs et les conditions pouvant y être définies.

  6. Assurez-vous que votre nom d’utilisateur apparaît dans la case Notify your team et ajoutez les autres membres de l’équipe à notifier en cas de latence anormale. Remarque : pour ajouter un autre utilisateur, commencez par taper @. Cliquez sur Save.

    Votre alerte est bien définie. Vous pouvez ajuster les paramètres depuis cet écran et suivre les performances de la métrique.

  7. Passez de l’onglet Edit à l’onglet Status.

    Vue de monitor avec alerte en cours

    Depuis cette page, vous pouvez désactiver votre monitor, afficher son statut actuel ou visualiser plus en détail une alerte déclenchée.

  8. Revenez à la page Services et recherchez le service surveillé par votre nouveau monitor. Cliquez sur la page Service, puis cliquez sur la barre du monitor sous l’en-tête.

    Votre nouveau monitor devrait alors s’afficher, ainsi que les autres monitors définis pour le service et les monitors que Datadog vous conseille d’ajouter.

    Vue de monitor avec alerte en cours

    Plus vos créerez de monitors, plus vous trouverez de services, métriques et événements à inclure et plus vous serez à même de définir des conditions complexes. Chaque monitor est connecté à un service et peut être consulté depuis la page Service ainsi que depuis la Service Map.

    Service Map

    Pour chaque service sur la carte, un cercle vert signifie que tous les monitors sont silencieux ; un cercle jaune signifie qu’au moins un monitor envoie des avertissements mais qu’aucun monitor n’émet d’alerte ; un cercle rouge signifie qu’au moins un monitor émet une alerte ; et un cercle gris signifie qu’aucun monitor n’est défini pour le service.

Pour aller plus loin