Alertes Watchdog

Présentation

Watchdog détecte de façon proactive les anomalies au sein de vos systèmes et applications. Chaque anomalie est présentée dans le Watchdog Alert Explorer. Elle comprend des informations sur l’événement en question, l’impact potentiel sur les autres systèmes, ainsi que la cause à l’origine de l’anomalie.

La page d'alertes de Watchdog, avec une alerte d'anomalie en cours dans des logs d'erreur, une alerte d'anomalie résolue dans des logs d'erreur et une alerte de taux d'erreur résolue via une analyse des causes d'origine

Détails des alertes Watchdog

Chaque fiche d’aperçu d’une alerte contient les sections ci-dessous :

Capture d'écran d'une fiche d'alerte Watchdog, avec un taux d'erreur élevé sur l'endpoint send-sms dans sms-service
  1. Status : une anomalie peut posséder le statut ongoing, resolved ou expired. Le statut expired indique que l’anomalie a été détectée il y a plus de 48 heures.
  2. Timeline : description de la période de l’anomalie.
  3. Message : description de l’anomalie.
  4. Graph : représentation visuelle de l’anomalie.
  5. Tags : contexte de l’anomalie.
  6. *Impact (si disponible) : description des utilisateurs, vues ou services concernés par l’anomalie.

Cliquez n’importe où sur la fiche d’aperçu d’une alerte pour ouvrir le volet des détails de l’alerte.

En plus de reprendre les informations de la fiche d’aperçu, l’onglet Overview peut afficher un ou plusieurs des champs suivants :

  • Expected Bounds : cochez la case Show expected bounds. Le graphique change alors de couleur pour différencier les comportements attendus des comportements anormaux.
  • Suggested Next Steps : description des étapes à effectuer pour analyser et trier les comportements anormaux.
  • Monitors : liste des monitors associés à votre alerte. Pour chaque monitor affiché, le contexte est défini sur la métrique de l’alerte actuelle et sur ses tags associés.

Watchdog vous suggère également des monitors que vous pouvez créer afin d’être prévenu en cas d’anomalie. Puisque ces monitors n’existent pas encore, ils possèdent le statut suggested dans le tableau. Cliquez sur Enable Monitor pour activer un monitor suggéré pour votre organisation. Utilisez les icônes qui s’affichent pour ouvrir, modifier, dupliquer, désactiver ou supprimer le nouveau monitor.

Watchdog Alert Explorer

Vous pouvez utiliser le sélecteur d’intervalle, la barre de recherche ou des facettes pour filtrer votre flux d’alertes Watchdog.

  • Sélecteur d’intervalle : utilisez le sélecteur d’intervalle en haut à droite pour afficher les alertes détectées lors d’un intervalle spécifique. Vous pouvez afficher toutes les alertes qui ont été générées au cours des six derniers mois.
  • Barre de recherche : saisissez du texte dans la barre de recherche Filter alerts pour effectuer une recherche parmi les titres de vos alertes.
  • Facettes : les facettes de recherche affichées ci-dessous sont disponibles dans la partie gauche du flux d’alertes Watchdog. Cochez les cases correspondantes pour filtrer vos alertes par facette.

Facettes disponibles :

Groupe d’alertesDescription
Catégorie d’alerteAfficher toutes les alertes apm, infrastructure ou logs.
Type d’alertePermet de sélectionner des alertes en utilisant les métriques des intégrations APM ou Infrastructure.
Statut d’alertePermet de sélectionner des alertes en fonction de leur statut (ongoing, resolved ou expired).
Tag primaire APMLe tag primaire APM dont les alertes doivent être affichées.
EnvironnementL’environnement dont les alertes doivent être affichées. Consultez la section Tagging de service unifié pour en savoir plus sur le tag env.
ServiceLe service dont les alertes doivent être affichées. Consultez la section Tagging de service unifié pour en savoir plus sur le tag service.
Utilisateur final concerné(RUM requis) Facette disponible si Watchdog détermine que des utilisateurs finaux sont concernés par l’anomalie. Consultez la section Analyse de l’impact Watchdog pour en savoir plus.
Cause fondamentale(APM requis) Facette disponible si Watchdog a identifié la cause à l’origine d’une anomalie ou d’un échec critique. Consultez la section Watchdog RCA pour en savoir plus.
ÉquipeL’équipe responsable des services impactés. Ces informations sont enrichies à partir du catalogue des services.
Type d’anomalie dans les logsAfficher uniquement les anomalies de ce type. Les types pris en charge comprennent les nouveaux patterns de log et les patterns de logs existants qui ont augmenté.
Source des logsAfficher uniquement les alertes contenant des logs de cette source.
Statut des logsAfficher uniquement les alertes contenant des logs avec ce statut.

Couverture des alertes Watchdog

Les alertes Watchdog s’appliquent à un grand nombre de métriques relatives à vos applications et à votre infrastructure :

Les logs ingérés sont analysés au niveau de l’admission. Watchdog agrège les logs en fonction de certains patterns détectés ainsi que des tags environment, service, source et status. Ces logs agrégés sont ensuite analysés afin d’identifier différents comportements anormaux, notamment :

  • Une augmentation du nombre de logs possédant un statut d’avertissement ou d’erreur
  • Une hausse soudaine du nombre de logs possédant un statut d’avertissement ou d’erreur

Toutes les anomalies de log sont présentées sous la forme d’insights dans le Log Explorer. Elles tiennent compte du contexte de recherche ainsi que des restrictions appliquées à votre rôle. Les anomalies de log qui sont considérées par Watchdog comme severe sont affichées dans le Watchdog Alert Explorer. Vous pouvez créer des alertes à propos de ces anomalies en configurant un monitor de log Watchdog. Une anomalie de type severe répond aux critères suivants :

  • Elle contient des logs d’erreur.
  • Elle dure au moins 10 minutes (pour éviter les erreurs passagères).
  • Elle est caractérisée par une forte augmentation (pour ignorer les hausses négligeables).
  • Elle possède un score noise peu élevé (pour ne pas générer de nombreuses alertes liées à un même service). Le score noise est calculé au niveau du service. Il tient compte des éléments suivants :
    • Le nombre de patterns d’erreur (plus ce nombre est élevé, plus le score est élevé)
    • La similarité des patterns (plus les patterns sont proches, plus le score est élevé)

Historique de données requis

Pour déterminer le comportement attendu, Watchdog nécessite certaines données. Pour les anomalies de log, vous devez disposer au minimum d’un historique de 24 heures. Dès lors que cet historique est disponible, Watchdog commence à identifier les anomalies. L’historique s’améliore au fur et à mesure. Pour des performances optimales, un historique de six semaines est nécessaire.

Désactiver la détection des anomalies de log

Pour désactiver la détection des anomalies de log, accédez à la page Log Management pipeline, puis cliquez sur le bouton Log Anomalies.

Watchdog analyse tous les services et toutes les ressources afin de détecter des anomalies basées sur les métriques suivantes :

  • Taux d’erreur
  • Latence
  • Hits (taux de requête)

Watchdog ne tient pas compte des endpoints et services peu utilisés, afin de réduire les alertes superflues et d’éviter de générer des anomalies pour de faibles volumes de trafic. En outre, si une anomalie concernant le taux de requête est détectée, mais qu’elle n’a aucune incidence sur la latence ni sur le taux d’erreur, elle est ignorée.

Historique de données requis

Pour déterminer le comportement attendu, Watchdog nécessite certaines données. Pour les anomalies de métrique, vous devez disposer au minimum d’un historique de deux semaines. Dès lors que cet historique est disponible, Watchdog commence à identifier les anomalies. L’historique s’améliore au fur et à mesure. Pour des performances optimales, un historique de six semaines est nécessaire.

Watchdog analyse tous les services et toutes les ressources afin de détecter des anomalies basées sur les métriques suivantes :

  • Taux d’erreur
  • Latence
  • Hits (taux de requête)

Watchdog ne tient pas compte des endpoints et services peu utilisés, afin de réduire les alertes superflues et d’éviter de générer des anomalies pour de faibles volumes de trafic. En outre, si une anomalie concernant le taux de requête est détectée, mais qu’elle n’a aucune incidence sur la latence ni sur le taux d’erreur, elle est ignorée.

Historique de données requis

Pour déterminer le comportement attendu, Watchdog nécessite certaines données. Pour les anomalies de métrique, vous devez disposer au minimum d’un historique de deux semaines. Dès lors que cet historique est disponible, Watchdog commence à identifier les anomalies. L’historique s’améliore au fur et à mesure. Pour des performances optimales, un historique de six semaines est nécessaire.

Watchdog analyse les métriques d’infrastructure provenant des intégrations suivantes :

Historique de données requis

Pour déterminer le comportement attendu, Watchdog nécessite certaines données. Pour les anomalies de métrique, vous devez disposer au minimum d’un historique de deux semaines. Dès lors que cet historique est disponible, Watchdog commence à identifier les anomalies. L’historique s’améliore au fur et à mesure. Pour des performances optimales, un historique de six semaines est nécessaire.

Détection personnalisée des anomalies

Watchdog se base sur les mêmes algorithmes saisonniers que ceux des monitors et dashboards. Pour détecter des anomalies en fonction d’autres métriques, ou pour personnaliser le degré de sensibilité, choisissez l’un des algorithmes suivants :

Emplacement des alertes Watchdog

Vous pouvez retrouver les alertes Watchdog à différents endroits de la plateforme Datadog :

Symbole de jumelles Watchdog sur les pages APM

Lorsque Watchdog détecte une irrégularité au niveau d’une métrique APM, l’icône rose en forme de jumelles Watchdog s’affiche en regard du service concerné dans le catalogue des services APM.

Capture d'écran du catalogue des services, avec cinq services. Une icône rose en forme de jumelles est visible à côté du nom du service web-store.

Pour afficher plus de détails sur l’anomalie de métrique, accédez à la partie supérieure d’une page Service depuis le carrousel Watchdog Insights.

L’icône Watchdog apparaît également sur les graphiques de métriques.

Un graphique illustrant la latence d'un service, en secondes, sur l'axe des ordonnées et l'heure de la journée sur l'axe des abscisses. Le graphique est représenté sur un fond rose et le texte May 2: 13:31 Ongoing apparaît en haut.

Cliquez sur l’icône en forme de jumelles pour afficher une fiche d’alerte Watchdog comportant plus de détails sur l’anomalie.

Gérer les alertes archivées

Pour archiver une alerte Watchdog, ouvrez le volet latéral, puis cliquez sur l’icône de dossier en haut à droite. L’alerte n’apparaît alors plus dans l’Explorer, ni dans les autres sections de Datadog, comme votre page d’accueil. Lorsque vous archivez une alerte, l’icône rose en forme de jumelles Datadog ne s’affiche plus en regard du service ou de la ressource concerné.

Pour afficher les alertes archivées, cochez la case Show N archived alert en haut à gauche du Watchdog Alert Explorer. Cette option est uniquement disponible si au moins une alerte est archivée. Vous pouvez aussi consulter les personnes qui ont archivé les alertes et la date d’archivage. Il est également possible de restaurer les alertes archivées afin qu’elles s’affichent à nouveau dans votre flux.

Remarque : l’archivage d’une anomalie n’empêche pas Watchdog de signaler d’autres éventuels problèmes affectant le service ou la ressource.