Page de détails d'un incident

La fonctionnalité de gestion des incidents n'est pas disponible pour le site de Datadog.

Chaque incident dans Datadog dispose de sa propre page de détails où vous pouvez gérer les champs de propriété, les signaux, les tâches, les documents, les intervenants et les notifications de votre incident. Pour que la page de détails d’un incident soit disponible, vous devez créer un incident. La page de détails contient un en-tête global permettant d’accéder rapidement aux actions essentielles, tandis que le corps de la page est divisé en différentes sections sous forme d’onglets qui servent à regrouper les données connexes de l’incident. La première de ces sections est Overview.

En-tête global

En-tête global d'un incident

L’en-tête global permet d’accéder aux sélecteurs de statut et gravité, ainsi qu’à des liens vers vos intégrations liées aux incidents. Lorsque le statut d’un incident est défini sur résolu, une option s’affiche dans l’en-tête afin de vous permettre de générer un Notebook d’analyse post-mortem en utilisant un modèle d’analyse post-mortem. Configurez vos modèles d’analyse post-mortem dans Incident Settings pour prédéfinir la structure et le contenu de vos analyses post-mortem.

Section Overview

Section Overview d'un incident

Utilisez la section Overview pour indiquer les propriétés d’un incident et définir l’impact sur les clients.

Par défaut, tous les incidents présentent les propriétés suivantes :

  • Root Cause
  • Services
  • Teams
  • Detection Method

Vous pouvez configurer des champs de propriété supplémentaires dans Incident Settings en utilisant les paires <CLÉ>:<VALEUR> transmises dans vos tags de métrique Datadog. Grâce à l’attribution de valeurs aux propriétés d’un incident, il est plus facile de rechercher des sous-ensembles d’incidents sur la Incident Homepage et de former des requêtes lors de l’utilisation des données d’analyse de la gestion des incidents.

Si votre incident affecte les clients, indiquez les détails de l’impact dans la section Properties sous l’en-tête Impact :

  1. Sélectionnez Yes pour Customer Impact.
  2. Indiquez la date et l’heure de début de l’impact.
  3. Indiquez la date et l’heure de fin de l’impact ou choisissez Active si l’impact est toujours en cours.
  4. Décrivez la nature de l’impact sur les clients dans Scope of impact.

Section Timeline

Section Timeline d'un incident

La section Timeline de l’incident est la principale source d’informations pour le travail effectué pendant un incident. À mesure que des actions sont effectuées, de nouvelles cellules sont ajoutées à la timeline par ordre chronologique afin de refléter les modifications effectuées, par qui et à quel moment.

Types de contenu

Les cellules peuvent afficher différents types de contenu différents :

Type de contenuDescription
Responder NoteUne note ajoutée manuellement par un intervenant lors de l’incident. Il existe plusieurs sous-types de notes d’intervenant :
- Graphique : la note contient un ou plusieurs graphiques Datadog
- Lien : la note contient un hyperlien
- Code : la note contient des blocs de code incorporés à l’aide de la syntaxe Markdown
Incident UpdateToute modification apportée aux propriétés d’un incident (notamment le statut et la gravité) ou à son impact.
Integration UpdateToute modification effectuée via les intégrations utilisées pour la gestion des incidents.
TaskToute modification apportée aux tâches liées à l’incident dans la section Remediation de la page de détails d’un incident.
Notification SentIndique lorsqu’une notification manuelle est envoyée par un intervenant.

Pour ajouter des notes d’intervenant à la timeline directement, utilisez la zone de texte située sous les onglets permettant de passer d’une section à l’autre. Personnalisez le timestamp de la note au moment de la création pour capturer des informations importantes qui étaient pertinentes à un moment antérieur de la timeline. Si vous êtes l’auteur d’une note d’intervenant, vous pouvez modifier son contenu ou son timestamp, ou encore supprimer entièrement la note. Vous pouvez également copier un lien vers une cellule spécifique et le partager avec vos collègues. Il est possible d’ajouter des notes d’intervenant à la timeline depuis Slack.

En ce qui concerne les cellules de graphique, les définitions de graphique sont stockées au moyen d’URL de partage si cette option est activée dans les paramètres de votre organisation. Lorsqu’une cellule de graphique est ajoutée à la timeline, celle-ci présente les mêmes options d’interactivité que dans les Dashboards, Notebooks et d’autres pages. 24 heures après avoir été ajoutés à la timeline, les graphiques sont remplacés par des images statiques reflétant les informations qu’ils affichaient. Cela permet de s’assurer que les graphiques qui affichent des données à rétention courte restent pertinents même après l’expiration des données en temps réel.

Par défaut, les cellules de la timeline sont affichées selon l’ordre oldest first, mais vous pouvez définir cette option sur newest first à l’aide du bouton en haut à gauche de la timeline.

Section Remediation

Section Remediation de l'incident

Utilisez la section Remediation pour stocker des documents ou ressources pertinents et suivre les tâches clés du processus de remédiation.

Il est possible d’ajouter un document en collant son URL et en donnant au lien un nom lisible pour y accéder rapidement.

Les tâches liées à l’incident peuvent être créées directement depuis la section Remediation, mais également via l’intégration Slack de Datadog.

Dans la section Remediation, saisissez la description de votre tâche dans la zone de texte de création. Pour attribuer une tâche à un utilisateur Datadog, saisissez @ dans la zone de texte de description ou utilisez la colonne Assignees une fois la tâche créée. Veuillez noter que plusieurs personnes peuvent être affectées à une même tâche. Une fois qu’une tâche a été créée, vous pouvez également lui attribuer une date d’échéance.

À mesure qu’elles sont traitées, les différentes tâches peuvent être marquées comme terminées en cochant la case à gauche de la description de la tâche en question. Si vous avez beaucoup de tâches, vous pouvez les filtrer en recherchant des mots-clés ou en masquant les tâches terminées.

Section Responders

Cette fonctionnalité est en version bêta ouverte.
Section Responders d'un incident

Dans la section Responders, vous pouvez former votre équipe d’intervention en ajoutant d’autres utilisateurs et en leur attribuant les rôles qu’ils doivent tenir dans la résolution d’un incident. Voici les trois rôles par défaut fournis par Datadog :

  1. Incident Commander : la personne responsable de diriger l’équipe d’intervention
  2. Communications Lead : la personne responsable de gérer les communications avec les parties prenantes tout au long du cycle de vie de l’incident
  3. Responder : une personne qui contribue activement à l’analyse d’un incident et à la résolution du problème sous-jacent

Remarque : chaque incident doit toujours avoir une personne définie en tant que Incident Commander. S’il n’y a qu’un seul intervenant sur un incident, le rôle Incident Commander est automatiquement attribué à cette personne. Le rôle Communications Lead ou Responder peut être attribué à autant de personnes que nécessaire.

Si vous ajoutez une autre personne en tant qu’intervenant, celle-ci est avertie via l’adresse e-mail associée à son compte Datadog. Tout le monde peut modifier le rôle d’un intervenant, mais vous seul pouvez retirer une personne de la liste des intervenants d’un incident si le rôle Responder général lui est attribué et qu’elle n’a aucune activité dans l’incident. Si un Incident Commander est déjà attribué pour un incident, le fait d’attribuer le rôle Incident Commander à une autre personne transfère le rôle à cette dernière. La personne à laquelle le rôle Incident Commander a été auparavant attribué se voit réattribuer le rôle Responder.

La liste des intervenants enregistre également la date et l’heure auxquelles une personne a été ajoutée pour la première fois à l’équipe d’intervention d’un incident, ainsi que la date et l’heure de la dernière contribution de cette personne à la timeline de l’incident.

Section Notifications

Section Notifications d'un incident

Toutes les notifications pour les parties prenantes d’un incident sont réunies dans la section Notifications. Vous pouvez créer, enregistrer en tant que brouillon et envoyer des notifications manuellement depuis cette page. Les notifications automatisées envoyées au moyen de règles de notification pour l’incident en question sont également répertoriées dans cette section.

Pour créer une notification manuelle :

  1. Cliquez sur le bouton + New Notification en haut à droite de la section.
  2. Saisissez les destinataires de votre choix. Il peut s’agir de n’importe quel handle de notification pris en charge par Datadog, notamment une adresse e-mail, un canal Slack, un handle PagerDuty, un webhook, etc.
  3. Sélectionnez un modèle de message.
  4. Modifiez le titre et le message de votre notification comme bon vous semble en utilisant la syntaxe Markdown et n’importe quelle template variable d’incident en saisissant {{.
    • Les template variables sont basées sur les propriétés d’un incident. Avant l’envoi du message, toutes les template variables sont remplacées par la valeur correspondante de la propriété qui est disponible pour le message au moment de son envoi.
  5. Envoyez votre notification ou enregistrez-la en tant que brouillon.

La section Notifications est divisée en listes : Drafts et Sent.

Les deux listes affichent les éléments suivants :

  1. Les destinataires (prévus) d’une notification
  2. Le contenu du message de la notification ainsi que les messages de renvoi de notification
  3. La date de la dernière mise à jour de la notification
  4. L’auteur de la notification

La liste Sent indique également si une notification a été envoyée manuellement ou automatiquement au moyen d’une règle de notification. Si la notification a été envoyée automatiquement, la règle qui a déclenché la notification est précisée.

Prise en main

Découvrez un exemple de workflow dans le guide Débuter avec la Gestion des incidents.

Pour aller plus loin

Documentation, liens et articles supplémentaires utiles: