Ce produit n'est pas pris en charge par le
site Datadog que vous avez sélectionné. (
).
Aperçu
La page de la flotte GPU fournit un inventaire détaillé de tous vos hôtes accélérés par GPU pour une période spécifiée. Utilisez cette vue pour découvrir les inefficacités grâce à la télémétrie des ressources, allant des performances et des métriques d’utilisation aux coûts. Cette page présente également les recommandations de provisionnement et d’optimisation des performances prêtes à l’emploi de Datadog pour vos appareils, afin de vous aider à maximiser la valeur de vos dépenses en GPU.
Décomposez votre infrastructure par cluster, hôte ou appareil.
Tout d’abord, sélectionnez comment vous souhaitez comprendre votre flotte GPU en utilisant le commutateur qui regroupe votre flotte par cluster Kubernetes (disponible uniquement pour les utilisateurs de Kubernetes), Hôte (Nœud) ou appareil GPU :
Votre sélection est utilisée pour remplir le tableau résultant. Si vous sélectionnez Cluster ou Hôte, vous pouvez cliquer sur le bouton > à côté de chaque entrée du tableau pour voir les hôtes d’un cluster ou les appareils d’un hôte, respectivement.
Remarque : Le tableau des clusters n’est rempli que si vous utilisez Kubernetes.
Explorez votre flotte GPU avec des filtres et des regroupements.
Utilisez les menus déroulants de filtre rapide en haut de la page pour filtrer par un Fournisseur, Type d’Appareil, Cluster, Région, Service, Centre de Données, Environnement ou Équipe.
Vous pouvez également Rechercher ou Grouper par d’autres étiquettes dans les champs montrés ci-dessous. Par exemple, vous pouvez sélectionner le commutateur pour Hôte et ensuite grouper par Team pour voir une entrée de tableau pour chaque équipe unique. Cliquez sur le bouton > à côté de n’importe quelle entrée pour voir les hôtes utilisés par cette équipe et les appareils GPU qui accélèrent ces hôtes.
Remarque : Vous ne pouvez grouper qu’une seule balise supplémentaire.
Vues axées sur les cas d’utilisation
Datadog vous guide à travers vos flux de travail de provisionnement et d’optimisation des performances en fournissant deux vues dédiées axées sur les cas d’utilisation.
Provisionnement
L’onglet Provisionnement montre des recommandations clés et des aperçus de métriques pour allouer et gérer votre capacité.
Recommandations OOTB :
- Datadog détecte de manière proactive le throttling thermique ou les défauts matériels et recommande instantanément des remédiations basées sur des erreurs matérielles telles que les erreurs ECC/XID.
- Datadog détecte si des appareils inactifs doivent être provisionnés pour éviter que des appareils ne restent inactifs.
Métriques pertinentes pour votre flux de travail de provisionnement :
- Compte d’erreurs ECC et XID
- Activité graphique
- Activité SM
- Mémoire GPU
- Appareils alloués (disponible uniquement pour les utilisateurs de Kubernetes)
- Appareils actifs
- Coût inactif
L’onglet Performance vous aide à comprendre l’exécution des charges de travail et à optimiser l’utilisation du GPU pour utiliser vos appareils plus efficacement.
Recommandations OOTB :
- Si vos charges de travail sont intensives en CPU, Datadog signale les hôtes avec saturation du CPU et recommande des solutions.
- Si vos charges de travail n’utilisent pas efficacement leurs appareils GPU alloués, Datadog fournit des recommandations pour ajuster les charges de travail afin d’obtenir plus de valeur de leur capacité.
Métriques pertinentes pour votre flux de travail de performance :
- Compte d’erreurs ECC et XID
- Activité graphique
- Activité SM
- Mémoire GPU
- Appareils efficaces
- Puissance
- Température
- PCIe RX
- PCIe Tx
- Utilisation du CPU
Graphique Résumé
Après avoir basculé entre Cluster, Hôte ou Appareil, le Graphique Résumé affiche les principales télémétries de ressources à travers toute votre infrastructure GPU regroupées par cette valeur de basculement. Développez la section ci-dessous pour voir un tableau des métriques disponibles et ce qu’elles représentent.
| Métrique | Définition | Nom de la Métrique |
|---|
| Utilisation du Cœur | (Disponible uniquement avec le Système Probe activé pour des métriques eBPF avancées) Cores Used/Cores Limit pour les processus GPU. Mesure de l’Utilisation Temporelle du Cœur. | gpu_core_utilization |
| Utilisation de la Mémoire | Mémoire GPU utilisée / Limite de Mémoire GPU pour les processus GPU. | gpu_memory_utilization |
| Débit PCIe | Octets reçus et octets transmis via PCI depuis le périphérique GPU par seconde. | gpu.pci.throughput.rx,gpu.pci.throughput.tx |
| Activité graphique | Pourcentage de temps pendant lequel le moteur graphique était actif. | gpu.gr_engine_active |
| Activité SM | Pourcentage de temps pendant lequel le multiprocesseur de flux était actif. | gpu.sm_active |
| Puissance | Utilisation de la puissance pour le périphérique GPU. Remarque : Sur les architectures GA100 et précédentes, cela représente la puissance instantanée à ce moment-là. Pour les architectures plus récentes, cela représente la consommation moyenne de puissance (Watts) sur une seconde. | gpu.power.usage |
| Température | Température d’un périphérique GPU. | gpu.temperature |
| Cœurs utilisés | (Émis uniquement si des processus sont actifs) Nombre moyen de cœurs GPU qu’un processus utilisait dans l’intervalle. | gpu.core.usage |
| Mémoire utilisée | (Émis uniquement si des processus sont actifs) La mémoire utilisée par ce processus au moment où la métrique a été interrogée. | gpu.memory.usage |
| Total des dispositifs | Nombre de tous les dispositifs envoyant des données pendant cette période. | gpu.device.total |
Si vous avez sélectionné une étiquette supplémentaire pour regrouper—par exemple, équipe—chaque série temporelle unique dans le graphique de synthèse correspond à la valeur d’une équipe pour la métrique sélectionnée.
Inventaire de votre infrastructure équipée de GPU
Ce tableau décompose votre infrastructure équipée de GPU selon l’étiquette de votre choix. Si vous n’avez pas spécifié d’étiquette supplémentaire dans le champ Grouper par, les résultats sont regroupés par votre vue sélectionnée : Cluster, hôte ou dispositif.
Par défaut, le tableau des résultats affiche les colonnes suivantes :
- Type de dispositif
- Activité du moteur graphique
- Activité SM (uniquement si la sonde système est activée)
- Utilisation du cœur
- Utilisation de la mémoire
- Coût d’inactivité
- Recommandation
Vous pouvez cliquer sur l’icône en forme de roue dentée pour personnaliser les métriques affichées dans le tableau. Développez la section ci-dessous pour voir la liste complète des métriques disponibles.
| Métrique | Définition | Nom de la métrique |
|---|
| Utilisation du CPU | Le pourcentage de temps que le CPU a passé à exécuter des processus en espace utilisateur. Affiché en pourcentage. | system.cpu.user |
| Type d’appareil | Type d’appareil GPU. | gpu_device |
| Total des appareils | Nombre total d’appareils envoyant des données pendant cette période. | gpu.device.total |
| Appareils alloués | (uniquement disponible si vous utilisez Kubernetes) Nombre d’appareils ayant été alloués à une charge de travail. | gpu.device.total |
| Appareils actifs | Nombre d’appareils utilisés activement pour une charge de travail / occupés. Si vous utilisez Kubernetes : nombre de dispositifs alloués qui sont activement utilisés pour une charge de travail. | gpu.gr_engine_active |
| Appareils efficaces | Nombre d’appareils utilisés et fonctionnant pendant plus de 50 % de leur durée de vie. | gpu.sm_active |
| Activité du moteur graphique | Pourcentage de temps pendant lequel le moteur graphique était actif. | gpu.gr_engine_active |
| Activité du SM | Pourcentage de temps pendant lequel le multiprocesseur de streaming était actif. | gpu.sm_active |
| Horloge SM | Fréquence de l’horloge SM en MHz. | gpu.clock_speed.sm |
| Débit RX PCIe | Octets reçus via PCI depuis l’appareil GPU par seconde. | gpu.pci.throughput.rx |
| Débit TX PCIe | Octets transmis via PCI à l’appareil GPU par seconde. | gpu.pci.throughput.tx |
| Puissance | Utilisation de la puissance pour l’appareil GPU. Remarque : Sur les architectures GA100 et précédentes, cela représente la puissance instantanée à ce moment-là. Pour les architectures plus récentes, cela représente la consommation moyenne de puissance (Watts) sur une seconde. | gpu.power.usage |
| Température | Température d’un appareil GPU. | gpu.temperature |
| Cœurs Utilisés | (Émis uniquement si des processus sont actifs) Nombre moyen de cœurs GPU qu’un processus utilisait dans l’intervalle. | gpu.core.usage |
| Limite de cœurs | Nombre de cœurs GPU que le processus, le conteneur ou l’appareil a à disposition. | gpu.core.limit |
| Mémoire Utilisée | (Émis uniquement si des processus sont actifs) La mémoire utilisée par ce processus au moment où la métrique a été soumise. | gpu.memory.usage |
| Limite de mémoire | La quantité maximale de mémoire qu’un processus, un conteneur ou un appareil peut allouer. | gpu.memory.limit |
| Tonnes métriques CO2 | Les tonnes métriques d’équivalent dioxyde de carbone (MTCO2e) sont une unité de mesure qui compare les émissions de gaz à effet de serre en fonction de leur potentiel de réchauffement global (PRG). Elle est calculée en multipliant la quantité d’un gaz par son PRG. Par exemple, si le méthane a un PRG de 21, alors 1 million de tonnes métriques de méthane équivaut à 21 millions de tonnes métriques de dioxyde de carbone. | Formule basée sur gpu.power.usage |
| Utilisation des cœurs | (Disponible uniquement si System Probe est activé) Cores Used/Cores Limit pour les processus GPU. Mesure de l’utilisation temporelle des cœurs. | gpu_core_utilization |
| Utilisation de la mémoire | Mémoire GPU utilisée / Limite de mémoire GPU pour les processus GPU. | gpu_memory_utilization |
| Coût inactif | (Non nul uniquement pour des périodes de temps supérieures à 2 jours) Le coût des ressources GPU qui sont réservées et allouées, mais non utilisées. | |
Panneau latéral des détails
Cliquer sur n’importe quelle ligne dans le tableau de la Flotte ouvre un panneau latéral avec plus de détails pour le cluster, l’hôte ou l’appareil sélectionné.
Entités connectées
La surveillance GPU de Datadog n’a pas besoin de s’appuyer sur l’exportateur DCGM de NVIDIA. Il utilise l’Agent Datadog pour observer directement les GPU, fournissant des informations sur l’utilisation des GPU et les coûts pour les pods et les processus. Dans la section Entités Connectées de toute vue détaillée, vous pouvez voir l’activité SM, l’utilisation des cœurs GPU (uniquement si le Système Probe est activé) et l’utilisation de la mémoire des pods, des processus et des travaux Slurm. Cela vous aide à identifier quelles charges de travail réduire ou optimiser afin de diminuer les dépenses totales.
Remarque : L’onglet Pods n’est disponible que si vous utilisez Kubernetes.
Dans ce panneau latéral, vous avez un entonnoir spécifique au cluster qui identifie :
Nombre total, alloué (uniquement pour les utilisateurs de Kubernetes), actif et efficace de dispositifs au sein de ce cluster particulier
Coût total estimé et coût inactif de ce cluster
Entités connectées de ce cluster : pods, processus et travaux Slurm
Quatre indicateurs clés (personnalisables) pour ce cluster : Utilisation des cœurs (Core Utilization) (uniquement si System Probe est activé), Utilisation de la mémoire, Débit PCIe et Activité graphique
Tableau des hôtes associés à ce cluster
Dans ce panneau latéral, vous avez une vue spécifique à l’hôte qui identifie :
Métadonnées liées à l’hôte telles que le fournisseur, le type d’instance, l’utilisation du CPU, la mémoire système utilisée, la mémoire système totale, l’utilisation du système IO, l’activité SM et la température
(uniquement disponible pour les utilisateurs de Kubernetes) Les dispositifs GPU spécifiques alloués à cet hôte triés par Activité du moteur graphique
Entités connectées de cet hôte : pods, processus et travaux Slurm
Dans ce panneau latéral, vous avez une vue spécifique au dispositif qui identifie :
Recommandations (le cas échéant) sur la manière d’utiliser cet appareil plus efficacement
Détails liés à l’appareil : type d’appareil, activité SM et température
Quatre indicateurs clés liés aux GPU : Activité SM, Utilisation de la mémoire, Puissance et Activité du moteur graphique
Entités connectées de ce cluster : pods et processus
Recommandations d’installation
Datadog surveille activement votre infrastructure et détecte les lacunes d’installation qui peuvent diminuer la valeur que vous tirez de la surveillance des GPU. Dans cette fenêtre modale, vous pouvez trouver des recommandations de mise à jour d’installation pour obtenir la valeur optimale de la surveillance des GPU. Par exemple, assurez-vous que vos hôtes ont la dernière version de l’Agent Datadog installé, installez la dernière version du pilote NVIDIA et vérifiez les hôtes mal configurés.
Pour voir les fonctionnalités avancées de surveillance des GPU telles que l’attribution des ressources GPU par les processus ou les travaux SLURM associés, vous devez activer Processus en direct et l’intégration Slurm, respectivement.
Lectures complémentaires
Documentation, liens et articles supplémentaires utiles: