Page de la Flotte GPU.

Ce produit n'est pas pris en charge par le site Datadog que vous avez sélectionné. ().

Aperçu

La page de la flotte GPU fournit un inventaire détaillé de tous vos hôtes accélérés par GPU pour une période spécifiée. Utilisez cette vue pour découvrir les inefficacités grâce à la télémétrie des ressources, allant des performances et des métriques d’utilisation aux coûts. Cette page présente également les recommandations de provisionnement et d’optimisation des performances prêtes à l’emploi de Datadog pour vos appareils, afin de vous aider à maximiser la valeur de vos dépenses en GPU.

Décomposez votre infrastructure par cluster, hôte ou appareil.

Tout d’abord, sélectionnez comment vous souhaitez comprendre votre flotte GPU en utilisant le commutateur qui regroupe votre flotte par cluster Kubernetes (disponible uniquement pour les utilisateurs de Kubernetes), Hôte (Nœud) ou appareil GPU :

Commutateur pour la page de la flotte GPU qui regroupe les résultats du tableau par Cluster Kubernetes, Hôte ou Appareil.

Votre sélection est utilisée pour remplir le tableau résultant. Si vous sélectionnez Cluster ou Hôte, vous pouvez cliquer sur le bouton > à côté de chaque entrée du tableau pour voir les hôtes d’un cluster ou les appareils d’un hôte, respectivement.

Une entrée d'hôte dans le tableau.

Remarque : Le tableau des clusters n’est rempli que si vous utilisez Kubernetes.

Explorez votre flotte GPU avec des filtres et des regroupements.

Utilisez les menus déroulants de filtre rapide en haut de la page pour filtrer par un Fournisseur, Type d’Appareil, Cluster, Région, Service, Centre de Données, Environnement ou Équipe.

Vous pouvez également Rechercher ou Grouper par d’autres étiquettes dans les champs montrés ci-dessous. Par exemple, vous pouvez sélectionner le commutateur pour Hôte et ensuite grouper par Team pour voir une entrée de tableau pour chaque équipe unique. Cliquez sur le bouton > à côté de n’importe quelle entrée pour voir les hôtes utilisés par cette équipe et les appareils GPU qui accélèrent ces hôtes.

Remarque : Vous ne pouvez grouper qu’une seule balise supplémentaire.

Le menu pour filtrer et regrouper dans la page GPU Fleet

Vues axées sur les cas d’utilisation

Datadog vous guide à travers vos flux de travail de provisionnement et d’optimisation des performances en fournissant deux vues dédiées axées sur les cas d’utilisation.

Provisionnement

L’onglet Provisionnement montre des recommandations clés et des aperçus de métriques pour allouer et gérer votre capacité.

La vue axée sur les cas d'utilisation du provisionnement

Recommandations OOTB :

  • Datadog détecte de manière proactive le throttling thermique ou les défauts matériels et recommande instantanément des remédiations basées sur des erreurs matérielles telles que les erreurs ECC/XID.
  • Datadog détecte si des appareils inactifs doivent être provisionnés pour éviter que des appareils ne restent inactifs.

Métriques pertinentes pour votre flux de travail de provisionnement :

  • Compte d’erreurs ECC et XID
  • Activité graphique
  • Activité SM
  • Mémoire GPU
  • Appareils alloués (disponible uniquement pour les utilisateurs de Kubernetes)
  • Appareils actifs
  • Coût inactif

Performance

L’onglet Performance vous aide à comprendre l’exécution des charges de travail et à optimiser l’utilisation du GPU pour utiliser vos appareils plus efficacement.

La vue axée sur les cas d'utilisation de la performance

Recommandations OOTB :

  • Si vos charges de travail sont intensives en CPU, Datadog signale les hôtes avec saturation du CPU et recommande des solutions.
  • Si vos charges de travail n’utilisent pas efficacement leurs appareils GPU alloués, Datadog fournit des recommandations pour ajuster les charges de travail afin d’obtenir plus de valeur de leur capacité.

Métriques pertinentes pour votre flux de travail de performance :

  • Compte d’erreurs ECC et XID
  • Activité graphique
  • Activité SM
  • Mémoire GPU
  • Appareils efficaces
  • Puissance
  • Température
  • PCIe RX
  • PCIe Tx
  • Utilisation du CPU

Graphique Résumé

Après avoir basculé entre Cluster, Hôte ou Appareil, le Graphique Résumé affiche les principales télémétries de ressources à travers toute votre infrastructure GPU regroupées par cette valeur de basculement. Développez la section ci-dessous pour voir un tableau des métriques disponibles et ce qu’elles représentent.

MétriqueDéfinitionNom de la Métrique
Utilisation du Cœur(Disponible uniquement avec le Système Probe activé pour des métriques eBPF avancées) Cores Used/Cores Limit pour les processus GPU. Mesure de l’Utilisation Temporelle du Cœur.gpu_core_utilization
Utilisation de la MémoireMémoire GPU utilisée / Limite de Mémoire GPU pour les processus GPU.gpu_memory_utilization
Débit PCIeOctets reçus et octets transmis via PCI depuis le périphérique GPU par seconde.gpu.pci.throughput.rx,gpu.pci.throughput.tx
Activité graphiquePourcentage de temps pendant lequel le moteur graphique était actif.gpu.gr_engine_active
Activité SMPourcentage de temps pendant lequel le multiprocesseur de flux était actif.gpu.sm_active
PuissanceUtilisation de la puissance pour le périphérique GPU.
Remarque : Sur les architectures GA100 et précédentes, cela représente la puissance instantanée à ce moment-là.
Pour les architectures plus récentes, cela représente la consommation moyenne de puissance (Watts) sur une seconde.
gpu.power.usage
TempératureTempérature d’un périphérique GPU.gpu.temperature
Cœurs utilisés(Émis uniquement si des processus sont actifs) Nombre moyen de cœurs GPU qu’un processus utilisait dans l’intervalle.gpu.core.usage
Mémoire utilisée(Émis uniquement si des processus sont actifs) La mémoire utilisée par ce processus au moment où la métrique a été interrogée.gpu.memory.usage
Total des dispositifsNombre de tous les dispositifs envoyant des données pendant cette période.gpu.device.total

Si vous avez sélectionné une étiquette supplémentaire pour regrouper—par exemple, équipe—chaque série temporelle unique dans le graphique de synthèse correspond à la valeur d’une équipe pour la métrique sélectionnée.

Inventaire de votre infrastructure équipée de GPU

Ce tableau décompose votre infrastructure équipée de GPU selon l’étiquette de votre choix. Si vous n’avez pas spécifié d’étiquette supplémentaire dans le champ Grouper par, les résultats sont regroupés par votre vue sélectionnée : Cluster, hôte ou dispositif.

Par défaut, le tableau des résultats affiche les colonnes suivantes :

  • Type de dispositif
  • Activité du moteur graphique
  • Activité SM (uniquement si la sonde système est activée)
  • Utilisation du cœur
  • Utilisation de la mémoire
  • Coût d’inactivité
  • Recommandation

Vous pouvez cliquer sur l’icône en forme de roue dentée pour personnaliser les métriques affichées dans le tableau. Développez la section ci-dessous pour voir la liste complète des métriques disponibles.

MétriqueDéfinitionNom de la métrique
Utilisation du CPULe pourcentage de temps que le CPU a passé à exécuter des processus en espace utilisateur. Affiché en pourcentage.system.cpu.user
Type d’appareilType d’appareil GPU.gpu_device
Total des appareilsNombre total d’appareils envoyant des données pendant cette période.gpu.device.total
Appareils alloués(uniquement disponible si vous utilisez Kubernetes) Nombre d’appareils ayant été alloués à une charge de travail.gpu.device.total
Appareils actifsNombre d’appareils utilisés activement pour une charge de travail / occupés. Si vous utilisez Kubernetes : nombre de dispositifs alloués qui sont activement utilisés pour une charge de travail.gpu.gr_engine_active
Appareils efficacesNombre d’appareils utilisés et fonctionnant pendant plus de 50 % de leur durée de vie.gpu.sm_active
Activité du moteur graphiquePourcentage de temps pendant lequel le moteur graphique était actif.gpu.gr_engine_active
Activité du SMPourcentage de temps pendant lequel le multiprocesseur de streaming était actif.gpu.sm_active
Horloge SMFréquence de l’horloge SM en MHz.gpu.clock_speed.sm
Débit RX PCIeOctets reçus via PCI depuis l’appareil GPU par seconde.gpu.pci.throughput.rx
Débit TX PCIeOctets transmis via PCI à l’appareil GPU par seconde.gpu.pci.throughput.tx
PuissanceUtilisation de la puissance pour l’appareil GPU.
Remarque : Sur les architectures GA100 et précédentes, cela représente la puissance instantanée à ce moment-là.
Pour les architectures plus récentes, cela représente la consommation moyenne de puissance (Watts) sur une seconde.
gpu.power.usage
TempératureTempérature d’un appareil GPU.gpu.temperature
Cœurs Utilisés(Émis uniquement si des processus sont actifs) Nombre moyen de cœurs GPU qu’un processus utilisait dans l’intervalle.gpu.core.usage
Limite de cœursNombre de cœurs GPU que le processus, le conteneur ou l’appareil a à disposition.gpu.core.limit
Mémoire Utilisée(Émis uniquement si des processus sont actifs) La mémoire utilisée par ce processus au moment où la métrique a été soumise.gpu.memory.usage
Limite de mémoireLa quantité maximale de mémoire qu’un processus, un conteneur ou un appareil peut allouer.gpu.memory.limit
Tonnes métriques CO2Les tonnes métriques d’équivalent dioxyde de carbone (MTCO2e) sont une unité de mesure qui compare les émissions de gaz à effet de serre en fonction de leur potentiel de réchauffement global (PRG). Elle est calculée en multipliant la quantité d’un gaz par son PRG. Par exemple, si le méthane a un PRG de 21, alors 1 million de tonnes métriques de méthane équivaut à 21 millions de tonnes métriques de dioxyde de carbone.Formule basée sur gpu.power.usage
Utilisation des cœurs(Disponible uniquement si System Probe est activé) Cores Used/Cores Limit pour les processus GPU. Mesure de l’utilisation temporelle des cœurs.gpu_core_utilization
Utilisation de la mémoireMémoire GPU utilisée / Limite de mémoire GPU pour les processus GPU.gpu_memory_utilization
Coût inactif(Non nul uniquement pour des périodes de temps supérieures à 2 jours) Le coût des ressources GPU qui sont réservées et allouées, mais non utilisées.

Panneau latéral des détails

Cliquer sur n’importe quelle ligne dans le tableau de la Flotte ouvre un panneau latéral avec plus de détails pour le cluster, l’hôte ou l’appareil sélectionné.

Entités connectées

La surveillance GPU de Datadog n’a pas besoin de s’appuyer sur l’exportateur DCGM de NVIDIA. Il utilise l’Agent Datadog pour observer directement les GPU, fournissant des informations sur l’utilisation des GPU et les coûts pour les pods et les processus. Dans la section Entités Connectées de toute vue détaillée, vous pouvez voir l’activité SM, l’utilisation des cœurs GPU (uniquement si le Système Probe est activé) et l’utilisation de la mémoire des pods, des processus et des travaux Slurm. Cela vous aide à identifier quelles charges de travail réduire ou optimiser afin de diminuer les dépenses totales.

Remarque : L’onglet Pods n’est disponible que si vous utilisez Kubernetes.

Dans ce panneau latéral, vous avez un entonnoir spécifique au cluster qui identifie :

  • Nombre total, alloué (uniquement pour les utilisateurs de Kubernetes), actif et efficace de dispositifs au sein de ce cluster particulier

  • Coût total estimé et coût inactif de ce cluster

  • Entités connectées de ce cluster : pods, processus et travaux Slurm

  • Quatre indicateurs clés (personnalisables) pour ce cluster : Utilisation des cœurs (Core Utilization) (uniquement si System Probe est activé), Utilisation de la mémoire, Débit PCIe et Activité graphique

  • Tableau des hôtes associés à ce cluster

    Panneau latéral spécifique au cluster qui décompose les dispositifs inactifs, les coûts et les entités connectées

Dans ce panneau latéral, vous avez une vue spécifique à l’hôte qui identifie :

  • Métadonnées liées à l’hôte telles que le fournisseur, le type d’instance, l’utilisation du CPU, la mémoire système utilisée, la mémoire système totale, l’utilisation du système IO, l’activité SM et la température

  • (uniquement disponible pour les utilisateurs de Kubernetes) Les dispositifs GPU spécifiques alloués à cet hôte triés par Activité du moteur graphique

  • Entités connectées de cet hôte : pods, processus et travaux Slurm

    Panneau latéral spécifique à l'hôte qui affiche les dispositifs GPU liés à cet hôte et les Entités Connectées

Dans ce panneau latéral, vous avez une vue spécifique au dispositif qui identifie :

  • Recommandations (le cas échéant) sur la manière d’utiliser cet appareil plus efficacement

  • Détails liés à l’appareil : type d’appareil, activité SM et température

  • Quatre indicateurs clés liés aux GPU : Activité SM, Utilisation de la mémoire, Puissance et Activité du moteur graphique

  • Entités connectées de ce cluster : pods et processus

    Panneau latéral spécifique à l'appareil qui affiche des recommandations sur la manière d'utiliser l'appareil plus efficacement et d'autres données clés de télémétrie.

Recommandations d’installation

Datadog surveille activement votre infrastructure et détecte les lacunes d’installation qui peuvent diminuer la valeur que vous tirez de la surveillance des GPU. Dans cette fenêtre modale, vous pouvez trouver des recommandations de mise à jour d’installation pour obtenir la valeur optimale de la surveillance des GPU. Par exemple, assurez-vous que vos hôtes ont la dernière version de l’Agent Datadog installé, installez la dernière version du pilote NVIDIA et vérifiez les hôtes mal configurés.

Pour voir les fonctionnalités avancées de surveillance des GPU telles que l’attribution des ressources GPU par les processus ou les travaux SLURM associés, vous devez activer Processus en direct et l’intégration Slurm, respectivement.

Fenêtre modale contenant des conseils d'installation pour une expérience utilisateur de surveillance des GPU plus fluide.

Lectures complémentaires