GPU Monitoring 플릿 페이지

이 제품은 선택한 Datadog 사이트에서 지원되지 않습니다. ().

개요

GPU 플릿 페이지에는 지정된 기간의 모든 GPU 가속 호스트의 상세 인벤토리가 기재됩니다. 이 조회를 사용해 리소스 텔레메트리를 통하여 성능과 사용량 메트릭부터 비용까지 다양한 범위의 비효율을 드러냅니다. 또한 이 페이지에는 Datadog의 OOTB 프로비저닝 및 장치에 대한 성능 최적화 권장 사항도 표시되어 GPU 지출 가치를 극대화하는 데 도움이 됩니다.

인프라를 클러스터, 호스트 또는 장치 기준으로 분석

우선, GPU 플릿을 어떻게 파악하고자 하는지 선택합니다. Kubernetes 클러스터(Kubernetes 사용자만 사용 가능), 호스트(노드) 또는 GPU 장치별로 플릿을 그룹화하는 토글을 사용하세요.

GPU 플릿 페이지에서 표 결과를 Kubernetes 클러스터, 호스트 또는 장치 기준으로 그룹화하는 토글입니다.

선택 항목은 그 결과로 도출되는 표를 채우는 데 사용됩니다. Cluster 또는 _Host_를 선택하는 경우, 각 표 항목 옆에 있는 > 버튼을 클릭해 각각 클러스터의 호스트나 호스트의 장치를 조회할 수 있습니다.

표의 호스트 항목

참고: 클러스터 표는 Kubernetes를 사용하는 경우에만 채워집니다.

필터 및 그룹화를 사용하여 GPU 플릿 탐색

페이지 상단의 빠른 필터 드롭다운을 사용해 특정 공급자, 장치 유형, 클러스터, 지역, 서비스, 데이터 센터, 환경 또는 기준으로 필터링합니다.

아래 표시된 필드의 다른 태그를 기준으로 검색 또는 그룹화할 수도 있습니다. 예를 들어 호스트 토글을 선택한 다음, 기준으로 그룹화하면 각각의 고유한 팀에 대한 표 항목을 조회할 수 있습니다. 어느 항목이든 항목 옆에 있는 > 버튼을 클릭하면 해당 팀이 사용하는 호스트와 그러한 호스트를 가속하고 있는 GPU 장치를 확인할 수 있습니다.

참고: 그룹화 기준에는 추가 태그를 한 개만 사용할 수 있습니다.

GPU 플릿 페이지의 필터링 및 그룹화 메뉴

사용 사례 기반 조회

Datadog에서는 두 가지 전용 사용 사례 기반 조회를 제공하여 프로비저닝 및 성능 최적화 워크플로를 단계별로 안내합니다.

프로비저닝

프로비저닝 탭에는 용량 할당 및 관리를 위한 주요 권장 사항과 메트릭 인사이트가 표시됩니다.

프로비저닝 사용 사례 기반 조회

OOTB 권장 사항: Datadog은 열 스로틀링 또는 하드웨어 결함을 선제적으로 감지하여 ECC/XID 오류와 같은 하드웨어 오류에 따라 즉시 수정 방법을 추천합니다. Datadog은 장치가 유휴 상태로 방치되는 사태를 방지하기 위해 비활성 장치를 프로비저닝해야 하는지 감지합니다.

프로비저닝 워크플로와 관련 있는 메트릭: ECC 및 XID 오류 수 그래픽 활동 SM 활동 GPU 메모리 할당된 장치(Kubernetes 사용자만 사용 가능) 활성 장치 유휴 비용

성능

성능 탭을 이용하면 워크로드 실행을 파악하고 GPU 활용률을 조정해 장치를 더 효과적으로 사용하는 데 도움이 됩니다.

성능 사용 사례 기반 조회

OOTB 권장 사항: 워크로드가 CPU 집약적인 경우, Datadog은 CPU 포화 상태인 호스트를 플래그하고 해결 방법을 추천합니다. 워크로드가 할당된 GPU 장치를 효과적으로 사용하고 있지 않은 경우, Datadog은 워크로드를 조정해 용량을 더 가치 있게 사용할 방법을 추천합니다.

성능 워크플로와 관련 있는 메트릭: ECC 및 XID 오류 수 그래픽 활동 SM 활동 GPU 메모리 유효 장치 전력 온도 PCIe RX PCIe Tx CPU 활용률

요약 그래프

클러스터, 호스트 또는 장치를 토글하고 나면 요약 그래프에 해당 토글 값으로 그룹화한 GPU 인프라 전체의 주요 리소스 텔레메트리가 표시됩니다. 사용 가능한 메트릭의 종류와 각각의 의미는 아래 섹션을 확장해 표에서 확인하세요.

메트릭정의메트릭 이름
코어 활용률(고급 eBPF 메트릭에 대하여 시스템 프로브를 활성화한 경우에만 사용 가능) GPU 프로세서의 사용된 코어/코어 한도입니다. 시간의 흐름에 따른 코어 활용률 측정값입니다.gpu_core_utilization
메모리 활용률사용한 GPU 메모리/GPU 프로세스의 GPU 메모리 한도입니다.gpu_memory_utilization
PCIe 처리량GPU 장치에서 PCI를 통해 수신된 바이트 및 송신된 바이트(초당)입니다.gpu.pci.throughput.rx,gpu.pci.throughput.tx
그래픽 활동그래픽 엔진이 활성 상태였던 시간의 백분율입니다.gpu.gr_engine_active
SM 활동스트리밍 멀티프로세서가 활성 상태였던 시간의 백분율입니다.gpu.sm_active
전력GPU 장치의 전력 사용량입니다.
참고: GA100 및 이전 아키텍처에서는 해당 시점의 순간 전력을 나타냅니다.
최신 아키텍처에서는 1초간 평균 전력 소모량(W)을 나타냅니다.
gpu.power.usage
온도GPU 장치의 온도입니다.gpu.temperature
사용한 코어(프로세스가 활성인 경우에만 발생함) 해당하는 간격에서 프로세스 하나가 사용 중인 평균 GPU 코어 수입니다.gpu.core.usage
사용한 메모리(프로세스가 활성인 경우에만 발생함) 메트릭이 쿼리된 시점에 이 프로세스가 사용한 메모리입니다.gpu.memory.usage
장치 총합이 기간에 데이터를 보내는 모든 장치의 개수입니다.gpu.device.total

그룹화 기준으로 추가 태그를 선택한 경우(예를 들어 team), 요약 그래프의 모든 고유한 시계열은 선택한 메트릭에 대한 팀의 값과 같습니다.

GPU 기반 인프라의 인벤토리

이 표는 GPU 기반 인프라를 사용자가 선택한 태그 기준으로 분석합니다. 그룹화 기준 필드에서 추가 태그를 지정하지 않은 경우, 결과는 클러스터, 호스트 또는 장치 등 토글 선택한 조회 기준으로 그룹화됩니다.

기본적으로 결과 표에 표시되는 열은 다음과 같습니다.

장치 유형 그래픽 엔진 활동 SM 활동(시스템 프로브가 활성화된 경우만 해당) 코어 활용률 메모리 활용률 유휴 비용 권장 사항

톱니바퀴 아이콘을 클릭하면 표에 어느 메트릭이 표시될지 사용자 지정할 수 있습니다. 사용할 수 있는 메트릭 전체 목록을 보려면 아래 섹션을 확장하세요.

메트릭정의메트릭 이름
CPU 활용률CPU가 사용자 스페이스 프로세스를 실행하는 데 보낸 시간의 백분율입니다. 백분율로 표시됩니다.system.cpu.user
장치 유형GPU 장치의 유형입니다.gpu_device
장치 총합이 기간에 데이터를 보내는 모든 장치의 개수입니다.gpu.device.total
할당된 장치(Kubernetes 사용 중인 경우에만 사용 가능) 워크로드에 할당된 장치 개수입니다.gpu.device.total
활성 장치현재 워크로드에 사용되고 있거나 사용 중인 장치의 개수입니다. Kubernetes를 사용 중인 경우: 현재 워크로드에 사용되고 있는 할당된 장치 개수입니다.gpu.gr_engine_active
유효 장치수명의 50% 이상 사용되었고 작동 중인 장치의 수입니다.gpu.sm_active
그래픽 엔진 활동그래픽 엔진이 활성 상태였던 시간의 백분율입니다.gpu.gr_engine_active
SM 활동스트리밍 멀티프로세서가 활성 상태였던 시간의 백분율입니다.gpu.sm_active
SM 클록SM 클록 주파수를 MHz 단위로 나타낸 것입니다.gpu.clock_speed.sm
PCIe RX 처리량GPU 장치에서 PCI를 통해 수신한 바이트입니다(초당).gpu.pci.throughput.rx
PCIe TX 처리량PCI를 통해 GPU 장치로 송신된 바이트입니다(초당).gpu.pci.throughput.tx
전력GPU 장치의 전력 사용량입니다.
참고: GA100 및 이전 아키텍처에서는 해당 시점의 순간 전력을 나타냅니다.
최신 아키텍처에서는 1초간 평균 전력 소모량(W)을 나타냅니다.
gpu.power.usage
온도GPU 장치의 온도입니다.gpu.temperature
사용한 코어(프로세스가 활성인 경우에만 발생함) 해당하는 간격에서 프로세스 하나가 사용 중인 평균 GPU 코어 수입니다.gpu.core.usage
코어 한도프로세스, 컨테이너 또는 장치가 사용할 수 있는 GPU 코어의 수입니다.gpu.core.limit
사용한 메모리(프로세스가 활성인 경우에만 발생함) 메트릭을 제출한 시점에 이 프로세스가 사용한 메모리입니다.gpu.memory.usage
메모리 한도프로세스, 컨테이너 또는 장치가 할당할 수 있는 최대 메모리 양입니다.gpu.memory.limit
메트릭 톤 CO2이산화탄소 환산량 메트릭 톤(Metric tons of carbon dioxide equivalent, MTCO2e)은 온실가스의 배출량을 각 가스의 지구온난화지수(GWP)에 따라 비교하는 측정 단위입니다. 이 값은 가스의 양에 그 가스의 GWP를 곱해서 계산합니다. 예를 들어 메탄의 GWP가 21이면, 메탄 1백만 메트릭 톤은 이산화탄소 2,100만 메트릭 톤과 같습니다.gpu.power.usage를 기반으로 한 공식
코어 활용률(시스템 프로브를 활성화한 경우에만 사용 가능) GPU 프로세스의 사용한 코어/코어 한도입니다. 시간의 흐름에 따른 코어 활용률 측정값입니다.gpu_core_utilization
메모리 활용률사용한 GPU 메모리/GPU 프로세스의 GPU 메모리 한도입니다.gpu_memory_utilization
유휴 비용(2일이 넘는 기간에 대해서만 0이 아님) 예약되고 할당되었지만, 사용되지 않은 GPU 리소스의 비용입니다.

세부 정보 사이드 패널

플릿 표에서 아무 행이나 클릭하면 선택한 클러스터, 호스트 또는 장치의 세부 정보가 기재된 사이드 패널이 열립니다.

연결된 엔터티

Datadog의 GPU Monitoring은 NVIDIA의 DCGM Exporter에 의존할 필요가 없습니다. 이 모니터링은 Datadog Agent를 사용해 직접 GPU를 관찰하여 풀과 프로세스의 GPU 사용량 및 비용에 관한 인사이트를 제공합니다. 모든 세부 조회의 연결된 엔터티 섹션 아래에서 SM 활동, GPU 코어 활용률(시스템 프로브를 활성화한 경우에만), 그리고 포드, 프로세스, Slurm 작업의 메모리 사용량을 확인할 수 있습니다. 이 정보를 보면 어느 워크로드를 중단하거나 최적화해야 총 지출을 절감할 수 있는지 파악하는 데 도움이 됩니다.

참고: 포드 탭은 Kubernetes를 사용 중인 경우에만 사용할 수 있습니다.

이 사이드 패널에는 클러스터별 퍼널이 있어 다음과 같은 항목을 나타냅니다.

해당 클러스터 내 총합, 할당됨(Kubernetes 사용자만 해당), 활성 및 유효 장치 개수 해당 클러스터의 총비용 및 유휴 비용 해당 클러스터에 연결된 엔터티: 포드, 프로세스 및 Slurm 작업 해당 클러스터의 4가지 주요 메트릭(사용자 지정 가능): 코어 활용률(시스템 프로브를 활성화한 경우에만), 메모리 활용률, PCIe 처리량 및 그래픽 활동 해당 클러스터와 연결된 호스트의 표

클러스터별 사이드 패널, 여기에 유휴 장치, 비용 및 연결된 엔터티가 분석됨

이 사이드 패널에는 호스트별 조회가 있어 다음과 같은 항목을 나타냅니다.

공급자, 인스턴스 유형, CPU 활용률, 사용한 시스템 메모리, 시스템 메모리 총합, 시스템 IO 활용률, SM 활동 및 온도 등 호스트 관련 메타데이터 (Kubernetes 사용자만 사용 가능) 해당 호스트에 할당된 GPU 장치를 그래픽 엔진 활동 기준으로 분류한 내용 해당 호스트에 연결된 엔터티: 포드, 프로세스 및 Slurm 작업

해당 호스트 및 연결된 엔터티와 연계된 GPU 장치를 표시하는 호스트별 사이드 패널

이 사이드 패널에는 장치별 조회가 있어 다음과 같은 항목을 나타냅니다.

이 장치를 더 효과적으로 사용하는 방법 권장 사항(있는 경우) 장치 관련 세부 정보: 장치 유형, SM 활동 및 온도 GPU와 연계된 4가지 주요 메트릭: SM 활동, 메모리 활용률, 전력 및 그래픽 엔진 활동 해당 클러스터의 연결된 엔터티: 포드 및 프로세스

해당 장치를 더 효과적을 사용하는 방법 권장 사항 및 기타 주요 텔레메트리가 표시되는 장치별 사이드 패널.

설치 권장 사항

Datadog은 사용자의 인프라를 적극적으로 조사하여 사용자가 GPU Monitoring으로부터 얻을 수 있는 가치를 감소시키는 설치 간극이 있는지 감지합니다. 이 모달에서는 GPU Monitoring에서 최적의 가치를 얻기 위한 설치 권장 사항을 확인할 수 있습니다. 예를 들어 호스트에 Datadog Agent 최신 버전이 설치되어 있어야 하고, NVIDIA 드라이버 최신 버전을 설치해야 하며 잘못 구성된 호스트가 있는지 검사해야 합니다.

관련 프로세스 또는 SLURM 작업 기준으로 GPU 리소스 특성과 같은 고급 GPU Monitoring 특징을 조회하려면 각각 Live ProcessesSlurm 통합을 활성화해야 합니다.

더 원활한 GPU Monitoring 사용자 경험을 위한 설치 지침을 담은 모달입니다.

참고 자료