- 필수 기능
- 시작하기
- Glossary
- 표준 속성
- Guides
- Agent
- 통합
- 개방형텔레메트리
- 개발자
- Administrator's Guide
- API
- Datadog Mobile App
- CoScreen
- Cloudcraft
- 앱 내
- 서비스 관리
- 인프라스트럭처
- 애플리케이션 성능
- APM
- Continuous Profiler
- 스팬 시각화
- 데이터 스트림 모니터링
- 데이터 작업 모니터링
- 디지털 경험
- 소프트웨어 제공
- 보안
- AI Observability
- 로그 관리
- 관리
Supported OS
본 점검은 Datadog 에이전트를 통해 노출된 NVIDIA 관리 라이브러리(NVML) 메트릭을 모니터링하고, 노출된 쿠버네티스(Kubernetes) 기기와 상호 연결할 수 있습니다.
NVML 점검은 Datadog 에이전트 패키지에 포함되어 있지 않기 때문에 설치해야 합니다.
에이전트 v7.21+/v6.21+의 경우, 하단 지침에 따라 호스트에 따라 NVML 점검을 설치하세요. 도커(Docker)에이전트 또는 이전 버전의 에이전트와 같이 설치하려면 커뮤니티 통합 사용을 참고하세요.
다음 명령어를 실행해 에이전트 통합을 설치하세요.
Linux의 경우:
datadog-agent integration install -t datadog-nvml==<INTEGRATION_VERSION>
# You may also need to install dependencies since those aren't packaged into the wheel
sudo -u dd-agent -H /opt/datadog-agent/embedded/bin/pip3 install grpcio pynvml
윈도우즈(Windows)(관리자 권한으로 실행하는 Powershell 사용)의 경우:
& "$env:ProgramFiles\Datadog\Datadog Agent\bin\agent.exe" integration install -t datadog-nvml==<INTEGRATION_VERSION>
# You may also need to install dependencies since those aren't packaged into the wheel
& "$env:ProgramFiles\Datadog\Datadog Agent\embedded3\python" -m pip install grpcio pynvml
통합을 코어 통합과 유사하게 설정하세요.
도커(Docker)를 사용하는 경우, NVML 리포지토리에 Dockerfile 예제가 있습니다.
docker build -t dd-agent-nvml .
도커(Docker) 및 쿠버네티스(Kubernetes)를 사용하는 경우 환경 변수 NVIDIA_VISIBLE_DEVICES
및 NVIDIA_DRIVER_CAPABILITIES
를 노출해야 합니다. 포함된 Dockerfile의 예제를 참조하세요.
본 기기를 사용해야여 예약된 쿠버네티스(Kubernetes) NVIDIA 기기를 쿠버네티스(Kubernetes) 포드에 연결하려면, Unix 도메인 소켓 /var/lib/kubelet/pod-resources/kubelet.sock
을 에이전트 설정에 마운트합니다. 본 소켓에 대한 자세한 정보는 쿠버네티스(Kubernetes) 웹사이트에서 확인할 수 있습니다. 참고: 본 기기는 버전 1.15 베타 서비스입니다.
에이전트 설정 디렉터리 루트의 conf.d/
폴더에서 nvml.d/conf.yaml
파일을 편집하여 NVML 성능 데이터 수집을 시작합니다. 사용 가능한 모든 설정 옵션은 nvml.d/conf.yaml 샘플을 참조하세요.
에이전트 상태 하위 명령 실행을 통해 점검 섹션에서 nvml
를 찾습니다.
nvml.device_count (gauge) | Number of GPU on this instance. |
nvml.gpu_utilization (gauge) | Percent of time over the past sample period during which one or more kernels was executing on the GPU. Shown as percent |
nvml.mem_copy_utilization (gauge) | Percent of time over the past sample period during which global (device) memory was being read or written. Shown as percent |
nvml.fb_free (gauge) | Unallocated FB memory. Shown as byte |
nvml.fb_used (gauge) | Allocated FB memory. Shown as byte |
nvml.fb_total (gauge) | Total installed FB memory. Shown as byte |
nvml.power_usage (gauge) | Power usage for this GPU in milliwatts and its associated circuitry (e.g. memory) |
nvml.total_energy_consumption (count) | Total energy consumption for this GPU in millijoules (mJ) since the driver was last reloaded |
nvml.enc_utilization (gauge) | The current utilization for the Encoder Shown as percent |
nvml.dec_utilization (gauge) | The current utilization for the Decoder Shown as percent |
nvml.pcie_tx_throughput (gauge) | PCIe TX utilization Shown as kibibyte |
nvml.pcie_rx_throughput (gauge) | PCIe RX utilization Shown as kibibyte |
nvml.temperature (gauge) | Current temperature for this GPU in degrees celsius |
nvml.fan_speed (gauge) | The current utilization for the fan Shown as percent |
nvml.compute_running_process (gauge) | The current usage of gpu memory by process Shown as byte |
가능하다면 메트릭 이름을 NVIDIA 데이터 센터 GPU 관리자(DCGM) 익스포터와 일치시키려고 시도합니다.
NVML에는 이벤트가 포함되어 있지 않습니다.
도움이 필요하신가요? Datadog 지원 팀에 문의하세요.