Nvidia NIM

Supported OS Linux Mac OS

통합 버전2.0.0

To find out if this integration is available in your organization, see your Datadog Integrations page or ask your organization administrator.

To initiate an exception request to enable this integration for your organization, email support@ddog-gov.com.

개요

본 점검은 Datadog Agent로 NVIDIA NIM을 모니터링합니다.

설정

이 통합 기능은 현재 Preview 단계입니다. 향후 제공 여부는 변경될 수 있습니다.

아래 지침에 따라 호스트에서 실행 중인 Agent에 이 점검을 설치하고 설정하세요. 컨테이너화된 환경의 경우 Autodiscovery 통합 템플릿에서 해당 지침을 적용하는 방법에 관한 가이드를 참고하세요.

필수조건:

  • 이 점검에는 Agent v7.61.0+가 필요합니다.
  • 본 점검에서는 메트릭 수집을 위해 OpenMetrics를 사용하며, Python 3이 필요합니다.

`### Installation NVIDIA NIM 점검은 Datadog Agent 패키지에 포함되어 있어 서버에 추가로 설치할 필요가 없습니다.

LLM Observability: LLM 애플리케이션에서 NVIDIA Nim으로 이루어지는 호출을 엔드투엔드 가시화

NVIDIA NIM은 OpenAI 클라이언트를 사용하여 NVIDIA NIM의 API 호출을 처리합니다. NVIDIA NIM을 사용하여 애플리케이션을 모니터링하고 LLM Observability를 설정하려면 OpenAI 통합 설명서를 따르세요. `

설정

NVIDIA NIM은 요청 통계를 나타내는 Prometheus 메트릭을 제공합니다. 기본적으로 해당 메트릭은 http://localhost:8000/metrics 에서 사용할 수 있습니다. Datadog Agent은 해당 통합을 사용하여 노출된 메트릭을 수집합니다. 아래 지침에 따라 일부 또는 모든 컴포넌트에서 데이터 수집을 구성할 수 있습니다.

NVIDIA NIM 성능 데이터 수집을 시작하려면:

  1. NVIDIA NIM 성능 데이터 수집을 시작하려면 Agent 구성 디렉터리 루트의 conf.d/ 폴더에 있는 nvidia_nim.d/conf.yaml 파일을 편집합니다. 사용 가능한 모든 구성 옵션은 샘플 nvidia_nim.d/conf.yaml을 참고하세요.

  2. Agent를 다시 시작합니다.

검증

Agent 상태 하위 명령을 실행하고 Checks 섹션에서 nvidia_nim를 찾습니다.

수집한 데이터

Metrics

nvidia_nim.e2e_request_latency.seconds.bucket
(count)
초 단위 버킷별 엔드 투 엔드 요청 레이턴시 관측 값.
nvidia_nim.e2e_request_latency.seconds.count
(count)
엔드 투 엔드 요청 레이턴시의 총 관측 횟수.
nvidia_nim.e2e_request_latency.seconds.sum
(count)
엔드 투 엔드 요청 레이턴시(초)의 합계.
second로 표시
nvidia_nim.generation_tokens.count
(count)
처리된 생성 토큰 수.
token으로 표시
nvidia_nim.gpu_cache_usage_percent
(gauge)
GPU KV 캐시 사용량. 1은 100% 사용량을 의미합니다.
fraction으로 표시
nvidia_nim.num_request.max
(gauge)
동시에 실행 중인 최대 요청 수.
request로 표시
nvidia_nim.num_requests.running
(gauge)
현재 GPU에서 실행 중인 요청 수.
request로 표시
nvidia_nim.num_requests.waiting
(gauge)
대기 중인 요청 수.
request로 표시
nvidia_nim.process.cpu_seconds.count
(count)
총 사용자 및 시스템 CPU 사용 시간(초)
Second로 표시됨
nvidia_nim.process.max_fds
(gauge)
열려 있는 파일 디스크립터 최대 수.
file로 표시됨
nvidia_nim.process.open_fds
(gauge)
오픈 파일 디스크립터의 수.
file로 표시됨
nvidia_nim.process.resident_memory_bytes
(gauge)
레지던트 메모리 크기(바이트)
byte로 표시됨
nvidia_nim.process.start_time_seconds
(gauge)
프로세스 시작 후 경과 시간(초).
second로 표시
nvidia_nim.process.virtual_memory_bytes
(gauge)
버추얼 메모리 크기(바이트)
byte로 표시됨
nvidia_nim.prompt_tokens.count
(count)
처리된 프리필 토큰 수.
token으로 표시
nvidia_nim.python.gc.collections.count
(count)
이 생성이 수집된 횟수.
nvidia_nim.python.gc.objects.collected.count
(count)
GC 중에 수집된 오브젝트.
nvidia_nim.python.gc.objects.uncollectable.count
(count)
GC 중에 발견된 수집할 수 없는 객체.
nvidia_nim.python.info
(gauge)
Python 플랫폼 정보.
nvidia_nim.request.failure.count
(count)
실패한 요청 카운트.
request로 표시
nvidia_nim.request.finish.count
(count)
종료된 요청 카운트.
request로 표시
nvidia_nim.request.generation_tokens.bucket
(count)
처리된 생성 토큰 수.
nvidia_nim.request.generation_tokens.count
(count)
처리된 생성 토큰 수.
nvidia_nim.request.generation_tokens.sum
(count)
처리된 생성 토큰 수.
token으로 표시
nvidia_nim.request.prompt_tokens.bucket
(count)
처리된 프리필 토큰 수.
nvidia_nim.request.prompt_tokens.count
(count)
처리된 프리필 토큰 수.
nvidia_nim.request.prompt_tokens.sum
(count)
처리된 프리필 토큰 수.
token으로 표시
nvidia_nim.request.success.count
(count)
성공적으로 처리된 요청의 카운트입니다.
nvidia_nim.time_per_output_token.seconds.bucket
(count)
초 단위 버킷별 출력 토큰당 소요 시간 관측값.
nvidia_nim.time_per_output_token.seconds.count
(count)
출력 토큰당 소요 시간의 총 관측 횟수.
nvidia_nim.time_per_output_token.seconds.sum
(count)
출력 토큰당 시간의 합계(초).
second로 표시
nvidia_nim.time_to_first_token.seconds.bucket
(count)
초 단위 버킷별 첫 번째 토큰 생성 시간 관측값.
nvidia_nim.time_to_first_token.seconds.count
(count)
첫 번째 토큰 생성 시간의 총 관측 횟수.
nvidia_nim.time_to_first_token.seconds.sum
(count)
첫 번째 토큰 생성 시간의 합계(초).
second로 표시

이벤트

NVIDIA NIM 통합은 이벤트를 포함하지 않습니다.

서비스 점검

nvidia_nim.openmetrics.health

Agent가 NVIDIA NIM OpenMetrics 엔드포인트에 연결할 수 없는 경우 CRITICAL을 반환하고, 그 외에는 OK를 반환합니다.

상태: ok, critical

트러블슈팅

도움이 필요하세요? Datadog 지원 팀에 문의하세요.