nvidia_triton.cache.insertion.duration (gauge) | 캐시 삽입 총 소요 시간(마이크로초) microsecond로 표시 |
nvidia_triton.cache.lookup.duration (gauge) | 캐시 조회 총 소요 시간(hit 및 miss, 마이크로초) microsecond로 표시 |
nvidia_triton.cache.num.entries (gauge) | 응답 캐시에 저장된 응답 수 |
nvidia_triton.cache.num.evictions (gauge) | 응답 캐시에서 캐시 제거 횟수 |
nvidia_triton.cache.num.hits (gauge) | 응답 캐시에서 캐시 히트 횟수 |
nvidia_triton.cache.num.lookups (gauge) | 응답 캐시에서 캐시 조회수 |
nvidia_triton.cache.num.misses (gauge) | 응답 캐시에서 캐시 미스 횟수 |
nvidia_triton.cache.util (gauge) | 캐시 사용률 [0.0 - 1.0] |
nvidia_triton.cpu.memory.total_bytes (gauge) | CPU 총 메모리(RAM), 바이트 단위 byte로 표시 |
nvidia_triton.cpu.memory.used_bytes (gauge) | CPU 사용 메모리(RAM), 바이트 단위 byte로 표시 |
nvidia_triton.cpu.utilization (gauge) | CPU 사용률 [0.0 - 1.0] |
nvidia_triton.energy.consumption.count (count) | Triton 서버 시작 이후 GPU 에너지 소비량(joules) |
nvidia_triton.gpu.memory.total_bytes (gauge) | CPU 총 메모리(바이트) byte로 표시 |
nvidia_triton.gpu.memory.used_bytes (gauge) | CPU 사용 메모리(바이트) byte로 표시 |
nvidia_triton.gpu.power.limit (gauge) | GPU 전원 관리 제한(와트) watt로 표시 |
nvidia_triton.gpu.power.usage (gauge) | GPU 전원 사용량(와트) watt로 표시 |
nvidia_triton.gpu.utilization (gauge) | GPU 사용률 [0.0 - 1.0) |
nvidia_triton.inference.compute.infer.duration_us.count (count) | 마이크로초 단위의 누적 컴퓨팅 추론 소요 시간(캐시된 요청은 제외) microsecond로 표시 |
nvidia_triton.inference.compute.infer.summary_us.count (count) | 마이크로초 단위의 누적 컴퓨팅 추론 소요 시간(개수, (캐시된 요청은 제외) microsecond로 표시 |
nvidia_triton.inference.compute.infer.summary_us.quantile (gauge) | 마이크로초 단위의 누적 컴퓨팅 추론 소요 시간(분위수, 캐시된 요청은 제외) microsecond로 표시 |
nvidia_triton.inference.compute.infer.summary_us.sum (count) | 마이크로초 단위의 누적 컴퓨팅 추론 소요 시간(합계, 캐시된 요청은 제외) microsecond로 표시 |
nvidia_triton.inference.compute.input.duration_us.count (count) | 누적 컴퓨팅 입력 소요 시간, 마이크로초 단위(캐시된 요청은 제외) microsecond로 표시 |
nvidia_triton.inference.compute.input.summary_us.count (count) | 마이크로초 단위의 누적 컴퓨팅 입력 소요 시간(합계, 캐시된 요청은 제외) microsecond로 표시 |
nvidia_triton.inference.compute.input.summary_us.quantile (gauge) | 마이크로초 단위의 누적 컴퓨팅 입력 소요 시간(분위수, 캐시된 요청은 제외) microsecond로 표시 |
nvidia_triton.inference.compute.input.summary_us.sum (count) | 마이크로초 단위의 누적 컴퓨팅 입력 소요 시간(개수, 캐시된 요청은 제외) microsecond로 표시 |
nvidia_triton.inference.compute.output.duration_us.count (count) | 마이크로초 단위의 누적 추론 컴퓨팅 출력 소요 시간(캐시된 요청은 제외) microsecond로 표시 |
nvidia_triton.inference.compute.output.summary_us.count (count) | 마이크로초 단위의 누적 추론 컴퓨팅 출력 소요 시간(개수, 캐시된 요청은 제외) microsecond로 표시 |
nvidia_triton.inference.compute.output.summary_us.quantile (gauge) | 마이크로초 단위의 누적 추론 컴퓨팅 출력 소요 시간(분위수, 캐시된 요청은 제외) microsecond로 표시 |
nvidia_triton.inference.compute.output.summary_us.sum (count) | 마이크로초 단위의 누적 추론 컴퓨팅 출력 소요 시간(합계, 캐시된 요청은 제외) microsecond로 표시 |
nvidia_triton.inference.count.count (count) | 실행된 추론 횟수(캐시된 요청은 제외) |
nvidia_triton.inference.exec.count.count (count) | 실행된 모델 실행 횟수(캐시된 요청은 제외) |
nvidia_triton.inference.pending.request.count (gauge) | 모델별로 실행 대기 중인 실시간 대기 요청의 수. |
nvidia_triton.inference.queue.duration_us.count (count) | 마이크로초 단위의 누적 추론 대기열 소요 시간(캐시된 요청 포함) microsecond로 표시 |
nvidia_triton.inference.queue.summary_us.count (count) | 마이크로초 단위의 추론 대기열 소요 시간 요약(개수, 캐시된 요청 포함) microsecond로 표시 |
nvidia_triton.inference.queue.summary_us.quantile (gauge) | 마이크로초 단위의 추론 대기열 소요 시간 요약(분위수, 캐시된 요청 포함) microsecond로 표시 |
nvidia_triton.inference.queue.summary_us.sum (count) | 마이크로초 단위의 추론 대기열 소요 시간 요약(합계, 캐시된 요청 포함) microsecond로 표시 |
nvidia_triton.inference.request.duration_us.count (count) | 마이크로초 단위의 누적 추론 요청 소요 시간(캐시된 요청 포함) microsecond로 표시 |
nvidia_triton.inference.request.summary_us.count (count) | 추론 요청 소요 시간 요약, 마이크로초 단위(개수, 캐시된 요청 포함) microsecond로 표시 |
nvidia_triton.inference.request.summary_us.quantile (gauge) | 추론 요청 소요 시간 요약, 마이크로초 단위(분위수, 캐시된 요청 포함) microsecond로 표시 |
nvidia_triton.inference.request.summary_us.sum (count) | 추론 요청 소요 시간 요약, 마이크로초 단위(합계, 캐시된 요청 포함) microsecond로 표시 |
nvidia_triton.inference.request_failure.count (count) | 실패한 추론 요청의 수(모든 배치 크기) |
nvidia_triton.inference.request_success.count (count) | 성공한 추론 요청의 수(모든 배치 크기) |