- 필수 기능
- 시작하기
- Glossary
- 표준 속성
- Guides
- Agent
- 통합
- 개방형텔레메트리
- 개발자
- Administrator's Guide
- API
- Datadog Mobile App
- CoScreen
- Cloudcraft
- 앱 내
- 서비스 관리
- 인프라스트럭처
- 애플리케이션 성능
- APM
- Continuous Profiler
- 스팬 시각화
- 데이터 스트림 모니터링
- 데이터 작업 모니터링
- 디지털 경험
- 소프트웨어 제공
- 보안
- AI Observability
- 로그 관리
- 관리
Google Cloud TPU 프로덕트는 최첨단 ML 모델을 실행하는 모든 ML 연구자, ML 엔지니어, 개발자, 데이터 사이언티스트가 확장 가능하며 사용하기 쉬운 클라우드 컴퓨팅 리소스를 통해 텐서 프로세싱 유닛(TPU)의 이점을 활용할 수 있도록 도와드립니다.
Datadog Google Cloud Platform 통합을 사용하여 Google Cloud TPU에서 메트릭을 수집합니다.
Google Cloud TPU를 사용하려면 Google Cloud 플랫폼 통합을 설정하기만 하면 됩니다.
Google Cloud TPU 로그는 Google Cloud Logging으로 수집하여 클라우드 Pub/Sub 토픽을 통해 데이터 플로우 작업으로 전송됩니다. 아직 설정하지 않았다면 Datadog 데이터 플로우 템플릿으로 로깅을 설정하세요.
해당 작업이 완료되면 Google Cloud Logging에서 Google Cloud TPU 로그를 다음 Pub/Sub 주제로 내보냅니다.
gcp.tpu.cpu.utilization (gauge) | Utilization of CPUs on the TPU Worker as a percent. Shown as percent |
gcp.tpu.memory.usage (gauge) | Memory usage in bytes. Shown as byte |
gcp.tpu.network.received_bytes_count (count) | Cumulative bytes of data this server has received over the network. Shown as byte |
gcp.tpu.network.sent_bytes_count (count) | Cumulative bytes of data this server has sent over the network. Shown as byte |
gcp.tpu.accelerator.duty_cycle (count) | Percentage of time over the sample period during which the accelerator was actively processing Shown as percent |
gcp.tpu.instance.uptime_total (count) | Elapsed time since the VM was started, in seconds. Shown as second |
gcp.gke.node.accelerator.tensorcore_utilization (count) | Current percentage of the Tensorcore that is utilized. Shown as percent |
gcp.gke.node.accelerator.duty_cycle (count) | Percent of time over the past sample period (10s) during which the accelerator was actively processing. Shown as percent |
gcp.gke.node.accelerator.memory_used (count) | Total accelerator memory allocated in bytes. Shown as byte |
gcp.gke.node.accelerator.memory_total (count) | Total accelerator memory in bytes. Shown as byte |
gcp.gke.node.accelerator.memory_bandwidth_utilization (count) | Current percentage of the accelerator memory bandwidth that is being used. Shown as percent |
gcp.gke.container.accelerator.tensorcore_utilization (count) | Current percentage of the Tensorcore that is utilized. Shown as percent |
gcp.gke.container.accelerator.duty_cycle (count) | Percent of time over the past sample period (10s) during which the accelerator was actively processing. Shown as percent |
gcp.gke.container.accelerator.memory_used (count) | Total accelerator memory allocated in bytes. Shown as byte |
gcp.gke.container.accelerator.memory_total (count) | Total accelerator memory in bytes. Shown as byte |
gcp.gke.container.accelerator.memory_bandwidth_utilization (count) | Current percentage of the accelerator memory bandwidth that is being used. Shown as percent |
Google Cloud TPU 통합은 이벤트를 포함하지 않습니다.
Google Cloud TPU 통합은 서비스 점검을 포함하지 않습니다.
도움이 필요하신가요? Datadog 지원팀에 문의하세요.