AWS Inferentia 및 AWS Trainium 모니터링
Supported OS
![Mac OS]()
개요
본 검사는 Datadog Agent를 통해 AWS Neuron를 모니터링합니다. Inferentia 및 Trainium 장치를 모니터링하고 머신 러닝 모델의 성능에 관한 인사이트를 제공해 드립니다.
설정
아래 지침을 따라 EC2 인스턴스에서 실행되는 Agent에 이 점검을 설치 및 설정하세요. 컨테이너화된 환경의 경우, 이러한 지침을 적용하는 데 가이드가 필요하다면 Autodiscovery 통합 템플릿을 참조하세요.
설치
AWS Neuron 검사는 Datadog Agent 패키지에 포함되어 있습니다.
또한 AWS Neuron Tools 패키지를 설치해야 합니다.
서버에 추가 설치가 필요하지 않습니다.
설정
메트릭
Neuron Monitor를 Prometheus 엔드포인트를 노출하는 데 사용하고 있는지 확인합니다.
AWS Neuron 성능 데이터 수집을 시작하려면 Agent 구성 디렉터리 루트에 있는 conf.d/ 폴더에서 aws_neuron.d/conf.yaml 파일을 편집합니다. 사용 가능한 모든 구성 옵션은 샘플 aws_neuron.d/conf.yaml을 참조하세요.
에이전트를 재시작합니다.
로그
AWS Neuron 통합으로 Neuron 컨테이너에서 로그를 수집하여 Datadog으로 전달할 수 있습니다.
Datadog Agent에서 로그 수집은 기본적으로 비활성화되어 있으므로 datadog.yaml 파일에서 활성화합니다.
aws_neuron.d/conf.yaml 파일에서 로그 구성 블록의 주석 처리를 제거하고 편집하세요. 예를 들면 다음과 같습니다.
logs:
- type: docker
source: aws_neuron
service: aws_neuron
Datadog Agent에서는 로그 수집 기능이 기본적으로 비활성화되어 있습니다. 활성화하려면 Kubernetes 로그 수집을 참고하세요.
그런 다음 로그 통합을 포드 애노테이션으로 설정합니다. 파일, 구성 맵, 키-값 저장소를 사용하여 구성할 수도 있습니다. 자세한 내용은 Kubernetes 로그 수집의 구성 섹션을 참고하세요.
검증
Agent의 상태 하위 명령을 실행하고 Checks 섹션에서 aws_neuron를 찾습니다.
수집한 데이터
메트릭
이벤트
AWS Neuron 통합은 이벤트를 포함하지 않습니다.
서비스 점검
트러블슈팅
컨테이너화된 환경에서는 Agent가 aws_neuron.d/conf.yaml 파일에 지정된 엔드포인트에 대한 네트워크 액세스 권한이 있는지 확인하세요.
도움이 필요하신가요? Datadog 고객 지원팀에 문의해주세요.