Google Cloud Vertex AI

개요

Google Cloud Vertex AI는 머신러닝 개발자, 데이터 과학자, 데이터 엔지니어가 프로젝트 구상부터 배포까지 빠르고 비용 효율적으로 진행할 수 있도록 지원합니다. 머신러닝에 관한 최소한의 지식과 노력만으로 뛰어난 품질의 맞춤형 모델을 학습시킬 수 있습니다.

설정

설치

메트릭 수집

Google Cloud Vertex AI는 Google Cloud Platform 통합 패키지에 포함되어 있습니다. 아직 설치하지 않았다면, 먼저 Google Cloud Platform 통합을 설정하여 기본 제공 메트릭 수집을 시작하세요.

설정

Vertex AI 레이블을 태그로 수집하려면 Cloud Asset Viewer 역할을 활성화하세요.

서비스 계정 가장 및 자동 프로젝트 검색 기능을 사용하여 Datadog을 Google Cloud와 통합할 수 있습니다.

이 방법을 사용하면 관련 프로젝트에 IAM 역할을 할당하여 서비스 계정에 표시되는 모든 프로젝트를 모니터링할 수 있습니다. 이러한 역할을 프로젝트에 개별적으로 할당하거나 조직 또는 폴더 수준에서 이러한 역할을 할당하여 Datadog이 프로젝트 그룹을 모니터링하도록 설정할 수 있습니다. 이러한 방식으로 역할을 할당하면 Datadog이 향후 그룹에 추가될 수 있는 새 프로젝트를 포함해 지정된 범위의 모든 프로젝트를 자동으로 검색하고 모니터링할 수 있습니다.

로그 수집

Google Cloud Vertex AI 로그는 Google Cloud Logging을 통해 수집되어 Cloud Pub/Sub 토픽을 거쳐 Dataflow 작업으로 전송됩니다. 아직 로깅을 설정하지 않았다면 Datadog Dataflow 템플릿을 사용하여 설정하세요.

해당 작업이 완료되면 Google Cloud Logging에서 Google Cloud Vertex AI 로그를 다음 Pub/Sub 토픽으로 내보냅니다.

Google Cloud Logging 페이지로 이동하여 Google Cloud Vertex AI 로그를 필터링하세요.
Create Sink를 클릭하고 그에 따라 싱크 이름을 지정합니다.
“Cloud Pub/Sub"를 대상으로 선택하고 해당 목적으로 생성된 Pub/Sub 주제를 선택합니다. 참고: Pub/Sub 주제는 다른 프로젝트에 있을 수 있습니다.
Create를 클릭하고 확인 메시지가 나타날 때까지 기다립니다.

수집한 데이터

Metrics


gcp.aiplatform.executing_vertexai_pipeline_jobs (gauge)	실행 중인 파이프라인 작업 수.
gcp.aiplatform.executing_vertexai_pipeline_tasks (gauge)	실행 중인 파이프라인 작업 수.
gcp.aiplatform.featureonlinestore.online_serving.request_count (count)	수신된 요청 수.
gcp.aiplatform.featureonlinestore.online_serving.serving_bytes_count (count)	제공된 응답 바이트 수. byte로 표시
gcp.aiplatform.featureonlinestore.online_serving.serving_latencies.avg (count)	평균 서버측 요청 지연 시간. millisecond로 표시
gcp.aiplatform.featureonlinestore.online_serving.serving_latencies.samplecount (count)	서버측 요청 지연 시간의 샘플 수. millisecond로 표시
gcp.aiplatform.featureonlinestore.online_serving.serving_latencies.sumsqdev (count)	서버측 요청 지연 시간의 제곱 편차 합. millisecond로 표시
gcp.aiplatform.featureonlinestore.running_sync (gauge)	특정 시점에 실행 중인 동기화 횟수.
gcp.aiplatform.featureonlinestore.serving_data_ages.avg (count)	제공 데이터 연령의 평균 측정값(초). 현재 시간에서 동기화된 시간을 뺀 값입니다. second로 표시
gcp.aiplatform.featureonlinestore.serving_data_ages.samplecount (count)	제공 데이터 연령 측정값(초)의 샘플 수. 현재 시간에서 동기화된 시간을 뺀 값입니다. second로 표시
gcp.aiplatform.featureonlinestore.serving_data_ages.sumsqdev (count)	제공 데이터 연령 측정값(초)의 제곱 편차 합. 현재 시간에서 동기화된 시간을 뺀 값입니다. second로 표시
gcp.aiplatform.featureonlinestore.serving_data_by_sync_time (gauge)	동기화된 타임스탬프별 Feature Online Store의 데이터 상세 분석.
gcp.aiplatform.featureonlinestore.storage.bigtable_cpu_load (gauge)	Feature Online Store 노드의 평균 CPU 부하.
gcp.aiplatform.featureonlinestore.storage.bigtable_cpu_load_hottest_node (gauge)	Feature Online Store에서 가장 사용량이 높은 노드의 CPU 부하.
gcp.aiplatform.featureonlinestore.storage.bigtable_nodes (gauge)	Feature Online Store 노드의 수(Bigtable).
gcp.aiplatform.featureonlinestore.storage.multi_region_bigtable_cpu_load (gauge)	다중 리전 복제본가 있는 Feature Online Store 노드의 평균 CPU 부하.
gcp.aiplatform.featureonlinestore.storage.multi_region_bigtable_nodes (gauge)	다중 리전 복제본이 있는 Feature Online Store(Bigtable) 노드의 수.
gcp.aiplatform.featureonlinestore.storage.optimized_nodes (gauge)	Feature Online Store 노드의 수(최적화됨).
gcp.aiplatform.featureonlinestore.storage.stored_bytes (gauge)	Feature Online Store에 저장된 바이트. byte로 표시
gcp.aiplatform.featurestore.cpu_load (gauge)	Featurestore 온라인 스토리지 노드의 평균 CPU 부하.
gcp.aiplatform.featurestore.cpu_load_hottest_node (gauge)	Featurestore 온라인 스토리지에서 가장 사용량이 높은 노드의 CPU 부하.
gcp.aiplatform.featurestore.node_count (gauge)	Featurestore 온라인 스토리지의 노드 수.
gcp.aiplatform.featurestore.online_entities_updated (count)	Featurestore 온라인 스토리지에 업데이트된 엔티티 수. byte로 표시
gcp.aiplatform.featurestore.online_serving.latencies.avg (count)	EntityType별 평균 온라인 데이터 제공 지연 시간. millisecond로 표시
gcp.aiplatform.featurestore.online_serving.latencies.samplecount (count)	EntityType별 온라인 데이터 제공 지연 시간의 샘플 수. millisecond로 표시
gcp.aiplatform.featurestore.online_serving.latencies.sumsqdev (count)	EntityType별 온라인 데이터 제공 지연 시간의 제곱 편차 합. millisecond로 표시
gcp.aiplatform.featurestore.online_serving.request_bytes_count (count)	EntityType별 요청 크기 byte로 표시
gcp.aiplatform.featurestore.online_serving.request_count (count)	EntityType별 Featurestore 온라인 데이터 제공 횟수.
gcp.aiplatform.featurestore.online_serving.response_size (count)	EntityType별 응답 크기 byte로 표시
gcp.aiplatform.featurestore.storage.billable_processed_bytes (gauge)	처리된 오프라인 데이터에 대해 청구된 바이트 수. byte로 표시
gcp.aiplatform.featurestore.storage.stored_bytes (gauge)	Featurestore에 저장된 바이트. byte로 표시
gcp.aiplatform.featurestore.streaming_write.offline_processed_count (count)	오프라인 스토리지에 처리된 스트리밍 쓰기 요청 수.
gcp.aiplatform.featurestore.streaming_write.offline_write_delays.avg (count)	쓰기 API가 호출된 후 오프라인 스토리지에 기록될 때까지 걸린 평균 시간(초). second로 표시
gcp.aiplatform.featurestore.streaming_write.offline_write_delays.samplecount (count)	쓰기 API가 호출된 후 오프라인 스토리지에 기록될 때까지 걸린 시간(초)의 샘플 수. second로 표시
gcp.aiplatform.featurestore.streaming_write.offline_write_delays.sumsqdev (count)	쓰기 API가 호출된 후 오프라인 스토리지에 기록될 때까지 걸린 시간(초)의 제곱 편차 합. second로 표시
gcp.aiplatform.generate_content_input_tokens_per_minute_per_base_model (count)	기본 모델별, 프로젝트당, 분당 콘텐츠 입력 토큰을 생성합니다.
gcp.aiplatform.generate_content_requests_per_minute_per_project_per_base_model (count)	기본 모델별, 프로젝트당, 분당 콘텐츠 요청을 생성합니다.
gcp.aiplatform.matching_engine.cpu.request_utilization (gauge)	매치 서버 컨테이너에서 현재 사용 중인 요청 CPU의 비율.
gcp.aiplatform.matching_engine.current_replicas (gauge)	DeployedIndex가 사용하는 활성 복제본의 수.
gcp.aiplatform.matching_engine.current_shards (gauge)	DeployedIndex의 샤드 수.
gcp.aiplatform.matching_engine.memory.used_bytes (gauge)	매치 서버 컨테이너에 사용된 메모리(바이트). byte로 표시
gcp.aiplatform.matching_engine.query.latencies.avg (count)	평균 서버측 요청 지연 시간. millisecond로 표시
gcp.aiplatform.matching_engine.query.latencies.samplecount (count)	서버측 요청 지연 시간의 샘플 수. millisecond로 표시
gcp.aiplatform.matching_engine.query.latencies.sumsqdev (count)	서버측 요청 지연 시간의 제곱 편차 합. millisecond로 표시
gcp.aiplatform.matching_engine.query.request_count (count)	수신된 요청 수.
gcp.aiplatform.matching_engine.stream_update.datapoint_count (count)	성공적으로 업서트 또는 삭제된 데이터 포인트 수.
gcp.aiplatform.matching_engine.stream_update.latencies.avg (count)	사용자가 UpsertDatapointsResponse 또는 RemoveDatapointsResponse를 수신하고 해당 업데이트가 적용될 때까지의 평균 지연 시간. millisecond로 표시
gcp.aiplatform.matching_engine.stream_update.latencies.samplecount (count)	사용자가 UpsertDatapointsResponse 또는 RemoveDatapointsResponse를 수신하고 해당 업데이트가 적용될 때까지의 지연 시간의 샘플 수. millisecond로 표시
gcp.aiplatform.matching_engine.stream_update.latencies.sumsqdev (count)	사용자가 UpsertDatapointsResponse 또는 RemoveDatapointsResponse를 수신하고 해당 업데이트가 적용될 때까지의 지연 시간의 제곱 편차 합. millisecond로 표시
gcp.aiplatform.matching_engine.stream_update.request_count (count)	스트림 업데이트 요청 횟수.
gcp.aiplatform.online_prediction_dedicated_requests_per_base_model_version (count)	기본 모델 버전별, 프로젝트당, 분당 온라인 예측 전용 요청 수.
gcp.aiplatform.online_prediction_dedicated_tokens_per_base_model_version (count)	기본 모델 버전별, 프로젝트당, 분당 온라인 예측 전용 토큰 수.
gcp.aiplatform.online_prediction_requests_per_base_model (count)	기본 모델별, 프로젝트당, 분당 온라인 예측 요청 수. request으로 표시
gcp.aiplatform.online_prediction_tokens_per_minute_per_base_model (count)	기본 모델별, 프로젝트당, 분당 온라인 예측 토큰.
gcp.aiplatform.pipelinejob.duration (gauge)	현재 실행 중인 파이프라인 작업의 런타임 초(생성부터 종료까지). second로 표시
gcp.aiplatform.pipelinejob.task_completed_count (count)	완료된 PipelineTask의 누적 수.
gcp.aiplatform.prediction.online.accelerator.duty_cycle (gauge)	배포된 모델 복제본에 할당되어 현재 사용 중인 CPU의 비율. 머신 유형에 다중 CPU가 있는 경우 100%를 초과할 수도 있습니다. 매 60초마다 샘플링됩니다. 샘플링 후 데이터는 최대 360초 동안 표시되지 않습니다. fraction으로 표시
gcp.aiplatform.prediction.online.accelerator.memory.bytes_used (gauge)	배포된 모델 복제본에 할당된 엑셀러레이터 메모리 양. byte로 표시
gcp.aiplatform.prediction.online.cpu.utilization (gauge)	배포된 모델 복제본에 할당되어 현재 사용 중인 CPU의 비율. 머신 유형에 다중 CPU가 있는 경우 100%를 초과할 수도 있습니다. 매 60초마다 샘플링됩니다. 샘플링 후 데이터는 최대 360초 동안 표시되지 않습니다. fraction으로 표시
gcp.aiplatform.prediction.online.deployment_resource_pool.accelerator.duty_cycle (gauge)	지난 샘플링 기간 엑셀러레이터가 실제로 처리 작업을 수행한 시간의 평균 비율.
gcp.aiplatform.prediction.online.deployment_resource_pool.accelerator.memory.bytes_used (gauge)	배포 리소스 풀 복제본에 할당된 엑셀러레이터 메모리 양. byte로 표시
gcp.aiplatform.prediction.online.deployment_resource_pool.cpu.utilization (gauge)	배포 리소스 풀 복제본에 할당되어 현재 사용 중인 CPU의 비율. 머신 유형에 다중 CPU가 있는 경우 100%를 초과할 수 있습니다. percent로 표시
gcp.aiplatform.prediction.online.deployment_resource_pool.memory.bytes_used (gauge)	배포 리소스 풀 복제본에 할당되어 현재 사용 중인 메모리 양. byte로 표시
gcp.aiplatform.prediction.online.deployment_resource_pool.network.received_bytes_count (count)	네트워크를 통해 배포 리소스 풀 복제본이 수신한 바이트 수. byte로 표시
gcp.aiplatform.prediction.online.deployment_resource_pool.network.sent_bytes_count (count)	네트워크를 통해 배포 리소스 풀 복제본이 전송한 바이트 수. byte로 표시
gcp.aiplatform.prediction.online.deployment_resource_pool.replicas (gauge)	배포 리소스 풀에서 사용하는 활성 복제본 수.
gcp.aiplatform.prediction.online.deployment_resource_pool.target_replicas (gauge)	배포 리소스 풀에 필요한 활성 복제본의 목표 수.
gcp.aiplatform.prediction.online.error_count (count)	온라인 예측 오류의 수. error로 표시
gcp.aiplatform.prediction.online.memory.bytes_used (gauge)	배포된 모델 복제본에 할당되어 현재 사용 중인 메모리 양. 매 60초마다 샘플링됩니다. 샘플링 후 데이터는 최대 360초 동안 표시되지 않습니다. byte로 표시
gcp.aiplatform.prediction.online.network.received_bytes_count (count)	배포된 모델 복제본이 네트워크를 통해 수신한 바이트 수. 매 60초마다 샘플링됩니다. 샘플링 후 데이터는 최대 360초 동안 표시되지 않습니다. byte로 표시
gcp.aiplatform.prediction.online.network.sent_bytes_count (count)	배포된 모델 복제본이 네트워크를 통해 전송한 바이트 수. 매 60초마다 샘플링됩니다. 샘플링 후 데이터는 최대 360초 동안 표시되지 않습니다. byte로 표시
gcp.aiplatform.prediction.online.prediction_count (count)	온라인 예측 수. prediction으로 표시
gcp.aiplatform.prediction.online.prediction_latencies.avg (gauge)	배포된 모델의 평균 온라인 예측 지연 시간. microsecond로 표시
gcp.aiplatform.prediction.online.prediction_latencies.samplecount (count)	공개 배포 모델의 온라인 예측 지연 시간. 매 60초마다 샘플링됩니다. 샘플링 후 데이터는 최대 360초 동안 표시되지 않습니다. microsecond로 표시
gcp.aiplatform.prediction.online.private.prediction_latencies.avg (gauge)	프라이빗 배포 모델의 평균 온라인 예측 지연 시간. microsecond로 표시
gcp.aiplatform.prediction.online.private.prediction_latencies.samplecount (count)	프라이빗 배포 모델의 온라인 예측 지연 시간. 매 60초마다 샘플링됩니다. 샘플링 후 데이터는 최대 360초 동안 표시되지 않습니다. microsecond로 표시
gcp.aiplatform.prediction.online.private.response_count (count)	프라이빗 배포 모델의 온라인 예측 응답 수. response로 표시
gcp.aiplatform.prediction.online.replicas (count)	배포된 모델이 사용한 활성 복제본의 수. 매 60초마다 샘플링됩니다. 샘플링 후 데이터는 최대 120초 동안 표시되지 않습니다. worker로 표시
gcp.aiplatform.prediction.online.response_count (count)	온라인 예측 고유 응답 코드의 수. response로 표시
gcp.aiplatform.prediction.online.target_replicas (count)	배포된 모델에 필요한 활성 복제본의 목표 수. 매 60초마다 샘플링됩니다. 샘플링 후 데이터는 최대 120초 동안 표시되지 않습니다. worker로 표시
gcp.aiplatform.publisher.online_serving.character_count (count)	누적 입력/출력 문자 수.
gcp.aiplatform.publisher.online_serving.characters.avg (count)	입력/출력 문자 수의 평균 분포.
gcp.aiplatform.publisher.online_serving.characters.samplecount (count)	입력/출력 문자 수 분포의 샘플 수.
gcp.aiplatform.publisher.online_serving.characters.sumsqdev (count)	입력/출력 문자 수 분포의 제곱 편차 합.
gcp.aiplatform.publisher.online_serving.consumed_throughput (count)	소진율을 고려한 전체 처리량(문자 수 기준).
gcp.aiplatform.publisher.online_serving.first_token_latencies.avg (count)	요청 수신 후 클라이언트에 첫 번째 토큰을 반환할 때까지 소요된 평균 시간. millisecond로 표시
gcp.aiplatform.publisher.online_serving.first_token_latencies.samplecount (count)	요청 수신 후 클라이언트에 첫 번째 토큰을 반환할 때까지 소요된 시간의 샘플 수. millisecond로 표시
gcp.aiplatform.publisher.online_serving.first_token_latencies.sumsqdev (count)	요청 수신 후 클라이언트에 첫 번째 토큰을 반환할 때까지의 소요된 시간의 제곱 편차 합. millisecond로 표시
gcp.aiplatform.publisher.online_serving.model_invocation_count (count)	모델 호출 횟수(예측 요청).
gcp.aiplatform.publisher.online_serving.model_invocation_latencies.avg (count)	평균 모델 호출 지연 시간(예측 지연 시간). millisecond로 표시
gcp.aiplatform.publisher.online_serving.model_invocation_latencies.samplecount (count)	모델 호출 지연 시간의 샘플 수(예측 지연 시간). millisecond로 표시
gcp.aiplatform.publisher.online_serving.model_invocation_latencies.sumsqdev (count)	모델 호출 지연 시간의 제곱 편차 합(예측 지연 시간). millisecond로 표시
gcp.aiplatform.publisher.online_serving.token_count (count)	누적 입력/출력 토큰 수.
gcp.aiplatform.publisher.online_serving.tokens.avg (count)	입력/출력 토큰 수의 평균 분포.
gcp.aiplatform.publisher.online_serving.tokens.samplecount (count)	입력/출력 토큰 수 분포의 샘플 수.
gcp.aiplatform.publisher.online_serving.tokens.sumsqdev (count)	입력/출력 토큰 수 분포의 제곱 편차 합.
gcp.aiplatform.quota.generate_content_input_tokens_per_minute_per_base_model.exceeded (count)	할당량 메트릭 `aiplatform.googleapis.com/generate_content_input_tokens_per_minute_per_base_model` 한도를 초과하려 시도한 횟수.
gcp.aiplatform.quota.generate_content_input_tokens_per_minute_per_base_model.limit (gauge)	할당량 메트릭 `aiplatform.googleapis.com/generate_content_input_tokens_per_minute_per_base_model`의 현재 한도.
gcp.aiplatform.quota.generate_content_input_tokens_per_minute_per_base_model.usage (count)	할당량 메트릭 `aiplatform.googleapis.com/generate_content_input_tokens_per_minute_per_base_model`의 현재 사용량.
gcp.aiplatform.quota.generate_content_requests_per_minute_per_project_per_base_model.exceeded (count)	할당량 메트릭 `aiplatform.googleapis.com/generate_content_requests_per_minute_per_project_per_base_model` 한도를 초과하려 시도한 횟수.
gcp.aiplatform.quota.generate_content_requests_per_minute_per_project_per_base_model.limit (gauge)	할당량 메트릭 `aiplatform.googleapis.com/generate_content_requests_per_minute_per_project_per_base_model`의 현재 한도.
gcp.aiplatform.quota.generate_content_requests_per_minute_per_project_per_base_model.usage (count)	할당량 메트릭 `aiplatform.googleapis.com/generate_content_requests_per_minute_per_project_per_base_model`의 현재 사용량.
gcp.aiplatform.quota.online_prediction_dedicated_requests_per_base_model_version.exceeded (count)	할당량 메트릭 `aiplatform.googleapis.com/online_prediction_dedicated_requests_per_base_model_version` 한도를 초과하려 시도한 횟수.
gcp.aiplatform.quota.online_prediction_dedicated_requests_per_base_model_version.limit (gauge)	할당량 메트릭 `aiplatform.googleapis.com/online_prediction_dedicated_requests_per_base_model_version`의 현재 한도.
gcp.aiplatform.quota.online_prediction_dedicated_requests_per_base_model_version.usage (count)	할당량 메트릭 `aiplatform.googleapis.com/online_prediction_dedicated_requests_per_base_model_version`의 현재 사용량.
gcp.aiplatform.quota.online_prediction_dedicated_tokens_per_base_model_version.exceeded (count)	할당량 메트릭 `aiplatform.googleapis.com/online_prediction_dedicated_tokens_per_base_model_version` 한도를 초과하려 시도한 횟수.
gcp.aiplatform.quota.online_prediction_dedicated_tokens_per_base_model_version.limit (gauge)	할당량 메트릭 `aiplatform.googleapis.com/online_prediction_dedicated_tokens_per_base_model_version`의 현재 한도.
gcp.aiplatform.quota.online_prediction_dedicated_tokens_per_base_model_version.usage (count)	할당량 메트릭 `aiplatform.googleapis.com/online_prediction_dedicated_tokens_per_base_model_version`의 현재 사용량.
gcp.aiplatform.quota.online_prediction_requests_per_base_model.exceeded (count)	할당량 메트릭 `aiplatform.googleapis.com/online_prediction_requests_per_base_model` 한도를 초과하려 시도한 횟수. error로 표시
gcp.aiplatform.quota.online_prediction_requests_per_base_model.limit (gauge)	할당량 메트릭 `aiplatform.googleapis.com/online_prediction_requests_per_base_model`의 현재 한도. request로 표시
gcp.aiplatform.quota.online_prediction_requests_per_base_model.usage (count)	할당량 메트릭 `aiplatform.googleapis.com/online_prediction_requests_per_base_model`의 현재 사용량. request로 표시
gcp.aiplatform.quota.online_prediction_tokens_per_minute_per_base_model.exceeded (count)	할당량 메트릭 `aiplatform.googleapis.com/online_prediction_tokens_per_minute_per_base_model` 한도를 초과하려 시도한 횟수.
gcp.aiplatform.quota.online_prediction_tokens_per_minute_per_base_model.limit (gauge)	할당량 메트릭 `aiplatform.googleapis.com/online_prediction_tokens_per_minute_per_base_model`의 현재 한도.
gcp.aiplatform.quota.online_prediction_tokens_per_minute_per_base_model.usage (count)	할당량 메트릭 `aiplatform.googleapis.com/online_prediction_tokens_per_minute_per_base_model`의 현재 사용량.