Amazon SageMaker

Información general

Amazon SageMaker es un servicio de machine learning totalmente gestionado. Con Amazon SageMaker, los científicos de datos y los desarrolladores pueden crear y entrenar modelos de machine learning y, a continuación, desplegarlos directamente en un entorno alojado listo para la producción.

Habilita esta integración para ver todas tus métricas de SageMaker en Datadog.

Configuración

Instalación

Si aún no lo has hecho, configura primero la integración de Amazon Web Services.

Recopilación de métricas

  1. En la página de la integración de AWS, asegúrate de que SageMaker está habilitado en la pestaña Metric Collection.
  2. Instala la integración de Datadog y Amazon SageMaker.

Recopilación de logs

Activar logging

Configura Amazon SageMaker para enviar logs a un bucket de S3 o a CloudWatch.

Nota: Si vas a loguear en un bucket de S3, asegúrate de que amazon_sagemaker está configurado como Target prefix (Prefijo de destino).

Enviar logs a Datadog

  1. Si aún no lo has hecho, configura la función de AWS Lambda de recopilación de logs de Datadog.

  2. Una vez instalada la función de Lambda, añade manualmente un activador en el bucket de S3 o grupo de logs de CloudWatch que contenga tus logs de Amazon SageMaker en la consola de AWS:

Datos recopilados

Métricas

aws.sagemaker.consumed_read_requests_units
(count)
El número medio de unidades de lectura consumidas durante el periodo especificado.
aws.sagemaker.consumed_read_requests_units.maximum
(count)
El número máximo de unidades de lectura consumidas durante el periodo especificado.
aws.sagemaker.consumed_read_requests_units.minimum
(count)
El número mínimo de unidades de lectura consumidas durante el periodo especificado.
aws.sagemaker.consumed_read_requests_units.p90
(count)
El percentil 90 de las unidades de lectura consumidas durante el periodo especificado.
aws.sagemaker.consumed_read_requests_units.p95
(count)
El percentil 95 de las unidades de lectura consumidas durante el periodo especificado.
aws.sagemaker.consumed_read_requests_units.p99
(count)
El percentil 99 de las unidades de lectura consumidas durante el periodo especificado.
aws.sagemaker.consumed_read_requests_units.sample_count
(count)
El recuento de muestras de unidades de lectura consumidas durante el periodo especificado.
aws.sagemaker.consumed_read_requests_units.sum
(count)
La suma de las unidades de lectura consumidas durante el periodo especificado.
aws.sagemaker.consumed_write_requests_units
(count)
El número medio de unidades de escritura consumidas durante el periodo especificado.
aws.sagemaker.consumed_write_requests_units.maximum
(count)
El número máximo de unidades de escritura consumidas durante el periodo especificado.
aws.sagemaker.consumed_write_requests_units.minimum
(count)
El número mínimo de unidades de escritura consumidas durante el periodo especificado.
aws.sagemaker.consumed_write_requests_units.p90
(count)
El percentil 90 de las unidades de escritura consumidas durante el periodo especificado.
aws.sagemaker.consumed_write_requests_units.p95
(count)
El percentil 95 de las unidades de escritura consumidas durante el periodo especificado.
aws.sagemaker.consumed_write_requests_units.p99
(count)
El percentil 99 de unidades de escritura consumidas durante el periodo especificado.
aws.sagemaker.consumed_write_requests_units.sample_count
(count)
El recuento de muestra de unidades de escritura consumidas durante el periodo especificado.
aws.sagemaker.consumed_write_requests_units.sum
(count)
La suma de las unidades de escritura consumidas durante el periodo especificado.
aws.sagemaker.endpoints.cpuutilization
(gauge)
Porcentaje medio de unidades CPU utilizadas por los contenedores de una instancia.
Se muestra como porcentaje
aws.sagemaker.endpoints.cpuutilization.maximum
(gauge)
El porcentaje máximo de unidades CPU que son utilizadas por los contenedores en una instancia.
Se muestra como porcentaje
aws.sagemaker.endpoints.cpuutilization.minimum
(gauge)
El porcentaje mínimo de unidades CPU que son utilizadas por los contenedores en una instancia.
Se muestra como porcentaje
aws.sagemaker.endpoints.disk_utilization
(gauge)
El porcentaje medio de espacio en disco utilizado por los contenedores en una instancia utiliza.
Se muestra como porcentaje
aws.sagemaker.endpoints.disk_utilization.maximum
(gauge)
El porcentaje máximo de espacio en disco utilizado por los contenedores en una instancia utiliza.
Se muestra como porcentaje
aws.sagemaker.endpoints.disk_utilization.minimum
(gauge)
El porcentaje mínimo de espacio en disco utilizado por los contenedores en una instancia utiliza.
Se muestra como porcentaje
aws.sagemaker.endpoints.gpu_memory_utilization
(gauge)
Porcentaje medio de memoria GPU utilizada por los contenedores de una instancia.
Se muestra como porcentaje
aws.sagemaker.endpoints.gpu_memory_utilization.maximum
(gauge)
El porcentaje máximo de memoria GPU utilizada por los contenedores en una instancia.
Se muestra como porcentaje
aws.sagemaker.endpoints.gpu_memory_utilization.minimum
(gauge)
El porcentaje mínimo de memoria GPU utilizada por los contenedores en una instancia.
Se muestra como porcentaje
aws.sagemaker.endpoints.gpu_utilization
(gauge)
Porcentaje medio de unidades GPU utilizadas por los contenedores de una instancia.
Se muestra como porcentaje
aws.sagemaker.endpoints.gpu_utilization.maximum
(gauge)
Porcentaje máximo de unidades GPU utilizadas por los contenedores de una instancia.
Se muestra como porcentaje
aws.sagemaker.endpoints.gpu_utilization.minimum
(gauge)
Porcentaje mínimo de unidades GPU utilizadas por los contenedores de una instancia.
Se muestra como porcentaje
aws.sagemaker.endpoints.loaded_model_count
(count)
Número de modelos cargados en los contenedores del endpoint multimodelo. Esta métrica se emite por instancia.
aws.sagemaker.endpoints.loaded_model_count.maximum
(count)
El número máximo de modelos cargados en los contenedores del endpoint multimodelo. Esta métrica se emite por instancia.
aws.sagemaker.endpoints.loaded_model_count.minimum
(count)
El número mínimo de modelos cargados en los contenedores del endpoint multimodelo. Esta métrica se emite por instancia.
aws.sagemaker.endpoints.loaded_model_count.sample_count
(count)
El recuento de muestra de modelos cargados en los contenedores del endpoint multimodelo. Esta métrica se emite por instancia.
aws.sagemaker.endpoints.loaded_model_count.sum
(count)
La suma de modelos cargados en los contenedores del endpoint multimodelo. Esta métrica se emite por instancia.
aws.sagemaker.endpoints.memory_utilization
(gauge)
Porcentaje medio de memoria utilizado por los contenedores de una instancia.
Se muestra como porcentaje
aws.sagemaker.endpoints.memory_utilization.maximum
(gauge)
El porcentaje máximo de memoria que utilizan los contenedores en una instancia.
Se muestra como porcentaje
aws.sagemaker.endpoints.memory_utilization.minimum
(gauge)
El porcentaje mínimo de memoria que utilizan los contenedores en una instancia.
Se muestra como porcentaje
aws.sagemaker.invocation_4xx_errors
(count)
Número medio de solicitudes InvokeEndpoint en las que el modelo ha devuelto un código de respuesta HTTP 4xx.
Se muestra como solicitud
aws.sagemaker.invocation_4xx_errors.sum
(count)
La suma del número de solicitudes InvokeEndpoint en las que el modelo devolvió un código de respuesta HTTP 4xx.
Se muestra como solicitud
aws.sagemaker.invocation_5xx_errors
(count)
Número medio de solicitudes InvokeEndpoint en las que el modelo ha devuelto un código de respuesta HTTP 5xx.
Se muestra como solicitud
aws.sagemaker.invocation_5xx_errors.sum
(count)
Suma del número de solicitudes InvokeEndpoint en las que el modelo ha devuelto un código de respuesta HTTP 5xx.
Se muestra como solicitud
aws.sagemaker.invocation_model_errors
(count)
Número de solicitudes de invocación del modelo que no han dado lugar a una respuesta HTTP 2XX. Esto incluye códigos de estado 4XX/5XX, errores de socket de bajo nivel, respuestas HTTP malformadas y tiempos de espera de solicitud.
aws.sagemaker.invocations
(count)
Número de solicitudes InvokeEndpoint enviadas a un endpoint del modelo.
Se muestra como solicitud
aws.sagemaker.invocations.maximum
(count)
El máximo del número de solicitudes InvokeEndpoint enviadas a un endpoint del modelo.
Se muestra como solicitud
aws.sagemaker.invocations.minimum
(count)
El mínimo del número de solicitudes InvokeEndpoint enviadas a un endpoint del modelo.
Se muestra como solicitud
aws.sagemaker.invocations.sample_count
(count)
El recuento de muestra del número de solicitudes InvokeEndpoint enviadas a un endpoint del modelo.
Se muestra como solicitud
aws.sagemaker.invocations_per_instance
(count)
El número de invocaciones enviadas a un modelo normalizado por InstanceCount en cada ProductionVariant.
aws.sagemaker.invocations_per_instance.sum
(count)
La suma de invocaciones enviadas a un modelo normalizado por InstanceCount en cada ProductionVariant.
aws.sagemaker.jobs_failed
(count)
El número medio de veces que ha fallado un único trabajo de etiquetado.
Se muestra como trabajo
aws.sagemaker.jobs_failed.sample_count
(count)
El recuento de muestra de ocurrencias de un solo trabajo de etiquetado falló.
Se muestra como trabajo
aws.sagemaker.jobs_failed.sum
(count)
La suma de veces que ha fallado un trabajo de etiquetado único.
Se muestra como trabajo
aws.sagemaker.jobs_stopped
(count)
El número medio de veces que se detuvo un trabajo de etiquetado único.
Se muestra como trabajo
aws.sagemaker.jobs_stopped.sample_count
(count)
El recuento de muestras de ocurrencias de un trabajo único etiquetado se detuvo.
Se muestra como trabajo
aws.sagemaker.jobs_stopped.sum
(count)
La suma de veces que se detuvo un trabajo de etiquetado único.
Se muestra como trabajo
aws.sagemaker.labelingjobs.dataset_objects_auto_annotated
(count)
Número medio de objetos del conjunto de datos autoanotados en un trabajo de etiquetado.
aws.sagemaker.labelingjobs.dataset_objects_auto_annotated.max
(count)
Número máximo de objetos del conjunto de datos autoanotados en un trabajo de etiquetado.
aws.sagemaker.labelingjobs.dataset_objects_human_annotated
(count)
Número medio de objetos del conjunto de datos anotados por un humano en un trabajo de etiquetado.
aws.sagemaker.labelingjobs.dataset_objects_human_annotated.max
(count)
Número máximo de objetos del conjunto de datos anotados por un humano en un trabajo de etiquetado.
aws.sagemaker.labelingjobs.dataset_objects_labeling_failed
(count)
Número de objetos del conjunto de datos cuyo etiquetado ha fallado en un trabajo de etiquetado.
aws.sagemaker.labelingjobs.dataset_objects_labeling_failed.max
(count)
Número de objetos del conjunto de datos cuyo etiquetado ha fallado en un trabajo de etiquetado.
aws.sagemaker.labelingjobs.jobs_succeeded
(count)
El número medio de veces que un único trabajo de etiquetado ha tenido éxito.
Se muestra como trabajo
aws.sagemaker.labelingjobs.jobs_succeeded.sample_count
(count)
El recuento de muestra de ocurrencias que un único trabajo de etiquetado tuvo éxito.
Se muestra como trabajo
aws.sagemaker.labelingjobs.jobs_succeeded.sum
(count)
La suma de veces que un trabajo de etiquetado único ha tenido éxito.
Se muestra como trabajo
aws.sagemaker.labelingjobs.total_dataset_objects_labeled
(count)
Número medio de objetos del conjunto de datos etiquetados con éxito en un trabajo de etiquetado.
aws.sagemaker.labelingjobs.total_dataset_objects_labeled.maximum
(count)
Número máximo de objetos del conjunto de datos etiquetados con éxito en un trabajo de etiquetado.
aws.sagemaker.model_cache_hit
(count)
Número de solicitudes InvokeEndpoint enviadas al endpoint multimodelo cuyo modelo ya estaba cargado.
Se muestra como solicitud
aws.sagemaker.model_cache_hit.maximum
(count)
El número máximo de solicitudes InvokeEndpoint enviadas al endpoint multimodelo cuyo modelo ya estaba cargado.
Se muestra como solicitud
aws.sagemaker.model_cache_hit.minimum
(count)
El número mínimo de solicitudes InvokeEndpoint enviadas al endpoint multimodelo cuyo modelo ya estaba cargado.
Se muestra como solicitud
aws.sagemaker.model_cache_hit.sample_count
(count)
El recuento de muestras de solicitudes InvokeEndpoint enviadas al endpoint multimodelo cuyo modelo ya estaba cargado.
Se muestra como solicitud
aws.sagemaker.model_cache_hit.sum
(count)
La suma de solicitudes InvokeEndpoint enviadas al endpoint multimodelo cuyo modelo ya estaba cargado.
Se muestra como solicitud
aws.sagemaker.model_downloading_time
(gauge)
El intervalo de tiempo que se tarda en descargar el modelo de Amazon Simple Storage Service (Amazon S3).
Se muestra en microsegundos
aws.sagemaker.model_downloading_time.maximum
(gauge)
El intervalo de tiempo máximo que se tarda en descargar el modelo de Amazon Simple Storage Service (Amazon S3).
Se muestra en microsegundos
aws.sagemaker.model_downloading_time.minimum
(gauge)
El intervalo de tiempo mínimo que se tarda en descargar el modelo de Amazon Simple Storage Service (Amazon S3).
Se muestra en microsegundos
aws.sagemaker.model_downloading_time.sample_count
(count)
El intervalo de tiempo de recuento de muestras que tarda en descargarse el modelo de Amazon Simple Storage Service (Amazon S3).
Se muestra en microsegundos
aws.sagemaker.model_downloading_time.sum
(gauge)
El intervalo de tiempo sumado que tarda en descargarse el modelo de Amazon Simple Storage Service (Amazon S3).
Se muestra en microsegundos
aws.sagemaker.model_latency
(gauge)
El intervalo medio de tiempo que tarda un modelo en responder visto desde Amazon SageMaker.
Se muestra en microsegundos
aws.sagemaker.model_latency.maximum
(gauge)
El intervalo máximo de tiempo que tarda un modelo en responder visto desde Amazon SageMaker.
Se muestra en microsegundos
aws.sagemaker.model_latency.minimum
(gauge)
El intervalo mínimo de tiempo que tarda un modelo en responder visto desde Amazon SageMaker.
Se muestra en microsegundos
aws.sagemaker.model_latency.sample_count
(count)
El intervalo de recuento de muestras del tiempo que tarda un modelo en responder visto desde Amazon SageMaker.
Se muestra en microsegundos
aws.sagemaker.model_latency.sum
(gauge)
La suma del intervalo de tiempo que tarda un modelo en responder visto desde Amazon SageMaker.
Se muestra en microsegundos
aws.sagemaker.model_loading_time
(gauge)
El intervalo de tiempo que tarda en cargarse el modelo a través de la llamada a la API LoadModel del contenedor.
Se muestra en microsegundos
aws.sagemaker.model_loading_time.maximum
(gauge)
El intervalo de tiempo máximo que se tarda en cargar el modelo a través de la llamada a la API LoadModel del contenedor.
Se muestra en microsegundos
aws.sagemaker.model_loading_time.minimum
(gauge)
El intervalo de tiempo mínimo que se tarda en cargar el modelo a través de la llamada a la API LoadModel del contenedor.
Se muestra en microsegundos
aws.sagemaker.model_loading_time.sample_count
(count)
El intervalo de tiempo del recuento de muestras que tarda en cargarse el modelo a través de la llamada a la API LoadModel del contenedor.
Se muestra en microsegundos
aws.sagemaker.model_loading_time.sum
(gauge)
El intervalo de tiempo sumado que tarda en cargarse el modelo a través de la llamada a la API LoadModel del contenedor.
Se muestra en microsegundos
aws.sagemaker.model_loading_wait_time
(gauge)
El intervalo de tiempo que una solicitud de invocación ha esperado a que el modelo de destino se descargue, o se cargue, o ambas cosas, para realizar la inferencia.
Se muestra en microsegundos
aws.sagemaker.model_loading_wait_time.maximum
(gauge)
El intervalo máximo de tiempo que una solicitud de invocación ha esperado a que el modelo de destino se descargue, o se cargue, o ambas cosas, para realizar la inferencia.
Se muestra en microsegundos
aws.sagemaker.model_loading_wait_time.minimum
(gauge)
El intervalo mínimo de tiempo que una solicitud de invocación ha esperado a que el modelo de destino se descargue, o se cargue, o ambas cosas, para poder realizar la inferencia.
Se muestra en microsegundos
aws.sagemaker.model_loading_wait_time.sample_count
(count)
El intervalo de tiempo de recuento de muestras que una solicitud de invocación ha esperado a que el modelo de destino se descargue, se cargue o ambas cosas para realizar la inferencia.
Se muestra en microsegundos
aws.sagemaker.model_loading_wait_time.sum
(gauge)
La suma del intervalo de tiempo que una solicitud de invocación ha esperado a que el modelo de destino se descargue, o se cargue, o ambas cosas, para realizar la inferencia.
Se muestra en microsegundos
aws.sagemaker.model_setup_time
(gauge)
El tiempo medio que se tarda en lanzar nuevos recursos informáticos para un endpoint sin servidor.
Se muestra en microsegundos
aws.sagemaker.model_setup_time.maximum
(gauge)
El intervalo de tiempo máximo que se tarda en lanzar nuevos recursos informáticos para un endpoint sin servidor.
Se muestra en microsegundos
aws.sagemaker.model_setup_time.minimum
(gauge)
El intervalo de tiempo mínimo que se tarda en lanzar nuevos recursos informáticos para un endpoint sin servidor.
Se muestra en microsegundos
aws.sagemaker.model_setup_time.sample_count
(count)
El recuento_de_muestras de la cantidad de tiempo que se tarda en lanzar nuevos recursos informáticos para un endpoint sin servidor.
Se muestra en microsegundos
aws.sagemaker.model_setup_time.sum
(gauge)
La cantidad total de tiempo que se tarda en lanzar nuevos recursos informáticos para un endpoint sin servidor.
Se muestra en microsegundos
aws.sagemaker.model_unloading_time
(gauge)
El intervalo de tiempo que se tarda en descargar el modelo a través de la llamada a la API UnloadModel del contenedor.
Se muestra en microsegundos
aws.sagemaker.model_unloading_time.maximum
(gauge)
El intervalo máximo de tiempo que se tarda en descargar el modelo a través de la llamada a la API UnloadModel del contenedor.
Se muestra en microsegundos
aws.sagemaker.model_unloading_time.minimum
(gauge)
El intervalo de tiempo mínimo que se tarda en descargar el modelo a través de la llamada a la API UnloadModel del contenedor.
Se muestra en microsegundos
aws.sagemaker.model_unloading_time.sample_count
(count)
El intervalo de tiempo del recuento de muestras que se tarda en descargar el modelo a través de la llamada a la API UnloadModel del contenedor.
Se muestra en microsegundos
aws.sagemaker.model_unloading_time.sum
(gauge)
El intervalo de tiempo sumado que se tarda en descargar el modelo a través de la llamada a la API UnloadModel del contenedor.
Se muestra en microsegundos
aws.sagemaker.modelbuildingpipeline.execution_duration
(gauge)
La duración media en milisegundos de la ejecución de pipeline.
Se muestra en milisegundos
aws.sagemaker.modelbuildingpipeline.execution_duration.maximum
(gauge)
La duración máxima en milisegundos que duró la ejecución de pipeline.
Se muestra en milisegundos
aws.sagemaker.modelbuildingpipeline.execution_duration.minimum
(gauge)
Duración mínima en milisegundos de la ejecución de pipeline.
Se muestra en milisegundos
aws.sagemaker.modelbuildingpipeline.execution_duration.sample_count
(count)
La duración del recuento de muestras en milisegundos que duró la ejecución de pipeline.
Se muestra en milisegundos
aws.sagemaker.modelbuildingpipeline.execution_duration.sum
(gauge)
La duración total en milisegundos de la ejecución de pipeline.
Se muestra en milisegundos
aws.sagemaker.modelbuildingpipeline.execution_failed
(count)
El número medio de pasos que fallaron.
aws.sagemaker.modelbuildingpipeline.execution_failed.sum
(count)
La suma de pasos que fallaron.
aws.sagemaker.modelbuildingpipeline.execution_started
(count)
El número medio de ejecuciones de pipeline que se iniciaron.
aws.sagemaker.modelbuildingpipeline.execution_started.sum
(count)
La suma de las ejecuciones de pipeline que se iniciaron.
aws.sagemaker.modelbuildingpipeline.execution_stopped
(count)
El número medio de ejecuciones de pipeline que se detuvieron.
aws.sagemaker.modelbuildingpipeline.execution_stopped.sum
(count)
La suma de las ejecuciones de pipeline que se detuvieron.
aws.sagemaker.modelbuildingpipeline.execution_succeeded
(count)
El número medio de ejecuciones de pipeline que han tenido éxito.
aws.sagemaker.modelbuildingpipeline.execution_succeeded.sum
(count)
La suma de las ejecuciones de pipeline que han tenido éxito.
aws.sagemaker.modelbuildingpipeline.step_duration
(gauge)
La duración media en milisegundos de la ejecución del paso.
Se muestra en milisegundos
aws.sagemaker.modelbuildingpipeline.step_duration.maximum
(gauge)
Duración máxima en milisegundos de la ejecución del paso.
Se muestra en milisegundos
aws.sagemaker.modelbuildingpipeline.step_duration.minimum
(gauge)
Duración mínima en milisegundos de la ejecución del paso.
Se muestra en milisegundos
aws.sagemaker.modelbuildingpipeline.step_duration.sample_count
(count)
La duración del recuento de muestras en milisegundos dela ejecución del paso.
Se muestra en milisegundos
aws.sagemaker.modelbuildingpipeline.step_duration.sum
(gauge)
La duración total en milisegundos de la ejecución del paso.
Se muestra en milisegundos
aws.sagemaker.modelbuildingpipeline.step_failed
(count)
El número medio de pasos que fallaron.
aws.sagemaker.modelbuildingpipeline.step_failed.sum
(count)
La suma de pasos que fallaron.
aws.sagemaker.modelbuildingpipeline.step_started
(count)
El número medio de pasos que se iniciaron.
aws.sagemaker.modelbuildingpipeline.step_started.sum
(count)
La suma de los pasos que empezaron.
aws.sagemaker.modelbuildingpipeline.step_stopped
(count)
El número medio de pasos que se detuvieron.
aws.sagemaker.modelbuildingpipeline.step_stopped.sum
(count)
La suma de pasos que se detuvieron.
aws.sagemaker.modelbuildingpipeline.step_succeeded
(count)
El número medio de pasos que tuvieron éxito.
aws.sagemaker.modelbuildingpipeline.step_succeeded.sum
(count)
La suma de pasos que tuvieron éxito.
aws.sagemaker.overhead_latency
(gauge)
El intervalo medio de tiempo añadido al tiempo que se tarda en responder a una solicitud de cliente por los gastos generales de Amazon SageMaker.
Se muestra en microsegundos
aws.sagemaker.overhead_latency.maximum
(gauge)
El intervalo máximo de tiempo añadido al tiempo que se tarda en responder a una solicitud de cliente por los gastos generales de Amazon SageMaker.
Se muestra en microsegundos
aws.sagemaker.overhead_latency.minimum
(gauge)
El intervalo de tiempo mínimo añadido al tiempo que se tarda en responder a una solicitud de cliente por los gastos generales de Amazon SageMaker.
Se muestra en microsegundos
aws.sagemaker.overhead_latency.sample_count
(count)
El recuento de muestras del intervalo de tiempo añadido al tiempo que se tarda en responder a una solicitud de cliente por los gastos generales de Amazon SageMaker.
Se muestra en microsegundos
aws.sagemaker.overhead_latency.sum
(gauge)
La suma del intervalo de tiempo añadido al tiempo que se tarda en responder a una solicitud de cliente por los gastos generales de Amazon SageMaker.
Se muestra en microsegundos
aws.sagemaker.processingjobs.cpuutilization
(gauge)
Porcentaje medio de unidades CPU utilizadas por los contenedores de una instancia.
Se muestra como porcentaje
aws.sagemaker.processingjobs.cpuutilization.maximum
(gauge)
El porcentaje máximo de unidades CPU que son utilizadas por los contenedores en una instancia.
Se muestra como porcentaje
aws.sagemaker.processingjobs.cpuutilization.minimum
(gauge)
El porcentaje mínimo de unidades CPU que son utilizadas por los contenedores en una instancia.
Se muestra como porcentaje
aws.sagemaker.processingjobs.disk_utilization
(gauge)
El porcentaje medio de espacio en disco utilizado por los contenedores en una instancia.
Se muestra como porcentaje
aws.sagemaker.processingjobs.disk_utilization.maximum
(gauge)
El porcentaje máximo de espacio en disco utilizado por los contenedores en una instancia.
Se muestra como porcentaje
aws.sagemaker.processingjobs.disk_utilization.minimum
(gauge)
El porcentaje mínimo de espacio en disco utilizado por los contenedores en una instancia.
Se muestra como porcentaje
aws.sagemaker.processingjobs.gpu_memory_utilization
(gauge)
Porcentaje medio de memoria GPU utilizada por los contenedores de una instancia.
Se muestra como porcentaje
aws.sagemaker.processingjobs.gpu_memory_utilization.maximum
(gauge)
El porcentaje máximo de memoria GPU utilizada por los contenedores en una instancia.
Se muestra como porcentaje
aws.sagemaker.processingjobs.gpu_memory_utilization.minimum
(gauge)
El porcentaje mínimo de memoria GPU utilizada por los contenedores en una instancia.
Se muestra como porcentaje
aws.sagemaker.processingjobs.gpu_utilization
(gauge)
Porcentaje medio de unidades GPU utilizadas por los contenedores de una instancia.
Se muestra como porcentaje
aws.sagemaker.processingjobs.gpu_utilization.maximum
(gauge)
Porcentaje máximo de unidades GPU utilizadas por los contenedores de una instancia.
Se muestra como porcentaje
aws.sagemaker.processingjobs.gpu_utilization.minimum
(gauge)
Porcentaje mínimo de unidades GPU utilizadas por los contenedores de una instancia.
Se muestra como porcentaje
aws.sagemaker.processingjobs.memory_utilization
(gauge)
Porcentaje medio de memoria utilizado por los contenedores de una instancia.
Se muestra como porcentaje
aws.sagemaker.processingjobs.memory_utilization.maximum
(gauge)
El porcentaje máximo de memoria que utilizan los contenedores en una instancia.
Se muestra como porcentaje
aws.sagemaker.processingjobs.memory_utilization.minimum
(gauge)
El porcentaje mínimo de memoria que utilizan los contenedores en una instancia.
Se muestra como porcentaje
aws.sagemaker.tasks_returned
(count)
Número medio de veces que se ha devuelto una misma tarea.
aws.sagemaker.tasks_returned.sample_count
(count)
El recuento de muestras de las veces que se ha devuelto una única tarea.
aws.sagemaker.tasks_returned.sum
(count)
La suma de las veces que se ha devuelto una sola tarea.
aws.sagemaker.trainingjobs.cpuutilization
(gauge)
Porcentaje medio de unidades CPU utilizadas por los contenedores de una instancia.
Se muestra como porcentaje
aws.sagemaker.trainingjobs.cpuutilization.maximum
(gauge)
El porcentaje máximo de unidades CPU que son utilizadas por los contenedores en una instancia.
Se muestra como porcentaje
aws.sagemaker.trainingjobs.cpuutilization.minimum
(gauge)
El porcentaje mínimo de unidades CPU que son utilizadas por los contenedores en una instancia.
Se muestra como porcentaje
aws.sagemaker.trainingjobs.disk_utilization
(gauge)
El porcentaje medio de espacio en disco utilizado por los contenedores en una instancia.
Se muestra como porcentaje
aws.sagemaker.trainingjobs.disk_utilization.maximum
(gauge)
El porcentaje máximo de espacio en disco utilizado por los contenedores en una instancia.
Se muestra como porcentaje
aws.sagemaker.trainingjobs.disk_utilization.minimum
(gauge)
El porcentaje mínimo de espacio en disco utilizado por los contenedores en una instancia.
Se muestra como porcentaje
aws.sagemaker.trainingjobs.gpu_memory_utilization
(gauge)
Porcentaje medio de memoria GPU utilizada por los contenedores de una instancia.
Se muestra como porcentaje
aws.sagemaker.trainingjobs.gpu_memory_utilization.maximum
(gauge)
El porcentaje máximo de memoria GPU utilizada por los contenedores en una instancia.
Se muestra como porcentaje
aws.sagemaker.trainingjobs.gpu_memory_utilization.minimum
(gauge)
El porcentaje mínimo de memoria GPU utilizada por los contenedores en una instancia.
Se muestra como porcentaje
aws.sagemaker.trainingjobs.gpu_utilization
(gauge)
Porcentaje medio de unidades GPU utilizadas por los contenedores de una instancia.
Se muestra como porcentaje
aws.sagemaker.trainingjobs.gpu_utilization.maximum
(gauge)
Porcentaje máximo de unidades GPU utilizadas por los contenedores de una instancia.
Se muestra como porcentaje
aws.sagemaker.trainingjobs.gpu_utilization.minimum
(gauge)
Porcentaje mínimo de unidades GPU utilizadas por los contenedores de una instancia.
Se muestra como porcentaje
aws.sagemaker.trainingjobs.memory_utilization
(gauge)
Porcentaje medio de memoria utilizado por los contenedores de una instancia.
Se muestra como porcentaje
aws.sagemaker.trainingjobs.memory_utilization.maximum
(gauge)
El porcentaje máximo de memoria que utilizan los contenedores en una instancia.
Se muestra como porcentaje
aws.sagemaker.trainingjobs.memory_utilization.minimum
(gauge)
El porcentaje mínimo de memoria que utilizan los contenedores en una instancia.
Se muestra como porcentaje
aws.sagemaker.transformjobs.cpuutilization
(gauge)
Porcentaje medio de unidades CPU utilizadas por los contenedores de una instancia.
Se muestra como porcentaje
aws.sagemaker.transformjobs.cpuutilization.maximum
(gauge)
El porcentaje máximo de unidades CPU que son utilizadas por los contenedores en una instancia.
Se muestra como porcentaje
aws.sagemaker.transformjobs.cpuutilization.minimum
(gauge)
El porcentaje mínimo de unidades CPU que son utilizadas por los contenedores en una instancia.
Se muestra como porcentaje
aws.sagemaker.transformjobs.disk_utilization
(gauge)
El porcentaje medio de espacio en disco utilizado por los contenedores en una instancia.
Se muestra como porcentaje
aws.sagemaker.transformjobs.disk_utilization.maximum
(gauge)
El porcentaje máximo de espacio en disco utilizado por los contenedores en una instancia.
Se muestra como porcentaje
aws.sagemaker.transformjobs.disk_utilization.minimum
(gauge)
El porcentaje mínimo de espacio en disco utilizado por los contenedores en una instancia.
Se muestra como porcentaje
aws.sagemaker.transformjobs.gpu_memory_utilization
(gauge)
Porcentaje medio de memoria GPU utilizada por los contenedores de una instancia.
Se muestra como porcentaje
aws.sagemaker.transformjobs.gpu_memory_utilization.maximum
(gauge)
El porcentaje máximo de memoria GPU utilizada por los contenedores en una instancia.
Se muestra como porcentaje
aws.sagemaker.transformjobs.gpu_memory_utilization.minimum
(gauge)
El porcentaje mínimo de memoria GPU utilizada por los contenedores en una instancia.
Se muestra como porcentaje
aws.sagemaker.transformjobs.gpu_utilization
(gauge)
Porcentaje medio de unidades GPU utilizadas por los contenedores de una instancia.
Se muestra como porcentaje
aws.sagemaker.transformjobs.gpu_utilization.maximum
(gauge)
Porcentaje máximo de unidades GPU utilizadas por los contenedores de una instancia.
Se muestra como porcentaje
aws.sagemaker.transformjobs.gpu_utilization.minimum
(gauge)
Porcentaje mínimo de unidades GPU utilizadas por los contenedores de una instancia.
Se muestra como porcentaje
aws.sagemaker.transformjobs.memory_utilization
(gauge)
Porcentaje medio de memoria utilizado por los contenedores de una instancia.
Se muestra como porcentaje
aws.sagemaker.transformjobs.memory_utilization.maximum
(gauge)
El porcentaje máximo de memoria que utilizan los contenedores en una instancia.
Se muestra como porcentaje
aws.sagemaker.transformjobs.memory_utilization.minimum
(gauge)
El porcentaje mínimo de memoria que utilizan los contenedores en una instancia.
Se muestra como porcentaje
aws.sagemaker.workteam.active_workers
(count)
El número medio de workers activos individuales en un equipo de trabajo privado que enviaron, liberaron o rechazaron una tarea.
aws.sagemaker.workteam.active_workers.sample_count
(count)
El recuento de muestra de workers activos individuales en un equipo de trabajo privado que enviaron, liberaron o rechazaron una tarea.
aws.sagemaker.workteam.active_workers.sum
(count)
La suma de workers activos individuales en un equipo de trabajo privado que enviaron, liberaron o rechazaron una tarea.
aws.sagemaker.workteam.tasks_accepted
(count)
Número medio de veces que un worker acepta una misma tarea.
aws.sagemaker.workteam.tasks_accepted.sample_count
(count)
Recuento por muestreo de las veces que un worker ha aceptado una tarea.
aws.sagemaker.workteam.tasks_accepted.sum
(count)
La suma de veces que un worker ha aceptado una misma tarea.
aws.sagemaker.workteam.tasks_declined
(count)
Número medio de veces que un worker ha rechazado una misma tarea.
aws.sagemaker.workteam.tasks_declined.sample_count
(count)
Recuento por muestreo de las veces que un worker ha rechazado una tarea.
aws.sagemaker.workteam.tasks_declined.sum
(count)
Número de veces que un worker ha rechazado una tarea.
aws.sagemaker.workteam.tasks_submitted
(count)
Número medio de veces que un worker privado ha enviado/realizado una tarea.
aws.sagemaker.workteam.tasks_submitted.sample_count
(count)
Número medio de veces que un worker privado ha enviado/realizado una tarea.
aws.sagemaker.workteam.tasks_submitted.sum
(count)
Número medio de veces que un worker privado ha enviado/realizado una tarea.
aws.sagemaker.workteam.time_spent
(count)
Tiempo medio dedicado a una tarea realizada por un worker privado.
aws.sagemaker.workteam.time_spent.sample_count
(count)
Tiempo medio dedicado a una tarea realizada por un worker privado.
aws.sagemaker.workteam.time_spent.sum
(count)
Tiempo medio dedicado a una tarea realizada por un worker privado.

Eventos

La integración de Amazon SageMaker no incluye ningún evento.

Checks de servicio

La integración de Amazon SageMaker no incluye ningún check de servicio.

Monitorización predefinida

Datadog proporciona dashboards predefinidos para los endpoints y trabajos de SageMaker.

Endpoints de SageMaker

Utiliza el dashboard de endpoints de SageMaker para ayudarte a empezar inmediatamente a supervisar el estado y el rendimiento de tus endpoints de SageMaker sin ninguna configuración adicional. Determina qué endpoints tienen errores, latencia superior a la esperada o picos de tráfico. Revisa y corrige tus selecciones de tipo de instancia y política de escalado utilizando métricas de utilización de CPU, GPU, memoria y disco.

Dashboard de endpoints de SageMaker predefinido

Trabajos de SageMaker

Puedes utilizar el dashboard de trabajos de SageMaker para obtener información sobre la utilización de recursos (por ejemplo, encontrar cuellos de botella de CPU, GPU y almacenamiento) de tus trabajos de formación, procesamiento o transformación. Utiliza esta información para optimizar tus instancias de computación.

Dashboard de trabajos de SageMaker predefinidos

Referencias adicionales

Más enlaces, artículos y documentación útiles:

Solucionar problemas

¿Necesitas ayuda? Ponte en contacto con el soporte de Datadog.