Supported OS Linux Windows Mac OS

Versión de la integración3.0.0

Información general

Este check monitoriza Karpenter a través del Datadog Agent. Para obtener más información, consulta Monitorización de Karpenter.

Configuración

Sigue las instrucciones siguientes para instalar y configurar este check para un Agent que se ejecute en tu entorno de Kubernetes. Para obtener más información sobre la configuración en entornos en contenedores, consulta las plantillas de integración de Autodiscovery para obtener orientación.

Instalación

A partir de la versión 7.50.0 del Agent, el check de Karpenter se incluye en el paquete del Datadog Agent. No es necesaria ninguna instalación adicional en tu entorno.

Este check utiliza OpenMetrics para recopilar métricas del endpoint de OpenMetrics que expone Karpenter, que requiere Python 3.

Configuración

Recopilación de métricas

Asegúrate de que las métricas con formato Prometheus están expuestas en tu clúster de Karpenter y en qué puerto. Puedes configurar el puerto siguiendo las instrucciones de la página Métricas de la documentación de Karpenter. Para que el Agent comience a recopilar métricas, los pods de Karpenter deben estar anotados. Para obtener más información sobre anotaciones, consulta las plantillas de integración de Autodiscovery como guía. Puedes encontrar opciones adicionales de configuración consultando el ejemplo karpenter.d/conf.yaml.

Nota: Las métricas enumeradas sólo pueden recopilarse si están disponibles. Algunas métricas se generan sólo cuando se realizan determinadas acciones. Por ejemplo, la métrica karpenter.nodes.terminated se expone sólo después de que se termina un nodo.

El único parámetro necesario para configurar el check de Karpenter es:

  • openmetrics_endpoint: Este parámetro debe configurarse con la localización donde se exponen las métricas con formato Prometheus. El puerto por defecto es 8080, pero puede configurarse utilizando la variable de entorno METRICS_PORT. En entornos en contenedores, debe utilizarse %%host%% para la detección automática de hosts.
apiVersion: v1
kind: Pod
# (...)
metadata:
  name: '<POD_NAME>'
  annotations:
    ad.datadoghq.com/controller.checks: |
      {
        "karpenter": {
          "init_config": {},
          "instances": [
            {
              "openmetrics_endpoint": "http://%%host%%:8080/metrics"
            }
          ]
        }
      }
    # (...)
spec:
  containers:
    - name: 'controller'
# (...)

Recopilación de logs

Disponible para las versiones 6.0 o posteriores del Agent

Los logs de Karpenter pueden recopilarse de los distintos pods de Karpenter a través de Kubernetes. La recopilación de logs está desactivada en forma predeterminada en el Datadog Agent. Para activarla, consulta Recopilación de logs de Kubernetes.

Consulta las plantillas de integración de Autodiscovery para obtener orientación sobre la aplicación de los parámetros que se indican a continuación.

ParámetroValor
<LOG_CONFIG>{"source": "karpenter", "service": "<SERVICE_NAME>"}

Validación

Ejecuta el subcomando de estado de Agent y busca karpenter en la sección Checks.

Datos recopilados

Métricas

karpenter.aws.sdk_go.request.count
(count)
Número total de solicitudes Go del SDK de AWS.
karpenter.aws.sdk_go.request.duration_seconds.bucket
(count)
Latencia de buckets del histograma de solicitudes Go del SDK de AWS.
karpenter.aws.sdk_go.request.duration_seconds.count
(count)
Recuento de duraciones de solicitudes Go del SDK de AWS.
karpenter.aws.sdk_go.request.duration_seconds.sum
(count)
Suma de duraciones de solicitudes Go del SDK de AWS.
Se muestra en segundos
karpenter.aws.sdk_go.request_attempt.count
(count)
Número total de intentos de solicitudes Go del SDK de AWS.
karpenter.aws.sdk_go.request_attempt.duration_seconds.bucket
(count)
Latencia de buckets del histograma de intentos de solicitudes Go del SDK de AWS.
Se muestra en segundos
karpenter.aws.sdk_go.request_attempt.duration_seconds.count
(count)
Recuento de duraciones de intentos de solicitudes Go del SDK de AWS.
Se muestra como solicitud
karpenter.aws.sdk_go.request_attempt.duration_seconds.sum
(count)
Suma de duraciones de intentos de solicitudes Go del SDK de AWS.
Se muestra en segundos
karpenter.build_info
(gauge)
Métrica con un valor ‘1’ constante etiquetada por versión a partir de la cual se ha compilado Karpenter.
karpenter.certwatcher.read.certificate.count
(count)
Recuento de lecturas de certificados.
Se muestra como lectura
karpenter.certwatcher.read.certificate.errors.count
(count)
Recuento de errores de lectura de certificados.
Se muestra como error
karpenter.cloudprovider.batcher.batch.time_seconds.bucket
(count)
Recuento de observaciones en el histograma de la ventana de agrupamiento en lotes por buckets upper_bound.
karpenter.cloudprovider.batcher.batch.time_seconds.count
(count)
Recuento de observaciones en el histograma de la ventana de agrupamiento en lotes.
karpenter.cloudprovider.batcher.batch.time_seconds.sum
(count)
Suma de la duración de la ventana de agrupamiento en lotes por agrupador.
Se muestra en segundos
karpenter.cloudprovider.batcher.batch_size.bucket
(count)
Recuento de observaciones en el histograma de la ventana de lotes de solicitudes por buckets upper_bound.
karpenter.cloudprovider.batcher.batch_size.count
(count)
Recuento de observaciones en el histograma de lotes de solicitudes.
karpenter.cloudprovider.batcher.batch_size.sum
(count)
Suma del tamaño del lote de solicitudes por agrupador.
karpenter.cloudprovider.duration_seconds.bucket
(count)
Recuento de observaciones en la duración del histograma de proveedores de nube por buckets, nombre de método y proveedor upper_bound.
karpenter.cloudprovider.duration_seconds.count
(count)
Recuento de observaciones en la duración del histograma de proveedores de nube.
karpenter.cloudprovider.duration_seconds.sum
(count)
Suma de la duración de llamadas a métodos de proveedores de nube. Etiquetado por el controlador.
Se muestra en segundos
karpenter.cloudprovider.errors.count
(count)
Recuento de errores devueltos por llamadas a CloudProvider.
Se muestra como error
karpenter.cloudprovider.instance.type.cpu_cores
(gauge)
Núcleos de VCPU para un tipo de instancia dado.
Se muestra como núcleo
karpenter.cloudprovider.instance.type.memory_bytes
(gauge)
Memoria, en bytes, de un tipo de instancia dado.
Se muestra en bytes
karpenter.cloudprovider.instance.type.offering_available
(gauge)
Disponibilidad de la oferta de tipo de instancia, basada en el tipo de instancia, el tipo de capacidad y la zona.
karpenter.cloudprovider.instance.type.price_estimate
(gauge)
Precio estimado por hora que se utiliza para tomar decisiones informadas sobre el cálculo del coste de los nodos. Se actualiza una vez al inicio y después cada 12 horas.
karpenter.cluster.utilization.percent
(gauge)
Uso de recursos asignables por solicitudes de pod.
Se muestra como porcentaje
karpenter.cluster_state.node_count
(gauge)
Recuento actual de nodos en el estado del clúster.
Se muestra como nodo
karpenter.cluster_state.synced
(gauge)
Devuelve 1 si el estado del clúster está sincronizado y 0 en caso contrario. Sincronizado comprueba que las reclamaciones de nodos y los nodos que están almacenados en el APIServer tienen la misma representación que el estado de clúster de Karpenter.
karpenter.cluster_state.unsynced.time_seconds
(gauge)
Tiempo durante el cual el estado del clúster no se sincroniza.
Se muestra en segundos
karpenter.consistency.errors
(gauge)
Número de checks de coherencia que han fallado.
Se muestra como error
karpenter.controller.runtime.active_workers
(gauge)
Número de workers utilizados actualmente por controlador.
Se muestra como worker
karpenter.controller.runtime.max.concurrent_reconciles
(gauge)
Número máximo de conciliaciones simultáneas por controlador.
karpenter.controller.runtime.reconcile.count
(count)
Recuento de conciliaciones por controlador.
karpenter.controller.runtime.reconcile.time_seconds.bucket
(count)
Recuento de observaciones en el histograma de conciliación por controlador por buckets upper_bound.
karpenter.controller.runtime.reconcile.time_seconds.count
(count)
Recuento de observaciones en el histograma de conciliación por controlador.
karpenter.controller.runtime.reconcile.time_seconds.sum
(count)
Suma del tiempo por conciliación por controlador
Se muestra en segundos
karpenter.controller.runtime.reconcile_errors.count
(count)
Recuento de errores de conciliación por controlador.
Se muestra como error
karpenter.controller.runtime.reconcile_panics.count
(count)
Número total de pánicos de conciliación por controlador.
karpenter.controller.runtime.terminal.reconcile.errors.count
(count)
Número total de errores de conciliación de terminales por controlador.
karpenter.deprovisioning.actions_performed.count
(count)
Recuento de acciones de desaprovisionamiento realizadas. Etiquetado por desaprovisionador.
Se muestra como ejecución
karpenter.deprovisioning.consolidation_timeouts
(gauge)
Número de veces que el algoritmo de consolidación ha alcanzado un tiempo de espera. Etiquetado por tipo de consolidación.
Se muestra como tiempo de espera
karpenter.deprovisioning.eligible_machines
(gauge)
Número de máquinas susceptibles de ser desaprovisionadas por Karpenter. Etiquetado por desaprovisionador.
karpenter.deprovisioning.evaluation.duration_seconds.bucket
(count)
Recuento de observaciones en el histograma de evaluación del desaprovisionamiento por buckets upper_bound.
karpenter.deprovisioning.evaluation.duration_seconds.count
(count)
Recuento de observaciones en el histograma de evaluación del desprovisionamiento.
karpenter.deprovisioning.evaluation.duration_seconds.sum
(count)
Suma de la duración del proceso de evaluación del desaprovisionamiento en segundos.
Se muestra en segundos
karpenter.deprovisioning.replacement.machine.initialized_seconds.bucket
(count)
Recuento de observaciones en el histograma de la máquina de sustitución por buckets upper_bound.
karpenter.deprovisioning.replacement.machine.initialized_seconds.count
(count)
Recuento de observaciones en el histograma de la máquina de sustitución.
karpenter.deprovisioning.replacement.machine.initialized_seconds.sum
(count)
Suma del tiempo necesario para que una máquina de sustitución se inicialice.
Se muestra en segundos
karpenter.deprovisioning.replacement.machine.launch.failure_counter.count
(count)
Recuento de veces que Karpenter no ha podido lanzar un nodo de sustitución para el desaprovisionamiento. Etiquetado por desaprovisionador
Se muestra como intento
karpenter.disruption.actions_performed.count
(count)
Recuento de acciones de interrupción realizadas. Etiquetado por método de interrupción.
Se muestra como ejecución
karpenter.disruption.budgets.allowed_disruptions
(gauge)
Número de nodos de un grupo de nodos dado que pueden ser interrumpidos en un momento dado. Etiquetado por grupo de nodos. Ten en cuenta que las interrupciones permitidas pueden cambiar muy rápidamente, ya que pueden crearse nuevos nodos y eliminarse otros en cualquier momento.
Se muestra como nodo
karpenter.disruption.consolidation_timeouts.count
(count)
Recuento de veces que el algoritmo de consolidación ha alcanzado un tiempo de espera. Etiquetado por tipo de consolidación.
Se muestra como tiempo de espera
karpenter.disruption.eligible_nodes
(gauge)
Número de nodos susceptibles de ser interrumpidos por Karpenter. Etiquetado por método de interrupción.
Se muestra como nodo
karpenter.disruption.evaluation.duration_seconds.bucket
(count)
Recuento de observaciones en el histograma de evaluación de interrupciones por buckets upper_bound.
karpenter.disruption.evaluation.duration_seconds.count
(count)
Recuento de observaciones en el histograma de evaluación de interrupciones.
karpenter.disruption.evaluation.duration_seconds.sum
(count)
Suma de la duración del proceso de evaluación de interrupciones en segundos.
Se muestra en segundos
karpenter.disruption.nodes.disrupted.count
(count)
Número total de nodos interrumpidos. Etiquetado por grupo de nodos, acción de interrupción, método y tipo de consolidación.
Se muestra como nodo
karpenter.disruption.pods.disrupted.count
(count)
Número total de pods reprogramables interrumpidos en nodos. Etiquetado por grupo de nodos, acción de interrupción, método y tipo de consolidación.
karpenter.disruption.queue_depth
(gauge)
Número de comandos en espera en la cola de orquestación de interrupciones.
Se muestra como comando
karpenter.disruption.replacement.nodeclaim.failures.count
(count)
Número de veces que Karpenter no ha podido lanzar un nodo de sustitución para la interrupción. Etiquetado por método de interrupción.
Se muestra como intento
karpenter.disruption.replacement.nodeclaim.initialized_seconds.bucket
(count)
Recuento de observaciones en el histograma de reclamaciones de nodos de sustitución por buckets upper_bound.
karpenter.disruption.replacement.nodeclaim.initialized_seconds.count
(count)
Recuento de observaciones en el histograma de reclamaciones de nodos de sustitución.
karpenter.disruption.replacement.nodeclaim.initialized_seconds.sum
(count)
Suma del tiempo necesario para que una reclamación de nodos de sustitución se inicialice.
Se muestra en segundos
karpenter.go.gc.duration_seconds.count
(count)
Resumen del recuento de ciclos de recolección de basura en la instancia Karpenter.
karpenter.go.gc.duration_seconds.quantile
(gauge)
Duración de la pausa de los ciclos de recolección de basura en la instancia Karpenter por quantile.
karpenter.go.gc.duration_seconds.sum
(count)
Suma de la duración de la pausa de los ciclos de recolección de basura en la instancia Karpenter.
Se muestra en segundos
karpenter.go.memstats.alloc_bytes
(gauge)
Número de bytes asignados y aún en uso.
Se muestra en bytes
karpenter.go.memstats.alloc_bytes.count
(count)
Recuento de bytes asignados, aunque se hayan liberado.
Se muestra en bytes
karpenter.go.memstats.buck.hash.sys_bytes
(gauge)
Número de bytes utilizados por la tabla hash del bucket de perfiles.
Se muestra en bytes
karpenter.go.memstats.frees.count
(count)
Recuento de libres
karpenter.go.memstats.gc.sys_bytes
(gauge)
Número de bytes utilizados para metadatos del sistema de recolección de basura.
Se muestra en bytes
karpenter.go.memstats.heap.alloc_bytes
(gauge)
Número de bytes heap asignados y aún en uso.
Se muestra en bytes
karpenter.go.memstats.heap.idle_bytes
(gauge)
Número de bytes heap a la espera de ser utilizados.
Se muestra en bytes
karpenter.go.memstats.heap.inuse_bytes
(gauge)
Número de bytes heap en uso.
Se muestra en bytes
karpenter.go.memstats.heap.objects
(gauge)
Número de objetos asignados.
Se muestra como objeto
karpenter.go.memstats.heap.released_bytes
(gauge)
Número de bytes heap liberados al sistema operativo.
Se muestra en bytes
karpenter.go.memstats.heap.sys_bytes
(gauge)
Número de bytes heap obtenidos del sistema.
Se muestra en bytes
karpenter.go.memstats.last.gc.time_seconds
(gauge)
Número de segundos transcurridos desde 1970 de la última recolección de basura.
Se muestra en segundos
karpenter.go.memstats.lookups.count
(count)
Recuento de búsquedas de punteros.
karpenter.go.memstats.mallocs.count
(count)
Recuento de mallocs.
karpenter.go.memstats.mcache.inuse_bytes
(gauge)
Número de bytes en uso por estructuras mcache.
Se muestra en bytes
karpenter.go.memstats.mcache.sys_bytes
(gauge)
Número de bytes utilizados para estructuras mcache obtenidas del sistema.
Se muestra en bytes
karpenter.go.memstats.mspan.inuse_bytes
(gauge)
Número de bytes en uso por estructuras mspan.
Se muestra en bytes
karpenter.go.memstats.mspan.sys_bytes
(gauge)
Número de bytes utilizados para estructuras mspan obtenidas del sistema.
Se muestra en bytes
karpenter.go.memstats.next.gc_bytes
(gauge)
Número de bytes heap en que se realizará la próxima recolección de basura.
Se muestra en bytes
karpenter.go.memstats.other.sys_bytes
(gauge)
Número de bytes utilizados para otras asignaciones del sistema.
Se muestra en bytes
karpenter.go.memstats.stack.inuse_bytes
(gauge)
Número de bytes en uso por el asignador de stacks tecnológicos.
Se muestra en bytes
karpenter.go.memstats.stack.sys_bytes
(gauge)
Número de bytes obtenidos del sistema para el asignador de stacks tecnológicos.
Se muestra en bytes
karpenter.go.memstats.sys_bytes
(gauge)
Número de bytes obtenidos del sistema.
Se muestra en bytes
karpenter.go_goroutines
(gauge)
Número de goroutines que existen actualmente.
karpenter.go_info
(gauge)
Información sobre el entorno Go.
karpenter.go_threads
(gauge)
Número de subprocesos de sistema operativo creados
Se muestra como subproceso
karpenter.interruption.actions_performed.count
(count)
Recuento de acciones de notificación realizadas. Etiquetado por acción.
Se muestra como ejecución
karpenter.interruption.deleted_messages.count
(count)
Recuento de mensajes eliminados de la cola SQS.
Se muestra como mensaje
karpenter.interruption.message.latency.time_seconds.bucket
(count)
Recuento de observaciones en el histograma de latencia de mensajes de interrupción por buckets upper_bound.
karpenter.interruption.message.latency.time_seconds.count
(count)
Recuento de observaciones en el histograma de latencia de mensajes de interrupción.
karpenter.interruption.message.latency.time_seconds.sum
(count)
Suma del tiempo transcurrido entre la creación del mensaje en la cola y la acción tomada con el mensaje por parte del controlador.
Se muestra en segundos
karpenter.interruption.received_messages.count
(count)
Recuento de mensajes recibidos de la cola SQS. Desglosado por tipo de mensaje y si el mensaje es procesable.
Se muestra como mensaje
karpenter.leader_election.master_status
(gauge)
Indica si el sistema de notificación es el principal del contrato de arrendamiento en cuestión. 0 indica copia de seguridad, 1 indica principal. El ’nombre’ es la cadena utilizada para identificar el contrato de arrendamiento.
karpenter.machines_created.count
(count)
Recuento de máquinas creadas en total por Karpenter. Etiquetado por motivo de creación de la máquina y por proveedor propietario.
karpenter.machines_disrupted.count
(count)
Recuento de máquinas interrumpidas en total por Karpenter. Etiquetado por tipo de interrupción de la máquina y por proveedor propietario.
karpenter.machines_drifted.count
(count)
Recuento de motivos de derivas de máquinas en total por parte de Karpenter. Etiquetado por tipo de deriva de la máquina y por proveedor propietario.
karpenter.machines_initialized.count
(count)
Recuento de máquinas inicializadas en total por Karpenter. Etiquetado por proveedor propietario.
karpenter.machines_launched.count
(count)
Recuento de máquinas iniciadas en total por Karpenter. Etiquetado por proveedor propietario.
karpenter.machines_registered.count
(count)
Recuento de máquinas registradas en total por Karpenter. Etiquetado por proveedor propietario.
karpenter.machines_terminated.count
(count)
Número total de máquinas finalizadas por Karpenter. Etiquetado por motivo de finalización y por proveedor propietario.
karpenter.nodeclaims_created
(gauge)
Número de reclamaciones de nodos creadas en total por Karpenter. Etiquetado por motivo de creación de la reclamación de nodos y por grupo de nodos propietario.
karpenter.nodeclaims_disrupted
(gauge)
Número total de reclamaciones de nodos interrumpidas por Karpenter. Etiquetado por tipo de interrupción de la reclamación de nodos y por grupo de nodos propietario.
karpenter.nodeclaims_drifted
(gauge)
Número de motivos de derivas de reclamaciones de nodos en total por Karpenter. Etiquetado por tipo de deriva de la reclamación de nodos y por grupo de nodos propietario.
karpenter.nodeclaims_initialized
(gauge)
Número de reclamaciones de nodos inicializadas en total por Karpenter. Etiquetado por grupo de nodos propietario.
karpenter.nodeclaims_instance_termination.duration_seconds.bucket
(count)
Histograma de buckets para la duración de finalizaciones de instancias CloudProvider.
karpenter.nodeclaims_instance_termination.duration_seconds.count
(count)
Recuento de observaciones de finalizaciones de instancias CloudProvider.
karpenter.nodeclaims_instance_termination.duration_seconds.sum
(count)
Suma de las duraciones de finalizaciones de instancias CloudProvider.
Se muestra en segundos
karpenter.nodeclaims_launched
(gauge)
Número de reclamaciones de nodos inicializadas en total por Karpenter. Etiquetado por grupo de nodos propietario.
karpenter.nodeclaims_registered
(gauge)
Número de reclamaciones de nodos registradas en total por Karpenter. Etiquetado por grupo de nodos propietario.
karpenter.nodeclaims_terminated
(gauge)
Número de reclamaciones de nodos finalizadas en total por Karpenter. Etiquetado por motivo de finalización de la reclamación de nodos y por grupo de nodos propietario.
karpenter.nodeclaims_termination.duration_seconds.bucket
(count)
Histograma de buckets para la duración de finalizaciones de reclamaciones de nodos.
karpenter.nodeclaims_termination.duration_seconds.count
(count)
Recuento de observaciones de duraciones de finalizaciones de reclamaciones de nodos.
karpenter.nodeclaims_termination.duration_seconds.sum
(count)
Suma de las duraciones de finalizaciones de reclamaciones de nodos.
Se muestra en segundos
karpenter.nodepool_limit
(gauge)
Los límites de grupos de nodos son los límites especificados en el aprovisionador que restringen la cantidad de recursos aprovisionados. Etiquetado por nombre de grupo de nodos y por tipo de recurso.
karpenter.nodepool_usage
(gauge)
El uso de grupos de nodos es la cantidad de recursos que han sido aprovisionados por un grupo de nodos en particular. Etiquetado por nombre de grupo de nodos y por tipo de recurso.
karpenter.nodes.allocatable
(gauge)
Cantidad de recursos asignables por nodos.
karpenter.nodes.created.count
(count)
Recuento de nodos creados en total por Karpenter. Etiquetado por proveedor propietario.
Se muestra como nodo
karpenter.nodes.eviction.queue_depth
(gauge)
Número de pods que están a la espera de un desalojo correcto en la cola de desalojos.
karpenter.nodes.leases_deleted.count
(count)
Recuento de arrendamientos filtrados eliminados.
karpenter.nodes.system_overhead
(gauge)
El estado informa de los recursos reservados para sobrecargas del sistema, y para la diferencia entre la capacidad de los nodos y los valores asignables.
karpenter.nodes.terminated.count
(count)
Recuento de nodos finalizados en total por Karpenter. Etiquetado por proveedor propietario.
Se muestra como nodo
karpenter.nodes.termination.time_seconds.count
(count)
Recuento de observaciones en el resumen del tiempo en segundos de finalización de los nodos.
karpenter.nodes.termination.time_seconds.quantile
(gauge)
Tiempo transcurrido entre la solicitud de eliminación de un nodo y la eliminación de su finalizador por quantile.
karpenter.nodes.termination.time_seconds.sum
(count)
Suma del tiempo transcurrido entre la solicitud de eliminación de un nodo y la eliminación de su finalizador.
Se muestra en segundos
karpenter.nodes.total.daemon_limits
(gauge)
Total de recursos especificados por límites de pods DaemonSet.
karpenter.nodes.total.daemon_requests
(gauge)
Total de recursos solicitados por pods DaemonSet.
karpenter.nodes.total.pod_limits
(gauge)
Total de recursos de pod especificados por límites de pods no-DaemonSet.
karpenter.nodes.total.pod_requests
(gauge)
Total de recursos de pod solicitados por pods no-DaemonSet vinculados.
karpenter.operator.ec2nodeclass.status_condition.current_status.seconds
(gauge)
Tiempo que la condición de estado actual ha estado activa para ec2nodeclass.
Se muestra en segundos
karpenter.operator.ec2nodeclass.status_condition.transitions.count
(count)
Recuento de transiciones de condición de estado para ec2nodeclass.
karpenter.operator.ec2nodeclass.status_condition_count
(gauge)
Número de condiciones para ec2nodeclass.
karpenter.operator.node.status_condition.current_status.seconds
(gauge)
Tiempo que la condición de estado actual ha estado activa para el nodo.
Se muestra en segundos
karpenter.operator.node.status_condition.transitions.count
(count)
Recuento de transiciones de condiciones de estado para el nodo.
karpenter.operator.node.status_condition.transitions.seconds.bucket
(count)
Histograma de duraciones de condiciones de estado para el nodo.
Se muestra en segundos
karpenter.operator.node.status_condition_count
(gauge)
Número de condiciones para el nodo.
karpenter.operator.node.termination.duration_seconds.bucket
(count)
Buckets del histograma para duraciones de finalizaciones de nodos.
Se muestra en segundos
karpenter.operator.nodeclaim.status_condition.current_status.seconds
(gauge)
Tiempo que la condición de estado actual ha estado activa para la reclamación de nodos.
Se muestra en segundos
karpenter.operator.nodeclaim.status_condition.transitions.count
(count)
Recuento de transiciones de condiciones de estado para reclamaciones de nodos.
karpenter.operator.nodeclaim.status_condition.transitions.seconds.bucket
(count)
Histograma de duraciones de condiciones de estado para reclamaciones de nodos.
Se muestra en segundos
karpenter.operator.nodeclaim.status_condition_count
(gauge)
Número de condiciones para reclamaciones de nodos.
karpenter.operator.nodeclaim.termination.duration_seconds.bucket
(count)
Histograma de buckets para duraciones de finalizaciones de reclamaciones de nodos.
karpenter.operator.nodepool.status_condition.current_status.seconds
(gauge)
Tiempo que la condición de estado actual ha estado activa para grupos de nodos.
Se muestra en segundos
karpenter.operator.nodepool.status_condition.transitions.count
(count)
Recuento de transiciones de condiciones de estado para grupos de nodos.
karpenter.operator.nodepool.status_condition_count
(gauge)
Número de condiciones para grupos de nodos.
karpenter.pods.startup.time_seconds.count
(count)
Recuento de observaciones en el resumen de inicio de pods.
karpenter.pods.startup.time_seconds.quantile
(gauge)
Tiempo transcurrido entre la creación del pod y el pod en estado de ejecución por quantile.
karpenter.pods.startup.time_seconds.sum
(count)
Suma del tiempo transcurrido entre la creación del pod y el pod en estado de ejecución.
Se muestra en segundos
karpenter.pods.state
(gauge)
El estado del pod es el estado actual de los pods. Esta métrica puede utilizarse de varias formas, ya que está etiquetada por nombre de pod, espacio de nombres, propietario, nodo, nombre del proveedor, zona, arquitectura, tipo de capacidad, tipo de instancia y fase del pod.
karpenter.process.cpu_seconds.count
(count)
Tiempo total de CPU del usuario y del sistema transcurrido en segundos.
Se muestra en segundos
karpenter.process.max_fds
(gauge)
Número máximo de descriptores de archivo abiertos.
karpenter.process.open_fds
(gauge)
Número de descriptores de archivo abiertos.
karpenter.process.resident.memory_bytes
(gauge)
Tamaño de la memoria residente en bytes.
Se muestra en bytes
karpenter.process.start.time_seconds
(gauge)
Hora de inicio del proceso desde unix epoch en segundos.
Se muestra en segundos
karpenter.process.virtual.memory.max_bytes
(gauge)
Cantidad máxima de memoria virtual disponible en bytes.
Se muestra en bytes
karpenter.process.virtual.memory_bytes
(gauge)
Tamaño de la memoria virtual en bytes.
Se muestra en bytes
karpenter.provisioner.limit
(gauge)
Límites especificados en el proveedor que restringen la cantidad de recursos aprovisionados. Etiquetados por nombre de proveedor y por tipo de recurso.
karpenter.provisioner.scheduling.duration_seconds.bucket
(count)
Recuento de observaciones en el histograma de programación del proveedor por upper_bound buckets.
karpenter.provisioner.scheduling.duration_seconds.count
(count)
Recuento de observaciones en el histograma de programación del proveedor.
karpenter.provisioner.scheduling.duration_seconds.sum
(count)
Suma de la duración del proceso de programación en segundos. Desglosado por proveedor y error
Se muestra en segundos
karpenter.provisioner.scheduling.queue_depth
(gauge)
Número de pods que están a la espera de ser programados.
karpenter.provisioner.scheduling.simulation.duration_seconds.bucket
(count)
Recuento de observaciones en el histograma de simulación de programación del proveedor por upper_bound buckets.
karpenter.provisioner.scheduling.simulation.duration_seconds.count
(count)
Recuento de observaciones en el histograma de simulación de programación del proveedor.
karpenter.provisioner.scheduling.simulation.duration_seconds.sum
(count)
Suma de la duración de las simulaciones de programación utilizadas para el aprovisionamiento y el desaprovisionamiento en segundos.
Se muestra en segundos
karpenter.provisioner.usage
(gauge)
Cantidad de recursos que han sido aprovisionados por un aprovisionador en particular. Etiquetado por nombre de proveedor y por tipo de recurso.
karpenter.provisioner.usage.pct
(gauge)
Porcentaje de cada recurso utilizado basado en los recursos aprovisionados y los límites que se han configurado en el rango [0,100]. Etiquetado por nombre de proveedor y por tipo de recurso.
Se muestra como porcentaje
karpenter.rest.client_requests.count
(count)
Recuento de solicitudes HTTP, divididas por código de estado, método y host.
Se muestra como solicitud
karpenter.workqueue.longest.running.processor_seconds
(gauge)
Cantidad de segundos que se ha estado ejecutando el procesador que más tiempo lleva en cola de trabajo.
Se muestra en segundos
karpenter.workqueue.queue.duration_seconds.bucket
(count)
Recuento de observaciones en el histograma de duración de la cola de trabajo por upper_bound buckets.
karpenter.workqueue.queue.duration_seconds.count
(count)
Recuento de observaciones en el histograma de duración de la cola de trabajo.
karpenter.workqueue.queue.duration_seconds.sum
(count)
Suma de la duración del tiempo en segundos que un elemento permanece en la cola de trabajo antes de ser solicitado.
Se muestra en segundos
karpenter.workqueue.unfinished.work_seconds
(gauge)
Cantidad de segundos de trabajo realizado que está en curso y no ha sido observado por duración del trabajo. Los mayores valores indican subprocesos atascados. Se puede deducir el número de subprocesos atascados observando la velocidad a la que esto aumenta.
karpenter.workqueue.work.duration_seconds.bucket
(count)
Recuento de observaciones en el histograma de duración de la cola de trabajo por buckets upper_bound.
karpenter.workqueue.work.duration_seconds.count
(count)
Recuento de observaciones en el histograma de duración del trabajo de la cola de trabajo.
karpenter.workqueue.work.duration_seconds.sum
(count)
Suma de la cantidad de segundos que se tarda en procesar un elemento de la cola de trabajo.
Se muestra en segundos
karpenter.workqueue_adds.count
(count)
Recuento de adiciones gestionadas por la cola de trabajo.
karpenter.workqueue_depth
(gauge)
Profundidad actual de la cola de trabajo.
karpenter.workqueue_retries.count
(count)
Recuento de reintentos gestionados por la cola de trabajo.
Se muestra como intento

Eventos

La integración de Karpenter no incluye ningún evento.

Checks de servicio

karpenter.openmetrics.health

Devuelve CRITICAL si el Agent no puede conectarse al endpoint de Karpenter OpenMetrics, en caso contrario devuelve OK.

Estados: ok, crítico

Solucionar problemas

¿Necesitas ayuda? Ponte en contacto con el servicio de asistencia de Datadog.

Referencias adicionales

Documentación útil adicional, enlaces y artículos: