InfiniBand

Supported OS Linux

Versión de la integración1.1.0

Información general

Este check monitoriza InfiniBand a través del Datadog Agent.

Esta integración monitoriza las transferencias de datos mediante la recopilación de contadores y contadores de hardware RDMA del subsistema InfiniBand. Realiza un seguimiento de las métricas de rendimiento a través de la interfaz de InfiniBand del núcleo Linux, que proporciona contadores de métricas incluso cuando se utilizan transportes alternativos como RDMA sobre Ethernet convergente (RoCE).

Obtén visibilidad de tu infraestructura de red de alto rendimiento para ayudar a identificar cuellos de botella y problemas de rendimiento en cargas de trabajo con gran cantidad de datos. Al monitorizar tanto los contadores estándar de InfiniBand como los contadores de hardware RDMA, obtendrás información completa sobre el rendimiento de la red, los errores y las estadísticas de paquetes en todos tus dispositivos y puertos.

Las métricas clave recopiladas incluyen contadores de puertos como bytes/paquetes transmitidos y recibidos, recuento de errores y métricas específicas del hardware RDMA, lo que proporciona a los operadores los datos necesarios para garantizar un rendimiento óptimo de su infraestructura de red de alta velocidad.

Configuración

Sigue las instrucciones a continuación para instalar y configurar este check para un Agent que se ejecute en un host. El check recopila métricas leyendo y enviando contadores de forma predeterminada desde los directorios /sys/class/infiniband/<device>/ports/*/counters/ y /sys/class/infiniband/<device>/ports/*/hw_counters/. Para asegurarte de que esta integración funciona, debes garantizar que el Agent tiene los permisos adecuados para acceder y leer los contadores de estos directorios.

Instalación

El check de InfiniBand se incluye en el paquete del Datadog Agent. No es necesaria ninguna instalación adicional en tu servidor.

Configuración

  1. Para empezar a recopilar tus datos de rendimiento de InfiniBand, crea y edita el archivo infiniband.d/conf.yaml, en la carpeta conf.d/ en la raíz de tu directorio de configuración del Agent. Consulta el infiniband.d/conf.yaml de ejemplo para conocer todas las opciones de configuración disponibles.

  2. Este check funciona con una configuración mínima. Configura los parámetros opcionales, que se proporcionan para controlar mejor dónde busca el Agent los datos y qué datos recopilar si no se desean los comportamientos predeterminados. Las opciones incluyen configurar el directorio donde residen los contadores, excluir dispositivos/puertos específicos y omitir o añadir contadores para su recopilación.

init_config:
instances:
  -
    ## @param infiniband_path - string - optional - default: /sys/class/infiniband
    ## The path to the infiniband directory.
    #
    # infiniband_path: /sys/class/infiniband

    ## @param exclude_devices - list of strings - optional
    ## A list of devices to exclude from the check. Devices are located in the infiniband directory. 
    ## The devices are located by default in /sys/class/infiniband.
    #
    # exclude_devices:
    #   - mlx5_0
    #   - efa0
    #   - ib1

    ## @param additional_counters - list of strings - optional
    ## A list of additional counters to collect. The counter names are the files in which the counter 
    ## values are stored. These are located inside /sys/class/infiniband/devices/<device>/ports/<port>/counters.
    #
    # additional_counters:
    #   - additional_counter
    #   - rx_mpwqe_frag

    ## @param additional_hw_counters - list of strings - optional
    ## A list of additional hardware counters to collect. The counter names are the files in which the 
    ## counter values are stored. These are located inside 
    ## /sys/class/infiniband/devices/<device>/ports/<port>/hw_counters.
    #
    # additional_hw_counters:
    #   - additional_hw_counter
    #   - rx_mpwqe_frag

    ## @param exclude_counters - list of strings - optional
    ## A list of counters to exclude from the check.
    #
    # exclude_counters:
    #   - duplicate_request
    #   - lifespan

    ## @param exclude_hw_counters - list of strings - optional
    ## A list of hardware counters to exclude from the check.
    #
    # exclude_hw_counters:
    #   - VL15_dropped
    #   - link_downed
  1. Reinicia el Agent.

Validación

Ejecuta el subcomando de estado del Agent y busca infiniband en la sección Checks.

Datos recopilados

Métricas

infiniband.VL15_dropped
(gauge)
Número de paquetes entrantes de Virtual Lane 15 descartados debido a limitaciones de recursos (por ejemplo, falta de búferes) del puerto
Se muestra como paquete
infiniband.VL15_dropped.count
(count)
Número de nuevos paquetes de Virtual Lane 15 descartados debido a limitaciones de recursos desde el último envío de métricas
Se muestra como paquete
infiniband.excessive_buffer_overrun_errors
(gauge)
Número de errores de desbordamiento excesivo del búfer
Se muestra como error
infiniband.excessive_buffer_overrun_errors.count
(count)
Número de nuevos errores de desbordamiento excesivo del búfer desde el último envío de métricas
Se muestra como error
infiniband.link_downed
(gauge)
Número de veces que la máquina de estado de formación de puertos ha fallado en el proceso de recuperación de errores de enlace y ha interrumpido el enlace
Se muestra como ocurrencia
infiniband.link_downed.count
(count)
Número de nuevas veces que la máquina de estado de entrenamiento de puertos ha interrumpido el enlace desde el último envío de métricas
Se muestra como ocurrencia
infiniband.link_error_recovery
(gauge)
Número de veces que la máquina de estado de entrenamiento de puertos ha completado con éxito el proceso de recuperación de errores de enlace
Se muestra como ocurrencia
infiniband.link_error_recovery.count
(count)
Número de nuevas recuperaciones con éxito de errores de enlace desde el último envío de métricas
Se muestra como ocurrencia
infiniband.local_link_integrity_errors
(gauge)
Número de veces que el recuento de errores físicos locales superó el umbral especificado por LocalPhyErrors
Se muestra como error
infiniband.local_link_integrity_errors.count
(count)
Número de nuevas veces que los errores físicos locales han superado el umbral desde el último envío de métricas
Se muestra como error
infiniband.multicast_rcv_packets
(gauge)
Número de paquetes multicast, incluidos los paquetes multicast que contienen errores (legado)
Se muestra como paquete
infiniband.multicast_rcv_packets.count
(count)
Número de nuevos paquetes de multicast recibidos desde el último envío de métricas (legacy)
Se muestra como paquete
infiniband.multicast_xmit_packets
(gauge)
Número de paquetes de multicast transmitidos en todos los Virtual Lanes desde el puerto (heredado)
Se muestra como paquete
infiniband.multicast_xmit_packets.count
(count)
Número de nuevos paquetes de multicast trasmitidos desde el último envío de métricas (legacy)
Se muestra como paquete
infiniband.port_multicast_rcv_packets
(gauge)
Número de paquetes de multicast recibidos
Se muestra como paquete
infiniband.port_multicast_rcv_packets.count
(count)
Número de nuevos paquetes de multicast recibidos desde el último envío de métricas
Se muestra como paquete
infiniband.port_multicast_xmit_packets
(gauge)
Número de paquetes de multicast transmitidos en todas las Virtual Lanes desde el puerto
Se muestra como paquete
infiniband.port_multicast_xmit_packets.count
(count)
Número de nuevos paquetes de multicast transmitidos desde el último envío de métricas
Se muestra como paquete
infiniband.port_phys_state
(gauge)
Estado del enlace físico
infiniband.port_rcv_constraint_errors
(gauge)
Número de paquetes recibidos en el puerto físico del conmutador que se descartan
Se muestra como error
infiniband.port_rcv_constraint_errors.count
(count)
Número de nuevos paquetes descartados en la recepción desde el último envío de métricas
Se muestra como error
infiniband.port_rcv_data
(gauge)
Número de octetos de datos, divididos por 4, recibidos en todas las Virtual Lanes desde el puerto
Se muestra como byte
infiniband.port_rcv_data.count
(count)
Número de nuevos octetos de datos (dividido por 4) recibidos desde el último envío de métricas
Se muestra como byte
infiniband.port_rcv_data_64
(gauge)
Número de octetos de datos, divididos por 4, recibidos en todas las Virtual Lanes desde el puerto
Se muestra como byte
infiniband.port_rcv_data_64.count
(count)
Número de nuevos octetos de datos (dividido por 4) recibidos desde el último envío de métricas
Se muestra como byte
infiniband.port_rcv_discards
(gauge)
Número de paquetes recibidos descartados
Se muestra como paquete
infiniband.port_rcv_discards.count
(count)
Número de nuevos paquetes recibidos descartados desde el último envío de métricas
Se muestra como paquete
infiniband.port_rcv_errors
(gauge)
Número de paquetes con error recibidos en el puerto
Se muestra como error
infiniband.port_rcv_errors.count
(count)
Número de nuevos paquetes de error recibidos desde el último envío de métricas
Se muestra como error
infiniband.port_rcv_packets
(gauge)
Número de paquetes (puede incluir paquetes que contengan Errores)
Se muestra como paquete
infiniband.port_rcv_packets.count
(count)
Número de nuevos paquetes recibidos desde el último envío de métricas
Se muestra como paquete
infiniband.port_rcv_packets_64
(gauge)
Número de paquetes de 64 bits recibidos
Se muestra como paquete
infiniband.port_rcv_packets_64.count
(count)
Número de nuevos paquetes de 64 bits recibidos desde el último envío de métricas
Se muestra como paquete
infiniband.port_rcv_remote_physical_errors
(gauge)
Número de paquetes marcados con el delimitador EBP recibidos en el puerto
Se muestra como error
infiniband.port_rcv_remote_physical_errors.count
(count)
Número de nuevos paquetes con delimitador EBP recibidos desde el último envío de métricas
Se muestra como error
infiniband.port_rcv_switch_relay_errors
(gauge)
Número de paquetes recibidos en el puerto que fueron descartados porque no pudieron ser reenviados por el switch relay
Se muestra como error
infiniband.port_rcv_switch_relay_errors.count
(count)
Número de paquetes nuevos descartados debido a un fallo de reenvío del switch relay desde el último envío de métricas
Se muestra como error
infiniband.port_state
(gauge)
Estado del puerto
infiniband.port_unicast_rcv_packets
(gauge)
Número de paquetes unicast, incluidos los paquetes unicast con errores
Se muestra como paquete
infiniband.port_unicast_rcv_packets.count
(count)
Número de nuevos paquetes unicast recibidos desde el último envío de métricas
Se muestra como paquete
infiniband.port_unicast_xmit_packets
(gauge)
Número de paquetes unicast transmitidos en todas las Virtual Lanes desde el puerto
Se muestra como paquete
infiniband.port_unicast_xmit_packets.count
(count)
Número de nuevos paquetes unicast transmitidos desde el último envío de métricas
Se muestra como paquete
infiniband.port_xmit_constraint_errors
(gauge)
Número de paquetes no transmitidos desde el puerto físico del switch
Se muestra como error
infiniband.port_xmit_constraint_errors.count
(count)
Número de paquetes nuevos no transmitidos debido a restricciones desde el último envío de métricas
Se muestra como error
infiniband.port_xmit_data
(gauge)
Número de octetos de datos, divididos por 4, transmitidos en todas las Virtual Lanes desde el puerto
Se muestra como byte
infiniband.port_xmit_data.count
(count)
Número de nuevos octetos de datos (divididos por 4) transmitidos desde el último envío de métricas
Se muestra como byte
infiniband.port_xmit_data_64
(gauge)
Volumen de datos transmitidos de 64 bits
Se muestra como byte
infiniband.port_xmit_data_64.count
(count)
Cambio en el volumen de datos de 64 bits transmitidos desde el último envío de métricas
Se muestra como byte
infiniband.port_xmit_discards
(gauge)
Número de paquetes salientes descartados por el puerto porque el puerto está caído o congestionado
Se muestra como paquete
infiniband.port_xmit_discards.count
(count)
Número de nuevos paquetes salientes descartados desde el último envío de métricas
Se muestra como paquete
infiniband.port_xmit_packets
(gauge)
Número de paquetes transmitidos en todas las Virtual Lanes desde este puerto
Se muestra como paquete
infiniband.port_xmit_packets.count
(count)
Número de nuevos paquetes transmitidos desde el último envío de métricas
Se muestra como paquete
infiniband.port_xmit_packets_64
(gauge)
Número de paquetes de 64 bits transmitidos
Se muestra como paquete
infiniband.port_xmit_packets_64.count
(count)
Número de nuevos paquetes de 64 bits transmitidos desde el último envío de métricas
Se muestra como paquete
infiniband.port_xmit_wait
(gauge)
Número de tics durante los cuales el puerto tenía datos para transmitir, pero no se envió ningún dato.
infiniband.port_xmit_wait.count
(count)
Número de nuevos tics de espera de transmisión desde el último envío de métricas
infiniband.rdma.duplicate_request
(gauge)
Número de paquetes recibidos. Una solicitud duplicada es una solicitud que se había ejecutado previamente
Se muestra como error
infiniband.rdma.duplicate_request.count
(count)
Número de nuevos paquetes recibidos que eran solicitudes duplicadas desde el último envío de métricas
Se muestra como error
infiniband.rdma.implied_nak_seq_err
(gauge)
Número de veces que el solicitado decidió un acuse de recibo con un número de secuencia de paquete mayor que el esperado para una lectura o respuesta RDMA
Se muestra como error
infiniband.rdma.implied_nak_seq_err.count
(count)
Número de nuevos acuses de recibo con número de secuencia de paquetes superior al esperado desde el último envío de métricas
Se muestra como error
infiniband.rdma.lifespan
(gauge)
El periodo máximo en ms que define la antigüedad del contador lee
Se muestra como milisegundo
infiniband.rdma.lifespan.count
(count)
Cambio en el periodo máximo de antigüedad desde el último envío de métricas
Se muestra en milisegundos
infiniband.rdma.link_down_events_phy
(gauge)
Número de eventos de caída del enlace físico
Se muestra como ocurrencia
infiniband.rdma.link_down_events_phy.count
(count)
Número de nuevos eventos de caída del enlace físico desde el último envío de métricas
Se muestra como ocurrencia
infiniband.rdma.local_ack_timeout_err
(gauge)
Número de veces que ha expirado el temporizador de acuse de recibo del par de colas para los pares de colas de transporte de conexión fiable, conexión fiable ampliada y conexión dinámica en el lado del remitente
Se muestra como error
infiniband.rdma.local_ack_timeout_err.count
(count)
Número de nuevos vencimientos del temporizador de acuse de recibo del par de colas desde el último envío de métricas
Se muestra como error
infiniband.rdma.np_cnp_sent
(gauge)
Número de paquetes de notificación de congestión enviados por el punto de notificación cuando se percató de la congestión experimentada
Se muestra como paquete
infiniband.rdma.np_cnp_sent.count
(count)
Número de nuevos paquetes de notificación de congestión enviados debido a la congestión desde el último envío de métricas
Se muestra como paquete
infiniband.rdma.np_ecn_marked_roce_packets
(gauge)
Número de paquetes RoCEv2 recibidos por el punto de notificación que se marcaron por experimentar congestión
Se muestra como paquete
infiniband.rdma.np_ecn_marked_roce_packets.count
(count)
Número de nuevos paquetes RoCEv2 marcados de congestión recibidos desde el último envío de métricas
Se muestra como paquete
infiniband.rdma.out_of_buffer
(gauge)
Número de abandonos producidos por falta de entradas de cola de trabajo para los pares de colas asociados
Se muestra como error
infiniband.rdma.out_of_buffer.count
(count)
Número de nuevas bajas por falta de entradas en la cola de trabajo desde el último envío de métricas
Se muestra como error
infiniband.rdma.out_of_sequence
(gauge)
Número de paquetes fuera de secuencia recibidos
Se muestra como error
infiniband.rdma.out_of_sequence.count
(count)
Número de nuevos paquetes fuera de secuencia recibidos desde el último envío de métricas
Se muestra como error
infiniband.rdma.packet_seq_err
(gauge)
Número de paquetes de error de secuencia de acuse de recibo negativo recibidos. No se ha superado el límite de reintentos del par de colas
Se muestra como error
infiniband.rdma.packet_seq_err.count
(count)
Número de nuevos paquetes de error de secuencia de acuse de recibo negativo recibidos desde el último envío de métricas
Se muestra como error
infiniband.rdma.rdma_read_bytes
(gauge)
Número de bytes leídos en operaciones RDMA
Se muestra como byte
infiniband.rdma.rdma_read_bytes.count
(count)
Número de bytes nuevos leídos en operaciones RDMA desde el último envío de métricas
Se muestra como byte
infiniband.rdma.rdma_read_resp_bytes
(gauge)
Número de bytes en las respuestas de lectura RDMA
Se muestra como byte
infiniband.rdma.rdma_read_resp_bytes.count
(count)
Número de bytes nuevos en respuestas de lectura RDMA desde el último envío de métricas
Se muestra como byte
infiniband.rdma.rdma_read_wr_err
(gauge)
Número de errores de solicitud de trabajo de lectura RDMA
Se muestra como error
infiniband.rdma.rdma_read_wr_err.count
(count)
Número de nuevos errores de solicitud de trabajo de lectura RDMA desde el último envío de métricas
Se muestra como error
infiniband.rdma.rdma_read_wrs
(gauge)
Número de solicitudes de trabajo de lectura RDMA
Se muestra como solicitud
infiniband.rdma.rdma_read_wrs.count
(count)
Número de nuevas solicitudes de trabajo de lectura RDMA desde el último envío de métricas
Se muestra como solicitud
infiniband.rdma.rdma_write_bytes
(gauge)
Número de bytes escritos en operaciones RDMA
Se muestra como byte
infiniband.rdma.rdma_write_bytes.count
(count)
Número de bytes nuevos escritos en operaciones RDMA desde el último envío de métricas
Se muestra como byte
infiniband.rdma.rdma_write_recv_bytes
(gauge)
Número de bytes recibidos en operaciones de escritura RDMA
Se muestra como byte
infiniband.rdma.rdma_write_recv_bytes.count
(count)
Número de bytes nuevos recibidos en operaciones de escritura RDMA desde el último envío de métricas
Se muestra como byte
infiniband.rdma.rdma_write_wr_err
(gauge)
Número de errores de solicitud de trabajo de escritura RDMA
Se muestra como error
infiniband.rdma.rdma_write_wr_err.count
(count)
Número de nuevos errores de solicitud de trabajo de escritura RDMA desde el último envío de métricas
Se muestra como error
infiniband.rdma.rdma_write_wrs
(gauge)
Número de solicitudes de trabajo de escritura RDMA
Se muestra como solicitud
infiniband.rdma.rdma_write_wrs.count
(count)
Número de nuevas solicitudes de trabajo de escritura RDMA desde el último envío de métricas
Se muestra como solicitud
infiniband.rdma.recv_bytes
(gauge)
Número de bytes recibidos en solicitudes de trabajo
Se muestra como byte
infiniband.rdma.recv_bytes.count
(count)
Número de bytes nuevos recibidos en solicitudes de trabajo desde el último envío de métricas
Se muestra como byte
infiniband.rdma.recv_wrs
(gauge)
Número de solicitudes de trabajo recibidas
Se muestra como solicitud
infiniband.rdma.recv_wrs.count
(count)
Número de nuevas solicitudes de trabajo recibidas desde la última presentación de métricas
Se muestra como solicitud
infiniband.rdma.req_cqe_error
(gauge)
Número de errores de entrada en la cola de finalización (solicitante)
Se muestra como error
infiniband.rdma.req_cqe_error.count
(count)
Número de nuevos errores de entrada en la cola de finalización (solicitante) desde el último envío de métricas
Se muestra como error
infiniband.rdma.req_cqe_flush_error
(gauge)
Número de errores de vaciado de la cola de finalización (solicitante)
Se muestra como error
infiniband.rdma.req_cqe_flush_error.count
(count)
Número de nuevos errores de vaciado de la cola de finalización (solicitante) desde el último envío de métricas
Se muestra como error
infiniband.rdma.req_remote_access_errors
(gauge)
Número de errores de acceso remoto (solicitante)
Se muestra como error
infiniband.rdma.req_remote_access_errors.count
(count)
Número de nuevos errores de acceso remoto (solicitante) desde el último envío de métricas
Se muestra como error
infiniband.rdma.req_remote_invalid_request
(gauge)
Número de solicitudes remotas no válidas
Se muestra como solicitud
infiniband.rdma.req_remote_invalid_request.count
(count)
Número de nuevas solicitudes remotas no válidas desde el último envío de métricas
Se muestra como solicitud
infiniband.rdma.resp_cqe_error
(gauge)
Número de errores de entrada en la cola de finalización (respondedor)
Se muestra como error
infiniband.rdma.resp_cqe_error.count
(count)
Número de nuevos errores de entrada en la cola de finalización (respondedor) desde el último envío de métricas
Se muestra como error
infiniband.rdma.resp_cqe_flush_error
(gauge)
Número de errores de vaciado de la cola de finalización (respondedor)
Se muestra como error
infiniband.rdma.resp_cqe_flush_error.count
(count)
Número de nuevos errores de vaciado de la cola de finalización (respondedor) desde el último envío de métricas
Se muestra como error
infiniband.rdma.resp_local_length_error
(gauge)
Número de errores de longitud local (respondedor)
Se muestra como error
infiniband.rdma.resp_local_length_error.count
(count)
Número de nuevos errores de longitud local (respondedor) desde el último envío de métricas
Se muestra como error
infiniband.rdma.resp_remote_access_errors
(gauge)
Número de errores de acceso remoto (respondedor)
Se muestra como error
infiniband.rdma.resp_remote_access_errors.count
(count)
Número de nuevos errores de acceso remoto (respondedor) desde el último envío de métricas
Se muestra como error
infiniband.rdma.rnr_nak_retry_err
(gauge)
Número de errores de reintento de acuse de recibo negativo del receptor no listo
Se muestra como error
infiniband.rdma.rnr_nak_retry_err.count
(count)
Número de nuevos errores de reintento de acuse de recibo negativo del receptor no preparado desde el último envío de métricas
Se muestra como error
infiniband.rdma.roce_adp_retrans
(gauge)
Número de retransmisiones adaptables para tráfico RoCE
Se muestra como ocurrencia
infiniband.rdma.roce_adp_retrans.count
(count)
Número de nuevas retransmisiones adaptativas para tráfico RoCE desde el último envío de métricas
Se muestra como ocurrencia
infiniband.rdma.roce_adp_retrans_to
(gauge)
Número de veces que el tráfico RoCE alcanzó el tiempo de espera debido a la retransmisión adaptativa
Se muestra como ocurrencia
infiniband.rdma.roce_adp_retrans_to.count
(count)
Número de nuevos tiempos de espera de tráfico RoCE debidos a retransmisión adaptativa desde el último envío de métricas
Se muestra como ocurrencia
infiniband.rdma.roce_slow_restart
(gauge)
Número de veces que se utilizó el reinicio lento RoCE
Se muestra como ocurrencia
infiniband.rdma.roce_slow_restart.count
(count)
Número de nuevos usos de reinicio lento RoCE desde el último envío de métricas
Se muestra como ocurrencia
infiniband.rdma.roce_slow_restart_cnps
(gauge)
Número de veces que el reinicio lento RoCE generó paquetes de notificación de congestión
Se muestra como ocurrencia
infiniband.rdma.roce_slow_restart_cnps.count
(count)
Número de nuevos paquetes de notificación de congestión generados por el reinicio lento RoCE desde el último envío de métricas
Se muestra como ocurrencia
infiniband.rdma.roce_slow_restart_trans
(gauge)
Número de veces que el reinicio lento RoCE cambió de estado a reinicio lento
Se muestra como ocurrencia
infiniband.rdma.roce_slow_restart_trans.count
(count)
Número de nuevos cambios de estado de reinicio lento RoCE desde el último envío de métricas
Se muestra como ocurrencia
infiniband.rdma.rp_cnp_handled
(gauge)
Número de paquetes de notificación de congestión gestionados
Se muestra como paquete
infiniband.rdma.rp_cnp_handled.count
(count)
Número de nuevos paquetes de notificación de congestión gestionados desde el último envío de métricas
Se muestra como paquete
infiniband.rdma.rp_cnp_ignored
(gauge)
Número de paquetes de notificación de congestión ignorados
Se muestra como paquete
infiniband.rdma.rp_cnp_ignored.count
(count)
Número de nuevos paquetes de notificación de congestión ignorados desde el último envío de métricas
Se muestra como paquete
infiniband.rdma.rx_atomic_requests
(gauge)
Número de solicitudes RDMA atómicas recibidas
Se muestra como solicitud
infiniband.rdma.rx_atomic_requests.count
(count)
Número de nuevas solicitudes RDMA atómicas recibidas desde el último envío de métricas
Se muestra como solicitud
infiniband.rdma.rx_buff_alloc_err
(gauge)
Número de errores de asignación del búfer de recepción
Se muestra como error
infiniband.rdma.rx_buff_alloc_err.count
(count)
Número de nuevos errores de asignación del búfer de recepción desde el último envío de métricas
Se muestra como error
infiniband.rdma.rx_bytes
(gauge)
Número de bytes recibidos
Se muestra como byte
infiniband.rdma.rx_bytes.count
(count)
Número de bytes nuevos recibidos desde el último envío de métricas
Se muestra como byte
infiniband.rdma.rx_cqe_compress_blks
(gauge)
Número de bloques de cola de finalización comprimidos
Se muestra como bloque
infiniband.rdma.rx_cqe_compress_blks.count
(count)
Número de nuevos bloques de cola de finalización comprimidos desde el último envío de métricas
Se muestra como bloque
infiniband.rdma.rx_cqe_compress_pkts
(gauge)
Número de paquetes comprimidos de la cola de finalización
Se muestra como paquete
infiniband.rdma.rx_cqe_compress_pkts.count
(count)
Número de nuevos paquetes de la cola de finalización comprimidos desde el último envío de métricas
Se muestra como paquete
infiniband.rdma.rx_dct_connect
(gauge)
Número de solicitudes de conexión recibidas para los transportes conectados dinámicamente asociados
Se muestra como conexión
infiniband.rdma.rx_dct_connect.count
(count)
Número de nuevas solicitudes de conexión de transporte conectado dinámicamente recibidas desde el último envío de métricas
Se muestra como conexión
infiniband.rdma.rx_drops
(gauge)
Número de paquetes perdidos
Se muestra como paquete
infiniband.rdma.rx_drops.count
(count)
Número de nuevos paquetes perdidos desde el último envío de métricas
Se muestra como paquete
infiniband.rdma.rx_icrc_encapsulated
(gauge)
Número de paquetes RoCE con errores ICReliable Connected
Se muestra como paquete
infiniband.rdma.rx_icrc_encapsulated.count
(count)
Número de nuevos paquetes RoCE con errores ICReliable Connected desde el último envío de métricas
Se muestra como paquete
infiniband.rdma.rx_mpwqe_filler
(gauge)
Número de eventos de llenado de entrada de cola de trabajo multipaquete
Se muestra como evento
infiniband.rdma.rx_mpwqe_filler.count
(count)
Número de nuevos eventos de llenado de entrada de cola de trabajo multipaquete desde el último envío de métricas
Se muestra como evento
infiniband.rdma.rx_mpwqe_frag
(gauge)
Número de eventos de fragmento de entrada de cola de trabajo multipaquete
Se muestra como evento
infiniband.rdma.rx_mpwqe_frag.count
(count)
Número de nuevos eventos de fragmento de entrada de cola de trabajo multipaquete desde el último envío de métricas
Se muestra como evento
infiniband.rdma.rx_out_of_buffer
(gauge)
Número de eventos fuera de búfer en recepción
Se muestra como evento
infiniband.rdma.rx_out_of_buffer.count
(count)
Número de nuevos eventos de búfer agotado en recepción desde el último envío de métricas
Se muestra como evento
infiniband.rdma.rx_pkts
(gauge)
Número de paquetes recibidos
Se muestra como paquete
infiniband.rdma.rx_pkts.count
(count)
Número de nuevos paquetes recibidos desde el último envío de métricas
Se muestra como paquete
infiniband.rdma.rx_read_requests
(gauge)
Número de solicitudes de lectura recibidas
Se muestra como solicitud
infiniband.rdma.rx_read_requests.count
(count)
Número de nuevas solicitudes de lectura recibidas desde el último envío de métricas
Se muestra como solicitud
infiniband.rdma.rx_vport_multicast_bytes
(gauge)
Número de bytes de multicast recibidos en el puerto virtual
Se muestra como byte
infiniband.rdma.rx_vport_multicast_bytes.count
(count)
Número de nuevos bytes de multicast recibidos en el puerto virtual desde el último envío de métricas
Se muestra como byte
infiniband.rdma.rx_vport_multicast_packets
(gauge)
Número de paquetes multicast recibidos en el puerto virtual
Se muestra como paquete
infiniband.rdma.rx_vport_multicast_packets.count
(count)
Número de nuevos paquetes multicast recibidos en el puerto virtual desde el último envío de métricas
Se muestra como paquete
infiniband.rdma.rx_vport_unicast_bytes
(gauge)
Número de bytes unicast recibidos en el puerto virtual
Se muestra como byte
infiniband.rdma.rx_vport_unicast_bytes.count
(count)
Número de nuevos bytes unicast recibidos en el puerto virtual desde el último envío de métricas
Se muestra como byte
infiniband.rdma.rx_vport_unicast_packets
(gauge)
Número de paquetes unicast recibidos en el puerto virtual
Se muestra como paquete
infiniband.rdma.rx_vport_unicast_packets.count
(count)
Número de nuevos paquetes unicast recibidos en el puerto virtual desde el último envío de métricas
Se muestra como paquete
infiniband.rdma.rx_wqe_err
(gauge)
Número de errores de entrada en cola de trabajo en recepción
Se muestra como error
infiniband.rdma.rx_wqe_err.count
(count)
Número de nuevos errores de entrada en cola de trabajo en la recepción desde el último envío de métricas
Se muestra como error
infiniband.rdma.rx_write_requests
(gauge)
Número de solicitudes de escritura recibidas
Se muestra como solicitud
infiniband.rdma.rx_write_requests.count
(count)
Número de nuevas solicitudes de escritura recibidas desde el último envío de métricas
Se muestra como solicitud
infiniband.rdma.send_bytes
(gauge)
Número de bytes enviados
Se muestra como byte
infiniband.rdma.send_bytes.count
(count)
Número de bytes nuevos enviados desde el último envío de métricas
Se muestra como byte
infiniband.rdma.send_wrs
(gauge)
Número de solicitudes de trabajo enviadas
Se muestra como solicitud
infiniband.rdma.send_wrs.count
(count)
Número de nuevas solicitudes de trabajo enviadas desde la última presentación de métricas
Se muestra como solicitud
infiniband.rdma.tx_bytes
(gauge)
Número de bytes transmitidos
Se muestra como byte
infiniband.rdma.tx_bytes.count
(count)
Número de bytes nuevos transmitidos desde el último envío de métricas
Se muestra como byte
infiniband.rdma.tx_pkts
(gauge)
Número de paquetes transmitidos en todas las Virtual Lanes desde este puerto
Se muestra como paquete
infiniband.rdma.tx_pkts.count
(count)
Número de nuevos paquetes transmitidos desde el último envío de métricas
Se muestra como paquete
infiniband.rdma.tx_vport_unicast_bytes
(gauge)
Número de bytes unicast transmitidos en el puerto virtual
Se muestra como byte
infiniband.rdma.tx_vport_unicast_bytes.count
(count)
Número de nuevos bytes unicast transmitidos en el puerto virtual desde el último envío de métricas
Se muestra como byte
infiniband.rdma.tx_vport_unicast_packets
(gauge)
Número de paquetes unicast transmitidos en el puerto virtual
Se muestra como paquete
infiniband.rdma.tx_vport_unicast_packets.count
(count)
Número de nuevos paquetes unicast transmitidos en el puerto virtual desde el último envío de métricas
Se muestra como paquete
infiniband.symbol_error
(gauge)
Número de errores de enlace menores detectados en uno o más lanes físicas
Se muestra como error
infiniband.symbol_error.count
(count)
Número de nuevos errores de enlace menores detectados desde el último envío de métricas
Se muestra como error
infiniband.unicast_rcv_packets
(gauge)
Número de paquetes unicast, incluidos los paquetes unicast con errores (legacy)
Se muestra como paquete
infiniband.unicast_rcv_packets.count
(count)
Número de nuevos paquetes unicast recibidos desde el último envío de métricas (legacy)
Se muestra como paquete
infiniband.unicast_xmit_packets
(gauge)
Número de paquetes unicast transmitidos en todas las Virtual Lanes desde el puerto (legacy)
Se muestra como paquete
infiniband.unicast_xmit_packets.count
(count)
Número de nuevos paquetes unicast transmitidos desde el último envío de métricas (legacy)
Se muestra como paquete

Eventos

La integración de InfiniBand no incluye ningún evento.

Checks de servicio

La integración de InfiniBand no incluye checks de servicio.

Solucionar problemas

¿Necesitas ayuda? Ponte en contacto con el soporte de Datadog.