HDFS Datanode

Supported OS Linux Mac OS

Versión de la integración7.0.0

Dashboard de HDFS

Información general

Rastrea la utilización del disco y los volúmenes fallidos en cada uno de tus HDFS DataNodes. Este check del Agent recopila métricas para estos, así como métricas relacionadas con bloques y caché.

Utiliza este check (hdfs_datanode) y su check homólogo (hdfs_namenode), no el antiguo check dos en uno (hdfs); ese check está obsoleto.

Configuración

Sigue las instrucciones a continuación para instalar y configurar este check para un Agent que se ejecute en un host. Para entornos en contenedores, consulta las Plantillas de integración de Autodiscovery para obtener orientación sobre la aplicación de estas instrucciones.

Instalación

El check de HDFS DataNode está incluido en el paquete del Datadog Agent, por lo que no necesitas instalar nada más en tu servidor.

Configuración

Conexión del Agent

host

Para configurar este check para un Agent que se ejecuta en un host:

  1. Edita el archivo hdfs_datanode.d/conf.yaml, en la carpeta conf.d/ en la raíz de tu directorio de configuración del Agent. Consulta el hdfs_datanode.d/conf.yaml de ejemplo para conocer todas las opciones de configuración disponibles:

    init_config:
    
    instances:
      ## @param hdfs_datanode_jmx_uri - string - required
      ## The HDFS DataNode check retrieves metrics from the HDFS DataNode's JMX
      ## interface via HTTP(S) (not a JMX remote connection). This check must be installed on a HDFS DataNode. The HDFS
      ## DataNode JMX URI is composed of the DataNode's hostname and port.
      ##
      ## The hostname and port can be found in the hdfs-site.xml conf file under
      ## the property dfs.datanode.http.address
      ## https://hadoop.apache.org/docs/r3.1.3/hadoop-project-dist/hadoop-hdfs/hdfs-default.xml
      #
      - hdfs_datanode_jmx_uri: http://localhost:9864
    
  2. Reinicia el Agent.

En contenedores

Para entornos en contenedores, consulta las Plantillas de integración de Autodiscovery para obtener orientación sobre la aplicación de los parámetros que se indican a continuación.

ParámetroValor
<INTEGRATION_NAME>hdfs_datanode
<INIT_CONFIG>en blanco o {}
<INSTANCE_CONFIG>{"hdfs_datanode_jmx_uri": "http://%%host%%:9864"}

Recopilación de logs

Disponible para el Agent >6.0

  1. La recopilación de logs está desactivada por defecto en el Datadog Agent. Habilítalo en el archivo datadog.yaml con:

      logs_enabled: true
    
  2. Añade este bloque de configuración a tu archivo hdfs_datanode.d/conf.yaml para empezar a recopilar tus logs de DataNode:

      logs:
        - type: file
          path: /var/log/hadoop-hdfs/*.log
          source: hdfs_datanode
          service: <SERVICE_NAME>
    

    Cambia los valores de los parámetros path y service y configúralos para tu entorno.

  3. Reinicia el Agent.

Validación

Ejecuta el subcomando de estado del Agent y busca hdfs_datanode en la sección Checks.

Datos recopilados

Métricas

hdfs.datanode.cache_capacity
(gauge)
Capacidad de la caché en bytes
Se muestra como byte
hdfs.datanode.cache_used
(gauge)
Caché utilizada en bytes
Se muestra como byte
hdfs.datanode.dfs_capacity
(gauge)
Capacidad del disco en bytes
Se muestra como byte
hdfs.datanode.dfs_remaining
(gauge)
El espacio de disco restante en bytes
Se muestra como byte
hdfs.datanode.dfs_used
(gauge)
Uso del disco en bytes
Se muestra como byte
hdfs.datanode.estimated_capacity_lost_total
(gauge)
La capacidad perdida estimada en bytes
Se muestra como byte
hdfs.datanode.last_volume_failure_date
(gauge)
La fecha/hora del último fallo de volumen en milisegundos desde la epoch
Se muestra en milisegundos
hdfs.datanode.num_blocks_cached
(gauge)
El número de bloques almacenados en caché
Se muestra como bloque
hdfs.datanode.num_blocks_failed_to_cache
(gauge)
Número de bloques que no se han almacenado en caché
Se muestra como bloque
hdfs.datanode.num_blocks_failed_to_uncache
(gauge)
El número de bloques fallidos a eliminar de la caché
Se muestra como bloque
hdfs.datanode.num_failed_volumes
(gauge)
Número de volúmenes fallidos

Eventos

El check de HDFS-datanode no incluye ningún evento.

Checks de servicio

hdfs.datanode.jmx.can_connect

Devuelve CRITICAL si el Agent no puede conectarse a la interfaz JMX del DataNode por cualquier motivo. En caso contrario, devuelve OK.

Estados: ok, critical

Solucionar problemas

¿Necesitas ayuda? Ponte en contacto con el soporte de Datadog.

Referencias adicionales