Depurar la traza (trace) más lenta en el endpoint más lento de un servicio web

3 minutos para completarse

Con Datadog APM , puedes investigar el rendimiento de tus endpoints, identificar solicitudes lentas e investigar la causa raíz de los problemas de latencia. Este ejemplo muestra la traza más lenta del día para un endpoint de pago de comercio electrónico y cómo se ralentiza debido al alto uso de la CPU.

  1. Abra el Catálogo de servicios.

    Esta página contiene una lista de todos los servicios que envían datos a Datadog. Ten en cuenta que puedes buscar palabras clave, filtrar por env-tag y establecer el marco temporal.

  2. Busca un servicio web relevante y activo y abra la Página de servicios.

    En este ejemplo se utiliza el servicio web-store porque es el servidor principal de la stack tecnológica y controla la mayoría de las llamadas a servicios de terceros.

    Identificar la traza más lenta y encontrar el cuello de botella que la causa

    Además de información sobre el rendimiento, la latencia y la tasa de errores, la página de detalles del servicio contiene una lista de recursos (operaciones principales como endpoints de API, consultas de SQL y solicitudes web) identificados para el servicio.

  3. Ordena la tabla de recursos por latencia p99 y haz clic en el recurso más lento. Nota: Si no puedes ver una columna de latencia p99, puedes hacer clic en el icono de engranaje Change Columns y activar el conmutador para p99.

    La página Recurso contiene información muy clara de las métricas sobre este recurso, como el rendimiento, la latencia, la tasa de errores y un desglose del tiempo empleado en cada servicio de descarga desde el recurso. Además, contiene las trazas específicas que pasan por el recurso y una vista agregada de los tramos que componen estas trazas.

    Identificar la traza más lenta y encontrar el cuello de botella que la causa
  4. Establece el filtro de tiempo en 1d One Day. Desplázate hasta la tabla Traces (Trazas) y ordénala por duración, pasa el ratón por encima de la traza superior de la tabla y haz clic en View Trace (Ver traza).

    Esta es la gráfica de llamas y la información asociada. Aquí puedes ver la duración de cada paso en la traza y si es errónea. Esto es útil para identificar componentes lentos y propensos a errores. Puedes ampliar la gráfica de llamas, desplazarte por ella y explorarla de forma natural. Debajo de la gráfica de llamas puedes ver los metadatos asociados, logs y la información de host.

    La gráfica de llamas es una forma excelente de identificar la parte precisa de tu stack que es errónea o latente. Los errores se resaltan en rojo y la duración se representa mediante la longitud horizontal del tramo, lo que significa que los tramos largos son los más lentos. Obtén más información sobre el uso de la gráfica de llamas en la guía de la Vista de trazas.

    Bajo la gráfica de llamas puedes ver todas las etiquetas (incluidas las personalizadas). Desde aquí también puedes ver los logs asociados (si conectaste logs a tus trazas), ver información a nivel de host como el uso de CPU y memoria.

    Identificar la traza más lenta y encontrar el cuello de botella que la causa
  5. Haz clic en la pestaña de host, observa el rendimiento de la CPU y de la memoria del host subyacente cuando se ejecutaba a solicitud.

  6. Haz clic en Open Host Dashboard (Abrir dashboard de host) para ver todos los datos relevantes sobre el host

Datadog APM se integra perfectamente con el resto de las métricas e información de Datadog, como métricas de infraestructura y logs. Mediante la gráfica de llamas, esta información está a tu disposición, así como cualquier metadato personalizado que envías con tus trazas.

Leer más