자원현황 페이지

주요 메트릭의 모니터링 상태와 트렌드를 보여주는 APM 자원현황 페이지

리소스는 정해진 서비스(일반적으로 개별 엔드포인트 또는 쿼리)에 대한 특정 작업입니다. 리소스에 대한 자세한 내용을 확인하려면 애플리케이션 성능 모니터링(APM) 시작하기를 참조하세요. 각 리소스에 관하여 애플리케이션 성능 모니터링(APM)은 다음을 포함한 대시보드 페이지를 자동으로 생성합니다.

  • 주요 서비스 상태 메트릭
  • 해당 서비스와 연관된 모든 모니터링의 모니터링 상태
  • 해당 서비스와 연관된 모든 리소스의 메트릭 목록

기본 제공 그래프

Datadog은 주어진 리소스에 대한 기본 그래프를 제공해 드립니다. 각 그래프의 드롭다운 메뉴를 사용하여 표시 정보를 변경할 수 있습니다.

초당 요청, 레이턴시, 총 오류, 서비스당 소요 퍼센트 시간을 보여주는 기본 제공 리소스 그래프

Requests and Errors

The Requests and Errors graph displays the total number of requests (hits) and errors over time. Using the dropdown menu, you can also view:

  • Requests by Version: Breakdown of requests across different service versions.
  • Requests per Second by Version: The rate of requests for each version.
  • Requests and Errors Per Second: The rate of requests (hits) and errors per second.

Errors

The Errors graph displays the total count of errors over time. Using the dropdown menu, you can also view:

  • Errors by Version: The error counts for each service version side by side.
  • Errors per Second by Version: The error rate (errors per second) for each service version over time.
  • Errors per Second: The overall error rate for the service, per second.
  • % Error Rate by Version: The percentage of requests resulting in errors for each service version.
  • % Error Rate: The overall error rate for the service, as a percentage.

Latency

The Latency graph displays the latency percentiles as a timeseries. Using the dropdown menu, you can also view:

  • Latency by Version: Latency broken down by service version.
  • Historical Latency: Comparison of the current latency distribution with the previous day and week.
  • Latency Distribution: The distribution of latencies over the selected time frame.
  • Latency by Error: The latency of requests over time, segmented by whether the requests resulted in errors.
  • Apdex (Application Performance Index): The Apdex score over time.

Avg Time per Request

For services involving multiple downstream services, a fourth graph breaks down the average execution time spent per request. This graph is built on sampled trace data, unlike the other top graphs which use unsampled data sources.

Using the dropdown menu, you can also view:

  • Total Time Spent: The cumulative time spent in each downstream service over time.
  • % of Time Spent: The percentage of time spent in each downstream service relative to the total time.

For services like Postgres or Redis, which are final operations that do not call other services, there is no sub-services graph. Watchdog performs automatic anomaly detection on the Requests, Latency, and Error graphs. If an anomaly is detected, an overlay appears on the graph. Clicking the Watchdog icon provides more details in a side panel.

대시보드로 내보내기

각 그래프의 우상단에서 위쪽 화살표를 클릭하면 기존 대시보드로 그래프를 내보낼 수 있습니다.

레이턴시 분포

자원현황 페이지에는 다음과 같이 리소스 레이턴시 분포 그래프도 표시됩니다.

리소스 요청당 소요된 시간 분포를 보여주는 레이턴시 분포 그래프

우상단의 백분위수 선택기를 사용하여 특정 백분위수를 확대하거나, 사이드바 위로 마우스를 올리면 백분위수 마커를 볼 수 있습니다.

백분위수 필터링이 가능한 레이턴시 분포 그래프 사이드바의 클로즈업

내비게이터로 종속성 매핑

리소스의 업스트림 및 다운스트림 서비스 종속성 맵을 전부 확인할 수도 있습니다. 서비스 종속성 맵 내비게이터를 사용하면 요청 카운트, 특정 리소스(엔드포인트, 데이터베이스 쿼리 등) 엔드 투 엔드 처리 스팬(span)과 함께 서비스 플로우를 확인할 수 있습니다.

본 맵은 수집한 스팬(span) 샘플에 기반하며, 샘플은 트레이스의 구조를 고려하는 고정 샘플링 알고리즘이 생성합니다. 샘플링 알고리즘은 설정할 수 없으며 수집 제어의 영향을 받지 않습니다.

종속성 맵은 서비스 엔트리 스팬(span)이 포함된 리소스에만 사용할 수 있습니다.

서비스 종속성 목록과 서비스 간의 요청 다이어그램 플로우가 있는 리소스용 종속성 맵.

노드 위로 마우스를 올리면 초당 요청 수, 오류율, 평균 레이턴시를 포함한 각 서비스의 메트릭을 확인할 수 있습니다. 노드를 클릭하면 서비스(현황) 페이지, 관련 트레이스 등을 볼 수 있는 옵션이 포함된 컨텍스트 메뉴가 열립니다.

노드의 하이라이트 색상은 서비스의 모니터링 상태를 나타냅니다. 서비스에 설정 모니터링이 두 개 이상인 경우 가장 심각한 모니터링 상태가 표시됩니다.

로드 증폭

선택한 리소스 업스트림이 받은 요청의 100% 이상을 수신하는 경우, 서비스의 로드가 증폭된 것입니다. 호출 경로가 주황색으로 강조 표시된 서비스는 로드 증폭이 있는 상태이며, 증폭 배수는 패널 목록에 표시됩니다. 해당 증폭은 리소스가 받은 요청(하단 이미지 맵에 강조 표시됨)과 다운스트림 서비스(맵의 다운스트림 서비스 노드 내부에 표시됨)가 받은 요청에 기반하여 산출됩니다. 목록에서 서비스를 클릭하면 증폭에 기여하는 스팬(span)을 확인할 수 있습니다.

특정 리소스로 나가고 들어오는 요청의 플로우를 표시하고, 해당 리소스의 요청 카운트를 강조 표시한 종속성 맵

스팬(span) 요약

특정 리소스에 대해 Datadog은 다음과 같이 일치하는 모든 트레이스에 대한 스팬(span) 분석 내역을 제공해 드립니다.

특정 리소스와 연관된 스팬 목록에 대한 몇 가지 주요 메트릭을 보여주는 테이블

표시된 메트릭은 스팬(span)에 따라 제시됩니다.

Avg Spans/trace
현재 리소스를 포함한 트레이스에 대한 스팬(span)의 평균 발생 횟수입니다. 스팬(span)이 최소 한 번 이상 나타납니다.
% of Traces
스팬(span)이 최소 한 번 이상 나타나는 현재 리소스를 포함한 트레이스의 백분율값입니다.
Avg Duration
현재 리소스를 포함한 트레이스에 대한 스팬(span)의 평균 발생 기간입니다. 스팬(span)이 최소 한 번 이상 나타납니다.
Avg % Exec Time
현재 리소스를 포함한 트레이스에 대한 활성 스팬(span)의 평균 실행 시간 비율입니다. 스팬(span)이 최소 한 번 이상 나타납니다.

참고: 스팬(span)은 자식 스팬이 완료될 때까지 대기하지 않을 경우 활성 스팬으로 간주됩니다. 특정 시간에 특정 트레이스에 대해 활성화된 스팬은 모두 리프 스팬(즉, 자식이 없는 스팬)입니다.

해당 스팬(span) 요약 테이블은 서비스 엔트리 스팬이 포함된 리소스에만 사용할 수 있습니다.

트레이스

환경, 서비스, 작업, 리소스 이름에 대해 이미 필터가 적용되어 있는 트레이스 검색 모달에서 본 리소스와 연관된 트레이스 목록을 참조하세요.

각 트레이스의 타임스탬프, 기간, 상태, 레이턴시 세부 정보를 보여주는 특정 리소스와 연관된 트레이스 목록

참고 자료