This product is not supported for your selected Datadog site. ().

Observability Pipeline은 US1-FED Datadog 사이트에서 사용할 수 없습니다.

개요

Observability Pipelines에서 파이프라인은 옵저버빌리티 데이터를 수집, 처리, 라우팅하는 구성 요소로 구성됩니다. 파이프라인과 구성 요소의 상태는 상태 지표 및 그래프, 리소스 사용량 및 데이터 전송 그래프를 통해 표시됩니다.

상태 지표는 임계값과 기본 시간 창을 기반으로 하는 특정 메트릭에 따라 결정됩니다. 사용 가능한 상태는 다음과 같습니다.

  • Healthy: Worker가 지연되지 않고 있음을 나타냅니다.
  • Warning: Worker가 최적의 성능으로 동작하지 않으며, 지연될 위험이 있음을 나타냅니다. Worker는 다운스트림 대상 또는 서비스에서 백프레셔가 발생하거나, Worker에 할당된 리소스가 충분하지 않은 경우 지연될 수 있습니다.
  • Critical: Worker가 지연되고 있음을 나타냅니다. Worker가 지연되면 데이터 손실 위험이 있을 수 있습니다. 하지만 파이프라인이 설계되고 올바르게 구성된 경우 Worker가 의도치 않게 데이터를 삭제하지는 않습니다.

내부 메트릭은 상태, 데이터 전송, 리소스 사용으로 분류되며 파이프라인과 해당 구성 요소의 전반적인 상태를 결정합니다.

다음 메트릭의 상태 그래프를 확인할 수 있습니다.

  • 의도치 않게 누락된 이벤트
  • 오류
  • 지연 시간(소스에만 사용 가능)
  • 지연 시간 변화율(소스에만 사용 가능)
  • 사용률

다음 메트릭의 데이터 전송 그래프를 확인할 수 있습니다.

  • 초당 입력/출력 이벤트 수
  • 초당 입력/출력 바이트 수

다음 메트릭의 리소스 사용률 그래프를 확인할 수 있습니다.

  • CPU 사용량
  • 메모리 사용량
  • 디스크 사용량(대상에만 사용 가능)

파이프라인 및 구성 요소 상태 확인

  1. Observability Pipelines로 이동합니다.
  2. 파이프라인을 클릭합니다.
  3. 그래프 위에 마우스를 올려 특정 데이터 포인트를 확인합니다.

파이프라인 리소스 사용 상태 메트릭

메트릭OK경고Critical설명
CPU 사용량<= 0.85> 0.85N/AWorker 프로세스가 CPU를 얼마나 사용하는지 추적합니다.

값이 1이면 Worker 프로세스가 실행 중인 호스트 또는 컴퓨팅 유닛에 더 이상 여유 공간이 없음을 나타냅니다. 이로 인해 처리 지연 시간 초과, 업스트림/다운스트림 과부하 등의 문제가 발생할 수 있습니다.
메모리 사용량>= 0.15< 0.15N/A호스트에서 사용된 메모리와 사용 가능한 메모리 양을 추적합니다. Worker에는 메모리 제한이 없지만, 메모리 사용량이 높으면 메모리 누수일 수 있습니다.

구성 요소 상태 메트릭

메트릭소스변환대상OK경고Critical설명
누락된 이벤트==0N/A> 0항상 0이어야 합니다. 예를 들어 filter 변환을 사용하여 Worker가 의도적으로 데이터를 삭제하도록 구성한 경우 해당 데이터는 여기에 포함되지 않습니다. 따라서 오류가 하나라도 발생하면 Worker의 상태가 비정상임을 나타냅니다.
총 오류==0>0N/A구성 요소에서 발생한 총 오류 수입니다. 이러한 오류는 Diagnostic Logs로도 생성되며, 이를 통해 특정 내부 오류 로그에 관한 자세한 정보를 얻을 수 있습니다.
사용률<=0.95>0.95N/A구성 요소의 활동을 추적합니다.

값이 0이면 입력을 기다리는 유휴 구성 요소를 의미합니다. 값이 1이면 절대 유휴 상태가 되지 않는 구성 요소를 의미합니다. 값이 0.95보다 크면 구성 요소가 사용 중이며 처리 토폴로지에서 병목 현상이 발생할 가능성이 있음을 의미합니다.
지연 시간N/AN/AN/A이벤트 타임스탬프와 Worker가 이벤트를 수집한 타임스탬프 간의 시간 차이(밀리초)입니다. 지연 시간이 길거나 지연 시간이 변하는 경우(아래 참고)는 Worker가 다운스트림 서비스의 백프레셔, Worker에 제공된 리소스 부족, 파이프라인 병목 현상으로 인해 지연되고 있는지 여부를 나타내는 메트릭입니다.
지연 시간 변화율<=0>0>1이벤트 생성 시점과 Worker가 데이터를 수신하는 시점 사이에 상당한 지연이 있는지 여부를 나타냅니다. 지연이 있는 경우, Worker가 소스로부터 데이터를 수신하는 데 지연이 발생하고 있음을 나타냅니다.

값이 0이면 옵저버빌리티 데이터 생성 시점과 Worker가 데이터를 수신하는 시점 사이에 추가적인 지연이 없음을 의미합니다. 값이 1과 같거나 크면 백프레셔와 병목 현상이 있음을 의미합니다.
디스크 사용량>=0.20> 0.20N/A디스크가 사용량을 측정합니다.

값이 1이면 디스크에 데이터를 저장할 수 없음을 의미합니다. 값이 0이면 디스크가 비어 있음을 의미합니다.