실시간 프로세스 모니터링 모범 사례

개요

실시간 프로세스 프로덕트를 활용하여 전체 인프라스트럭처에서 실행 중인 프로세스의 수를 모니터링할 수 있습니다. 실시간 프로세스 모니터링은 컨테이너화되지 않은 프로세스에 관측성을 더하는 데 가장 유용한 방식입니다.

실시간 프로세스 모니터링으로 다음 작업을 할 수 있습니다.

  • 고객에게 서비스를 제공할 수 있는 프로세스 복제본이 충분한지 확인합니다.
  • 특정 프로세스가 실행 중일 때 알림을 보냅니다.

잘못 설정된 모니터링은 오탐을 발생시키기 쉽습니다. 본 지침에서는 안정적인 실시간 프로세스 모니터링을 생성하는 권장 모범 사례를 살펴봅니다. 모니터링 생성 프로세스에 대한 자세한 개요는 실시간 프로세스 모니터링 생성을 참조하세요.

모범 사례

모니터링 범위 설정

Datadog은 모니터링 범위를 프로세스 수천 개 이하로 설정할 것을 권장합니다. 검색 텍스트는 모호하므로 태그를 설정하는 것은 모니터링의 범위를 조정하는 가장 정확한 방법입니다.

워크플로 예시:

  1. 모니터링 > 신규 모니터링 > 실시간 프로세스 페이지로 이동합니다.

  2. 태그별 필드의 모니터링에 태그를 추가합니다.

    • 예를 들어 command:puma를 사용해 puma 명령과 연결된 프로세스를 모니터링합니다.
태그를 사용해 범위 지정한 라이브 프로세스 모니터링
  1. 옵션으로 텍스트별 필드에 검색 텍스트를 추가하여 모니터링 범위를 상세화합니다. 아래 예시에서는 명령줄이 cluster worker과 일치하는 프로세스만 포함됩니다.
텍스트 검색을 사용해 범위 지정한 라이브 프로세스 모니터링
  1. 모든 모니터링 그룹 전반에서 모니터링의 범위가 여전히 프로세스 수 천 개를 초과하는 경우, 추가 태그를 활용하여 다중 모니터링으로 분할합니다.
    • 예를 들어, env 태그를 사용하여 prodstaging에 대한 별도의 모니터링을 생성할 수 있습니다.

타임 프레임 선택

평가 주기를 늘리면 응답 속도가 느려지거나 알림을 놓치는 일반적인 오류가 발생하나, 모니터링은 어떤 쿼리 평가 주기를 선택하든 지속적으로 데이터를 평가합니다. 평가 간격은 이상 징후 존재 여부를 결정하는 데 사용되는 데이터 포인트의 수만 결정합니다.

평가 기간을 늘리면 일시적인 동작이 아니라 지속적으로 발생하는 동작에 대해서만 알림을 받습니다.

  • 오탐을 방지하려면 최소 5분의 간격을 사용합니다.
  • 모니터링이 클라우드 공급자 통합 태그를 사용하는 경우 최소 15분의 간격을 사용합니다.
  • 알림이 지연되는 것을 방지하려면 최대 1시간 간격을 사용합니다.

추가 지침은 알림 피로를 방지하기 위한 모범 사례를 참조하세요.