서비스 검사 모니터

개요

서비스 검사 모니터에는 Agent에 포함된 700개 이상의 통합 중 하나로 보고되지 않는 모든 서비스 검사가 포함됩니다. 서비스 검사는 커스텀 Agent 검사, DogStatsD 또는 API를 사용하여 Datadog으로 보낼 수 있습니다. 자세한 내용은 서비스 검사 개요를 참조하세요.

모니터 생성

Datadog에서 서비스 검사 모니터를 생성하려면 기본 탐색 메뉴인 Monitors* –> New Monitor –> Service Check를 사용합니다.

서비스 검사 선택

드롭다운 메뉴에서 서비스 검사를 선택합니다.

모니터 범위 선택

호스트 이름, 태그를 선택하거나 All Monitored Hosts를 선택하여 모니터링할 범위를 선택합니다. 특정 호스트를 제외해야 하는 경우 두 번째 필드를 사용하여 이름이나 태그를 나열합니다.

  • 포함 필드는 AND 로직을 사용합니다. 포함되기 위해서는 나열된 모든 호스트 이름과 태그가 호스트에 있어야 합니다.
  • 제외 필드는 OR 로직을 사용합니다. 나열된 호스트 이름 또는 태그가 있는 모든 호스트는 제외됩니다.

경고 조건 설정

이 섹션에서 Check Alert 또는 Cluster Alert를 선택합니다.

검사 알림은 검사 그룹별로 제출된 연속 상태를 추적하고 이를 임계값과 비교합니다.

검사 알림 설정

  1. 검사를 보고하는 각 <GROUP>에 대해 별도의 알림을 트리거합니다.

    • 검사 그룹화는 알려진 그룹화 목록에서 또는 사용자가 지정합니다. 서비스 검사 모니터의 경우 검사별 그룹화가 명시되지 않으므로 직접 지정해야 합니다.
  2. 선택한 장애가 연속적으로 발생하면 경고를 트리거합니다:<NUMBER>

    • 알림을 트리거하는 CRITICAL 상태의 연속 실행 횟수를 선택합니다. 예를 들어 검사가 실패할 때 즉시 알림을 받으려면 1 위험 상태에 대한 모니터 경고를 트리거합니다.
  3. Unknown 상태에 대해 Do not notify 또는 Notify를 선택합니다.

    • Notify를 선택하면 UNKNOWN으로 전환될 때 알림을 트리거합니다. 모니터 상태 페이지에서 UNKNOWN 상태에 있는 그룹의 상태 표시줄은 NODATA 회색을 사용합니다. 모니터의 전반적인 상태는 OK로 유지됩니다.
  4. 연속 성공 횟수를 선택하여 알림을 해결합니다: <NUMBER>

    • 알림을 해결하는 OK 상태의 연속 실행 횟수를 선택합니다. 예를 들어 문제가 해결되었는지 확인하려면 4``OK 상태에서 모니터를 해결합니다.

클러스터 알림은 특정 상태의 검사 비율을 계산하고 이를 임계값과 비교합니다.

고유한 태그 조합으로 태그가 지정된 각 검사는 클러스터에서 고유한 검사로 간주됩니다. 클러스터 비율 계산에서는 각 태그 조합의 마지막 검사 상태만 고려됩니다.

클러스터 검사 임계값

예를 들어, 환경별로 그룹화된 클러스터 검사 모니터는 환경에 대한 검사 중 70% 이상이 CRITICAL 상태를 제출하면 알림을 트리거할 수 있고, 환경에 대한 검사 중 70% 이상이 WARN 상태를 제출하면 경고할 수 있습니다.

클러스터 알림을 설정하려면:

  1. 태그에 따라 검사를 그룹화할지를 결정합니다. Ungrouped는 모든 소스의 상태 비율을 계산합니다. Grouped는 그룹별로 상태 비율을 계산합니다.

  2. 알림 및 경고 임계값의 백분율을 선택합니다. 하나의 설정(알림 또는 경고)만 필요합니다.

고급 경고 조건

데이터 없음, 자동 해결, 새 그룹 지연 옵션에 대한 자세한 내용은 모니터 설정 설명서를 참조하세요.

알림

Say what’s happeningNotify your team 섹션에 대한 자세한 지침은 알림 페이지를 참조하세요.

참고 자료