- 필수 기능
- 시작하기
- Glossary
- 표준 속성
- Guides
- Agent
- 통합
- 개방형텔레메트리
- 개발자
- Administrator's Guide
- API
- Datadog Mobile App
- CoScreen
- Cloudcraft
- 앱 내
- 서비스 관리
- 인프라스트럭처
- 애플리케이션 성능
- APM
- Continuous Profiler
- 스팬 시각화
- 데이터 스트림 모니터링
- 데이터 작업 모니터링
- 디지털 경험
- 소프트웨어 제공
- 보안
- AI Observability
- 로그 관리
- 관리
Datadog Incident Management는 메트릭, 트레이스, 로그를 통해 식별한 문제를 추적하고 전달합니다.
이 가이드에서는 Datadog 사이트를 사용하여 인시던트를 선언하고, 조사가 진행됨에 따라 인시던트를 업데이트하며, 해결 후 사후 분석을 생성하는 과정을 안내합니다. 이 예에서는 Slack 통합이 활성화된 것으로 가정합니다.
시나리오: 모니터링 중 오류가 다수 발생하여 여러 서비스의 속도가 저하될 수 있다는 경고가 전송되었습니다. 고객이 오류의 영향을 받았는지는 알 수 없습니다.
이 가이드에서는 Datadog Clipboard를 사용하여 인시던트을 선언하는 방법을 설명합니다. 클립보드를 사용하면 그래프, 모니터, 전체 대시보드, 노트북 등 다양한 소스에서 정보를 수집할 수 있습니다. 이를 통해 인시던트를 선언 시 최대한 많은 정보를 제공할 수 있습니다.
타이틀 | 인시던트 타이틀은 팀에서 사용하는 명명 규칙에 따라서 설정합니다. 이번 사례는 실제 인시던트가 아니기 때문에 테스트 인시던트임이 명확하게 드러나도록 TEST 라는 단어를 포함해보겠습니다. 타이틀 예시: [TEST] My incident test |
심각도 수준 | 고객이 영향을 받는지, 관련 서비스가 어떤 영향을 받는지 확실하지 않으므로 Unknown으로 설정합니다. 각 심각도 수준의 의미에 대한 앱 내 설명을 확인하고 팀의 지침을 따르세요. |
인시던트 커맨더 | 할당된 대로 두시기 바랍니다. 실제 인시던트가 발생한 경우에는 인시던트 조사를 담당한 리더에게 할당됩니다. 인시던트 진행 상황에 맞추어 인시던트 커맨더를 갱신할 수 있습니다. |
/datadog incident
바로가기를 사용하여 인시던트를 선언하고 제목, 심각도 및 고객에 미치는 영향을 설정할 수도 있습니다.새로운 인시던트에 대해 전용 Slack 채널이 자동으로 생성되므로 팀과의 커뮤니케이션을 통합하고 문제 해결을 시작할 수 있습니다. 조직의 Slack 통합이 글로벌 인시던트 채널을 업데이트하도록 설정된 경우 채널은 새 인시던트로 업데이트됩니다.
Slack 통합을 활성화하지 않은 경우 Add Chat를 클릭하여 인시던트에 대해 논의 중인 채팅 서비스의 링크를 추가하세요.
인시던트에 대해 논의 중인 통화의 링크를 추가하려면 Add Video Call을 클릭하세요.
인시던트 페이지에는 Overview, Timeline, Remediation, _Notifications_의 4가지 주요 섹션이 있습니다. 인시던트가 진행됨에 따라 이 섹션을 업데이트하여 모든 사용자에게 현재 상태를 알려줍니다.
시나리오: 몇 가지 조사를 실시한 결과, 근본적인 원인은 호스트의 메모리 부족이라는 사실을 알 수 있었습니다. 또한 고객 일부가 영향을 받고 있으며 페이지를 불러오는 속도가 늦어지고 있다는 정보도 얻었습니다. 15분 전에 첫 번째 고객의 신고가 있었습니다. 인시던트 수준은 SEV-3입니다.
Overview 섹션에서는 조사의 진척에 따라 인시던트 필드와 고객에게 미친 영향을 업데이트할 수 있습니다.
중요도 수준과 근본 원인을 업데이트하는 방법은 다음과 같습니다.
Severity 드롭다운을 클릭하고 SEV-3을 선택합니다.
모니터가 이슈에 대한 알림을 보냈으므로 _What happened_의 Detection Method 드롭다운(Unknown이 선택됨)에서 Monitor 를 선택하세요.
Why it happened 필드에 추가: TEST: Host is running out of memory.
Save를 클릭해 속성을 업데이트합니다.
Slack에서 /datadog incident update
명령을 사용하여 진행 중인 이슈의 제목, 심각도, 상태를 업데이트할 수도 있습니다.
고객에 미치는 영향을 추가하려면:
TEST: Some customers seeing pages loading slowly.
_Timeline_은 인시던트 필드의 추가 사항, 변경 사항과 정보를 시계열로 보여줍니다.
I found the host causing the issue.
메모를 추가합니다.I am working on a fix.
라는 메시지를 게시합니다.인시던트 채널의 Slack 댓글을 타임라인에 추가하면 인시던트에 대한 중요한 커뮤니케이션을 통합할 수 있습니다.
시나리오: 이러한 문제를 다루고 해결하는 방법에 대한 노트북이 있습니다.
Remediation 섹션에서는 문제 조사나 인시던트 이후 복원 업무를 위한 문서와 업무를 추적할 수 있습니다.
+
아이콘을 클릭하고 Datadog 노트북에 대한 링크를 추가합니다. Documents 섹션에 대한 모든 업데이트는 Incident Update 유형으로 타임라인에 추가됩니다.Run the steps in the notebook.
시나리오: 문제가 완화되고 팀이 상황을 모니터링 중입니다. 인시던트 상황이 안정적입니다.
_Notifications_섹션에서 인시던트 상태를 업데이트하는 알림을 발송할 수 있습니다.
시나리오: 문제가 더 이상 고객에게 영향을 미치지 않으며 해결된 것으로 확인되었습니다. 팀에서는 사후 분석을 통해 무엇이 잘못되었는지 검토하고자 합니다.
사후 분석은 Datadog Notebook으로 생성되며 조사 및 수정 중에 참조되는 타임라인 이벤트와 리소스가 포함됩니다. 이렇게 하면 문제의 원인과 향후 문제를 방지하는 방법을 더 쉽게 검토하고 문서화할 수 있습니다. Datadog Notebook은 실시간 협업을 지원하므로 팀원과 실시간으로 편집할 수 있습니다.
문제가 다시 발생하지 않도록 팀이 완료해야 하는 후속 작업이 있는 경우 이를 Remediation의 Incident Tasks 섹션에 추가하고 추적합니다.
Datadog Incident Management는 조직의 요구 사항에 따라 다양한 심각도 및 상태 수준으로 맞춤 설정할 수 있습니다. 사고와 관련된 APM 서비스 및 팀과 같은 추가 정보도 포함할 수 있습니다. 자세한 내용은 Incident Management 페이지의 해당 섹션을 참조하세요.
또한 인시던트의 심각도 수준에 따라 특정 사람이나 서비스에 자동으로 알리도록 알림 규칙을 설정할 수도 있습니다. 자세한 내용은 Incident Settings 문서를 참조하세요.
Incident Management를 맞춤 설정하려면 Incident Settings 페이지로 이동합니다. 그런 다음 왼쪽의 Datadog 메뉴에서 Monitors > Incidents로 이동합니다(Incident Management 시작 화면이 나타나면 Get Started 클릭). 그리고Settings를 클릭합니다.
Apple App Store 및 Google Play Store에서 제공되는 Datadog 모바일 앱을 사용하면 액세스 가능한 모든 사건을 생성, 확인, 검색 및 필터링할 수 있습니다. Datadog 모바일 앱의 Datadog 계정을 통해 컴퓨터를 사용하지 않고도 빠르게 응답하고 해결할 수 있습니다.
또한 Slack, Zoom 등과의 통합을 통해 인시던트를 선언 및 편집하고, 팀과 빠르게 커뮤니케이션할 수 있습니다.