운영 런북 (Operations Runbook)
시스템 장애나 특정 운영 작업 상황에서 담당자가 따라야 할 단계별 지침서입니다.
운영 런북: [작업/시스템 명]
이 문서는 [시스템 명]의 [장애 상황/정기 작업] 발생 시 대응을 위한 가이드입니다.
1. 개요 및 대상 (Context)
- 시스템명: [예: 사용자 인증 서비스]
- 관련 팀: 플랫폼 운영팀, 보안팀
- 모니터링 대시보드: [Grafana/Datadog 링크]
2. 증상 및 식별 (Identification)
다음과 같은 증상이 나타나면 이 런북을 실행합니다.
- 에러 로그에
Connection refused메시지가 초당 50회 이상 발생할 때. - 인증 지연 시간이 2초를 초과할 때.
3. 진단 절차 (Diagnosis)
장애의 구체적인 상황을 파악하기 위해 다음을 확인합니다.
# 1. 프로세스 상태 확인
$ systemctl status auth-service
# 2. 최근 로그 확인
$ tail -f /var/log/auth-service/error.log
# 3. 리소스 사용량 체크
$ top -b -n 1
4. 해결 방법 (Resolution)
단계별로 작업을 수행합니다.
4.1 일시적 복구 (Quick Fix)
- 서비스 프로세스를 재시작합니다.
$ sudo systemctl restart auth-service - 상태가 정상화되는지 5분간 모니터링합니다.
4.2 근본 조치 (Permanent Fix)
- 디스크 용량이 부족한 경우, 로그 파일을 압축하거나 임시 파일을 삭제합니다.
- DB 연결 설정이 잘못된 경우,
config/database.yml을 수정 후 재배포합니다.
5. 에스컬레이션 절차 (Escalation)
위의 조치로도 해결되지 않을 경우 다음 순서로 연락합니다.
- L1 지원: [이름], [전화번호/Slack]
- L2 개발팀: [이름], [전화번호/Slack]
- 인프라 팀: [채널명]
6. 예방 및 사후 관리
- 작업 완료 후 반드시 [장애 사후 분석 보고서]를 작성합니다.
- 모니터링 알림 임계치를 재검토합니다.