운영 런북 (Operations Runbook)

시스템 장애나 특정 운영 작업 상황에서 담당자가 따라야 할 단계별 지침서입니다.

Gist

운영 런북: [작업/시스템 명]

이 문서는 [시스템 명]의 [장애 상황/정기 작업] 발생 시 대응을 위한 가이드입니다.

1. 개요 및 대상 (Context)

  • 시스템명: [예: 사용자 인증 서비스]
  • 관련 팀: 플랫폼 운영팀, 보안팀
  • 모니터링 대시보드: [Grafana/Datadog 링크]

2. 증상 및 식별 (Identification)

다음과 같은 증상이 나타나면 이 런북을 실행합니다.

  • 에러 로그에 Connection refused 메시지가 초당 50회 이상 발생할 때.
  • 인증 지연 시간이 2초를 초과할 때.

3. 진단 절차 (Diagnosis)

장애의 구체적인 상황을 파악하기 위해 다음을 확인합니다.

# 1. 프로세스 상태 확인
$ systemctl status auth-service

# 2. 최근 로그 확인
$ tail -f /var/log/auth-service/error.log

# 3. 리소스 사용량 체크
$ top -b -n 1

4. 해결 방법 (Resolution)

단계별로 작업을 수행합니다.

4.1 일시적 복구 (Quick Fix)

  1. 서비스 프로세스를 재시작합니다.
    $ sudo systemctl restart auth-service
  2. 상태가 정상화되는지 5분간 모니터링합니다.

4.2 근본 조치 (Permanent Fix)

  • 디스크 용량이 부족한 경우, 로그 파일을 압축하거나 임시 파일을 삭제합니다.
  • DB 연결 설정이 잘못된 경우, config/database.yml을 수정 후 재배포합니다.

5. 에스컬레이션 절차 (Escalation)

위의 조치로도 해결되지 않을 경우 다음 순서로 연락합니다.

  1. L1 지원: [이름], [전화번호/Slack]
  2. L2 개발팀: [이름], [전화번호/Slack]
  3. 인프라 팀: [채널명]

6. 예방 및 사후 관리

  • 작업 완료 후 반드시 [장애 사후 분석 보고서]를 작성합니다.
  • 모니터링 알림 임계치를 재검토합니다.