재해 복구 계획
상태: 시행 중 날짜: 2026-02-26
개요
이 문서는 KYRA AI MDR 플랫폼의 복구 시간 목표(RTO), 복구 시점 목표(RPO), 재해 복구 절차 및 롤백 기준을 정의합니다. DR 전략은 모든 지원 서비스 티어에서 고객 데이터 보호, 서비스 가용성, 컴플라이언스 요구사항을 우선시합니다.
핵심 요구사항:
- CUSTOM 티어: RTO 15분 이하, RPO 5분 이하
- PRO 티어: RTO 30분 이하, RPO 15분 이하
- MDR 티어: RTO 60분 이하, RPO 30분 이하
- 문서화된 Runbook을 갖춘 분기별 DR 훈련
- Tenant 설정, 인시던트 및 감사 로그에 대한 무손실
복구 목표
서비스별 RTO/RPO
| 서비스 | Enterprise RTO | Enterprise RPO | Professional RTO | Professional RPO | Standard RTO | Standard RPO |
|---|---|---|---|---|---|---|
| 고객 포털 / API | 5분 | 0분 | 10분 | 5분 | 15분 | 10분 |
| 이벤트 수집 | 5분 | 1분 | 10분 | 5분 | 20분 | 15분 |
| AI 분석 | 10분 | 0분 | 15분 | 5분 | 30분 | 15분 |
| 분석 및 리포팅 | 15분 | 30분 | 30분 | 60분 | 60분 | 2시간 |
| 기본 데이터베이스 | 10분 | 0분 | 15분 | 1분 | 30분 | 5분 |
| 캐시 레이어 | 2분 | 5분 | 5분 | 10분 | 10분 | 30분 |
| 이벤트 처리 | 8분 | 1분 | 15분 | 5분 | 25분 | 15분 |
| 분석 데이터베이스 | 15분 | 30분 | 30분 | 60분 | 60분 | 2시간 |
| 오브젝트 스토리지 | N/A | 0분 | N/A | 0분 | N/A | 0분 |
서비스 가용성 종합 목표
| 서비스 티어 | 종합 RTO | 종합 RPO | 월간 SLA | 연간 다운타임 |
|---|---|---|---|---|
| Enterprise | 15분 | 5분 | 99.95% | 4.38시간 |
| Professional | 30분 | 15분 | 99.9% | 8.76시간 |
| Standard | 60분 | 30분 | 99.5% | 43.8시간 |
핵심 경로 복구 순서
Tenant 접근을 위한 최소 서비스 복구 순서:
- 기본 데이터베이스 (tenant 인증 및 데이터)
- 캐시 레이어 (세션 관리)
- Identity Provider 또는 긴급 관리자 우회
- 고객 포털 / API
- 이벤트 수집 (데이터 수집 재개)
- 이벤트 처리 파이프라인
- AI 분석
- 분석 및 리포팅
인프라 복원력
멀티 리전 아키텍처
- 멀티 가용 영역 배포를 갖춘 주 리전
- 대기 인프라를 갖춘 DR 리전
- tenant별 데이터 거주지 컴플라이언스 적용
- 핵심 서비스에 대한 리전 간 데이터 복제
고가용성
- 가용 영역에 걸쳐 핵심 서비스에 최소 3개 레플리카
- 단일 장애점을 방지하는 Anti-affinity 규칙
- 부하 메트릭 기반의 수평 Auto-scaling
- 유지보수 중 가용성을 유지하는 Pod Disruption Budget
데이터베이스 복원력
- 동기식 Standby를 갖춘 Multi-AZ 배포
- 주 리전 및 DR 리전의 Read Replica
- 7일간 시점 복구가 가능한 자동 일일 백업
- 자동 페일오버 (60-120초)
캐시 복원력
- 자동 페일오버를 갖춘 클러스터 배포
- 복구를 위한 일일 스냅샷
- 15초 내 장애 감지
외부 의존성
| 의존성 | 목적 | 대체 전략 |
|---|---|---|
| Identity Provider | SSO 인증 | 긴급 관리자 접근 |
| 기본 AI Provider | AI 위협 분석 | 보조 Provider로 전환 후, 자체 호스팅 |
| 보조 AI Provider | 백업 AI 분석 | 기본 Provider로 전환 후, 자체 호스팅 |
| 자체 호스팅 AI | Air-gap AI 대체 | 외부 의존성 없음 |
| 암호화 키 관리 | 키 관리 | 리전 간 키 복제 |
| 관측 플랫폼 | 모니터링 | 온프레미스 모니터링 인스턴스 |
백업 스케줄
| 데이터 유형 | 빈도 | 보존 기간 | 복구 방법 |
|---|---|---|---|
| 데이터베이스 (지속적) | 지속적 | 7일 | 시점 복원 |
| 데이터베이스 (전체) | 일일 | 30일 | 전체 복원 |
| 캐시 스냅샷 | 일일 | 7일 | 스냅샷에서 가져오기 |
| 분석 데이터 | 일일 | 90일 | 백업에서 복원 |
| 애플리케이션 설정 | 변경 시 | 90일 | 설정 재적용 |
| Secrets | 일일 | 30일 | Secrets Manager 복원 |
리전 간 페일오버
자동 트리거
- 모든 주 리전 엔드포인트에서 3분 이상 Health Check 실패
- SLA 위반 전 수동 트리거와 함께 RTO 위반 임박
- 클라우드 프로바이더가 확인한 리전 전체 장애
페일오버 절차 (30분 목표)
- DR 리전 데이터베이스 레플리카를 주 서버로 승격
- DNS 라우팅을 DR 리전으로 변경
- DR 리전 서비스 스케일 업
- Identity Provider 콜백 URL 업데이트
- 모든 컴포넌트에 걸쳐 서비스 상태 확인
페일백 절차
- 모든 서비스에 걸쳐 주 리전 상태 확인
- DR에서 주 리전으로 데이터 재동기화 (필요 시)
- 트래픽을 점진적으로 이전 (20% / 40% / 60% / 80% / 100%)
- 24시간 모니터링 기간 후 DR 리전 스케일 다운
분기별 DR 훈련
일정 및 범위
빈도: 90일마다 (3월, 6월, 9월, 12월) 시간: 4시간 계획 윈도우 영향: 운영 서비스 중단 없음 (테스트 환경 시뮬레이션)
훈련 유형 (순환):
- Q1: 리전 페일오버 시뮬레이션
- Q2: 데이터베이스 손상 및 시점 복구
- Q3: 보안 인시던트 대응 (모의 침해)
- Q4: 전체 인프라 재구축
훈련 검증 체크리스트
- 모든 API 서비스가 목표 RTO 내 가용
- 데이터 무결성 확인 (데이터 무손실)
- AI 분석 워크플로가 20분 내 재개
- 이벤트 수집이 10분 내 복원
- 분석 처리가 25분 내 재개
- 고객 영향이 5분 미만의 서비스 저하
- 모든 모니터링 알림이 2분 미만의 탐지로 정상 발동
- Runbook 정확도가 문서화된 절차 대비 10% 이내 편차
훈련 보고서
배포 대상: CTO, VP Engineering, VP Customer Success, Security Lead SLA: 훈련 완료 후 영업일 5일 이내 보고서 전달
필수 포함 사항:
- 경영진 요약 (합격/불합격, 핵심 메트릭, 고객 영향)
- 상세 타임라인 (각 단계의 계획 대비 실제)
- 성능 메트릭 (서비스별 달성 RTO/RPO 대 목표)
- 갭 분석 (프로세스 편차, 도구 장애)
- AI Agent 복구 성능
- 서비스 간 통신 분석
- 데이터베이스 복구 검증
- 보안 통제 효과성
- 실행 계획 (담당자 및 기한이 포함된 개선 사항)
- 위험 평가 (훈련 결과에 기반한 업데이트)
배포 롤백 기준
자동 롤백 트리거 (5분 이내)
- 서비스 인스턴스의 50% 이상이 Health Check 실패
- 2분간 5%를 초과하는 지속 오류율
- 데이터베이스 마이그레이션 실패 또는 타임아웃
- Identity Provider 연동 장애 (성공률 90% 미만)
- 상승 추세와 함께 메모리 사용량 90% 초과
- 핵심 의존성 사용 불가
성능 기반 롤백 (15분 이내)
- API P95 지연 시간이 10분간 기준선의 2배 초과
- 이벤트 수집 속도가 전체 용량의 50% 미만
- AI 워크플로의 20% 이상이 SLA 초과
- 데이터베이스 커넥션 풀 사용률 80% 초과
- 분석 처리 지연 30분 초과
수동 롤백 의사결정 매트릭스
| 심각도 | 탐지 시간 | 의사결정 권한 | 롤백 윈도우 |
|---|---|---|---|
| P0 - 서비스 중단 | 0-2분 | 당직 엔지니어 (자동) | 5분 |
| P1 - 서비스 저하 | 2-10분 | Engineering Manager | 15분 |
| P2 - 성능 저하 | 10-30분 | Product Owner + Engineering | 30분 |
| P3 - 경미한 이슈 | 30분 이상 | 정기 유지보수 윈도우 | 계획에 따름 |
관련 문서
- 보안 가이드 — 플랫폼 보안 아키텍처 및 통제
- 데이터 보존 정책 — 데이터 수명 주기 및 컴플라이언스
- ISMS-P 컴플라이언스 — KYRA MDR의 ISMS-P 통제 매핑