재해 복구 계획

상태: 시행 중 날짜: 2026-02-26

개요

이 문서는 KYRA AI MDR 플랫폼의 복구 시간 목표(RTO), 복구 시점 목표(RPO), 재해 복구 절차 및 롤백 기준을 정의합니다. DR 전략은 모든 지원 서비스 티어에서 고객 데이터 보호, 서비스 가용성, 컴플라이언스 요구사항을 우선시합니다.

핵심 요구사항:

CUSTOM 티어: RTO 15분 이하, RPO 5분 이하
PRO 티어: RTO 30분 이하, RPO 15분 이하
MDR 티어: RTO 60분 이하, RPO 30분 이하
문서화된 Runbook을 갖춘 분기별 DR 훈련
Tenant 설정, 인시던트 및 감사 로그에 대한 무손실

복구 목표

서비스별 RTO/RPO

서비스	Enterprise RTO	Enterprise RPO	Professional RTO	Professional RPO	Standard RTO	Standard RPO
고객 포털 / API	5분	0분	10분	5분	15분	10분
이벤트 수집	5분	1분	10분	5분	20분	15분
AI 분석	10분	0분	15분	5분	30분	15분
분석 및 리포팅	15분	30분	30분	60분	60분	2시간
기본 데이터베이스	10분	0분	15분	1분	30분	5분
캐시 레이어	2분	5분	5분	10분	10분	30분
이벤트 처리	8분	1분	15분	5분	25분	15분
분석 데이터베이스	15분	30분	30분	60분	60분	2시간
오브젝트 스토리지	N/A	0분	N/A	0분	N/A	0분

서비스 가용성 종합 목표

서비스 티어	종합 RTO	종합 RPO	월간 SLA	연간 다운타임
Enterprise	15분	5분	99.95%	4.38시간
Professional	30분	15분	99.9%	8.76시간
Standard	60분	30분	99.5%	43.8시간

핵심 경로 복구 순서

Tenant 접근을 위한 최소 서비스 복구 순서:

기본 데이터베이스 (tenant 인증 및 데이터)
캐시 레이어 (세션 관리)
Identity Provider 또는 긴급 관리자 우회
고객 포털 / API
이벤트 수집 (데이터 수집 재개)
이벤트 처리 파이프라인
AI 분석
분석 및 리포팅

인프라 복원력

멀티 리전 아키텍처

멀티 가용 영역 배포를 갖춘 주 리전
대기 인프라를 갖춘 DR 리전
tenant별 데이터 거주지 컴플라이언스 적용
핵심 서비스에 대한 리전 간 데이터 복제

고가용성

가용 영역에 걸쳐 핵심 서비스에 최소 3개 레플리카
단일 장애점을 방지하는 Anti-affinity 규칙
부하 메트릭 기반의 수평 Auto-scaling
유지보수 중 가용성을 유지하는 Pod Disruption Budget

데이터베이스 복원력

동기식 Standby를 갖춘 Multi-AZ 배포
주 리전 및 DR 리전의 Read Replica
7일간 시점 복구가 가능한 자동 일일 백업
자동 페일오버 (60-120초)

캐시 복원력

자동 페일오버를 갖춘 클러스터 배포
복구를 위한 일일 스냅샷
15초 내 장애 감지

외부 의존성

의존성	목적	대체 전략
Identity Provider	SSO 인증	긴급 관리자 접근
기본 AI Provider	AI 위협 분석	보조 Provider로 전환 후, 자체 호스팅
보조 AI Provider	백업 AI 분석	기본 Provider로 전환 후, 자체 호스팅
자체 호스팅 AI	Air-gap AI 대체	외부 의존성 없음
암호화 키 관리	키 관리	리전 간 키 복제
관측 플랫폼	모니터링	온프레미스 모니터링 인스턴스

백업 스케줄

데이터 유형	빈도	보존 기간	복구 방법
데이터베이스 (지속적)	지속적	7일	시점 복원
데이터베이스 (전체)	일일	30일	전체 복원
캐시 스냅샷	일일	7일	스냅샷에서 가져오기
분석 데이터	일일	90일	백업에서 복원
애플리케이션 설정	변경 시	90일	설정 재적용
Secrets	일일	30일	Secrets Manager 복원

리전 간 페일오버

자동 트리거

모든 주 리전 엔드포인트에서 3분 이상 Health Check 실패
SLA 위반 전 수동 트리거와 함께 RTO 위반 임박
클라우드 프로바이더가 확인한 리전 전체 장애

페일오버 절차 (30분 목표)

DR 리전 데이터베이스 레플리카를 주 서버로 승격
DNS 라우팅을 DR 리전으로 변경
DR 리전 서비스 스케일 업
Identity Provider 콜백 URL 업데이트
모든 컴포넌트에 걸쳐 서비스 상태 확인

페일백 절차

모든 서비스에 걸쳐 주 리전 상태 확인
DR에서 주 리전으로 데이터 재동기화 (필요 시)
트래픽을 점진적으로 이전 (20% / 40% / 60% / 80% / 100%)
24시간 모니터링 기간 후 DR 리전 스케일 다운

분기별 DR 훈련

일정 및 범위

빈도: 90일마다 (3월, 6월, 9월, 12월) 시간: 4시간 계획 윈도우 영향: 운영 서비스 중단 없음 (테스트 환경 시뮬레이션)

훈련 유형 (순환):

Q1: 리전 페일오버 시뮬레이션
Q2: 데이터베이스 손상 및 시점 복구
Q3: 보안 인시던트 대응 (모의 침해)
Q4: 전체 인프라 재구축

훈련 검증 체크리스트

모든 API 서비스가 목표 RTO 내 가용
데이터 무결성 확인 (데이터 무손실)
AI 분석 워크플로가 20분 내 재개
이벤트 수집이 10분 내 복원
분석 처리가 25분 내 재개
고객 영향이 5분 미만의 서비스 저하
모든 모니터링 알림이 2분 미만의 탐지로 정상 발동
Runbook 정확도가 문서화된 절차 대비 10% 이내 편차

훈련 보고서

배포 대상: CTO, VP Engineering, VP Customer Success, Security Lead SLA: 훈련 완료 후 영업일 5일 이내 보고서 전달

필수 포함 사항:

경영진 요약 (합격/불합격, 핵심 메트릭, 고객 영향)
상세 타임라인 (각 단계의 계획 대비 실제)
성능 메트릭 (서비스별 달성 RTO/RPO 대 목표)
갭 분석 (프로세스 편차, 도구 장애)
AI Agent 복구 성능
서비스 간 통신 분석
데이터베이스 복구 검증
보안 통제 효과성
실행 계획 (담당자 및 기한이 포함된 개선 사항)
위험 평가 (훈련 결과에 기반한 업데이트)

배포 롤백 기준

자동 롤백 트리거 (5분 이내)

서비스 인스턴스의 50% 이상이 Health Check 실패
2분간 5%를 초과하는 지속 오류율
데이터베이스 마이그레이션 실패 또는 타임아웃
Identity Provider 연동 장애 (성공률 90% 미만)
상승 추세와 함께 메모리 사용량 90% 초과
핵심 의존성 사용 불가

성능 기반 롤백 (15분 이내)

API P95 지연 시간이 10분간 기준선의 2배 초과
이벤트 수집 속도가 전체 용량의 50% 미만
AI 워크플로의 20% 이상이 SLA 초과
데이터베이스 커넥션 풀 사용률 80% 초과
분석 처리 지연 30분 초과

수동 롤백 의사결정 매트릭스

심각도	탐지 시간	의사결정 권한	롤백 윈도우
P0 - 서비스 중단	0-2분	당직 엔지니어 (자동)	5분
P1 - 서비스 저하	2-10분	Engineering Manager	15분
P2 - 성능 저하	10-30분	Product Owner + Engineering	30분
P3 - 경미한 이슈	30분 이상	정기 유지보수 윈도우	계획에 따름