본문으로 건너뛰기

재해 복구 계획

상태: 시행 중 날짜: 2026-02-26


개요

이 문서는 KYRA AI MDR 플랫폼의 복구 시간 목표(RTO), 복구 시점 목표(RPO), 재해 복구 절차 및 롤백 기준을 정의합니다. DR 전략은 모든 지원 서비스 티어에서 고객 데이터 보호, 서비스 가용성, 컴플라이언스 요구사항을 우선시합니다.

핵심 요구사항:

  • CUSTOM 티어: RTO 15분 이하, RPO 5분 이하
  • PRO 티어: RTO 30분 이하, RPO 15분 이하
  • MDR 티어: RTO 60분 이하, RPO 30분 이하
  • 문서화된 Runbook을 갖춘 분기별 DR 훈련
  • Tenant 설정, 인시던트 및 감사 로그에 대한 무손실

복구 목표

서비스별 RTO/RPO

서비스Enterprise RTOEnterprise RPOProfessional RTOProfessional RPOStandard RTOStandard RPO
고객 포털 / API5분0분10분5분15분10분
이벤트 수집5분1분10분5분20분15분
AI 분석10분0분15분5분30분15분
분석 및 리포팅15분30분30분60분60분2시간
기본 데이터베이스10분0분15분1분30분5분
캐시 레이어2분5분5분10분10분30분
이벤트 처리8분1분15분5분25분15분
분석 데이터베이스15분30분30분60분60분2시간
오브젝트 스토리지N/A0분N/A0분N/A0분

서비스 가용성 종합 목표

서비스 티어종합 RTO종합 RPO월간 SLA연간 다운타임
Enterprise15분5분99.95%4.38시간
Professional30분15분99.9%8.76시간
Standard60분30분99.5%43.8시간

핵심 경로 복구 순서

Tenant 접근을 위한 최소 서비스 복구 순서:

  1. 기본 데이터베이스 (tenant 인증 및 데이터)
  2. 캐시 레이어 (세션 관리)
  3. Identity Provider 또는 긴급 관리자 우회
  4. 고객 포털 / API
  5. 이벤트 수집 (데이터 수집 재개)
  6. 이벤트 처리 파이프라인
  7. AI 분석
  8. 분석 및 리포팅

인프라 복원력

멀티 리전 아키텍처

  • 멀티 가용 영역 배포를 갖춘 주 리전
  • 대기 인프라를 갖춘 DR 리전
  • tenant별 데이터 거주지 컴플라이언스 적용
  • 핵심 서비스에 대한 리전 간 데이터 복제

고가용성

  • 가용 영역에 걸쳐 핵심 서비스에 최소 3개 레플리카
  • 단일 장애점을 방지하는 Anti-affinity 규칙
  • 부하 메트릭 기반의 수평 Auto-scaling
  • 유지보수 중 가용성을 유지하는 Pod Disruption Budget

데이터베이스 복원력

  • 동기식 Standby를 갖춘 Multi-AZ 배포
  • 주 리전 및 DR 리전의 Read Replica
  • 7일간 시점 복구가 가능한 자동 일일 백업
  • 자동 페일오버 (60-120초)

캐시 복원력

  • 자동 페일오버를 갖춘 클러스터 배포
  • 복구를 위한 일일 스냅샷
  • 15초 내 장애 감지

외부 의존성

의존성목적대체 전략
Identity ProviderSSO 인증긴급 관리자 접근
기본 AI ProviderAI 위협 분석보조 Provider로 전환 후, 자체 호스팅
보조 AI Provider백업 AI 분석기본 Provider로 전환 후, 자체 호스팅
자체 호스팅 AIAir-gap AI 대체외부 의존성 없음
암호화 키 관리키 관리리전 간 키 복제
관측 플랫폼모니터링온프레미스 모니터링 인스턴스

백업 스케줄

데이터 유형빈도보존 기간복구 방법
데이터베이스 (지속적)지속적7일시점 복원
데이터베이스 (전체)일일30일전체 복원
캐시 스냅샷일일7일스냅샷에서 가져오기
분석 데이터일일90일백업에서 복원
애플리케이션 설정변경 시90일설정 재적용
Secrets일일30일Secrets Manager 복원

리전 간 페일오버

자동 트리거

  • 모든 주 리전 엔드포인트에서 3분 이상 Health Check 실패
  • SLA 위반 전 수동 트리거와 함께 RTO 위반 임박
  • 클라우드 프로바이더가 확인한 리전 전체 장애

페일오버 절차 (30분 목표)

  1. DR 리전 데이터베이스 레플리카를 주 서버로 승격
  2. DNS 라우팅을 DR 리전으로 변경
  3. DR 리전 서비스 스케일 업
  4. Identity Provider 콜백 URL 업데이트
  5. 모든 컴포넌트에 걸쳐 서비스 상태 확인

페일백 절차

  1. 모든 서비스에 걸쳐 주 리전 상태 확인
  2. DR에서 주 리전으로 데이터 재동기화 (필요 시)
  3. 트래픽을 점진적으로 이전 (20% / 40% / 60% / 80% / 100%)
  4. 24시간 모니터링 기간 후 DR 리전 스케일 다운

분기별 DR 훈련

일정 및 범위

빈도: 90일마다 (3월, 6월, 9월, 12월) 시간: 4시간 계획 윈도우 영향: 운영 서비스 중단 없음 (테스트 환경 시뮬레이션)

훈련 유형 (순환):

  • Q1: 리전 페일오버 시뮬레이션
  • Q2: 데이터베이스 손상 및 시점 복구
  • Q3: 보안 인시던트 대응 (모의 침해)
  • Q4: 전체 인프라 재구축

훈련 검증 체크리스트

  • 모든 API 서비스가 목표 RTO 내 가용
  • 데이터 무결성 확인 (데이터 무손실)
  • AI 분석 워크플로가 20분 내 재개
  • 이벤트 수집이 10분 내 복원
  • 분석 처리가 25분 내 재개
  • 고객 영향이 5분 미만의 서비스 저하
  • 모든 모니터링 알림이 2분 미만의 탐지로 정상 발동
  • Runbook 정확도가 문서화된 절차 대비 10% 이내 편차

훈련 보고서

배포 대상: CTO, VP Engineering, VP Customer Success, Security Lead SLA: 훈련 완료 후 영업일 5일 이내 보고서 전달

필수 포함 사항:

  1. 경영진 요약 (합격/불합격, 핵심 메트릭, 고객 영향)
  2. 상세 타임라인 (각 단계의 계획 대비 실제)
  3. 성능 메트릭 (서비스별 달성 RTO/RPO 대 목표)
  4. 갭 분석 (프로세스 편차, 도구 장애)
  5. AI Agent 복구 성능
  6. 서비스 간 통신 분석
  7. 데이터베이스 복구 검증
  8. 보안 통제 효과성
  9. 실행 계획 (담당자 및 기한이 포함된 개선 사항)
  10. 위험 평가 (훈련 결과에 기반한 업데이트)

배포 롤백 기준

자동 롤백 트리거 (5분 이내)

  • 서비스 인스턴스의 50% 이상이 Health Check 실패
  • 2분간 5%를 초과하는 지속 오류율
  • 데이터베이스 마이그레이션 실패 또는 타임아웃
  • Identity Provider 연동 장애 (성공률 90% 미만)
  • 상승 추세와 함께 메모리 사용량 90% 초과
  • 핵심 의존성 사용 불가

성능 기반 롤백 (15분 이내)

  • API P95 지연 시간이 10분간 기준선의 2배 초과
  • 이벤트 수집 속도가 전체 용량의 50% 미만
  • AI 워크플로의 20% 이상이 SLA 초과
  • 데이터베이스 커넥션 풀 사용률 80% 초과
  • 분석 처리 지연 30분 초과

수동 롤백 의사결정 매트릭스

심각도탐지 시간의사결정 권한롤백 윈도우
P0 - 서비스 중단0-2분당직 엔지니어 (자동)5분
P1 - 서비스 저하2-10분Engineering Manager15분
P2 - 성능 저하10-30분Product Owner + Engineering30분
P3 - 경미한 이슈30분 이상정기 유지보수 윈도우계획에 따름

관련 문서