다중 리전 기본 1: 요구 사항 이해

앞서 언급했듯이 고가용성 및 운영 연속성은 다중 리전 아키텍처를 추구하는 일반적인 이유입니다. 가용성 지표는 정의된 기간 동안 워크로드를 사용할 수 있는 시간의 비율을 측정하는 반면, 운영 연속성 지표는 대규모 및 일반적으로 더 긴 기간 이벤트의 복구 시간을 측정합니다.

가용성 측정은 거의 지속적인 프로세스입니다. 특정 측정값은 다를 수 있지만 일반적으로 99.99%(예: 99.99% 가용성)라고 하는 대상 가용성 지표를 중심으로 병합됩니다. 가용성 목표의 경우 한 가지 크기가 모두 적합하지는 않습니다. 모든 워크로드에 단일 목표를 적용하는 대신 워크로드 수준에서 가용성 목표를 설정하고 중요하지 않은 구성 요소를 중요 구성 요소와 분리해야 합니다.

작업 연속성을 위해 일반적으로 다음과 같은 point-in-time 측정값이 사용됩니다.

Recovery Time Objective(RTO) - RTO는 서비스 중단과 서비스 복원 사이의 허용되는 최대 지연입니다. 이 값은 서비스가 손상된 허용 기간을 결정합니다.
Recovery Point Objective(RPO) - RPO는 마지막 데이터 복구 시점 이후 허용되는 최대 시간입니다. 이를 통해 최신 복구 시점과 서비스 중단 사이에 허용되는 데이터 손실로 간주되는 것이 결정됩니다.

가용성 목표 설정과 마찬가지로 RTO 및 RPO도 워크로드 수준에서 정의해야 합니다. 보다 적극적인 운영 연속성 또는 고가용성을 위해서는 투자를 늘려야 합니다. 즉, 모든 애플리케이션이 동일한 수준의 복원력을 요구하거나 필요로 하는 것은 아닙니다. 비즈니스 및 IT 소유자를 조정하여 비즈니스 영향을 기반으로 애플리케이션의 중요도를 평가한 다음 그에 따라 계층화하면 출발점을 제공하는 데 도움이 될 수 있습니다. 다음 표에는 계층화의 예가 나와 있습니다.

이 표는 서비스 수준 계약(SLAs)에 대한 복원력 계층화의 예를 보여줍니다.

복원력 계층	가용성 SLA	허용 가능한 가동 중지 시간/년
플래티넘	99.99%	52.60분
골드	99.90%	8.77시간
은	99.5%	1.83일

다음 표에는 RTO 및 RPO에 대한 복원력 계층화의 예가 나와 있습니다.

복원력 계층	최대 RTO	최대 RPO	기준	비용
플래티넘	15분	5분	미션 크리티컬 워크로드	$$$
골드	15분~6시간	2시간	중요하지만 미션 크리티컬 워크로드는 아님	$$
은	6시간~ 며칠	24시간	중요하지 않은 워크로드	$

복원력을 위해 워크로드를 설계할 때는 고가용성과 운영 연속성 간의 관계를 고려하세요. 예를 들어 워크로드에 99.99%의 가용성이 필요한 경우 연간 53분 이하의 가동 중지 시간을 견딜 수 있습니다. 장애를 감지하는 데 5분 이상 걸리고 운영자가 참여하고, 복구 단계를 결정하고,이 단계를 수행하는 데 10분이 더 걸릴 수 있습니다. 단일 문제에서 복구하는 데 30~45분이 걸리는 것은 드문 일이 아닙니다. 이 경우 상관관계가 있는 영향을 제거하는 격리된 인스턴스를 제공하기 위해 다중 리전 전략을 사용하는 것이 좋습니다. 이렇게 하면 초기 장애를 독립적으로 분류하는 동안 제한된 시간 내에 장애 조치하여 작업을 계속할 수 있습니다. 여기에서 적절한 제한 복구 시간을 정의하고 정렬을 확인해야 합니다.

다중 리전 접근 방식은 극단적인 가용성 요구 사항(예: 99.99% 이상의 가용성) 또는 다른 리전으로 장애 조치해야만 충족할 수 있는 엄격한 운영 연속성 요구 사항이 있는 미션 크리티컬 워크로드에 적합할 수 있습니다. 그러나 이러한 요구 사항은 일반적으로 몇 분 또는 몇 시간으로 측정되는 제한된 복구 시간이 있는 엔터프라이즈 워크로드 포트폴리오의 작은 하위 집합에만 적용됩니다. 애플리케이션에 몇 분 또는 몇 시간이 필요한 경우가 아니면 영향을 받는 리전 내에서 애플리케이션에 대한 리전 중단이 해결될 때까지 기다리는 것이 더 나은 방법일 수 있습니다. 이 접근 방식은 일반적으로 하위 계층 워크로드와 일치합니다.

다중 리전 아키텍처를 구현하기 전에 비즈니스 의사 결정권자와 기술 팀은 운영 및 인프라 비용 동인을 포함하여 비용에 미치는 영향을 조정해야 합니다. 일반적인 다중 리전 아키텍처는 단일 리전 접근 방식보다 두 배 큰 비용이 발생할 수 있습니다. 핫 스탠바이, 웜 스탠바이 또는 파일럿 라이트로 실행하는 등 비즈니스 연속성을 위한 여러 다중 리전 패턴이 있지만 복구 목표를 충족할 위험이 가장 낮은 패턴에는 핫 스탠바이를 실행하는 것이 포함되며 워크로드 비용을 두 배로 늘립니다.

주요 지침

RTO 및 RPO와 같은 운영 목표의 가용성 및 연속성은 워크로드별로 설정되어야 하며 비즈니스 및 IT 이해관계자와 일치해야 합니다.
운영 목표의 대부분의 가용성과 연속성은 단일 리전 내에서 달성될 수 있습니다. 단일 리전 내에서 달성할 수 없는 목표의 경우 비용, 복잡성 및 이점 간의 장단점을 명확하게 파악할 수 있는 다중 리전을 고려하세요.

javascript가 브라우저에서 비활성화되거나 사용이 불가합니다.

AWS 설명서를 사용하려면 Javascript가 활성화되어야 합니다. 지침을 보려면 브라우저의 도움말 페이지를 참조하십시오.

문서 규칙

단일 리전에서 복원력을 위한 엔지니어링 및 운영

다중 리전 기본 2: 데이터 이해