기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

# MES의 레질리언스
<a name="resiliency"></a>

복원력은 MES 시스템이 인프라 또는 서비스 중단으로부터 복구하고, 수요에 맞게 컴퓨팅 리소스를 동적으로 확보하고, 잘못된 구성이나 일시적인 네트워크 문제와 같은 장애를 완화하는 능력입니다. 복원력은 [AWS Well-Architected](https://aws.amazon.com/architecture/well-architected/) 프레임워크의 안정성 기둥이 의존하는 주요 요소입니다.

복원력은 가용성과 재해 복구라는 두 가지 주요 요소로 나눌 수 있습니다. 두 영역 모두 장애 모니터링, 여러 위치에 배포, 자동 장애 조치 등 몇 가지 동일한 모범 사례를 기반으로 합니다. 그러나 가용성은 MES 마이크로서비스의 구성 요소에 초점을 맞추는 반면 재해 복구는 전체 마이크로서비스 또는 전체 MES 시스템의 개별 복사본에 중점을 둡니다.

## 가용성
<a name="availability"></a>

*가용성은* 다음 공식과 같이 마이크로서비스를 사용할 수 있는 시간의 백분율로 정의합니다. 이 비율은 한 달, 1년 또는 지난 3년과 같은 일정 기간 동안 계산됩니다.

![MES 아키텍처의 가용성 공식](http://docs.aws.amazon.com/ko_kr/prescriptive-guidance/latest/mes-on-aws/images/formula.png)


이 공식을 작성하려면 제조 및 장비 유지 관리에서 일반적으로 사용되는 세 가지 지표를 이해해야 합니다.
+ **평균 장애 간격 (MTBF)**: 마이크로서비스의 정상 운영 시작과 이후 장애 발생 사이의 평균 시간입니다.
+ **평균 탐지 시간 (MTTD)**: 장애 발생과 수리 작업 시작 사이의 평균 시간입니다.
+ 평균 **수리 시간 (MTTR): 장애가 발생한 하위 시스템으로 인해 마이크로서비스를 사용할 수 없는 시점부터** 수리 또는 서비스 복귀까지 걸리는 평균 시간입니다. MTTD는 MTTR의 하위 집합입니다.

다음 다이어그램은 이러한 가용성 지표를 보여줍니다.

![MES 아키텍처의 가용성 메트릭](http://docs.aws.amazon.com/ko_kr/prescriptive-guidance/latest/mes-on-aws/images/availability.png)


복원력이 뛰어나고 가용성이 높은 MES는 MTTR 및 MTTD를 줄이고 MTBF를 높이는 것을 목표로 합니다. 이상적인 설계라면 고장을 방지할 수 있지만 현실적이지는 않습니다. 기존의 모놀리식 MES 장애는 감지하기가 어려웠고 수리하는 데 더 오래 걸렸습니다. 최신 클라우드 네이티브 MES를 사용하면 다중 AZ 배포를 통해 더 빠른 탐지, 신속한 수리 및 비즈니스 연속성을 확보할 수 있습니다. 관련 AWS 서비스를 갖춘 고가용성 최신 시스템의 모범 사례는 “[가용성 및 그 이상: 분산 시스템의 복원력 이해 및 개선](https://docs.aws.amazon.com/whitepapers/latest/availability-and-beyond-improving-resilience/availability-and-beyond-improving-resilience.html)” 백서를 참조하십시오. AWS

## 재해 복구
<a name="disaster-recovery"></a>

재해 복구란 주요 하드웨어 또는 소프트웨어 장애와 같은 기술 관련 재해에 대비하고 복구하는 프로세스를 말합니다. 마이크로서비스 (MES) 가 기본 배포 위치에서 비즈니스 목표를 달성하지 못하게 하는 이벤트는 재해로 간주됩니다. 재해 복구는 가용성과 다르며 다음 두 지표로 측정됩니다.
+ **복구 시간 목표 (RTO)**: 마이크로서비스 중단과 마이크로서비스 복원 사이의 허용 가능한 지연입니다. RTO는 서비스를 이용할 수 없을 때 허용 가능한 기간으로 간주되는 기간을 결정합니다.
+ **복구 시점 목표 (RPO)**: 마지막 데이터 복구 시점 이후 허용되는 최대 시간입니다. RPO는 마지막 복구 지점과 마이크로서비스 중단 사이에 허용되는 데이터 손실로 간주되는 범위를 결정합니다.

다음 다이어그램은 이러한 재해 복구 지표를 보여줍니다.

![MES 아키텍처의 재해 복구 메트릭](http://docs.aws.amazon.com/ko_kr/prescriptive-guidance/latest/mes-on-aws/images/rpo-rto.png)


다음 다이어그램은 다양한 재해 복구 전략을 보여줍니다.

![MES 아키텍처의 재해 복구 전략](http://docs.aws.amazon.com/ko_kr/prescriptive-guidance/latest/mes-on-aws/images/dr-strategies.png)


 AWS Well-Architected Framework 가이드[, 워크로드 재해 복구: 클라우드에서의 복구에서 이러한 전략을 구현하는 AWS방법에 대한](https://docs.aws.amazon.com/whitepapers/latest/disaster-recovery-workloads-on-aws/disaster-recovery-workloads-on-aws.html) 자세한 지침을 찾을 수 있습니다.