View a markdown version of this page

운영 우수성 요소 - AWS 권장 가이드

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

운영 우수성 요소

운영 우수성(OE)은 사용자 기대치를 지속적으로 충족하고 능가하는 고품질 소프트웨어 솔루션을 만들기 위한 노력을 나타냅니다. AWS Well-Architected Framework의 운영 우수성 원칙은 효과적인 팀 조직, 강력한 워크로드 설계, 효율적인 대규모 운영, 시간이 지남에 따라 변화하는 요구 사항에 대한 원활한 적응을 위한 검증된 전략을 포함합니다. 조직은 이러한 원칙을 준수함으로써 시스템이 복원력과 성능을 유지하고 변화하는 비즈니스 요구 사항에 부합하도록 할 수 있습니다.

WorkSpaces 애플리케이션 스트리밍 환경에이 원칙을 적용하기 위한 주요 중점 영역:

  • 모니터링 및 관찰성

  • 자동화 및 DevOps

  • 운영 절차 및 설명서

  • 지원 및 인시던트 관리

비즈니스 성과를 중심으로 팀 구성

비즈니스 목표 및 핵심 성과 지표(KPIs)가 최적화된 인력, 프로세스 및 기술을 통해 조직 혁신을 주도하는 강력한 리더십 약속으로 클라우드에 맞는 운영 모델을 생성합니다.

  • 팀 구조. 애플리케이션 스트리밍 결과에 맞는 전용 팀을 구성합니다. 예:

    • 이미지 관리 팀은 애플리케이션 패키징 및 이미지 최적화를 담당합니다.

    • 플릿 운영 팀은 용량, 성능 및 규모 조정을 관리합니다.

    • 사용자 경험 팀은 최종 사용자 지원 및 만족도를 처리합니다.

  • KPIs 및 지표. 다음과 같은 비즈니스 정렬 지표를 정의하고 추적합니다.

    • 애플리케이션 가용성 요금

    • 새 애플리케이션을 배포하는 시간

    • 애플리케이션 스트리밍 시간당 비용

  • 운영 모델. 다음에 대한 명확한 프로세스 생성:

    • 애플리케이션 온보딩 및 업데이트

    • 플릿 용량 관리

    • 사용자 액세스 프로비저닝

    • 인시던트 대응 및 해결

실행 가능한 인사이트를 위한 관찰성 구현

포괄적인 모니터링 및 관찰성을 구현하여 KPIs. 이 원칙을 통해 성능, 신뢰성 및 비용 전반에서 데이터 기반 의사 결정과 선제적 개선이 가능합니다.

가능한 경우 안전하게 자동화

코드형 인프라(IaC) 원칙을 적용하여 워크로드 작업의 모든 측면을 자동화합니다. 가드레일을 사용하면 수동 개입을 줄이면서 안전하고 일관된 실행을 보장할 수 있습니다.

  • Image Assistant CLI를 사용하여 WorkSpaces 애플리케이션 이미지의 생성 및 구성을 자동화합니다. 자세한 내용은 WorkSpaces 애플리케이션 설명서의 Image Assistant CLI 작업을 사용하여 프로그래밍 방식으로 Amazon WorkSpaces 애플리케이션 이미지 생성을 참조하세요. WorkSpaces

    • 애플리케이션 설치: Image Assistant CLI를 사용하여 이미지 생성 중에 애플리케이션 설치를 자동화합니다.

    • 이미지 생성: Image Assistant CLI 명령을 사용하여 프로그래밍 방식으로 WorkSpaces 애플리케이션 이미지를 생성합니다.

    • 구성 관리: 기본 애플리케이션 설정 및 시작 파라미터의 구성을 자동화합니다.

  • WorkSpaces 애플리케이션 이미지의 사용자 지정을 자동화합니다. 자세한 내용은 AWS 블로그 게시물 사용자 지정 WorkSpaces 애플리케이션 Windows 이미지 자동 생성을 참조하세요.

  • IaC를 적용하여 WorkSpaces 애플리케이션의 인프라 및 애플리케이션 구성 요소를 배포합니다. 자세한 내용은 AWS 블로그 게시물 Automation of infrastructure and application deployment for Amazon WorkSpaces Applications with Terraform을 참조하세요.

  • 다음을 포함하여 플릿 관리를 위한 자동화된 프로세스를 구현합니다.

    • 수요에 따른 플릿 규모 조정. 사용률 지표를 기반으로 플릿 용량을 자동으로 조정하도록 자동 조정 정책을 구성합니다. 자세한 내용은 AWS 블로그 게시물 Use AWS Lambda to adjust scaling steps and thresholds for Amazon WorkSpaces Applications를 참조하세요.

    • 기본 이미지 업데이트. 에서 제공하는 WorkSpaces 애플리케이션 기본 이미지에 대한 자동 업데이트의 이점을 누릴 수 있습니다 AWS.

    • 용량 최적화. 자동 조정 임계값을 설정하여 수요 패턴을 기반으로 리소스 사용량을 최적화합니다.

  • 안전 제어를 자동화하도록 가드레일을 구성합니다.

    • 최대 플릿 크기 제한. 플릿 용량의 상한을 설정하여 과다 프로비저닝을 방지합니다.

    • 조정 정책 구성. 적절한 임계값을 사용하여 단계 조정 또는 대상 추적 조정 정책을 구현합니다.

    • 서비스 할당량. 과도한 리소스 할당을 방지하려면 AWS 서비스 할당량을 기본 제공 제한으로 사용합니다.

    • 스케일 인 보호. 조정 이벤트 중에 활성 인스턴스가 제거되지 않도록 스케일 인 보호를 구성합니다.

  • 이미지 빌더, 플릿 및 통합 테스트를 포함한 테스트 및 검증을 수행합니다.

    • 이미지 빌더 테스트:

      • 이미지 빌더 인터페이스에서 직접 애플리케이션을 테스트합니다.

      • 애플리케이션 시작 및 기능을 확인합니다.

      • 사용자 설정 및 구성을 테스트합니다.

      • 애플리케이션 호환성을 검증합니다.

    • 플릿 테스트:

      • 다양한 클라이언트 디바이스에서 스트리밍 세션을 테스트합니다.

      • 사용자 권한 및 액세스를 확인합니다.

      • 애플리케이션 성능을 검증합니다.

      • 클립보드, 파일 전송 및 인쇄와 같은 요소와 작업에 대한 사용자 경험을 테스트합니다.

    • 통합 테스트:

      • Active Directory 또는 SAML 2.0 기반 인증을 테스트합니다.

      • 홈 폴더와 영구 스토리지를 테스트합니다.

      • 애플리케이션 권한을 테스트합니다.

      • USB 디바이스 리디렉션을 테스트합니다(구성된 경우).

  • WorkSpaces 애플리케이션 관리자를 사용하여 애플리케이션 패키징 및 배포를 자동화합니다. 자세한 내용은 AWS 블로그 게시물 Streamline application onboarding with applications manager for Amazon WorkSpaces Applications를 참조하세요.

  • 지속적 통합 및 지속적 전달(CI/CD) 파이프라인을 사용하여 새 애플리케이션 버전의 배포를 자동화합니다. 자세한 내용은 AWS 블로그 게시물 Screening Eagle: Optimize CI/CD and 최종 사용자 experience in Amazon WorkSpaces Applications를 참조하세요.

자주 작고 되돌릴 수 있는 변경 사항 적용

위험을 최소화하고 간편한 롤백 기능으로 소규모 자동 배포를 자주 수행할 수 있도록 느슨하게 결합되고 확장 가능한 워크로드를 구축합니다.

  • 이미지 업데이트의 경우 버전이 지정된 이미지 생성 및 증분 업데이트를 사용합니다.

    • 버전이 지정된 이미지 생성:

      • 이미지 빌더를 사용하여 각 변경 세트에 대해 새 이미지를 생성합니다.

      • 롤백 시나리오를 지원하도록 여러 이미지 버전을 유지 관리합니다.

      • AWS 태그 지정 전략을 사용하여 이미지 버전 및 속성을 추적합니다.

    • 증분 업데이트:

      • 애플리케이션 또는 구성을 조금씩 점진적으로 변경합니다.

      • 새 이미지를 생성하기 전에 이미지 빌더에서 업데이트를 철저히 테스트합니다.

      • 각 새 이미지 버전에서 수행한 모든 변경 사항을 문서화합니다.

  • 컨트롤 플릿 업데이트의 경우:

    • 테스트를 위해 업데이트된 이미지로 새 플릿을 생성합니다.

    • 활성 세션을 중단하지 않고 기존 플릿 속성을 수정합니다.

  • 설명서, 테스트 프로토콜, 승인 워크플로 및 모니터링 프로세스에 대한 변경 관리 절차를 수립합니다.

    • 설명서:

      • 모든 이미지 및 플릿 업데이트에 대한 세부 변경 로그를 유지 관리합니다.

      • 각 변경 사항에 대한 테스트 절차와 결과를 문서화합니다.

      • AWS CloudTrail를 사용하여 구성 변경을 추적하고 감사합니다.

    • 테스트 프로토콜:

      • 모든 변경 사항에 대한 포괄적인 테스트 프로세스를 수립합니다.

      • 애플리케이션 기능, 성능 및 사용자 경험 테스트를 포함합니다.

      • 새 이미지를 생성하기 전에 이미지 빌더에서 테스트를 수행합니다.

      • 전체 배포 전에 비프로덕션 플릿에 대한 추가 테스트를 수행합니다.

    • 승인 워크플로:

      • 프로덕션 환경 변경에 대한 승인 프로세스를 구현합니다.

      • 승인과 표준 업데이트가 필요한 변경에 대한 기준을 정의합니다.

      • 변경 승인을 위한 역할과 책임을 설정합니다.

    • 모니터링 및 검증:

      • Amazon CloudWatch를 사용하여 변경 후 플릿 및 애플리케이션 성능을 모니터링합니다.

      • 주요 지표에 대한 알림을 설정하여 업데이트 후 문제를 빠르게 식별합니다.

      • 구현 후 검토를 수행하여 변경 성공을 검증하고 학습 내용을 수집합니다.

운영 절차를 자주 구체화합니다.

정기적인 검토, 업데이트 및 팀 참여를 통해 운영 절차를 지속적으로 개선하여 모든 이해관계자에게 최신 정보를 제공하고 모범 사례에 맞게 조정합니다.

  • 설명서 관리. WorkSpaces 애플리케이션 절차에 대한 최신 버전 제어 설명서를 중앙 위치에 유지하여 팀 간 운영 일관성과 지식 공유를 보장합니다.

    • 필수 설명서: 이미지 생성 및 관리, 플릿 작업 및 문제 해결을 위한 중요한 WorkSpaces 애플리케이션 작업에 대한 up-to-date 설명서를 유지 관리합니다.

    • 운영 검토: 성능 지표 및 인시던트 관리를 포함한 주요 운영 측면을 모니터링하고 검토합니다.

  • 지속적인 개선. AWS 서비스 업데이트, 운영 지표 및 학습된 모범 사례를 표준 절차에 통합하여 WorkSpaces 애플리케이션 운영을 체계적으로 개선합니다.

    • 서비스 업데이트: 새로운 기능, 서비스 개선 사항, 보안 업데이트 및 리전 가용성에 대한 WorkSpaces 애플리케이션 릴리스 정보를 모니터링합니다.

    • 모범 사례: AWS Well-Architected Framework 업데이트, WorkSpaces 애플리케이션 모범 사례, AWS 참조 아키텍처 및 AWS 보안 권장 사항을 검토하고 통합합니다.

    • 지식 관리: 표준 운영 절차, 런북, 문제 해결 가이드 및 사용자 지원 설명서를 유지 관리하고 업데이트합니다.

실패 예상

실패 시나리오 테스트를 정기적으로 수행하여 위험을 이해하고, 대응 절차를 검증하고, 실제 인시던트를 처리하기 위한 팀 준비 상태를 개선합니다.

  • 실패 테스트. 플릿 용량 소진, 애플리케이션 시작 실패, 네트워크 연결 문제와 같은 장애가 있는지 정기적으로 시뮬레이션하고 테스트합니다.

    • 플릿 용량 소진:

      • 용량 제한에 근접할 때 플릿 조정 동작을 모니터링하고 테스트합니다.

      • CapacityUtilizationAvailableCapacity 지표에 대한 CloudWatch 경보를 구성합니다.

      • 사용량이 가장 많은 동안 용량 제약을 처리하기 위한 절차를 구현합니다.

    • 애플리케이션 시작 실패:

      • 스트리밍 인스턴스에서 애플리케이션 시작 동작을 테스트합니다.

      • 다양한 플릿 구성에서 애플리케이션 액세스 및 성능을 검증합니다.

    • 네트워크 연결 문제:

      • 다양한 네트워크 조건에서 스트리밍 세션 성능을 테스트합니다.

      • StreamingSessionLatency 연결 품질 문제를 모니터링합니다.

      • VPC 설정 및 보안 그룹을 적절하게 구성해야 합니다.

  • 복구 절차. 다음을 위한 절차를 개발하고 테스트합니다.

    • 사이의 플릿 장애 조치입니다 AWS 가용 영역. 또한 플릿 용량 조정, 플릿 업데이트 관리 및 인스턴스 상태 문제에 대응하기 위한 절차를 문서화합니다.

    • 사용자 데이터 관리:

      • Windows 플릿용 Amazon Simple Storage Service(Amazon S3)의 홈 폴더와 Linux 플릿용 Amazon Elastic File System(Amazon EFS)의 공유 파일 시스템에 대한 애플리케이션 설정 지속성 및 스토리지 솔루션을 구성하고 테스트합니다.

      • 세션 간 데이터 동기화를 검증합니다.

    • 서비스 연속성. 새 플릿 인스턴스 생성, 이미지 업데이트 관리, 세션 연결 해제 처리 절차를 유지 관리합니다.

  • 위험 관리. 다음을 식별하고 완화합니다.

    • 적절한 플릿 최소 용량을 설정하고, 수요 패턴을 기반으로 자동 조정 정책을 구성하고, CapacityUtilizationInUseCapacity, 및와 같은 CloudWatch 지표를 사용하여 플릿 사용률 추세를 모니터링하여 용량 제약을 완화합니다AvailableCapacity.

    • 와 같은 주요 지표를 추적StreamingSessionLatency하고 적절한 CloudWatch 경보를 구성하여 성능 병목 현상을 발생시킵니다.

모든 운영 이벤트 및 지표에서 알아보기

조직 전체에서 운영 이벤트 및 장애로부터 얻은 교훈을 공유하여 지속적인 개선 문화를 조성합니다. 비즈니스 성과에 미치는 영향을 강조합니다.

  • 이벤트 분석. 서비스 중단, 성능 저하, 사용자 불만 및 용량 문제를 문서화하고 분석합니다.

  • 지표 검토. 사용량 패턴, 성능 추세, 비용 지표 및 사용자 만족도 데이터를 정기적으로 분석합니다.

  • 지식 공유. 팀 학습 세션, 모범 사례 설명서, 팀 간 지식 이전 및 인시던트 회고를 위한 프로세스를 설정합니다.

관리형 서비스 사용

AWS 관리형 서비스를 사용하고 이를 중심으로 표준화된 절차를 구축하여 운영 오버헤드를 최소화합니다. 를 다음 AWS 관리형 서비스와 통합합니다.