View a markdown version of this page

운영 우수성 요소 - AWS 권장 가이드

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

운영 우수성 요소

AWS Well-Architected Framework의 운영 우수성 원칙은 시스템을 실행 및 모니터링하고 프로세스와 절차를 지속적으로 개선하는 데 중점을 둡니다. 여기에는 효과적인 개발 및 워크로드 실행을 지원하고, 작업에 대한 인사이트를 얻으며, 지원 프로세스 및 절차를 지속적으로 개선하여 비즈니스 가치를 전달할 수 있는 능력이 포함됩니다. 사람의 개입 없이 대부분의 문제를 감지하고 해결하는 자가 복구 워크로드를 통해 운영 복잡성을 줄일 수 있습니다. 이 섹션에 설명된 모범 사례를 따르면이 목표를 달성할 수 있으며, Amazon Neptune Analytics 지표, APIs 및 메커니즘을 사용하여 워크로드가 예상 동작과 다를 때 적절하게 대응할 수 있습니다.

운영 우수성 원칙에 대한 이 논의는 다음 핵심 영역에 중점을 둡니다.

  • 코드형 인프라(IaC)

  • 변경 관리

  • 복원력 전략

  • 인시던트 관리

  • 규정 준수를 위한 감사 보고

  • 로깅 및 모니터링

IaC 접근 방식을 사용하여 배포 자동화

IaC를 사용하여 Neptune에서 배포를 자동화하는 모범 사례는 다음과 같습니다.

운영을 고려한 설계

Neptune Analytics 그래프 운영 방식을 개선하기 위한 접근 방식을 채택합니다.

  • 개발, 테스트 및 프로덕션 용도로 별도의 Neptune Analytics 그래프를 유지 관리합니다. 이러한 그래프에는 데이터 세트, 사용자 및 운영 제어가 다를 수 있습니다.

  • 다양한 용도에 맞게 별도의 Neptune Analytics 그래프를 유지 관리합니다. 예를 들어 두 분석 사용자 그룹이 서로 다른 타임라인, 모델, 성능 및 가용성 SLAs, 사용 패턴을 가진 별도의 그래프를 필요로 하는 경우 각 그룹에 대해 별도의 그래프를 유지합니다.

  • Neptune Analytics 유지 관리 업데이트를 위해 사용자 및 운영 직원을 준비합니다.

되돌릴 수 있는 소규모 변경 자주 적용

다음 권장 사항은 복잡성을 최소화하고 워크로드 중단 가능성을 줄이기 위해 수행할 수 있는 작고 되돌릴 수 있는 변경 사항에 중점을 둡니다.

  • IaC 템플릿 및 스크립트를 GitHub 또는 GitLab과 같은 소스 제어 서비스에 저장합니다.

    중요

    소스 제어에 AWS 자격 증명을 저장하지 마십시오.

  • AWS CodeDeploy 또는와 같은 지속적 통합 및 지속적 전달(CI/CD) 서비스를 사용하려면 IaC 배포가 필요합니다AWS CodeBuild. 프로덕션 그래프로 승격하기 전에 비프로덕션 Neptune Analytics 환경에서 코드를 컴파일, 테스트 및 배포합니다.

실행 가능한 인사이트를 위한 관찰성 구현

워크로드 동작, 성능, 신뢰성, 비용 및 상태를 포괄적으로 이해합니다. 다음 권장 사항은 Neptune Analytics에서 이러한 수준의 이해를 얻는 데 도움이 됩니다.

  • Neptune Analytics에 대한 Amazon CloudWatch 지표를 모니터링합니다. 이러한 지표에서 그래프의 크기(노드, 엣지 및 벡터 수와 총 바이트 크기), CPU 사용률, 쿼리 요청 및 오류율을 확인할 수 있습니다.

  • NumQueuedRequestsPerSec, , , NumOpenCypherRequestsPerSecGraphStorageUsagePercentGraphSizeBytes, 등의 주요 지표CPUUtilization와 애플리케이션 로그에 있는 Neptune 클라이언트 응답에 대한 CloudWatch 대시보드 및 경보를 생성합니다.

  • 그래프 크기, 요청 속도 또는 CPU 사용률이 임계값을 초과하는 경우와 같이 Neptune Analytics 그래프의 상태를 모니터링하도록 알림을 설정합니다. 예를 들어 GraphStorageUsagePercent가 크게 성장하려는 그래프에서 90%로 상승한 경우 메모리 최적화 Neptune 용량 단위(m-NCU) 용량을 늘릴지 여부를 결정합니다. 현재 m-NCU가 128인 경우 256으로 늘리면 스토리지가 약 45% 줄어듭니다. NumQueuedRequestsPerSec가 0보다 큰 경우가 많으면 더 많은 컴퓨팅 용량을 제공하기 위해 m-NCU 용량을 늘리는 것이 좋습니다. 또는 클라이언트 측 동시성을 줄일 수 있습니다.

모든 운영 장애로부터 학습

자가 복구 인프라는 드문 문제가 발생하거나 응답이 원하는 만큼 효과적이지 않을 때 반복으로 발전하는 장기적인 노력을 보여줍니다. 다음 사례를 채택하면 다음과 같은 목표에 집중합니다.

  • 모든 장애로부터 학습하여 개선을 주도합니다.

  • 조직과 여러 팀에서 학습한 내용을 공유합니다. 조직 내 여러 팀이 Neptune을 사용하는 경우 공통 채팅룸 또는 사용자 그룹을 생성하여 학습 내용과 모범 사례를 공유합니다.

로깅 기능을 사용하여 무단 또는 비정상적인 활동 모니터링

로깅을 사용하여 비정상적인 성능 및 활동 패턴을 관찰합니다. 다음 모범 사례를 고려하세요.

  • Neptune Analytics는를 사용하여 컨트롤 플레인 작업의 로깅을 지원합니다 AWS CloudTrail. 자세한 내용은를 사용하여 Neptune Analytics API 호출 로깅 AWS CloudTrail을 참조하세요. 이 기능을 통해 Neptune Analytics 리소스의 생성, 업데이트 및 삭제를 추적할 수 있습니다. 강력한 모니터링 및 경고를 위해 CloudTrail 이벤트를 Amazon CloudWatch Logs와 통합할 수도 있습니다. Neptune Analytics 서비스 활동에 대한 분석을 개선하고에 대한 활동의 변경 사항을 식별하기 위해 Amazon Athena를 사용하여 CloudTrail 로그를 쿼리 AWS 계정할 수 있습니다. 예를 들어 쿼리를 사용하여 트렌드를 식별하고 소스 IP 주소나 사용자 등의 속성별로 활동을 추가로 격리할 수 있습니다.

  • CloudTrail을 사용하여 쿼리 실행과 같은 Neptune Analytics 데이터 영역 활동의 로깅을 활성화할 수도 있습니다. 실행 중인 쿼리, 빈도 및 소스를 볼 수 있습니다. 기본적으로 CloudTrail은 데이터 이벤트를 로깅하지 않습니다. 데이터 이벤트에는 추가 요금이 적용됩니다. 자세한 내용은 AWS CloudTrail 요금을 참조하십시오.

  • 컨트롤 플레인 또는 데이터 플레인에서 Neptune Analytics에 대한 애플리케이션 호출을 로깅할 수도 있습니다. 예를 들어를 사용하여 쿼리AWS SDK for Python (Boto3)를 수행하는 경우 디버그 수준 로깅을 활성화하여 콘솔 또는 파일에 대한 쿼리 추적을 가져올 수 있습니다. 이는 개발 중에 유용합니다. 또한 애플리케이션에서 예외를 포착하고 기록하는 것이 좋습니다.