기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.
기본 제공 알고리즘의 인스턴스 유형
대부분의 Amazon SageMaker AI 알고리즘은 훈련을 위해 GPU 컴퓨팅을 활용하도록 설계되었습니다. 높은 인스턴스당 비용에도 불구하고 GPU는 더욱 빠르게 교육하여 더욱 효율적입니다. 예외가 이 가이드에 언급되어 있습니다.
지원되는 EC2 인스턴스에 대한 자세한 내용은 인스턴스 세부 정보를 참조하세요
데이터의 크기와 유형은 어떤 하드웨어 구성이 가장 효율적인지에 대해 큰 영향을 미칠 수 있습니다. 동일한 모델이 반복적으로 훈련될 때 일련의 인스턴스 유형에 걸친 초기 테스팅을 통해 장기적으로 가장 비용 효과적인 구성을 발견할 수 있습니다. 추가로 GPU에서 가장 효율적으로 교육하는 알고리즘은 효율적인 추론에 대해 GPU가 필요하지 않을 수 있습니다. 실험을 통해 비용 효율성이 가장 높은 솔루션을 결정합니다. 자동 인스턴스 추천을 받거나 사용자 지정 로드 테스트를 수행하려면 Amazon SageMaker Inference Recommender를 사용하세요.
SageMaker AI 하드웨어 사양에 대한 자세한 내용은 Amazon SageMaker AI ML 인스턴스 유형을 참조하세요
UltraServers
UltraServers 지연 시간이 짧은 고대역폭 액셀러레이터 인터커넥트를 사용하여 여러 Amazon EC2 인스턴스를 연결합니다. 상당한 처리 능력이 필요한 대규모 AI/ML 워크로드를 처리하도록 구축되었습니다. 자세한 내용은 Amazon EC2 UltraServers
Amazon SageMaker AI에서 UltraServers를 시작하려면 훈련 계획을 생성합니다. 훈련 계획에서 UltraServer를 사용할 수 있게 되면 AWS Management Console Amazon SageMaker AI API 또는를 사용하여 훈련 작업을 생성합니다 AWS CLI. 훈련 계획에서 구매한 UltraServer 인스턴스 유형을 지정해야 합니다.
UltraServer는 한 번에 하나 이상의 작업을 실행할 수 있습니다. UltraServers는 인스턴스를 그룹화하여 조직에서 UltraServer 용량을 할당하는 방법에 대한 유연성을 제공합니다. 한 UltraServer의 다른 인스턴스에 있는 다른 작업의 데이터에 액세스할 수 있으므로 작업을 구성할 때 조직의 데이터 보안 지침도 기억하세요 UltraServer.
UltraServer에서 하드웨어 장애가 발생하면 SageMaker AI는 자동으로 문제를 해결하려고 시도합니다. SageMaker AI가 문제를 조사하고 해결하면 AWS Health 이벤트 또는를 통해 알림 및 작업을 받을 수 있습니다 AWS Support.
훈련 작업이 완료되면 SageMaker AI는 인스턴스를 중지하지만 계획이 여전히 활성 상태인 경우 훈련 계획에 계속 사용할 수 있습니다. 작업이 완료된 후 UltraServer에서 인스턴스를 계속 실행하려면 관리형 웜 풀을 사용할 수 있습니다.
훈련 계획에 충분한 용량이 있는 경우 여러 UltraServers에서 훈련 작업을 실행할 수도 있습니다. 기본적으로 각 UltraServer에는 인스턴스 17개와 예비 인스턴스 1개로 구성된 인스턴스 18개가 함께 제공됩니다. 인스턴스가 더 필요한 경우 UltraServers를 더 구매해야 합니다. 훈련 작업을 생성할 때 InstancePlacementConfig
파라미터를 사용하여 UltraServers에 작업을 배치하는 방법을 구성할 수 있습니다.
작업 배치를 구성하지 않으면 SageMaker AI는 UltraServer 내의 인스턴스에 작업을 자동으로 할당합니다. 이 기본 전략은 다른 UltraServer를 사용하기 전에 단일 UltraServer의 모든 인스턴스를 채우는 데 우선순위를 두는 최선의 노력을 기반으로 합니다 UltraServer. 예를 들어 인스턴스 14개를 요청하고 훈련 계획에 UltraServers가 2개 있는 경우 SageMaker AI는 첫 번째 UltraServer의 모든 인스턴스를 사용합니다. 인스턴스 20개를 요청했고 훈련 계획에 UltraServers가 2개 있는 경우 SageMaker AI는 첫 번째 UltraServer의 인스턴스 17개를 모두 사용한 다음 두 번째 UltraServer의 인스턴스 3개를 사용합니다. UltraServer 내의 인스턴스는 NVLink를 사용하여 통신하지만 개별 UltraServers는 모델 훈련 성능에 영향을 미칠 수 있는 EFA(Elastic Fabric Adapter)를 사용합니다.