

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

# 기본 제공 알고리즘의 인스턴스 유형
<a name="cmn-info-instance-types"></a>

대부분의 Amazon SageMaker AI 알고리즘은 훈련하는 데 GPU 컴퓨팅을 활용하도록 엔지니어링되었습니다. 높은 인스턴스당 비용에도 불구하고 GPU는 더욱 빠르게 교육하여 더욱 효율적입니다. 예외가 이 가이드에 언급되어 있습니다.

지원되는 EC2 인스턴스에 대한 자세한 내용은 [인스턴스 세부 정보](https://aws.amazon.com/sagemaker-ai/pricing/#Instance_details)를 참조하세요.

데이터의 크기와 유형은 어떤 하드웨어 구성이 가장 효율적인지에 대해 큰 영향을 미칠 수 있습니다. 동일한 모델이 반복적으로 훈련될 때 일련의 인스턴스 유형에 걸친 초기 테스팅을 통해 장기적으로 가장 비용 효과적인 구성을 발견할 수 있습니다. 추가로 GPU에서 가장 효율적으로 교육하는 알고리즘은 효율적인 추론에 대해 GPU가 필요하지 않을 수 있습니다. 실험을 통해 비용 효율성이 가장 높은 솔루션을 결정합니다. 자동 인스턴스 추천을 받거나 사용자 지정 로드 테스트를 수행하려면 [Amazon SageMaker Inference Recommender](https://docs.aws.amazon.com/sagemaker/latest/dg/inference-recommender.html)를 사용하세요.

SageMaker AI 하드웨어 사양에 대한 자세한 내용은 [Amazon SageMaker AI 요금을](https://aws.amazon.com/sagemaker/ai/pricing/) 참조하세요.

**UltraServer**

UltraServer는 지연 시간이 짧은 고대역폭 액셀러레이터 인터커넥트를 사용하여 여러 Amazon EC2 인스턴스를 연결합니다. 상당한 처리 능력이 필요한 대규모 AI/ML 워크로드를 처리하도록 구축되었습니다. 자세한 내용은 [Amazon EC2 UltraServers](https://aws.amazon.com/ec2/ultraservers/)를 참조하세요. UltraServer를 시작하려면 [훈련 작업 또는 HyperPod 클러스터에 대한 훈련 계획 예약](https://docs.aws.amazon.com/sagemaker/latest/dg/reserve-capacity-with-training-plans.html)을 참조하세요.

Amazon SageMaker AI에서 UltraServer를 시작하려면 [훈련 계획을 만듭니다](https://docs.aws.amazon.com/sagemaker/latest/dg/reserve-capacity-with-training-plans.html). 훈련 계획에서 UltraServer를 사용할 수 있게 되면 AWS Management Console Amazon SageMaker AI API 또는를 사용하여 훈련 작업을 생성합니다 AWS CLI. 훈련 계획에서 구매한 UltraServer 인스턴스 유형을 지정해야 합니다.

UltraServer는 한 번에 하나 또는 여러 개의 작업을 실행할 수 있습니다. UltraServer는 인스턴스를 그룹화하여 조직에서 UltraServer 용량을 할당하는 방법에 대한 유연성을 제공합니다. 또한 작업을 구성할 때 조직의 데이터 보안 가이드라인을 기억합니다. 하나의 UltraServer에 있는 인스턴스는 동일한 UltraServer에 있는 또 다른 인스턴스의 다른 작업에 대한 데이터에 액세스할 수 있기 때문입니다.

UltraServer에서 하드웨어 장애가 발생하면 SageMaker AI는 자동으로 문제를 해결하려고 시도합니다. SageMaker AI가 문제를 조사하고 해결하면 AWS Health 이벤트 또는를 통해 알림 및 작업을 받을 수 있습니다 AWS Support.

훈련 작업이 완료되면 SageMaker AI는 인스턴스를 중지하지만 계획이 아직 활성 상태인 경우 훈련 계획에 계속 사용할 수 있습니다. 작업이 완료된 후 UltraServer에서 인스턴스를 계속 실행하려면 [관리형 웜 풀](https://docs.aws.amazon.com/sagemaker/latest/dg/train-warm-pools.html)을 사용할 수 있습니다.

훈련 계획에 충분한 용량이 있는 경우 여러 UltraServer에서 훈련 작업을 실행할 수도 있습니다. 기본적으로 각 UltraServer에는 인스턴스 17개와 예비 인스턴스 1개로 구성된 인스턴스 18개가 함께 제공됩니다. 인스턴스가 더 필요한 경우 UltraServer를 더 구매해야 합니다. 훈련 작업을 만들 때 `InstancePlacementConfig` 파라미터를 사용하여 UltraServer에 작업을 배치하는 방법을 구성할 수 있습니다.

작업 배치를 구성하지 않으면 SageMaker AI는 UltraServer 내의 인스턴스에 작업을 자동으로 할당합니다. 이 기본 전략은 최선의 노력을 기반으로 하며, 다른 UltraServer를 사용하기 전에 단일 UltraServer의 모든 인스턴스를 채우는 데 우선순위를 둡니다. 예를 들어 인스턴스 14개를 요청하고 훈련 계획에 UltraServer가 2개 있는 경우 SageMaker AI는 첫 번째 UltraServer에서 모든 인스턴스를 사용합니다. 인스턴스 20개를 요청했고 훈련 계획에 UltraServer가 2개 있는 경우 SageMaker AI는 첫 번째 UltraServer에서 인스턴스 17개를 모두 사용한 다음, 두 번째 UltraServer에서 인스턴스 3개를 사용합니다. UltraServer 내의 인스턴스는 NVLink를 사용하여 통신하지만 개별 UltraServer는 모델 훈련 성능에 영향을 미칠 수 있는 Elastic Fabric Adapter(EFA)를 사용합니다.