ML용 용량 블록 - Amazon Elastic Compute Cloud

ML용 용량 블록

ML용 용량 블록을 사용하면 향후 날짜에 GPU 기반 가속 컴퓨팅 인스턴스를 예약하여 단기간의 기계 학습(ML) 워크로드를 지원할 수 있습니다. 용량 블록 내부에서 실행되는 인스턴스는 지연 시간이 짧은 페타비트 규모의 비차단 네트워킹을 위해 Amazon EC2 UltraClusters 내부에 자동으로 서로 가깝게 배치됩니다.

용량 블록을 사용하여 Amazon EC2 UltraServers의 용량을 예약할 수도 있습니다. UltraServers는 지연 시간이 짧은 고대역폭 액셀러레이터 인터커넥트 내에서 여러 Amazon EC2 인스턴스를 연결합니다. UltraServers를 사용하여 훈련, 미세 조정, 추론에서 가장 많은 컴퓨팅 및 메모리 집약적인 AI/ML 워크로드를 처리할 수 있습니다. 자세한 내용은 Amazon EC2 UltraServers를 참조하세요.

용량 블록을 사용하면 미래 날짜에 GPU 인스턴스 용량을 사용할 수 있는 시점을 확인하고, 가장 적합한 시간에 시작하도록 용량 블록을 예약할 수 있습니다. 용량 블록을 예약하면 필요한 시간에 해당하는 비용만 결제하면서 GPU 인스턴스의 용량 보증을 예측할 수 있습니다. 한 번에 며칠 또는 몇 주 동안 ML 워크로드를 지원하는 GPU가 필요하고 GPU 인스턴스를 사용하지 않는 동안에는 예약을 결제하지 않으려는 경우에 용량 블록을 사용하는 것이 좋습니다.

다음은 용량 블록의 몇 가지 일반적인 사용 사례입니다.

  • ML 모델 훈련 및 미세 조정 – 예약한 GPU 인스턴스에 중단 없이 액세스하여 ML 모델 훈련 및 미세 조정을 완료합니다.

  • ML 실험 및 프로토타입 – GPU 인스턴스가 단기간 필요한 실험을 실행하고 프로토타입을 구축합니다.

다음 사양으로 용량 블록을 예약할 수 있습니다.

  • 최대 8주 전에 시작 시간 예약

  • 예약 기간을 1일부터 14일까지 또는 7일의 배수로 설정할 수 있으며(예: 21일, 28일) 최대 182일까지 가능

  • 용량 블록당 인스턴스 최대 64개 구성

  • 여러 용량 블록에서 인스턴스 최대 256개 구성

Amazon EC2 UltraServers의 경우 각 UltraServer는 한 용량 블록에 해당합니다. 단일 요청을 통해 여러 UltraServers를 요청할 수 있습니다.

용량 블록을 사용하여 p6-b200, p5, p5e, p5en, p4d, p4de, trn1, trn2 인스턴스를 예약할 수 있습니다. P6e-GB200Trn2(미리 보기) 용량 블록을 통해 UltraServer 유형을 구매할 수 있습니다.

용량 블록을 예약하려면 필요한 인스턴스 유형 또는 UltraServer 유형, 인스턴스 수 또는 UltraServers 수, 시간, 가장 이른 시작 날짜, 가장 늦은 종료 날짜 등 필요한 용량부터 지정합니다. 그러면 사양에 알맞게 제공되는 사용 가능한 용량 블록을 확인할 수 있습니다. 용량 블록 상품에는 시작 시간, 가용 영역, 예약 가격과 같은 세부 정보가 포함됩니다. 용량 블록 상품의 가격은 상품이 제공되는 당시에 사용 가능한 공급과 수요에 따라 다릅니다. 용량 블록 예약 후에는 가격이 변경되지 않습니다. 자세한 내용은 용량 블록 요금 및 결제 섹션을 참조하세요.

용량 블록 상품을 구매하면 선택한 날짜 및 인스턴스 수에 대한 예약이 생성됩니다. 용량 블록 예약이 시작되면 시작 요청에 예약 ID를 지정하여 인스턴스 시작을 대상으로 지정할 수 있습니다.

예약한 모든 인스턴스는 용량 블록 종료 시간 30분 전(인스턴스 유형의 경우) 또는 60분 전(UltraServer 유형의 경우)까지 사용할 수 있습니다. 용량 블록 예약이 30분(인스턴스 유형의 경우) 또는 60분(UltraServer 유형의 경우) 남았을 때, 용량 블록에서 실행 중인 모든 인스턴스가 종료되기 시작합니다. 30분은 다음 고객에게 용량 블록을 제공하기 전에 인스턴스를 정리하는 데 사용됩니다. 종료 프로세스가 시작되기 10분 전에 EventBridge를 통해 이벤트가 발생합니다. 자세한 내용은 EventBridge를 사용한 용량 블록 모니터링 섹션을 참조하세요.

지원하는 플랫폼

ML용 용량 블록에서는 현재 기본 테넌시만 있는 인스턴스 및 UltraServers를 지원합니다. AWS Management Console을 사용하여 용량 블록을 구매하는 경우 기본 플랫폼 옵션은 Linux/UNIX입니다. AWS Command Line Interface(AWS CLI) 또는 AWS SDK를 사용하여 용량 블록을 구매하는 경우 다음과 같은 플랫폼 옵션을 사용할 수 있습니다.

  • Linux/Unix

  • Red Hat Enterprise Linux

  • HA가 설치된 RHEL

  • SUSE Linux

  • Ubuntu Pro

고려 사항

용량 블록을 사용하기 전에 다음 세부 정보와 제한 사항을 고려하세요.

  • P6e-GB200 UltraServer 용량 블록의 경우 용량 블록 종료 시간 최소 60분 전에 인스턴스를 종료해야 합니다.

  • P6e-GB200 UltraServer 용량 블록을 사용하려면 댈러스 로컬 영역(버지니아 북부) 로컬 영역에 옵트인해야 합니다.

  • 각 용량 블록에는 최대 64개의 인스턴스가 있을 수 있으며, 용량 블록 전체에 최대 256개의 인스턴스가 있을 수 있습니다.

  • 30분 이내에 시작할 수 있는 용량 블록 상품을 설명할 수 있습니다.

  • 용량 블록은 협정 세계시(UTC) 오전 11:30에 종료됩니다.

  • 용량 블록에서 실행 중인 인스턴스의 종료 프로세스는 예약 마지막 날의 협정 세계시(UTC) 오전 11:00에 시작됩니다.

  • 용량 블록은 시작 시간을 기준으로 향후 8주까지 예약할 수 있습니다.

  • 용량 블록 취소는 허용되지 않습니다.

  • 용량 블록은 이동하거나 분할할 수 없습니다.

  • 용량 블록은 AWS 계정 간 또는 AWS 조직 내에서 공유할 수 없습니다.

  • 용량 블록은 용량 예약 그룹에서 사용할 수 없습니다.

  • AWS 조직의 모든 계정에서 용량 블록에 예약할 수 있는 특정 날짜의 총 인스턴스 수는 64개를 초과할 수 없습니다.

  • 용량 블록을 사용하려면 인스턴스에서 구체적인 예약 ID를 대상으로 지정해야 합니다.

  • 용량 블록의 인스턴스는 온디맨드 인스턴스 한도 계산에 포함되지 않습니다.

  • 사용자 지정 AMI를 사용하는 P5 인스턴스의 경우 EFA에 필요한 소프트웨어 및 구성이 있는지 확인합니다.

  • Amazon EKS 관리형 노드 그룹의 경우 Amazon EC2 Capacity Blocks for ML이 포함된 관리형 노드 그룹 생성을 참조하세요. Amazon EKS 자체 관리형 노드 그룹의 경우 자체 관리형 노드가 포함된 ML용 용량 블록 사용을 참조하세요.

용량 블록 생성 후 용량 블록을 사용하여 다음 작업을 수행할 수 있습니다.

AWS ParallelCluster에 대한 자세한 정보는 AWS ParallelCluster란 무엇입니까?​를 참조하세요.

참고

64개 인스턴스의 용량 블록 크기는 모든 AWS 리전의 모든 인스턴스 유형에 대해 지원되지 않습니다.