

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

# 組み込みアルゴリズムのインスタンスタイプ
<a name="cmn-info-instance-types"></a>

ほとんどの Amazon SageMaker AI アルゴリズムは、トレーニングに GPU コンピューティングを活用するように設計されています。インスタンスごとのコストは高いものの、GPU はトレーニングをより迅速に行うため、費用対効果が高くなります。このガイドには例外が記載されています。

サポートされている EC2 インスタンスの詳細については、「[Instance details](https://aws.amazon.com/sagemaker-ai/pricing/#Instance_details)」を参照してください。

データのサイズとタイプは、どのハードウェア構成が最も効果を発揮するかどうかに大きな影響を与えます。同じモデルが定期的にトレーニングされる場合、インスタンスタイプの初期テストで、長期的に見てよりコスト効率の良い構成を発見できます。さらに、GPU に対して最も効率的にトレーニングするアルゴリズムは、効率的な推論に GPU を必要としない場合があります。最も費用対効果の高いソリューションを試してみてください。自動インスタンスレコメンデーションを取得したり、カスタムロードテストを実施したりするには、[Amazon SageMaker Inference Recommender](https://docs.aws.amazon.com/sagemaker/latest/dg/inference-recommender.html) を使用してください。

SageMaker AI ハードウェア仕様の詳細については、[Amazon SageMakerの料金](https://aws.amazon.com/sagemaker/ai/pricing/)」を参照してください。

**UltraServers**

UltraServers は、低レイテンシー、高帯域幅のアクセラレーター相互接続を使用して複数の Amazon EC2 インスタンスを接続します。これらは、大量の処理能力を必要とする大規模な AI/ML ワークロードを処理するように構築されています。詳細については、「[Amazon EC2 UltraServers](https://aws.amazon.com/ec2/ultraservers/)」を参照してください。UltraServer の使用を開始するには、「[トレーニングジョブまたは HyperPod クラスターのトレーニングプランを予約する](https://docs.aws.amazon.com/sagemaker/latest/dg/reserve-capacity-with-training-plans.html)」を参照してください。

Amazon SageMaker AI で UltraServer の使用を開始するには、[トレーニングプランを作成](https://docs.aws.amazon.com/sagemaker/latest/dg/reserve-capacity-with-training-plans.html)します。UltraServer がトレーニングプランで使用できるようになったら、 AWS マネジメントコンソール、Amazon SageMaker AI API、または を使用してトレーニングジョブを作成します AWS CLI。トレーニングプランで購入した UltraServer インスタンスタイプを必ず指定してください。

UltraServer では一度に 1 つ以上のジョブを実行できます。UltraServer ではインスタンスがグループ化されるため、UltraServer キャパシティを組織で割り当てる方法について柔軟性があります。ジョブを設定するときは、組織のデータセキュリティガイドラインも忘れないようにしてください。1 つの UltraServer のインスタンスが同じ UltraServer の別のインスタンスの別のジョブのデータにアクセスできるためです。

UltraServer でハードウェア障害が発生した場合、SageMaker AI では自動的に問題を解決しようとします。SageMaker AI が問題を調査して解決すると、 AWS Health イベントまたは を通じて通知とアクションを受け取ることがあります AWS サポート。

トレーニングジョブが完了すると、SageMaker AI はインスタンスを停止しますが、プランがまだアクティブな場合はトレーニングプランで引き続き使用できます。ジョブの完了後に UltraServer のインスタンスを実行し続けるには、[マネージドウォームプール](https://docs.aws.amazon.com/sagemaker/latest/dg/train-warm-pools.html)を使用できます。

トレーニングプランに十分なキャパシティがある場合は、複数の UltraServer でトレーニングジョブを実行することもできます。デフォルトでは、各 UltraServer には 17 個のインスタンスと 1 個の予備のインスタンスで構成される 18 個のインスタンスが付属しています。さらにインスタンスが必要な場合は、UltraServer を追加購入する必要があります。トレーニングジョブを作成するときは、`InstancePlacementConfig` パラメータを使用して UltraServer 間でジョブを配置する方法を設定できます。

ジョブ配置を設定しない場合、SageMaker AI は UltraServer 内のインスタンスにジョブを自動的に割り当てます。このデフォルトの戦略は、別の UltraServer を使用する前に、1 つの UltraServer ですべてのインスタンスを満たすことを優先するベストエフォートに基づいています。例えば、14 個のインスタンスをリクエストし、トレーニングプランに 2 個の UltraServer がある場合、SageMaker AI では最初の UltraServer のすべてのインスタンスを使用します。20 個のインスタンスをリクエストし、トレーニングプランに 2 個の UltraServer がある場合、SageMaker AI は最初の UltraServer の 17 個のインスタンスすべてを使用してから、2 番目の UltraServer の 3 個のインスタンスを使用します。UltraServer 内のインスタンスでは NVLink を使用して通信しますが、個々の UltraServer では Elastic Fabric Adapter (EFA) を使用し、これがモデルトレーニングのパフォーマンスに影響する可能性があります。