

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

# Pelatihan penskalaan
<a name="distributed-training-scenarios"></a>

Bagian berikut mencakup skenario di mana Anda mungkin ingin meningkatkan pelatihan, dan bagaimana Anda dapat melakukannya menggunakan AWS sumber daya. Anda mungkin ingin meningkatkan pelatihan dalam salah satu situasi berikut:
+ Penskalaan dari satu GPU ke banyak GPUs
+ Penskalaan dari satu instance ke beberapa instance
+ Menggunakan skrip pelatihan khusus

## Penskalaan dari satu GPU ke banyak GPUs
<a name="scaling-from-one-GPU"></a>

Jumlah data atau ukuran model yang digunakan dalam pembelajaran mesin dapat menciptakan situasi di mana waktu untuk melatih model lebih lama sehingga Anda bersedia menunggu. Terkadang, pelatihan tidak berfungsi sama sekali karena model atau data pelatihan terlalu besar. Salah satu solusinya adalah meningkatkan jumlah yang GPUs Anda gunakan untuk pelatihan. Pada contoh dengan beberapa GPUs, seperti `p3.16xlarge` yang memiliki delapan GPUs, data dan pemrosesan dibagi menjadi delapan GPUs. Saat Anda menggunakan pustaka pelatihan terdistribusi, ini dapat menghasilkan percepatan hampir linier dalam waktu yang diperlukan untuk melatih model Anda. Dibutuhkan sedikit lebih dari 1/8 waktu yang akan diambil `p3.2xlarge` dengan satu GPU.


|  Tipe instans  |  GPUs  | 
| --- | --- | 
|  p3.2xlarge  |  1  | 
|  p3.8xlarge  |  4  | 
|  p3.16xlarge  |  8  | 
|  p3dn.24xlarge  |  8  | 

**catatan**  
Jenis instans mL yang digunakan oleh SageMaker pelatihan memiliki jumlah yang sama dengan jenis instance p3 yang sesuai. GPUs Misalnya, `ml.p3.8xlarge` memiliki jumlah yang sama dengan GPUs `p3.8xlarge` - 4. 

## Penskalaan dari satu instance ke beberapa instance
<a name="scaling-from-one-instance"></a>

Jika Anda ingin meningkatkan skala pelatihan Anda lebih jauh, Anda dapat menggunakan lebih banyak contoh. Namun, Anda harus memilih jenis instans yang lebih besar sebelum menambahkan lebih banyak instance. Tinjau tabel sebelumnya untuk melihat berapa GPUs banyak di setiap jenis instans p3. 

Jika Anda telah melakukan lompatan dari satu GPU pada satu `p3.2xlarge` ke empat GPUs pada a`p3.8xlarge`, tetapi memutuskan bahwa Anda memerlukan lebih banyak daya pemrosesan, Anda mungkin melihat kinerja yang lebih baik dan mengeluarkan biaya yang lebih rendah jika Anda memilih `p3.16xlarge` sebelum mencoba meningkatkan jumlah instans. Bergantung pada pustaka yang Anda gunakan, ketika Anda mempertahankan pelatihan Anda pada satu instance, kinerja lebih baik dan biaya lebih rendah daripada skenario di mana Anda menggunakan beberapa instance.

Saat Anda siap untuk menskalakan jumlah instance, Anda dapat melakukan ini dengan fungsi SageMaker AI Python `estimator` SDK dengan menyetel. `instance_count` Misalnya, Anda dapat mengatur `instance_type = p3.16xlarge` dan`instance_count = 2`. Alih-alih delapan GPUs pada satu`p3.16xlarge`, Anda memiliki 16 GPUs di dua contoh yang identik. Bagan berikut menunjukkan [penskalaan dan throughput dimulai dengan delapan GPUs](https://aws.amazon.com/blogs/machine-learning/scalable-multi-node-training-with-tensorflow/) pada satu instance dan meningkat menjadi 64 instance dengan total 256. GPUs 

 ![\[Chart showing how throughput increases and time to train decreases with more GPUs.\]](http://docs.aws.amazon.com/id_id/sagemaker/latest/dg/images/distributed/Distributed-Training-in-SageMaker-image.png) 

## Skrip pelatihan khusus
<a name="custom-training-scripts"></a>

Meskipun SageMaker AI mempermudah penerapan dan skala jumlah instance dan GPUs, tergantung pada kerangka kerja pilihan Anda, mengelola data dan hasil bisa sangat menantang, itulah sebabnya perpustakaan pendukung eksternal sering digunakan. Bentuk pelatihan terdistribusi yang paling dasar ini memerlukan modifikasi skrip pelatihan Anda untuk mengelola distribusi data. 

SageMaker AI juga mendukung Horovod dan implementasi pelatihan terdistribusi asli untuk setiap kerangka pembelajaran mendalam utama. Jika Anda memilih untuk menggunakan contoh dari kerangka kerja ini, Anda dapat mengikuti [panduan kontainer SageMaker ](https://docs.aws.amazon.com/sagemaker/latest/dg/docker-containers.html) AI untuk Deep Learning Containers, dan berbagai [contoh notebook](https://sagemaker-examples.readthedocs.io/en/latest/training/bring_your_own_container.html) yang menunjukkan implementasi. 