Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.
Memodifikasi Skrip PyTorch Pelatihan
Di bagian ini, Anda mempelajari cara memodifikasi skrip PyTorch pelatihan untuk mengonfigurasi pustaka paralelisme SageMaker model untuk partisi otomatis dan partisi manual.
catatan
Untuk menemukan PyTorch versi mana yang didukung oleh perpustakaan, lihatKerangka Kerja yang Didukung dan Wilayah AWS.
Tip
Untuk contoh end-to-end buku catatan yang menunjukkan cara menggunakan skrip PyTorch pelatihan dengan pustaka paralelisme SageMaker model, lihat. Contoh perpustakaan paralelisme model Amazon SageMaker AI v1
Perhatikan bahwa partisi otomatis diaktifkan secara default. Kecuali ditentukan lain, skrip berikut menggunakan partisi otomatis.
Topik
Pemisahan otomatis dengan PyTorch
Perubahan skrip pelatihan berikut diperlukan untuk menjalankan skrip PyTorch pelatihan dengan pustaka SageMaker paralelisme model:
-
Impor dan inisialisasi perpustakaan dengan
smdistributed.modelparallel.torch.init(). -
Bungkus model dengan
smdistributed.modelparallel.torch.DistributedModel. Berhati-hatilah bahwa setiap tensor yang dikembalikan dari forwardmetodenn.Moduleobjek yang mendasarinya akan disiarkan di seluruh perangkat model-paralel, menimbulkan overhead komunikasi, jadi tensor apa pun yang tidak diperlukan di luar metode panggilan (seperti aktivasi perantara) tidak boleh dikembalikan.catatan
Untuk FP16 pelatihan, Anda perlu menggunakan pengelola konteks smdistributed.modelparallel.torch.model_creation
() untuk membungkus model. Untuk informasi selengkapnya, lihat FP16 Pelatihan dengan Model Paralelisme. -
Bungkus pengoptimal dengan
smdistributed.modelparallel.torch.DistributedOptimizer. catatan
Untuk FP16 pelatihan, Anda perlu mengatur penskalaan kerugian statis atau dinamis. Untuk informasi selengkapnya, lihat FP16 Pelatihan dengan Model Paralelisme.
-
Gunakan
DistributedModelobjek yang dikembalikan alih-alih model pengguna. -
Letakkan logika maju dan mundur dalam fungsi langkah dan hiasi dengan
smdistributed.modelparallel.torch.step. -
Batasi setiap proses ke perangkatnya sendiri melalui
torch.cuda.set_device(smp.local_rank()). -
Pindahkan tensor input ke GPU menggunakan
.to()API sebelumsmp.steppanggilan (lihat contoh di bawah). -
Ganti
torch.Tensor.backwarddantorch.autograd.backwarddenganDistributedModel.backward. -
Lakukan pasca-pemrosesan pada output di seluruh microbatch menggunakan
StepOutputmetode seperti. reduce_mean -
Ditetapkan
drop_last=TruediDataLoader. Atau, lewati batch secara manual dalam loop pelatihan jika ukuran batch tidak habis dibagi dengan jumlah microbatch.
Untuk mempelajari lebih lanjut tentang API pustaka paralelisme model, lihat dokumentasi API
import torch import torch.nn as nn import torch.nn.functional as F import torch.optim as optim from torchnet.dataset import SplitDataset from torchvision import datasets import smdistributed.modelparallel.torch as smp class GroupedNet(nn.Module): def __init__(self): super(GroupedNet, self).__init__() # define layers def forward(self, x): # define forward pass and return model outputs # smdistributed: Define smp.step. Return any tensors needed outside. @smp.step def train_step(model, data, target): output = model(data) loss = F.nll_loss(output, target, reduction="mean") model.backward(loss) return output, loss def train(model, device, train_loader, optimizer): model.train() for batch_idx, (data, target) in enumerate(train_loader): # smdistributed: Move input tensors to the GPU ID used by the current process, # based on the set_device call. data, target = data.to(device), target.to(device) optimizer.zero_grad() # Return value, loss_mb is a StepOutput object _, loss_mb = train_step(model, data, target) # smdistributed: Average the loss across microbatches. loss = loss_mb.reduce_mean() optimizer.step() # smdistributed: initialize the backend smp.init() # smdistributed: Set the device to the GPU ID used by the current process. # Input tensors should be transferred to this device. torch.cuda.set_device(smp.local_rank()) device = torch.device("cuda") # smdistributed: Download only on a single process per instance. # When this is not present, the file is corrupted by multiple processes trying # to download and extract at the same time dataset = datasets.MNIST("../data", train=True, download=False) # smdistributed: Shard the dataset based on data-parallel ranks if smp.dp_size() > 1: partitions_dict = {f"{i}": 1 / smp.dp_size() for i in range(smp.dp_size())} dataset = SplitDataset(dataset, partitions=partitions_dict) dataset.select(f"{smp.dp_rank()}") # smdistributed: Set drop_last=True to ensure that batch size is always divisible # by the number of microbatches train_loader = torch.utils.data.DataLoader(dataset, batch_size=64, drop_last=True) model = GroupedNet() optimizer = optim.Adadelta(model.parameters(), lr=4.0) # smdistributed: Use the DistributedModel container to provide the model # to be partitioned across different ranks. For the rest of the script, # the returned DistributedModel object should be used in place of # the model provided for DistributedModel class instantiation. model = smp.DistributedModel(model) optimizer = smp.DistributedOptimizer(optimizer) train(model, device, train_loader, optimizer)
Pemisahan manual dengan PyTorch
Gunakan manajer smp.partitionsmp.partition konteks apa pun ditempatkan di. default_partition default_partitionKebutuhan yang harus auto_partition disediakan jika diatur keFalse. Modul yang dibuat dalam smp.partition konteks tertentu ditempatkan pada partisi yang sesuai.
Untuk mempelajari lebih lanjut tentang API pustaka paralelisme model, lihat dokumentasi API
import torch import torch.nn as nn import torch.nn.functional as F import torch.optim as optim from torchnet.dataset import SplitDataset from torchvision import datasets import smdistributed.modelparallel.torch as smp class GroupedNet(nn.Module): def __init__(self): super(GroupedNet, self).__init__() with smp.partition(0): # define child modules on device 0 with smp.partition(1): # define child modules on device 1 def forward(self, x): # define forward pass and return model outputs # smdistributed: Define smp.step. Return any tensors needed outside. @smp.step def train_step(model, data, target): output = model(data) loss = F.nll_loss(output, target, reduction="mean") model.backward(loss) return output, loss def train(model, device, train_loader, optimizer): model.train() for batch_idx, (data, target) in enumerate(train_loader): # smdistributed: Move input tensors to the GPU ID used by the current process, # based on the set_device call. data, target = data.to(device), target.to(device) optimizer.zero_grad() # Return value, loss_mb is a StepOutput object _, loss_mb = train_step(model, data, target) # smdistributed: Average the loss across microbatches. loss = loss_mb.reduce_mean() optimizer.step() # smdistributed: initialize the backend smp.init() # smdistributed: Set the device to the GPU ID used by the current process. # Input tensors should be transferred to this device. torch.cuda.set_device(smp.local_rank()) device = torch.device("cuda") # smdistributed: Download only on a single process per instance. # When this is not present, the file is corrupted by multiple processes trying # to download and extract at the same time dataset = datasets.MNIST("../data", train=True, download=False) # smdistributed: Shard the dataset based on data-parallel ranks if smp.dp_size() > 1: partitions_dict = {f"{i}": 1 / smp.dp_size() for i in range(smp.dp_size())} dataset = SplitDataset(dataset, partitions=partitions_dict) dataset.select(f"{smp.dp_rank()}") # smdistributed: Set drop_last=True to ensure that batch size is always divisible # by the number of microbatches train_loader = torch.utils.data.DataLoader(dataset, batch_size=64, drop_last=True) model = GroupedNet() optimizer = optim.Adadelta(model.parameters(), lr=4.0) # smdistributed: Use the DistributedModel container to provide the model # to be partitioned across different ranks. For the rest of the script, # the returned DistributedModel object should be used in place of # the model provided for DistributedModel class instantiation. model = smp.DistributedModel(model) optimizer = smp.DistributedOptimizer(optimizer) train(model, device, train_loader, optimizer)
Pertimbangan
Saat Anda mengonfigurasi skrip PyTorch pelatihan menggunakan SageMaker pustaka paralelisme model, Anda harus mengetahui hal berikut:
-
Jika Anda menggunakan teknik optimasi yang bergantung pada norma gradien global, misalnya norma gradien dari seluruh model, seperti beberapa varian pengoptimal LAMB atau kliping gradien global, Anda perlu mengumpulkan semua norma di seluruh partisi model untuk kebenaran. Anda dapat menggunakan tipe data dasar komunikasi perpustakaan untuk melakukan hal ini.
-
Semua
torch.Tensorargumen untuk metode penerusannn.Modulesdalam model Anda harus digunakan dalam perhitungan output modul. Dengan kata lain, perpustakaan tidak mendukung kasus di mana adatorch.Tensorargumen ke modul di mana output modul tidak bergantung. -
Argumen untuk
smp.DistributedModel.backward()panggilan harus bergantung pada semua output model. Dengan kata lain, tidak mungkin ada output darismp.DistributedModel.forwardpanggilan yang tidak digunakan dalam perhitungan tensor yang dimasukkan ke dalam panggilan.smp.DistributedModel.backward -
Jika ada
torch.cuda.synchronize()panggilan dalam kode Anda, Anda mungkin perlu menelepontorch.cuda.set_device(smp.local_rank())segera sebelum panggilan sinkronisasi. Jika tidak, konteks CUDA yang tidak perlu dapat dibuat di perangkat 0, yang akan menghabiskan memori dengan sia-sia. -
Karena perpustakaan ditempatkan
nn.Modulespada perangkat yang berbeda, modul dalam model tidak boleh bergantung pada keadaan global apa pun yang dimodifikasi di dalamnyasmp.step. Setiap keadaan yang tetap selama pelatihan, atau yang dimodifikasismp.stepdi luar dengan cara yang terlihat oleh semua proses, diperbolehkan. -
Anda tidak perlu memindahkan model ke GPU (misalnya, menggunakan
model.to(device)) saat menggunakan perpustakaan. Jika Anda mencoba memindahkan model ke GPU sebelum model dipartisi (sebelumsmp.steppanggilan pertama), panggilan pindah akan diabaikan. Pustaka secara otomatis memindahkan bagian model yang ditetapkan ke peringkat ke GPU-nya. Setelah pelatihan dengan perpustakaan dimulai, jangan pindahkan model ke CPU dan gunakan, karena tidak akan memiliki parameter yang benar untuk modul yang tidak ditetapkan ke partisi yang dipegang oleh proses. Jika Anda ingin melatih ulang model atau menggunakannya untuk inferensi tanpa perpustakaan setelah dilatih menggunakan pustaka paralelisme model, cara yang disarankan adalah menyimpan model lengkap menggunakan API pos pemeriksaan kami dan memuatnya kembali ke Modul biasa. PyTorch -
Jika Anda memiliki daftar modul sehingga output dari satu umpan ke yang lain, mengganti daftar itu dengan
nn.Sequentialdapat secara signifikan meningkatkan kinerja. -
Pembaruan bobot (
optimizer.step()) perlu terjadi di luarsmp.stepkarena saat itulah seluruh backward pass selesai dan gradien sudah siap. Saat menggunakan model hybrid dengan model dan paralelisme data, pada titik ini, AllReduce gradien juga dijamin selesai. -
Saat menggunakan library dalam kombinasi dengan paralelisme data, pastikan jumlah batch pada semua data parallel rank sama sehingga AllReduce tidak hang menunggu rank yang tidak berpartisipasi dalam langkah tersebut.
-
Jika Anda meluncurkan pekerjaan pelatihan menggunakan jenis instans ml.p4d (seperti ml.p4d.24xlarge), Anda harus menyetel variabel pemuat data.
num_workers=0Misalnya, Anda dapat mendefinisikanDataLoadersebagai berikut:dataloader = torch.utils.data.DataLoader( data, batch_size=batch_size, num_workers=0, pin_memory=True, drop_last=True, shuffle=shuffle, ) -
Input
smp.stepharus menjadi input model yang dihasilkan oleh.DataLoaderIni karenasmp.stepsecara internal membagi tensor input di sepanjang dimensi batch dan menyalurkannya. Ini berarti bahwa meneruskanDataLoaderdirinya kesmp.stepfungsi untuk menghasilkan input model di dalamnya tidak berfungsi.Misalnya, jika Anda mendefinisikan
DataLoadersebagai berikut:train_loader = torch.utils.data.DataLoader(dataset, batch_size=64, drop_last=True)Anda harus mengakses input model yang dihasilkan oleh
train_loaderdan meneruskannya ke fungsi yangsmp.stepdidekorasi. Jangantrain_loaderlangsung lolos kesmp.stepfungsi.def train(model, device, train_loader, optimizer): model.train() for batch_idx, (data, target) in enumerate(train_loader): ... _, loss_mb = train_step(model, data, target) ... @smp.step def train_step(model, data, target): ... return output, loss -
Tensor input
smp.stepharus dipindahkan ke perangkat saat ini menggunakan.to()API, yang harus dilakukan setelah panggilan.torch.cuda.set_device(local_rank())Misalnya, Anda dapat mendefinisikan
trainfungsi sebagai berikut. Fungsi ini menambahkandatadantargetke perangkat saat ini menggunakan.to()API sebelum menggunakan tensor input tersebut untuk memanggil.train_stepdef train(model, device, train_loader, optimizer): model.train() for batch_idx, (data, target) in enumerate(train_loader): # smdistributed: Move input tensors to the GPU ID used by the current process, # based on the set_device call. data, target = data.to(device), target.to(device) optimizer.zero_grad() # Return value, loss_mb is a StepOutput object _, loss_mb = train_step(model, data, target) # smdistributed: Average the loss across microbatches. loss = loss_mb.reduce_mean() optimizer.step()Tensor input ke fungsi yang
smp.setdidekorasi ini telah dipindahkan ke perangkat saat ini dalamtrainfungsi di atas. Model tidak perlu dipindahkan ke perangkat saat ini. Pustaka secara otomatis memindahkan bagian model yang ditetapkan ke peringkat ke GPU-nya.@smp.step def train_step(model, data, target): output = model(data) loss = F.nll_loss(output, target, reduction="mean") model.backward(loss) return output, loss
Fitur kerangka kerja yang tidak didukung
PyTorch Fitur-fitur berikut tidak didukung oleh pustaka SageMaker paralelisme model:
-
Jika Anda menggunakan paralelisme data dengan PyTorch DDP
asli, modul torch.nn.parallel.DistributedDataParallelpembungkus tidak didukung oleh perpustakaan. Pustaka secara internal mengelola integrasi dengan PyTorch DDP, termasuk siaran parameter dan gradien. AllReduce Saat menggunakan perpustakaan, buffer modul hanya disiarkan sekali pada awal pelatihan. Jika model Anda memiliki buffer modul yang perlu disinkronkan di seluruh grup paralel data pada setiap langkah, Anda dapat melakukannya melalui torch.distributedAPI, menggunakan grup proses yang dapat diperoleh melalui.smp.get_dp_process_group() -
Untuk pelatihan presisi campuran,
apex.ampmodul tidak didukung. Cara yang disarankan untuk menggunakan perpustakaan dengan presisi campuran otomatis adalah dengan menggunakantorch.cuda.amp, dengan pengecualian menggunakansmp.amp.GradScaleralih-alih implementasi dalam obor. -
torch.jit.ScriptModulesatauScriptFunctionstidak didukung olehsmp.DistributedModel. -
apex:FusedLayerNorm,FusedAdam,FusedLAMB, danFusedNovoGraddariapextidak didukung. Anda dapat menggunakan implementasi perpustakaan ini melaluismp.optimizersdansmp.nnAPIs sebagai gantinya.