

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

# Sequence-to-Sequence Hiperparameter
<a name="seq-2-seq-hyperparameters"></a>

Tabel berikut mencantumkan hyperparameters yang dapat Anda atur saat berlatih dengan algoritma Amazon SageMaker AI Sequence-to-Sequence (seq2seq).


| Nama Parameter | Deskripsi | 
| --- | --- | 
| batch\$1size | Ukuran batch mini untuk penurunan gradien. **Opsional** Nilai yang valid: bilangan bulat positif Nilai default: 64 | 
| beam\$1size | Panjang balok untuk pencarian balok. Digunakan selama pelatihan untuk komputasi `bleu` dan digunakan selama inferensi. **Opsional** Nilai yang valid: bilangan bulat positif Nilai default: 5 | 
| bleu\$1sample\$1size | Jumlah instance untuk dipilih dari kumpulan data validasi untuk memecahkan kode dan menghitung `bleu` skor selama pelatihan. Setel ke -1 untuk menggunakan set validasi lengkap (jika `bleu` dipilih sebagai`optimized_metric`). **Opsional** Nilai yang valid: integer Nilai default: 0 | 
| bucket\$1width | Mengembalikan (sumber, target) ember hingga (`max_seq_len_source`,`max_seq_len_target`). Sisi data yang lebih panjang menggunakan langkah-langkah `bucket_width` sementara sisi yang lebih pendek menggunakan langkah-langkah yang diperkecil dengan rasio target/source panjang rata-rata. Jika satu sisi mencapai panjang maksimum sebelum yang lain, lebar ember ekstra di sisi itu tetap ke sisi itu. `max_len` **Opsional** Nilai yang valid: bilangan bulat positif Nilai default: 10 | 
| bucketing\$1enabled | Setel `false` untuk menonaktifkan bucketing, buka gulungan ke panjang maksimum. **Opsional** Nilai yang valid: `true` or `false` Nilai default: `true` | 
| checkpoint\$1frequency\$1num\$1batches | Checkpoint dan evaluasi setiap x batch. Hyperparameter checkpointing ini diteruskan ke algoritme seq2seq SageMaker AI untuk menghentikan lebih awal dan mengambil model terbaik. Checkpointing algoritme berjalan secara lokal di wadah pelatihan algoritme dan tidak kompatibel dengan SageMaker checkpointing AI. Algoritma untuk sementara menyimpan pos pemeriksaan ke jalur lokal dan menyimpan artefak model terbaik ke jalur keluaran model di S3 setelah pekerjaan pelatihan dihentikan. **Opsional** Nilai yang valid: bilangan bulat positif Nilai default: 1000 | 
| checkpoint\$1threshold | Jumlah maksimum model pos pemeriksaan diizinkan untuk tidak meningkatkan dataset validasi sebelum pelatihan dihentikan. `optimized_metric` Hyperparameter checkpointing ini diteruskan ke algoritme seq2seq SageMaker AI untuk menghentikan lebih awal dan mengambil model terbaik. Checkpointing algoritme berjalan secara lokal di wadah pelatihan algoritme dan tidak kompatibel dengan SageMaker checkpointing AI. Algoritma untuk sementara menyimpan pos pemeriksaan ke jalur lokal dan menyimpan artefak model terbaik ke jalur keluaran model di S3 setelah pekerjaan pelatihan dihentikan. **Opsional** Nilai yang valid: bilangan bulat positif Nilai default: 3 | 
| clip\$1gradient | Klip nilai gradien absolut lebih besar dari ini. Setel ke negatif untuk menonaktifkan. **Opsional** Nilai yang valid: float Nilai default: 1 | 
| cnn\$1activation\$1type | Jenis `cnn` aktivasi yang akan digunakan. **Opsional** Nilai yang valid: String. Salah satu`glu`,`relu`,`softrelu`,`sigmoid`, atau`tanh`. Nilai default: `glu` | 
| cnn\$1hidden\$1dropout | Probabilitas putus sekolah untuk putus sekolah di antara lapisan konvolusi. **Opsional** Nilai yang valid: Float. Rentang di [0,1]. Nilai default: 0 | 
| cnn\$1kernel\$1width\$1decoder | Lebar kernel untuk `cnn` decoder. **Opsional** Nilai yang valid: bilangan bulat positif Nilai default: 5 | 
| cnn\$1kernel\$1width\$1encoder | Lebar kernel untuk `cnn` encoder. **Opsional** Nilai yang valid: bilangan bulat positif Nilai default: 3 | 
| cnn\$1num\$1hidden | Jumlah unit `cnn` tersembunyi untuk encoder dan decoder. **Opsional** Nilai yang valid: bilangan bulat positif Nilai default: 512 | 
| decoder\$1type | Jenis decoder. **Opsional** Nilai yang valid: String. Baik `rnn` atau `cnn`. Nilai default: *rnn* | 
| embed\$1dropout\$1source | Probabilitas putus sekolah untuk penyematan sisi sumber. **Opsional** Nilai yang valid: Float. Rentang di [0,1]. Nilai default: 0 | 
| embed\$1dropout\$1target | Probabilitas putus sekolah untuk penyematan sisi target. **Opsional** Nilai yang valid: Float. Rentang di [0,1]. Nilai default: 0 | 
| encoder\$1type | Jenis encoder. `rnn`Arsitektur didasarkan pada mekanisme perhatian oleh Bahdanau et al. dan arsitektur *cnn* didasarkan pada Gehring et al. **Opsional** Nilai yang valid: String. Baik `rnn` atau `cnn`. Nilai default: `rnn` | 
| fixed\$1rate\$1lr\$1half\$1life | Waktu paruh untuk tingkat pembelajaran dalam hal jumlah pos pemeriksaan untuk `fixed_rate_` \$1 penjadwal. **Opsional** Nilai yang valid: bilangan bulat positif Nilai default: 10 | 
| learning\$1rate | Tingkat pembelajaran awal. **Opsional** Nilai yang valid: float Nilai default: 0,0003 | 
| loss\$1type | Fungsi kerugian untuk pelatihan. **Opsional** Nilai yang valid: String. `cross-entropy` Nilai default: `cross-entropy` | 
| lr\$1scheduler\$1type | Jenis penjadwal tingkat pembelajaran. `plateau_reduce`berarti mengurangi tingkat pembelajaran setiap kali `optimized_metric` di `validation_accuracy` dataran tinggi. `inv_t`adalah peluruhan waktu terbalik. `learning_rate`/(`decay_rate`1\$1\$1t) **Opsional** Nilai yang valid: String. Salah satu`plateau_reduce`,`fixed_rate_inv_t`, atau`fixed_rate_inv_sqrt_t`. Nilai default: `plateau_reduce` | 
| max\$1num\$1batches | Jumlah maksimum updates/batches untuk diproses. -1 untuk tak terbatas. **Opsional** Nilai yang valid: integer Nilai default: -1 | 
| max\$1num\$1epochs | Jumlah maksimum epoch untuk melewati data pelatihan sebelum pemasangan dihentikan. Pelatihan berlanjut hingga jumlah zaman ini bahkan jika akurasi validasi tidak membaik jika parameter ini dilewatkan. Diabaikan jika tidak dilewati. **Opsional** Nilai yang valid: Bilangan bulat positif dan kurang dari atau sama dengan max\$1num\$1epochs. Nilai default: tidak ada. | 
| max\$1seq\$1len\$1source | Panjang maksimum untuk panjang urutan sumber. Urutan yang lebih panjang dari panjang ini terpotong hingga panjang ini. **Opsional** Nilai yang valid: bilangan bulat positif Nilai default: 100  | 
| max\$1seq\$1len\$1target | Panjang maksimum untuk panjang urutan target. Urutan yang lebih panjang dari panjang ini terpotong hingga panjang ini. **Opsional** Nilai yang valid: bilangan bulat positif Nilai default: 100 | 
| min\$1num\$1epochs | Jumlah minimum epoch pelatihan harus dijalankan sebelum dihentikan melalui `early_stopping` kondisi. **Opsional** Nilai yang valid: bilangan bulat positif Nilai default: 0 | 
| momentum | Konstanta momentum digunakan untuk`sgd`. Jangan lewatkan parameter ini jika Anda menggunakan `adam` atau`rmsprop`. **Opsional** Nilai yang valid: float Nilai default: tidak ada. | 
| num\$1embed\$1source | Ukuran penyematan untuk token sumber. **Opsional** Nilai yang valid: bilangan bulat positif Nilai default: 512 | 
| num\$1embed\$1target | Ukuran penyematan untuk token target. **Opsional** Nilai yang valid: bilangan bulat positif Nilai default: 512 | 
| num\$1layers\$1decoder | *Jumlah lapisan untuk Decoder *rnn* atau cnn.* **Opsional** Nilai yang valid: bilangan bulat positif Nilai default: 1 | 
| num\$1layers\$1encoder | Jumlah lapisan untuk Encoder `rnn` atau. `cnn` **Opsional** Nilai yang valid: bilangan bulat positif Nilai default: 1 | 
| optimized\$1metric | Metrik untuk dioptimalkan dengan penghentian awal. **Opsional** Nilai yang valid: String. Salah satu`perplexity`,`accuracy`, atau`bleu`. Nilai default: `perplexity` | 
| optimizer\$1type | Optimizer untuk dipilih. **Opsional** Nilai yang valid: String. Salah satu`adam`,`sgd`, atau`rmsprop`. Nilai default: `adam` | 
| plateau\$1reduce\$1lr\$1factor | Faktor untuk melipatgandakan tingkat pembelajaran dengan (untuk`plateau_reduce`). **Opsional** Nilai yang valid: float Nilai default: 0,5 | 
| plateau\$1reduce\$1lr\$1threshold | Untuk `plateau_reduce` penjadwal, kalikan tingkat pembelajaran dengan faktor pengurangan jika `optimized_metric` tidak ditingkatkan untuk banyak pos pemeriksaan ini. **Opsional** Nilai yang valid: bilangan bulat positif Nilai default: 3 | 
| rnn\$1attention\$1in\$1upper\$1layers | Berikan perhatian ke lapisan atas *rnn, seperti  Google NMT* paper. Hanya berlaku jika lebih dari satu lapisan digunakan. **Opsional** Nilai yang valid: boolean (`true`atau`false`) Nilai default: `true` | 
| rnn\$1attention\$1num\$1hidden | Jumlah unit tersembunyi untuk lapisan perhatian. default ke. `rnn_num_hidden` **Opsional** Nilai yang valid: bilangan bulat positif Nilai default: `rnn_num_hidden` | 
| rnn\$1attention\$1type | Model perhatian untuk encoder. `mlp`mengacu pada concat dan bilinear mengacu pada umum dari Luong et al. paper. **Opsional** Nilai yang valid: String. Salah satu`dot`,`fixed`,`mlp`, atau`bilinear`. Nilai default: `mlp` | 
| rnn\$1cell\$1type | Jenis `rnn` arsitektur tertentu. **Opsional** Nilai yang valid: String. Baik `lstm` atau `gru`. Nilai default: `lstm` | 
| rnn\$1decoder\$1state\$1init | Cara menginisialisasi status `rnn` decoder dari encoder. **Opsional** Nilai yang valid: String. Salah satu`last`,`avg`, atau`zero`. Nilai default: `last` | 
| rnn\$1first\$1residual\$1layer | Lapisan *rnn* pertama yang memiliki koneksi residual, hanya berlaku jika jumlah lapisan dalam encoder atau decoder lebih dari 1. **Opsional** Nilai yang valid: bilangan bulat positif Nilai default: 2 | 
| rnn\$1num\$1hidden | Jumlah unit tersembunyi *rnn* untuk encoder dan decoder. Ini harus kelipatan 2 karena algoritme menggunakan Memori Jangka Pendek Jangka Panjang (LSTM) bi-directional secara default. **Opsional** Nilai yang valid: bilangan bulat genap positif Nilai default: 1024 | 
| rnn\$1residual\$1connections | *Tambahkan koneksi sisa ke rnn bertumpuk.* Jumlah lapisan harus lebih dari 1. **Opsional** Nilai yang valid: boolean (`true`atau`false`) Nilai default: `false` | 
| rnn\$1decoder\$1hidden\$1dropout | Probabilitas putus sekolah untuk keadaan tersembunyi yang menggabungkan konteks dengan status tersembunyi *rnn* di decoder. **Opsional** Nilai yang valid: Float. Rentang di [0,1]. Nilai default: 0 | 
| training\$1metric | Metrik untuk melacak pelatihan tentang data validasi. **Opsional** Nilai yang valid: String. Baik `perplexity` atau `accuracy`. Nilai default: `perplexity` | 
| weight\$1decay | Konstanta peluruhan berat badan. **Opsional** Nilai yang valid: float Nilai default: 0 | 
| weight\$1init\$1scale | Skala inisialisasi berat (untuk `uniform` dan `xavier` inisialisasi).  **Opsional** Nilai yang valid: float Nilai default: 2.34 | 
| weight\$1init\$1type | Jenis inisialisasi berat badan.  **Opsional** Nilai yang valid: String. Baik `uniform` atau `xavier`. Nilai default: `xavier` | 
| xavier\$1factor\$1type | Jenis faktor Xavier. **Opsional** Nilai yang valid: String. Salah satu`in`,`out`, atau`avg`. Nilai default: `in` | 