Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

# Cara Sequence-to-Sequence Kerja
<a name="seq-2-seq-howitworks"></a>

Biasanya, jaringan saraf untuk pemodelan urutan-ke-urutan terdiri dari beberapa lapisan, termasuk: 
+ **Lapisan penyematan**. Di lapisan ini, matriks input, yang merupakan token input yang dikodekan dengan cara yang jarang (misalnya, dikodekan satu panas) dipetakan ke lapisan fitur padat. Ini diperlukan karena vektor fitur dimensi tinggi lebih mampu menyandikan informasi mengenai token tertentu (kata untuk teks corpora) daripada vektor sederhana yang disandikan satu panas. Ini juga merupakan praktik standar untuk menginisialisasi lapisan penyematan ini dengan vektor kata pra-terlatih seperti [FastText](https://fasttext.cc/)atau [Sarung Tangan](https://nlp.stanford.edu/projects/glove/) atau untuk menginisialisasi secara acak dan mempelajari parameter selama pelatihan. 
+ **Lapisan encoder**. Setelah token input dipetakan ke dalam ruang fitur dimensi tinggi, urutan dilewatkan melalui lapisan encoder untuk mengompres semua informasi dari lapisan penyematan input (dari seluruh urutan) menjadi vektor fitur panjang tetap. Biasanya, encoder terbuat dari RNN-type jaringan seperti memori jangka pendek panjang (LSTM) atau unit berulang terjaga keamanannya (GRU). ([Blog Cola](http://colah.github.io/posts/2015-08-Understanding-LSTMs/) menjelaskan LSTM dengan sangat rinci.) 
+ Lapisan **decoder**. Lapisan decoder mengambil vektor fitur yang dikodekan ini dan menghasilkan urutan output token. Lapisan ini juga biasanya dibangun dengan arsitektur RNN (LSTM dan GRU). 

Seluruh model dilatih bersama untuk memaksimalkan probabilitas urutan target yang diberikan urutan sumber. Model ini pertama kali diperkenalkan oleh [Sutskever et](https://papers.nips.cc/paper/5346-sequence-to-sequence-learning-with-neural-networks.pdf) al. pada tahun 2014. 

**Mekanisme perhatian**. Kerugian dari kerangka encoder-decoder adalah bahwa kinerja model menurun ketika dan ketika panjang urutan sumber meningkat karena batas berapa banyak informasi yang dapat dikandung oleh vektor fitur yang disandikan dengan panjang tetap. [Untuk mengatasi masalah ini, pada 2015, Bahdanau et al. mengusulkan mekanisme perhatian.](https://arxiv.org/pdf/1409.0473.pdf) Dalam mekanisme perhatian, decoder mencoba menemukan lokasi dalam urutan encoder di mana informasi yang paling penting dapat ditemukan dan menggunakan informasi itu dan kata-kata yang sebelumnya diterjemahkan untuk memprediksi token berikutnya dalam urutan. 

Untuk lebih jelasnya, lihat whitepaper [Pendekatan Efektif untuk Terjemahan Mesin Attention-based Saraf](https://arxiv.org/abs/1508.04025) oleh Luong, dkk. yang menjelaskan dan menyederhanakan perhitungan untuk berbagai mekanisme perhatian. Selain itu, whitepaper [Sistem Terjemahan Mesin Neural Google: Menjembatani Kesenjangan antara Terjemahan Manusia dan Mesin oleh Wu, dkk.](https://arxiv.org/abs/1609.08144) menjelaskan arsitektur Google untuk terjemahan mesin, yang menggunakan koneksi lewati antara lapisan encoder dan decoder.