Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.
Siapkan data untuk menyempurnakan model Anda
Untuk menyiapkan kumpulan data pelatihan dan validasi untuk model kustom Anda, Anda membuat .jsonl file, di mana setiap baris adalah objek JSON yang sesuai dengan catatan. Sebelum Anda dapat memulai pekerjaan penyesuaian model, Anda setidaknya harus menyiapkan kumpulan data pelatihan. File yang Anda buat harus sesuai dengan format untuk metode kustomisasi dan model yang Anda pilih. Catatan di dalamnya harus sesuai dengan persyaratan ukuran tergantung model Anda.
Untuk informasi tentang persyaratan model, lihat. Persyaratan model untuk kumpulan data pelatihan dan validasi Untuk melihat kuota default yang berlaku untuk kumpulan data pelatihan dan validasi yang digunakan untuk menyesuaikan model yang berbeda, lihat Kuota Jumlah catatan pelatihan dan validasi di titik akhir Amazon Bedrock dan kuota di. Referensi Umum AWS
Apakah kumpulan data validasi didukung dan format kumpulan data pelatihan dan validasi Anda bergantung pada faktor-faktor berikut.
-
Jenis pekerjaan kustomisasi fine-tuning.
-
Modalitas input dan output data.
Untuk informasi tentang model fine-tuning, lihat Amazon Nova Model fine-tuning. Amazon Nova
Bagian berikut menjelaskan berbagai kemampuan fine-tuning yang didukung oleh masing-masing model, yang diatur oleh modalitas input dan outputnya. Untuk informasi tentang model fine-tuning, lihat Amazon Nova Model fine-tuning. Amazon Nova
Text-to-Text model
Text-to-Text model dapat disetel dengan baik untuk berbagai tugas berbasis teks, termasuk aplikasi percakapan dan non-percakapan. Untuk informasi tentang menyiapkan data untuk Text-to-Text model fine-tuning, lihat. Siapkan data untuk model text-to-text fine-tuning
Model non-percakapan berikut dioptimalkan untuk tugas-tugas seperti meringkas, terjemahan, dan menjawab pertanyaan:
Amazon Titan Text G1 - Express
Amazon Titan Text G1 - Lite
Amazon Titan Teks Premier
Cohere Command
Cohere Command Light
Meta Llama 3.1 8B Instruct
Meta Llama 3.1 70B Instruct
Model percakapan berikut dirancang untuk interaksi satu putaran dan multi-putaran. Jika model menggunakan Converse API, kumpulan data fine-tuning Anda harus mengikuti format pesan Converse API dan menyertakan pesan sistem, pengguna, dan asisten. Sebagai contoh, lihat Siapkan data untuk model text-to-text fine-tuning. Untuk informasi selengkapnya tentang operasi Converse API, lihatMelakukan percakapan dengan operasi Converse API.
Antropik Claude 3 Haiku
MetaLlama 3.2 1B Instruct(Format API Converse)
MetaLlama 3.2 3B Instruct(Format API Converse)
MetaLlama 3.2 11B InstructVisi (Format API Converse)
MetaLlama 3.2 90B InstructVisi (Format API Converse)
MetaInstruksi Visi Llama 3.3 70B (Format API Converse)
Text-Image-to-Text & Text-to-Image model s
Model berikut mendukung fine-tuning untuk pembuatan gambar dan pemrosesan teks-gambar. Model-model ini memproses atau menghasilkan gambar berdasarkan input tekstual, atau menghasilkan teks berdasarkan input tekstual dan gambar. Untuk informasi tentang menyiapkan data untuk model fine-tuning Text-Image-to-Text & Text-to-Image model, lihat. Siapkan data untuk menyempurnakan model pemrosesan gambar dan teks
Amazon Titan Image Generator G1 V1
MetaLlama 3.2 11B InstructVisi
MetaLlama 3.2 90B InstructVisi
MetaInstruksi Visi Llama 3.3 70B
Gambar-untuk-Embeddings
Model berikut mendukung fine-tuning untuk tugas-tugas seperti klasifikasi dan pengambilan. Model-model ini menghasilkan representasi numerik (embeddings) dari input gambar. Untuk informasi tentang menyiapkan data untuk Image-to-Embeddings model fine-tuning, lihat. Siapkan data untuk menyempurnakan pembuatan gambar dan model penyematan
Amazon Titan Multimodal Embeddings G1
Amazon Titan Image Generator G1 V1
Bagian berikut mencantumkan persyaratan untuk kumpulan data pelatihan dan validasi untuk model. Untuk informasi tentang batasan kumpulan data untuk model, lihat Amazon Nova Model fine-tuning. Amazon Nova
| Deskripsi | Maksimum (Fine-tuning) |
|---|---|
| Jumlah token input dan output saat ukuran batch adalah 1 | 4,096 |
| Jumlah token input dan output saat ukuran batch adalah 2, 3, atau 4 | N/A |
| Kuota karakter per sampel dalam dataset | Kuota token x 6 (perkiraan) |
| Ukuran file kumpulan data pelatihan | 1 GB |
| Ukuran file dataset validasi | 100 MB |
| Deskripsi | Maksimum (Fine-tuning) |
|---|---|
| Jumlah token input dan output saat ukuran batch adalah 1 | 4,096 |
| Jumlah token input dan output saat ukuran batch adalah 2, 3, atau 4 | 2,048 |
| Kuota karakter per sampel dalam dataset | Kuota token x 6 (perkiraan) |
| Ukuran file kumpulan data pelatihan | 1 GB |
| Ukuran file dataset validasi | 100 MB |
| Deskripsi | Maksimum (Fine-tuning) |
|---|---|
| Jumlah token input dan output saat ukuran batch adalah 1 atau 2 | 4,096 |
| Jumlah token input dan output saat ukuran batch adalah 3, 4, 5, atau 6 | 2,048 |
| Kuota karakter per sampel dalam dataset | Kuota token x 6 (perkiraan) |
| Ukuran file kumpulan data pelatihan | 1 GB |
| Ukuran file dataset validasi | 100 MB |
| Deskripsi | Minimum (Penyetelan halus) | Maksimum (Fine-tuning) |
|---|---|---|
| Panjang prompt teks dalam sampel pelatihan, dalam karakter | 3 | 1,024 |
| Catatan dalam kumpulan data pelatihan | 5 | 10.000 |
| Ukuran gambar masukan | 0 | 50 MB |
| Input tinggi gambar dalam piksel | 512 | 4,096 |
| Masukan lebar gambar dalam piksel | 512 | 4,096 |
| Masukan total piksel gambar | 0 | 12,582,912 |
| Rasio aspek gambar masukan | 1:4 | 4:1 |
| Deskripsi | Minimum (Penyetelan halus) | Maksimum (Fine-tuning) |
|---|---|---|
| Panjang prompt teks dalam sampel pelatihan, dalam karakter | 0 | 2,560 |
| Catatan dalam kumpulan data pelatihan | 1.000 | 500.000 |
| Ukuran gambar masukan | 0 | 5 MB |
| Input tinggi gambar dalam piksel | 128 | 4096 |
| Masukan lebar gambar dalam piksel | 128 | 4096 |
| Masukan total piksel gambar | 0 | 12,528,912 |
| Rasio aspek gambar masukan | 1:4 | 4:1 |
| Deskripsi | Minimum (Penyetelan halus) | Maksimum (Fine-tuning) |
|---|---|---|
| Token masukan | 0 | 16.000 |
| Token keluaran | 0 | 16.000 |
| Kuota karakter per sampel dalam dataset | 0 | Kuota token x 6 (perkiraan) |
| Jumlah token Input dan Output | 0 | 16.000 |
| Jumlah catatan pelatihan dan validasi | 100 | 10.000 (dapat disesuaikan menggunakan kuota layanan) |
Format gambar yang didukung untuk Meta Llama-3.2 11B Vision Instruct dan Meta
Llama-3.2 90B Vision Instruct termasuk:gif,jpeg,png, danwebp. Untuk memperkirakan image-to-token konversi selama fine-tuning model ini, Anda dapat menggunakan rumus ini sebagai perkiraan:. Tokens = min(2,
max(Height // 560, 1)) * min(2, max(Width // 560, 1)) * 1601 Gambar dikonversi menjadi sekitar 1.601 hingga 6.404 token berdasarkan ukurannya.
| Deskripsi | Minimum (Penyetelan halus) | Maksimum (Fine-tuning) |
|---|---|---|
| Jumlah token Input dan Output | 0 | 16.000 (10000 untuk Meta Llama 3.2 90B) |
| Jumlah catatan pelatihan dan validasi | 100 | 10.000 (dapat disesuaikan menggunakan kuota layanan) |
| Masukan ukuran gambar untuk Meta Llama 11B and 90B instruct model) | 0 | 10 MB |
| Masukkan tinggi gambar dalam piksel untuk Meta Llama 11B and 90B instruct model | 10 | 8192 |
| Masukan lebar gambar dalam piksel untuk Meta Llama 11B and 90B90B instruct model | 10 | 8192 |
| Deskripsi | Minimum (Penyetelan halus) | Maksimum (Fine-tuning) |
|---|---|---|
| Jumlah token Input dan Output | 0 | 16000 |
| Jumlah catatan pelatihan dan validasi | 100 | 10.000 (dapat disesuaikan menggunakan Service Quotas) |
| Deskripsi | Maksimum (Fine-tuning) |
|---|---|
| Token masukan | 4,096 |
| Token keluaran | 2,048 |
| Kuota karakter per sampel dalam dataset | Kuota token x 6 (perkiraan) |
| Catatan dalam kumpulan data pelatihan | 10.000 |
| Merekam dalam kumpulan data validasi | 1.000 |
| Deskripsi | Maksimum (Fine-tuning) |
|---|---|
| Jumlah catatan minimum | 32 |
| Catatan pelatihan maksimum | 10.000 |
| Catatan validasi maksimum | 1.000 |
| Total catatan maksimum | 10.000 (dapat disesuaikan menggunakan kuota layanan) |
| Token maksimum | 32.000 |
| Ukuran dataset pelatihan maksimum | 10 GB |
| Ukuran dataset validasi maksimum | 1 GB |
Untuk text-to-text model fine-tuning, setiap objek JSON adalah sampel yang berisi bidang terstruktur yang dirancang untuk memandu model menuju menghasilkan output tekstual yang diinginkan berdasarkan prompt tekstual yang disediakan. Format data bervariasi tergantung pada kasus penggunaan, secara luas dikategorikan ke dalam kasus penggunaan non-percakapan dan percakapan.
Untuk image-text-to-text model fine-tuning, setiap objek JSON adalah sampel yang berisi percakapan yang terstruktur sebagai messages array, yang terdiri dari objek JSON bergantian yang mewakili input pengguna dan respons asisten. Masukan pengguna dapat mencakup teks dan gambar, sementara tanggapan asisten selalu tekstual. Struktur ini mendukung alur percakapan single-turn dan multi-turn, memungkinkan model untuk menangani beragam tugas secara efektif. Format gambar yang didukung untuk Meta Llama-3.2 11B Vision Instruct dan Meta Llama-3.2 90B Vision
Instruct termasuk:gif,jpeg,png, danwebp.
Untuk mengizinkan Amazon Bedrock mengakses file gambar, tambahkan kebijakan IAM yang mirip dengan yang ada di Izin untuk mengakses file pelatihan dan validasi dan untuk menulis file output di S3 peran layanan kustomisasi model Amazon Bedrock yang Anda atur atau yang disiapkan secara otomatis untuk Anda di konsol. Jalur Amazon S3 yang Anda berikan dalam kumpulan data pelatihan harus berada di folder yang Anda tentukan dalam kebijakan.
Percakapan satu putaran
Setiap objek JSON untuk percakapan satu putaran terdiri dari pesan pengguna dan pesan asisten. Pesan pengguna menyertakan bidang peran yang disetel ke pengguna dan bidang konten yang berisi array dengan type bidang (teks atau gambar) yang menjelaskan modalitas input. Untuk input teks, content bidang menyertakan text bidang dengan pertanyaan atau prompt pengguna. Untuk input gambar, content bidang menentukan gambar format (misalnya, jpeg, png) dan source dengan uri menunjuk ke lokasi Amazon S3 gambar. uriIni mewakili jalur unik ke gambar yang disimpan dalam bucket Amazon S3, biasanya dalam format. s3://<bucket-name>/<path-to-file> Pesan asisten menyertakan role bidang yang disetel ke asisten dan content bidang yang berisi larik dengan type bidang yang disetel ke teks dan text bidang yang berisi respons yang dihasilkan asisten.
Contoh format
{ "schemaVersion": "bedrock-conversation-2024", "system": [{ "text": "You are a smart assistant that answers questions respectfully" }], "messages": [{ "role": "user", "content": [{ "text": "What does the text in this image say?" }, { "image": { "format": "png", "source": { "s3Location": { "uri": "s3://your-bucket/your-path/your-image.png", "bucketOwner": "your-aws-account-id" } } } } ] }, { "role": "assistant", "content": [{ "text": "The text in the attached image says 'LOL'." }] } ] }
Percakapan multi-giliran
Setiap objek JSON untuk percakapan multi-putaran berisi urutan pesan dengan peran bergantian, di mana pesan pengguna dan pesan asisten disusun secara konsisten untuk memungkinkan pertukaran yang koheren. Pesan pengguna menyertakan role bidang yang disetel ke pengguna dan content bidang yang menjelaskan modalitas input. Untuk input teks, content bidang menyertakan text bidang dengan pertanyaan atau tindak lanjut pengguna, sedangkan untuk input gambar, bidang ini menentukan gambar format dan source dengan uri menunjuk ke lokasi Amazon S3 gambar. Ini uri berfungsi sebagai pengenal unik dalam format s3://<bucket-name>/< path-to-file > dan memungkinkan model untuk mengakses gambar dari bucket Amazon S3 yang ditunjuk. Pesan asisten menyertakan role bidang yang disetel ke asisten dan content bidang yang berisi larik dengan type bidang yang disetel ke teks dan text bidang yang berisi respons yang dihasilkan asisten. Percakapan dapat mencakup beberapa pertukaran, memungkinkan asisten untuk mempertahankan konteks dan memberikan respons yang koheren di seluruh.
Contoh format
{ "schemaVersion": "bedrock-conversation-2024", "system": [{ "text": "You are a smart assistant that answers questions respectfully" }], "messages": [{ "role": "user", "content": [{ "text": "What does the text in this image say?" }, { "image": { "format": "png", "source": { "s3Location": { "uri": "s3://your-bucket/your-path/your-image.png", "bucketOwner": "your-aws-account-id" } } } } ] }, { "role": "assistant", "content": [{ "text": "The text in the attached image says 'LOL'." }] }, { "role": "user", "content": [{ "text": "What does the text in this image say?" } ] }, { "role": "assistant", "content": [{ "text": "The text in the attached image says 'LOL'." }] } ] }
catatan
Amazon Novamodel memiliki persyaratan fine-tuning yang berbeda. Untuk menyempurnakan model ini, ikuti instruksi di model Amazon NovaFine-tuning.
Untuk text-to-image atau image-to-embedding model, siapkan dataset pelatihan. Kumpulan data validasi tidak didukung. Setiap objek JSON adalah sampel yang berisiimage-ref, Amazon S3 URI untuk gambar, dan caption yang bisa menjadi prompt untuk gambar.
Gambar harus dalam format JPEG atau PNG.
{"image-ref": "s3://bucket/path/to/image001.png", "caption": "<prompt text>"} {"image-ref": "s3://bucket/path/to/image002.png", "caption": "<prompt text>"}{"image-ref": "s3://bucket/path/to/image003.png", "caption": "<prompt text>"}
Berikut ini adalah item contoh:
{"image-ref": "s3://amzn-s3-demo-bucket/my-pets/cat.png", "caption": "an orange cat with white spots"}
Untuk mengizinkan Amazon Bedrock mengakses file gambar, tambahkan kebijakan IAM yang mirip dengan yang ada di Izin untuk mengakses file pelatihan dan validasi dan untuk menulis file output di S3 peran layanan kustomisasi model Amazon Bedrock yang Anda atur atau yang disiapkan secara otomatis untuk Anda di konsol. Jalur Amazon S3 yang Anda berikan dalam kumpulan data pelatihan harus berada di folder yang Anda tentukan dalam kebijakan.