Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.
Mempersiapkan data untuk fine-tuning multimodal
penting
Sebelum Anda mulai mempersiapkan dataset Anda, pastikan supervised fine-tuning (SFT) adalah pendekatan yang tepat untuk kasus penggunaan Anda. SFT mengajarkan model perilaku baru, format respons, dan pola penalaran. Itu tidak mengajarkan model pengetahuan faktual baru. Jika tujuan utama Anda adalah memperkenalkan fakta, terminologi, atau pengetahuan spesifik domain yang belum dilihat model, pertimbangkan retrieval-augmented generation (RAG) untuk menyediakan konteks itu pada waktu inferensi. Untuk panduan memilih antara SFT, reinforcement fine-tuning (RFT), dan RAG, lihat. Kustomisasi Amazon Nova pada Pekerjaan SageMaker Pelatihan
Berikut ini adalah pedoman dan persyaratan untuk menyiapkan data untuk menyempurnakan model Pemahaman:
-
Ukuran data minimum untuk fine-tuning tergantung pada tugas (yaitu, kompleks atau sederhana) tetapi kami sarankan Anda memiliki setidaknya 100 sampel untuk setiap tugas yang Anda ingin model pelajari.
-
Sebaiknya gunakan prompt yang dioptimalkan dalam pengaturan zero-shot selama pelatihan dan inferensi untuk mencapai hasil terbaik.
-
Kumpulan data pelatihan dan validasi harus berupa file JSONL, di mana setiap baris adalah objek JSON yang sesuai dengan catatan. Nama file ini hanya dapat terdiri dari karakter alfanumerik, garis bawah, tanda hubung, garis miring, dan titik.
-
Kendala gambar dan video
-
Dataset tidak dapat berisi modalitas media yang berbeda. Artinya, kumpulan data dapat berupa teks dengan gambar atau teks dengan video.
-
Satu sampel (catatan tunggal dalam pesan) dapat memiliki banyak gambar
-
Satu sampel (catatan tunggal dalam pesan) hanya dapat memiliki 1 video
-
-
schemaVersionbisa berupa nilai string -
systemGiliran (opsional) dapat berupa prompt sistem kustom yang disediakan pelanggan. -
Peran yang didukung adalah
userdanassistant. -
Giliran pertama
messagesharus selalu dimulai dengan"role": "user". Giliran terakhir adalah respons bot, dilambangkan dengan."role": "assistant" -
Itu
image.source.s3Location.uridanvideo.source.s3Location.uriharus dapat diakses oleh Amazon Bedrock. -
Peran layanan Amazon Bedrock Anda harus dapat mengakses file gambar di Amazon S3. Untuk informasi selengkapnya tentang pemberian akses, lihat Membuat peran layanan untuk penyesuaian model
-
Gambar atau video harus berada dalam bucket Amazon S3 yang sama dengan kumpulan data Anda. Misalnya, jika dataset Anda masuk
s3://amzn-s3-demo-bucket/train/train.jsonl, maka gambar atau video Anda harus ada dis3://amzn-s3-demo-bucket -
Istilah
User:,,Bot:,Assistant:,System:,<image><video>, dan[EOS]merupakan kata kunci yang dicadangkan. Jika prompt pengguna atau prompt sistem dimulai dengan salah satu kata kunci ini, atau memiliki kata kunci ini di mana saja dalam prompt, pekerjaan pelatihan Anda akan gagal karena masalah data. Jika Anda perlu menggunakan kata kunci ini untuk kasus penggunaan Anda, Anda harus menggantinya dengan kata kunci yang berbeda dengan arti yang sama sehingga pelatihan Anda dapat dilanjutkan.
Merancang contoh pelatihan yang efektif
Data pelatihan Anda harus menunjukkan perilaku yang Anda inginkan untuk ditunjukkan oleh model. SFT mengajarkan model bagaimana merespons, bukan apa yang harus diketahui. Jika Anda menemukan diri Anda membuat contoh pelatihan terutama untuk menyuntikkan pengetahuan faktual (misalnya, “Apa E-45 arti kode kesalahan?” dengan jawaban "E-45 menunjukkan batas waktu sensor”), pertimbangkan apakah RAG atau teknik cepat dapat mencapai hasil yang sama tanpa fine-tuning.
Saat mengonversi data sumber ke dalam format percakapan, ikuti prinsip-prinsip ini:
-
Mulai dari kueri pengguna nyata. Write user mengubah cermin bagaimana pengguna akhir akan benar-benar meminta model dalam produksi. Hindari pertanyaan buatan atau terlalu disederhanakan yang tidak mencerminkan pola penggunaan nyata.
-
Tulis tanggapan asisten standar emas. Setiap giliran asisten harus menjadi respons ideal yang Anda ingin model hasilkan — benar, diformat dengan baik, dan konsisten dalam nada dan struktur di semua contoh.
-
Gunakan prompt sistem secara strategis. Tempatkan instruksi persisten seperti format output, persona, dan konteks domain di giliran sistem. Gunakan prompt sistem yang sama selama pelatihan dan inferensi untuk mencapai hasil terbaik.
-
Jaga agar contoh tetap fokus pada satu keterampilan per sampel. Jika Anda memerlukan model untuk mengklasifikasikan, menjawab pertanyaan, dan meringkas, buat set contoh terpisah untuk setiap keterampilan daripada menggabungkan beberapa keterampilan dalam satu sampel.
-
Prioritaskan kualitas daripada kuantitas. Beberapa ratus contoh berkualitas tinggi dan konsisten biasanya mengungguli ribuan yang berisik atau kontradiktif. Hapus duplikat dan tinjau data Anda sebelum pelatihan.
Pola transformasi data umum
Pola berikut menggambarkan bagaimana mengubah format data perusahaan umum menjadi contoh pelatihan SFT yang efektif.
Pola 1: Catatan terstruktur untuk klasifikasi atau pencarian
Jika data sumber Anda adalah tabel atau database catatan dengan bidang sepertiissue,cause, danresolution, bingkai setiap catatan sebagai pertanyaan pengguna dengan bidang input yang relevan dan respons asisten sebagai bidang keluaran target.
// train.jsonl { "schemaVersion": "bedrock-conversation-2024", "system": [ { "text": "You are a technical support assistant. Given an issue description, identify the most likely root cause and recommended resolution." } ], "messages": [ { "role": "user", "content": [ { "text": "A user reports: 'Application crashes on startup after the latest update.' What is the likely cause and resolution?" } ] }, { "role": "assistant", "content": [ { "text": "Cause: Incompatible configuration file from the previous version.\nResolution: Delete the local configuration cache and restart the application to regenerate default settings." } ] } ] }
Pola 2: Data hierarkis atau taksonomi ke Tanya Jawab terstruktur
Ketika data sumber Anda adalah hierarki kode atau taksonomi seperti pohon kategori produk atau sistem klasifikasi, buat pertanyaan yang meminta model untuk menavigasi hierarki. Sertakan konteks klasifikasi dalam prompt sistem atau giliran pengguna.
// train.jsonl { "schemaVersion": "bedrock-conversation-2024", "system": [ { "text": "You are a product catalog assistant. Answer questions about product categories and classifications accurately." } ], "messages": [ { "role": "user", "content": [ { "text": "What top-level category does product code 'EL-4520' belong to, and what subcategories does it include?" } ] }, { "role": "assistant", "content": [ { "text": "Product code EL-4520 belongs to the Electronics category. It includes the subcategories: Audio Equipment, Portable Speakers, and Wireless Accessories." } ] } ] }
Pola 3: Dokumen prosedural untuk dialog instruksional
Jika data sumber Anda terdiri dari prosedur operasi standar, buku runbook, atau panduan langkah demi langkah, ubah prosedur menjadi pertanyaan berorientasi tugas. Pengguna bertanya bagaimana melakukan tugas dan asisten memberikan langkah-langkah dalam format yang konsisten.
// train.jsonl { "schemaVersion": "bedrock-conversation-2024", "system": [ { "text": "You are an IT operations assistant. Provide step-by-step instructions based on approved runbooks and standard operating procedures." } ], "messages": [ { "role": "user", "content": [ { "text": "How do I reset a user's multi-factor authentication when they have lost access to their device?" } ] }, { "role": "assistant", "content": [ { "text": "Follow these steps to reset a user's multi-factor authentication:\n1. Verify the user's identity using the approved verification procedure.\n2. Disable the existing MFA configuration in the identity management console.\n3. Generate a new temporary access code and send it to the user's verified email.\n4. Instruct the user to log in with the temporary code and re-enroll their new device.\n5. Confirm the new MFA device is working by requesting a test authentication.\n6. Document the reset in the support ticket." } ] } ] }
catatan
Dalam Pola 1 dan 2, jika konten faktual (seperti kode, kategori, atau resolusi) belum ada dalam data pra-pelatihan model, pertimbangkan untuk menggunakan RAG untuk menyediakan informasi ini pada waktu inferensi daripada hanya mengandalkan SFT untuk menghafalnya. SFT paling efektif untuk mengajarkan model format respons dan pola penalaran, sedangkan RAG menangani landasan faktual.
Contoh format dataset
Contoh format kumpulan data berikut memberikan panduan untuk Anda ikuti.
Contoh berikut adalah untuk fine tuning khusus atas teks saja.
// train.jsonl { "schemaVersion": "bedrock-conversation-2024", "system": [ { "text": "You are a digital assistant with a friendly personality" } ], "messages": [ { "role": "user", "content": [ { "text": "What is the capital of Mars?" } ] }, { "role": "assistant", "content": [ { "text": "Mars does not have a capital. Perhaps it will one day." } ] } ] }
Contoh berikut adalah untuk penyesuaian kustom atas teks dan satu gambar.
// train.jsonl{ "schemaVersion": "bedrock-conversation-2024", "system": [{ "text": "You are a smart assistant that answers questions respectfully" }], "messages": [{ "role": "user", "content": [{ "text": "What does the text in this image say?" }, { "image": { "format": "png", "source": { "s3Location": { "uri": "s3://your-bucket/your-path/your-image.png", "bucketOwner": "your-aws-account-id" } } } } ] }, { "role": "assistant", "content": [{ "text": "The text in the attached image says 'LOL'." }] } ] }
Contoh berikut adalah untuk penyetelan kustom atas teks dan video.
{ "schemaVersion": "bedrock-conversation-2024", "system": [{ "text": "You are a helpful assistant designed to answer questions crisply and to the point" }], "messages": [{ "role": "user", "content": [{ "text": "How many white items are visible in this video?" }, { "video": { "format": "mp4", "source": { "s3Location": { "uri": "s3://your-bucket/your-path/your-video.mp4", "bucketOwner": "your-aws-account-id" } } } } ] }, { "role": "assistant", "content": [{ "text": "There are at least eight visible items that are white" }] } ] }
Kendala set data
Amazon Nova menerapkan batasan berikut pada kustomisasi model untuk Memahami model.
Model |
Sampel Minimum |
Sampel Maksimum |
Panjang Konteks |
|---|---|---|---|
Nova 2 Lite |
8 |
20k |
32k |
Gambar maksimum |
10/sample |
Ukuran file gambar maksimum |
10 MB |
Video maksimum |
1/sample |
Video maksimum length/duration |
90 detik |
Ukuran file video maksimum |
50 MB |
Format media yang didukung
-
Gambar -
png,jpeg,gif,webp -
Video -
mov,mkv,mp4,webm