Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.
Siapkan data untuk model Amazon Nova
Saat menyempurnakan model Amazon Nova dengan penyempurnaan penguatan, Anda dapat membawa petunjuk sendiri atau menggunakan log pemanggilan Amazon Bedrock API yang ada sebagai data pelatihan.
Persyaratan dan sumber data pelatihan
Anda dapat memberikan data pelatihan melalui salah satu opsi berikut:
catatan
Kami hanya mendukung format penyelesaian obrolan OpenAI.
Kumpulkan petunjuk Anda dan simpan dalam format .jsonl file. Anda dapat mengunggah kumpulan data khusus dalam format JSONL atau memilih kumpulan data yang ada dari Amazon S3. Setiap catatan di JSONL harus menggunakan format penyelesaian obrolan OpenAI dalam struktur berikut:
-
messages: Di bidang ini, sertakan peran pengguna, sistem atau asisten yang berisi prompt input yang diberikan kepada model. -
reference_answer: Di bidang ini, harus berisi output yang diharapkan atau kriteria evaluasi yang digunakan fungsi hadiah Anda untuk menilai respons model. Ini tidak terbatas pada output terstruktur—dapat berisi format apa pun yang membantu fungsi hadiah Anda mengevaluasi kualitas. -
[Opsional] Anda dapat menambahkan bidang yang digunakan oleh grader Lambda untuk penilaian.
Persyaratan:
Format JSONL dengan petunjuk dalam format penyelesaian obrolan OpenAI (satu prompt per baris)
Minimal 100 catatan dalam dataset pelatihan
Amazon Bedrock secara otomatis memvalidasi format kumpulan data pelatihan
Saat membuat pekerjaan fine-tuning penguatan, Anda dapat meminta Amazon Bedrock menggunakan log pemanggilan yang ada dari bucket S3 sebagai data pelatihan. Untuk Amazon Bedrock, log pemanggilan adalah catatan rinci tentang pemanggilan model.
Anda dapat menggunakan log pemanggilan Invoke/Converse API yang disimpan di sisi pelanggan dari Amazon S3 untuk pelatihan.
Persyaratan:
-
Pencatatan API harus diaktifkan untuk penggunaan Amazon Bedrock Anda
-
Log harus dalam format yang didukung (Amazon Bedrock Invoke/Converse API)
-
Minimal 100 contoh prompt
Untuk menggunakan log pemanggilan untuk fine-tuning penguatan, setel log pemanggilan model, gunakan salah satu operasi pemanggilan model, dan pastikan Anda telah menyiapkan bucket Amazon S3 sebagai tujuan log. Untuk informasi selengkapnya tentang menyiapkan log pemanggilan, lihat Memantau pemanggilan model menggunakan Log dan CloudWatch Amazon S3.
Sebelum Anda dapat memulai pekerjaan fine-tuning reinforcement dengan log pemanggilan dari bucket S3 sebagai input, Anda harus memberikan izin Amazon Bedrock untuk mengakses log dari Bucket S3. Untuk informasi selengkapnya, lihat Akses dan keamanan kustomisasi model.
Anda dapat menambahkan metadata permintaan secara opsional ke pasangan prompt respons dalam log pemanggilan menggunakan salah satu operasi pemanggilan model dan kemudian menggunakannya untuk memfilter log. Amazon Bedrock dapat menggunakan log yang difilter untuk menyempurnakan model.
Tambahkan metadata permintaan ke prompt dan tanggapan di log pemanggilan Anda
Dengan log pemanggilan, Anda dapat mengidentifikasi permintaan kumpulan data pelatihan yang ingin digunakan Amazon Bedrock untuk penyempurnaan penguatan menggunakan metadata permintaan yang dilampirkan ke log pemanggilan.
Berikut ini adalah contoh log pemanggilan dari InvokeModel panggilan dengan: requestMetadata
{ "schemaType": "ModelInvocationLog", "schemaVersion": "1.0", "timestamp": "2024-09-11T17:16:18Z", "accountId": "XXXXX", "identity": { "arn": "arn:aws:sts::XXXXXXX:assumed-role/Admin/XXXXXX" }, "region": "us-east-1", "requestId": "7ee514f3-9eff-467c-af75-8fd564ce58e5", "operation": "InvokeModel", "modelId": "meta.llama3-1-405b-instruct-v1:0", "input": { "inputContentType": "application/json", "inputBodyJson": { "prompt": "story of two dogs", "max_tokens_to_sample": 300 }, "inputTokenCount": 13 }, "output": { "outputContentType": "application/json", "outputBodyJson": { "type": "completion", "completion": " Here is a story about two dogs:\n\nRex and Charlie were best friends who lived next door to each other. Every morning, their owners would let them out into the backyard to play. Rex was a golden retriever with long, shaggy fur. He loved to run and chase sticks. Charlie was a corgi with short legs and a big smile. He was happy just sniffing the grass and rolling around. \n\nThe two dogs spent every day playing together. Rex would grab a stick and bring it over to Charlie, wagging his tail excitedly. Charlie would take the other end of the stick in his mouth and they'd have a friendly game of tug-of-war. After tiring themselves out, they'd flop down in the warm sunshine for a nap. \n\nAt lunchtime, their owners would call them in for food. Rex would gobble up his kibble hungrily while Charlie ate his at a more leisurely pace. After lunch, it was right back outside for more playtime. The afternoon sunbeams would light up their fur as they chased each other around the yard. \n\nWhen it started getting late, their owners called them in for the night. Rex and Charlie would head inside, tired but happy after another fun day of play. After slurping up fresh water from their bowls, they'd curl up on their beds, Rex's fluffy golden tail tucked over his nose and little", "stop_reason": "max_tokens", "stop": null }, "outputTokenCount": 300 }, "requestMetadata": { "project": "CustomerService", "intent": "ComplaintResolution", "priority": "High" } }
Anda dapat menentukan log pemanggilan sebagai sumber data input saat memulai pekerjaan fine-tuning penguatan. Anda dapat memulai pekerjaan fine-tuning penguatan melalui konsol Amazon Bedrock, menggunakan API, AWS CLI atau SDK.
Persyaratan untuk menyediakan metadata permintaan
Metadata permintaan harus memenuhi persyaratan berikut:
-
Disediakan dalam
key:valueformat JSON. -
Pasangan kunci dan nilai harus berupa string maksimum 256 karakter.
-
Berikan maksimal 16 pasangan kunci-nilai.
Menggunakan filter metadata permintaan
Setelah log pemanggilan dengan metadata permintaan tersedia, Anda dapat menerapkan filter berdasarkan metadata permintaan untuk memilih secara selektif permintaan mana yang akan disertakan untuk menyempurnakan model. Misalnya, Anda mungkin hanya ingin menyertakan metadata yang memiliki "project": "CustomerService" dan "priority": "High" meminta metadata.
Untuk memfilter log menggunakan beberapa metadata permintaan, gunakan satu operator Boolean atau. AND OR Anda tidak dapat menggabungkan operator ini. Untuk pemfilteran metadata permintaan tunggal, gunakan operator or. Equals Not Equals
Karakteristik data pelatihan yang efektif
Data pelatihan RFT yang efektif membutuhkan tiga karakteristik utama:
-
Kejelasan dan konsistensi - Gunakan petunjuk yang jelas dan tidak ambigu dengan pemformatan yang konsisten. Hindari label yang kontradiktif, instruksi yang ambigu, atau jawaban referensi yang bertentangan yang menyesatkan pelatihan.
-
Keragaman — Sertakan beragam format input, kasus tepi, dan tingkat kesulitan yang mencerminkan pola penggunaan produksi di berbagai jenis dan skenario pengguna.
-
Fungsi hadiah yang efisien — Merancang fungsi yang dijalankan dengan cepat (detik, bukan menit), sejajar dengan AWS Lambda, dan mengembalikan skor yang konsisten untuk pelatihan hemat biaya.
Properti tambahan
Format data RFT mendukung bidang khusus di luar persyaratan skema inti (messagesdanreference_answer). Fleksibilitas ini memungkinkan Anda untuk menambahkan data tambahan apa pun yang dibutuhkan fungsi hadiah Anda untuk evaluasi yang tepat.
catatan
Anda tidak perlu mengonfigurasi ini dalam resep Anda. Format data secara inheren mendukung bidang tambahan. Cukup sertakan mereka dalam data pelatihan Anda JSON, dan mereka akan diteruskan ke fungsi hadiah Anda di metadata lapangan.
Properti tambahan umum
task_id— Pengidentifikasi unik untuk melacakdifficulty_level— Indikator kompleksitas masalahdomain— Bidang subjek atau kategoriexpected_reasoning_steps— Jumlah langkah dalam solusi
Bidang tambahan ini diteruskan ke fungsi hadiah Anda selama evaluasi, memungkinkan logika penilaian canggih yang disesuaikan dengan kasus penggunaan spesifik Anda.
Contoh dengan properti tambahan