Siapkan data pelatihan dan fungsi penghargaan Anda untuk penyempurnaan penguatan - Amazon Bedrock

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Siapkan data pelatihan dan fungsi penghargaan Anda untuk penyempurnaan penguatan

Untuk membuat pekerjaan fine-tuning penguatan, Anda memerlukan data pelatihan dan fungsi penghargaan yang mengevaluasi kualitas respons. Tidak seperti fine-tuning tradisional yang membutuhkan pasangan input-output, RFT menggunakan prompt dan sinyal hadiah untuk memandu pembelajaran model.

Anda dapat menggunakan log pemanggilan Amazon Bedrock API yang ada sebagai data pelatihan atau mengunggah kumpulan data baru. Fungsi penghargaan menentukan apa yang membuat respons yang baik dan dapat menggunakan verifikasi berbasis aturan (RLVR) atau penilaian berbasis AI (RLAIF).

penting

Anda dapat memberikan maksimum 20K petunjuk ke Amazon Bedrock untuk penguatan menyempurnakan model.