Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.
Buat pekerjaan fine-tuning penguatan
Anda dapat membuat pekerjaan fine-tuning penguatan menggunakan konsol Amazon Bedrock atau API. Pekerjaan RFT dapat memakan waktu beberapa jam tergantung pada ukuran data pelatihan Anda, jumlah zaman, dan kompleksitas fungsi hadiah Anda.
Prasyarat
-
Buat peran layanan IAM untuk mengakses bucket Amazon S3 tempat Anda ingin menyimpan data pelatihan RFT dan artefak keluaran. Anda dapat membuat peran ini secara otomatis menggunakan Konsol Manajemen AWS atau secara manual. Untuk izin khusus RFT, lihat. Penguatan akses dan keamanan fine-tuning
-
(Opsional) Enkripsi data input dan output, pekerjaan RFT Anda, atau permintaan inferensi yang dibuat untuk model kustom. Untuk informasi selengkapnya, lihat Enkripsi model kustom.
Buat pekerjaan RFT Anda
Pilih tab untuk metode pilihan Anda, lalu ikuti langkah-langkahnya:
- Console
-
Untuk mengirimkan pekerjaan RFT di konsol, lakukan langkah-langkah berikut:
-
Masuk ke Konsol Manajemen AWS dan buka konsol Amazon Bedrock di https://console.aws.amazon.com/bedrock.
-
Dari panel navigasi kiri, pilih Model khusus di bawah Tune.
-
Dalam tabel Model, pilih Buat. Kemudian, pilih Buat pekerjaan fine-tuning tulangan.
-
Di bagian Detail model, pilih Amazon Nova 2 Lite sebagai model dasar Anda.
-
Di bagian Detail kustomisasi, masukkan nama kustomisasi.
-
Di bagian Data pelatihan, pilih sumber data Anda:
-
Gunakan log pemanggilan yang disimpan - Pilih dari log pemanggilan yang tersedia yang disimpan di Amazon S3
-
Unggah kumpulan data baru - Pilih lokasi Amazon S3 dari file kumpulan data pelatihan Anda atau unggah file langsung dari perangkat Anda
Dataset pelatihan Anda harus dalam format data Penyelesaian Obrolan OpenAI. Jika Anda memberikan log pemanggilan dalam format pemanggilan atau percakapan Amazon Bedrock, Amazon Bedrock secara otomatis mengonversinya ke format Penyelesaian Obrolan.
-
Di bagian fungsi Reward, siapkan mekanisme reward Anda:
-
Model sebagai hakim (RLAIF) - Pilih model dasar yang dihosting Bedrock sebagai hakim dan konfigurasikan instruksi untuk evaluasi. Gunakan ini untuk tugas subjektif seperti moderasi konten.
Opsi Model sebagai hakim konsol secara otomatis mengubah konfigurasi Anda menjadi fungsi Lambda selama pelatihan.
-
Kode kustom (RLVR) - Buat fungsi hadiah khusus menggunakan kode Python yang dijalankan melalui fungsi Lambda. Gunakan ini untuk tugas-tugas objektif seperti pembuatan kode.
Untuk informasi selengkapnya, lihat Menyiapkan fungsi hadiah.
-
(Opsional) Di bagian Hyperparameters, sesuaikan parameter pelatihan atau gunakan nilai default.
-
Di bagian Data keluaran, masukkan lokasi Amazon S3 tempat Bedrock harus menyimpan output pekerjaan.
-
Di bagian Konfigurasi peran, pilih:
-
(Opsional) Di bagian Konfigurasi tambahan, konfigurasikan:
-
Pilih Buat pekerjaan fine-tuning tulangan untuk memulai pekerjaan.
- API
-
Kirim CreateModelCustomizationJob permintaan dengan customizationType set keREINFORCEMENT_FINE_TUNING. Anda harus memberikan bidang-bidang berikut:
Bidang yang diperlukan:
-
roleArn- ARN peran layanan dengan izin RFT
-
baseModelIdentifier- Model ID atau ARN dari model pondasi untuk menyesuaikan
-
customModelName- Nama untuk model yang baru disesuaikan
-
jobName- Nama untuk pekerjaan pelatihan
-
customizationType- Setel ke REINFORCEMENT_FINE_TUNING
-
trainingDataConfig- Amazon S3 URI dari kumpulan data pelatihan atau konfigurasi log pemanggilan
-
outputDataConfig- Amazon S3 URI untuk menulis data output
-
rftConfig- Konfigurasi fungsi hadiah (RLVR atau RLAIF) dan konfigurasi paramerter hiper
Contoh permintaan:
{
"roleArn": "arn:aws:iam::123456789012:role/BedrockRFTRole",
"baseModelIdentifier": "amazon.nova-2.0",
"customModelName": "my-rft-model",
"jobName": "my-rft-job",
"customizationType": "REINFORCEMENT_FINE_TUNING",
"trainingDataConfig": {
"s3Uri": "s3://my-bucket/training-data.jsonl"
},
"customizationConfig": {
"rftConfig" : {
"graderConfig": {
"lambdaGrader": {
"lambdaArn": "arn:aws:lambda:us-east-1:123456789012:function:function-name"
}
},
"hyperParameters": {
"batchSize": 64,
"epochCount": 2,
"evalInterval": 10,
"inferenceMaxTokens": 8192,
"learningRate": 0.00001,
"maxPromptLength": 4096,
"reasoningEffort": "high",
"trainingSamplePerPrompt": 4
}
}
},
"outputDataConfig": {
"s3Uri": "s3://my-bucket/rft-output/"
}
}
Permintaan sampel API Python:
import boto3
bedrock = boto3.client(service_name='bedrock')
# Set parameters
customizationType = "REINFORCEMENT_FINE_TUNING"
baseModelIdentifier = "arn:aws:bedrock:us-east-1::foundation-model/amazon.nova-2-lite-v1:0:256k"
roleArn = "${your-customization-role-arn}"
jobName = "MyFineTuningJob"
customModelName = "MyCustomModel"
customizationConfig = {
'rftConfig' : {
'graderConfig': {
'lambdaGrader': {
'lambdaArn': 'arn:aws:lambda:us-east-1:123456789012:function:function-name'
}
},
'hyperParameters': {
'batchSize': 64,
'epochCount': 2,
'evalInterval': 10,
'inferenceMaxTokens': 8192,
'learningRate':0.00001,
'maxPromptLength': 4096,
'reasoningEffort': 'high',
'trainingSamplePerPrompt':4
}
}
}
trainingDataConfig = {"s3Uri": "s3://${training-bucket}/myInputData/train.jsonl"}
outputDataConfig = {"s3Uri": "s3://${output-bucket}/myOutputData"}
# Create job
response_ft = bedrock.create_model_customization_job(
jobName=jobName,
customModelName=customModelName,
roleArn=roleArn,
baseModelIdentifier=baseModelIdentifier,
customizationConfig=customizationConfig,
trainingDataConfig=trainingDataConfig,
outputDataConfig=outputDataConfig,
customizationType=customizationType
)
jobArn = response_ft['jobArn']
Alur kerja pekerjaan RFT
Pekerjaan RFT mengikuti alur kerja otomatis ini:
-
Response Generation - Model aktor menghasilkan tanggapan dari petunjuk pelatihan
-
Komputasi Hadiah - Fungsi hadiah mengevaluasi pasangan prompt respons
-
Pelatihan Model Aktor - Model belajar dari pasangan yang diberi skor menggunakan GRPO
Selama pelatihan, Anda dapat memantau kemajuan menggunakan grafik real-time dengan metrik pelatihan dan validasi seperti kerugian, hadiah, margin hadiah, dan akurasi. Setelah berhasil, model RFT dibuat dengan model khusus ARN.
Mengatur inferensi
Setelah pekerjaan selesai, Anda dapat menerapkan model RFT yang dihasilkan dengan satu klik untuk inferensi sesuai permintaan. Anda juga dapat menggunakan Provisioned Throughput untuk beban kerja penting misi yang memerlukan kinerja yang konsisten. Setelah inferensi diatur, gunakan Test in Playground untuk mengevaluasi dan membandingkan respons secara interaktif side-by-side dengan model dasar.
Untuk memantau kemajuan pekerjaan RFT Anda, lihatPantau pekerjaan pelatihan RFT Anda.
Untuk mengevaluasi model RFT Anda yang telah selesai, lihat. Evaluasi model RFT Anda