Buat pekerjaan fine-tuning penguatan - Amazon Bedrock

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Buat pekerjaan fine-tuning penguatan

Anda dapat membuat pekerjaan fine-tuning penguatan menggunakan konsol Amazon Bedrock atau API. Pekerjaan RFT dapat memakan waktu beberapa jam tergantung pada ukuran data pelatihan Anda, jumlah zaman, dan kompleksitas fungsi hadiah Anda.

Prasyarat

  • Buat peran layanan IAM untuk mengakses bucket Amazon S3 tempat Anda ingin menyimpan data pelatihan RFT dan artefak keluaran. Anda dapat membuat peran ini secara otomatis menggunakan Konsol Manajemen AWS atau secara manual. Untuk izin khusus RFT, lihat. Penguatan akses dan keamanan fine-tuning

  • (Opsional) Enkripsi data input dan output, pekerjaan RFT Anda, atau permintaan inferensi yang dibuat untuk model kustom. Untuk informasi selengkapnya, lihat Enkripsi model kustom.

Buat pekerjaan RFT Anda

Pilih tab untuk metode pilihan Anda, lalu ikuti langkah-langkahnya:

Console

Untuk mengirimkan pekerjaan RFT di konsol, lakukan langkah-langkah berikut:

  1. Masuk ke Konsol Manajemen AWS dan buka konsol Amazon Bedrock di https://console.aws.amazon.com/bedrock.

  2. Dari panel navigasi kiri, pilih Model khusus di bawah Tune.

  3. Dalam tabel Model, pilih Buat. Kemudian, pilih Buat pekerjaan fine-tuning tulangan.

  4. Di bagian Detail model, pilih Amazon Nova 2 Lite sebagai model dasar Anda.

  5. Di bagian Detail kustomisasi, masukkan nama kustomisasi.

  6. Di bagian Data pelatihan, pilih sumber data Anda:

    • Gunakan log pemanggilan yang disimpan - Pilih dari log pemanggilan yang tersedia yang disimpan di Amazon S3

    • Unggah kumpulan data baru - Pilih lokasi Amazon S3 dari file kumpulan data pelatihan Anda atau unggah file langsung dari perangkat Anda

    catatan

    Dataset pelatihan Anda harus dalam format data Penyelesaian Obrolan OpenAI. Jika Anda memberikan log pemanggilan dalam format pemanggilan atau percakapan Amazon Bedrock, Amazon Bedrock secara otomatis mengonversinya ke format Penyelesaian Obrolan.

  7. Di bagian fungsi Reward, siapkan mekanisme reward Anda:

    • Model sebagai hakim (RLAIF) - Pilih model dasar yang dihosting Bedrock sebagai hakim dan konfigurasikan instruksi untuk evaluasi. Gunakan ini untuk tugas subjektif seperti moderasi konten.

      catatan

      Opsi Model sebagai hakim konsol secara otomatis mengubah konfigurasi Anda menjadi fungsi Lambda selama pelatihan.

    • Kode kustom (RLVR) - Buat fungsi hadiah khusus menggunakan kode Python yang dijalankan melalui fungsi Lambda. Gunakan ini untuk tugas-tugas objektif seperti pembuatan kode.

    Untuk informasi selengkapnya, lihat Menyiapkan fungsi hadiah.

  8. (Opsional) Di bagian Hyperparameters, sesuaikan parameter pelatihan atau gunakan nilai default.

  9. Di bagian Data keluaran, masukkan lokasi Amazon S3 tempat Bedrock harus menyimpan output pekerjaan.

  10. Di bagian Konfigurasi peran, pilih:

    • Pilih peran yang ada - Pilih dari daftar dropdown

    • Buat peran - Masukkan nama untuk peran layanan

  11. (Opsional) Di bagian Konfigurasi tambahan, konfigurasikan:

    • Data validasi dengan menunjuk ke bucket Amazon S3

    • Pengaturan enkripsi KMS

    • Tag Job dan model

  12. Pilih Buat pekerjaan fine-tuning tulangan untuk memulai pekerjaan.

API

Kirim CreateModelCustomizationJob permintaan dengan customizationType set keREINFORCEMENT_FINE_TUNING. Anda harus memberikan bidang-bidang berikut:

Bidang yang diperlukan:

  • roleArn- ARN peran layanan dengan izin RFT

  • baseModelIdentifier- Model ID atau ARN dari model pondasi untuk menyesuaikan

  • customModelName- Nama untuk model yang baru disesuaikan

  • jobName- Nama untuk pekerjaan pelatihan

  • customizationType- Setel ke REINFORCEMENT_FINE_TUNING

  • trainingDataConfig- Amazon S3 URI dari kumpulan data pelatihan atau konfigurasi log pemanggilan

  • outputDataConfig- Amazon S3 URI untuk menulis data output

  • rftConfig- Konfigurasi fungsi hadiah (RLVR atau RLAIF) dan konfigurasi paramerter hiper

Contoh permintaan:

{ "roleArn": "arn:aws:iam::123456789012:role/BedrockRFTRole", "baseModelIdentifier": "amazon.nova-2.0", "customModelName": "my-rft-model", "jobName": "my-rft-job", "customizationType": "REINFORCEMENT_FINE_TUNING", "trainingDataConfig": { "s3Uri": "s3://my-bucket/training-data.jsonl" }, "customizationConfig": { "rftConfig" : { "graderConfig": { "lambdaGrader": { "lambdaArn": "arn:aws:lambda:us-east-1:123456789012:function:function-name" } }, "hyperParameters": { "batchSize": 64, "epochCount": 2, "evalInterval": 10, "inferenceMaxTokens": 8192, "learningRate": 0.00001, "maxPromptLength": 4096, "reasoningEffort": "high", "trainingSamplePerPrompt": 4 } } }, "outputDataConfig": { "s3Uri": "s3://my-bucket/rft-output/" } }

Permintaan sampel API Python:

import boto3 bedrock = boto3.client(service_name='bedrock') # Set parameters customizationType = "REINFORCEMENT_FINE_TUNING" baseModelIdentifier = "arn:aws:bedrock:us-east-1::foundation-model/amazon.nova-2-lite-v1:0:256k" roleArn = "${your-customization-role-arn}" jobName = "MyFineTuningJob" customModelName = "MyCustomModel" customizationConfig = { 'rftConfig' : { 'graderConfig': { 'lambdaGrader': { 'lambdaArn': 'arn:aws:lambda:us-east-1:123456789012:function:function-name' } }, 'hyperParameters': { 'batchSize': 64, 'epochCount': 2, 'evalInterval': 10, 'inferenceMaxTokens': 8192, 'learningRate':0.00001, 'maxPromptLength': 4096, 'reasoningEffort': 'high', 'trainingSamplePerPrompt':4 } } } trainingDataConfig = {"s3Uri": "s3://${training-bucket}/myInputData/train.jsonl"} outputDataConfig = {"s3Uri": "s3://${output-bucket}/myOutputData"} # Create job response_ft = bedrock.create_model_customization_job( jobName=jobName, customModelName=customModelName, roleArn=roleArn, baseModelIdentifier=baseModelIdentifier, customizationConfig=customizationConfig, trainingDataConfig=trainingDataConfig, outputDataConfig=outputDataConfig, customizationType=customizationType ) jobArn = response_ft['jobArn']

Alur kerja pekerjaan RFT

Pekerjaan RFT mengikuti alur kerja otomatis ini:

  1. Response Generation - Model aktor menghasilkan tanggapan dari petunjuk pelatihan

  2. Komputasi Hadiah - Fungsi hadiah mengevaluasi pasangan prompt respons

  3. Pelatihan Model Aktor - Model belajar dari pasangan yang diberi skor menggunakan GRPO

Selama pelatihan, Anda dapat memantau kemajuan menggunakan grafik real-time dengan metrik pelatihan dan validasi seperti kerugian, hadiah, margin hadiah, dan akurasi. Setelah berhasil, model RFT dibuat dengan model khusus ARN.

Mengatur inferensi

Setelah pekerjaan selesai, Anda dapat menerapkan model RFT yang dihasilkan dengan satu klik untuk inferensi sesuai permintaan. Anda juga dapat menggunakan Provisioned Throughput untuk beban kerja penting misi yang memerlukan kinerja yang konsisten. Setelah inferensi diatur, gunakan Test in Playground untuk mengevaluasi dan membandingkan respons secara interaktif side-by-side dengan model dasar.

Untuk memantau kemajuan pekerjaan RFT Anda, lihatPantau pekerjaan pelatihan RFT Anda.

Untuk mengevaluasi model RFT Anda yang telah selesai, lihat. Evaluasi model RFT Anda