Prasyarat Buat pekerjaan RFT Anda Alur kerja pekerjaan RFT Mengatur inferensi

Buat pekerjaan fine-tuning penguatan

Anda dapat membuat pekerjaan fine-tuning penguatan menggunakan konsol Amazon Bedrock atau API. Pekerjaan RFT dapat memakan waktu beberapa jam tergantung pada ukuran data pelatihan Anda, jumlah zaman, dan kompleksitas fungsi hadiah Anda.

Topik

Prasyarat

Buat peran layanan IAM untuk mengakses bucket Amazon S3 tempat Anda ingin menyimpan data pelatihan RFT dan artefak keluaran. Anda dapat membuat peran ini secara otomatis menggunakan Konsol Manajemen AWS atau secara manual. Untuk izin khusus RFT, lihat. Penguatan akses dan keamanan fine-tuning
(Opsional) Enkripsi data input dan output, pekerjaan RFT Anda, atau permintaan inferensi yang dibuat untuk model kustom. Untuk informasi selengkapnya, lihat Enkripsi model kustom.

Buat pekerjaan RFT Anda

Pilih tab untuk metode pilihan Anda, lalu ikuti langkah-langkahnya:

Console

Untuk mengirimkan pekerjaan RFT di konsol, lakukan langkah-langkah berikut:

Masuk ke Konsol Manajemen AWS dan buka konsol Amazon Bedrock di https://console.aws.amazon.com/bedrock.
Dari panel navigasi kiri, pilih Model khusus di bawah Tune.
Dalam tabel Model, pilih Buat. Kemudian, pilih Buat pekerjaan fine-tuning tulangan.
Di bagian Detail model, pilih Amazon Nova 2 Lite sebagai model dasar Anda.
Di bagian Detail kustomisasi, masukkan nama kustomisasi.
Di bagian Data pelatihan, pilih sumber data Anda:
- Gunakan log pemanggilan yang disimpan - Pilih dari log pemanggilan yang tersedia yang disimpan di Amazon S3
- Unggah kumpulan data baru - Pilih lokasi Amazon S3 dari file kumpulan data pelatihan Anda atau unggah file langsung dari perangkat Anda
catatan
Dataset pelatihan Anda harus dalam format data Penyelesaian Obrolan OpenAI. Jika Anda memberikan log pemanggilan dalam format pemanggilan atau percakapan Amazon Bedrock, Amazon Bedrock secara otomatis mengonversinya ke format Penyelesaian Obrolan.
Di bagian fungsi Reward, siapkan mekanisme reward Anda:
- Model sebagai hakim (RLAIF) - Pilih model dasar yang dihosting Bedrock sebagai hakim dan konfigurasikan instruksi untuk evaluasi. Gunakan ini untuk tugas subjektif seperti moderasi konten.
  
  catatan
  Opsi Model sebagai hakim konsol secara otomatis mengubah konfigurasi Anda menjadi fungsi Lambda selama pelatihan.
- Kode kustom (RLVR) - Buat fungsi hadiah khusus menggunakan kode Python yang dijalankan melalui fungsi Lambda. Gunakan ini untuk tugas-tugas objektif seperti pembuatan kode.
Untuk informasi selengkapnya, lihat Menyiapkan fungsi hadiah.
(Opsional) Di bagian Hyperparameters, sesuaikan parameter pelatihan atau gunakan nilai default.
Di bagian Data keluaran, masukkan lokasi Amazon S3 tempat Bedrock harus menyimpan output pekerjaan.
Di bagian Konfigurasi peran, pilih:
- Pilih peran yang ada - Pilih dari daftar dropdown
- Buat peran - Masukkan nama untuk peran layanan
(Opsional) Di bagian Konfigurasi tambahan, konfigurasikan:
- Data validasi dengan menunjuk ke bucket Amazon S3
- Pengaturan enkripsi KMS
- Tag Job dan model
Pilih Buat pekerjaan fine-tuning tulangan untuk memulai pekerjaan.

API

Kirim CreateModelCustomizationJob permintaan dengan customizationType set keREINFORCEMENT_FINE_TUNING. Anda harus memberikan bidang-bidang berikut:

Bidang yang diperlukan:

roleArn- ARN peran layanan dengan izin RFT
baseModelIdentifier- Model ID atau ARN dari model pondasi untuk menyesuaikan
customModelName- Nama untuk model yang baru disesuaikan
jobName- Nama untuk pekerjaan pelatihan
customizationType- Setel ke REINFORCEMENT_FINE_TUNING
trainingDataConfig- Amazon S3 URI dari kumpulan data pelatihan atau konfigurasi log pemanggilan
outputDataConfig- Amazon S3 URI untuk menulis data output
rftConfig- Konfigurasi fungsi hadiah (RLVR atau RLAIF) dan konfigurasi paramerter hiper

Contoh permintaan:


{
    "roleArn": "arn:aws:iam::123456789012:role/BedrockRFTRole",
    "baseModelIdentifier": "amazon.nova-2.0",
    "customModelName": "my-rft-model",
    "jobName": "my-rft-job",
    "customizationType": "REINFORCEMENT_FINE_TUNING",
    "trainingDataConfig": {
        "s3Uri": "s3://my-bucket/training-data.jsonl"
    },
    "customizationConfig": {
        "rftConfig" : {
            "graderConfig": {
                "lambdaGrader": {
                    "lambdaArn": "arn:aws:lambda:us-east-1:123456789012:function:function-name"
                }
            },
            "hyperParameters": {
                "batchSize": 64,
                "epochCount": 2,
                "evalInterval": 10,
                "inferenceMaxTokens": 8192,
                "learningRate": 0.00001,
                "maxPromptLength": 4096,
                "reasoningEffort": "high",
                "trainingSamplePerPrompt": 4
            }
        }
    },
    "outputDataConfig": {
        "s3Uri": "s3://my-bucket/rft-output/"
    }
}

Permintaan sampel API Python:


import boto3

bedrock = boto3.client(service_name='bedrock')
    
# Set parameters
customizationType = "REINFORCEMENT_FINE_TUNING"
baseModelIdentifier = "arn:aws:bedrock:us-east-1::foundation-model/amazon.nova-2-lite-v1:0:256k"
roleArn = "${your-customization-role-arn}"
jobName = "MyFineTuningJob"
customModelName = "MyCustomModel"

customizationConfig = {
    'rftConfig' : {
        'graderConfig': {
            'lambdaGrader': {
                'lambdaArn': 'arn:aws:lambda:us-east-1:123456789012:function:function-name'
            }
        },
        'hyperParameters': {
            'batchSize': 64,
            'epochCount': 2,
            'evalInterval': 10,
            'inferenceMaxTokens': 8192,
            'learningRate':0.00001,
            'maxPromptLength': 4096,
            'reasoningEffort': 'high',
            'trainingSamplePerPrompt':4
        }
    }
}

trainingDataConfig = {"s3Uri": "s3://${training-bucket}/myInputData/train.jsonl"}
outputDataConfig = {"s3Uri": "s3://${output-bucket}/myOutputData"}

# Create job
response_ft = bedrock.create_model_customization_job(
    jobName=jobName, 
    customModelName=customModelName,
    roleArn=roleArn,
    baseModelIdentifier=baseModelIdentifier,
    customizationConfig=customizationConfig,
    trainingDataConfig=trainingDataConfig,
    outputDataConfig=outputDataConfig,
    customizationType=customizationType
)

jobArn = response_ft['jobArn']

Alur kerja pekerjaan RFT

Pekerjaan RFT mengikuti alur kerja otomatis ini:

Response Generation - Model aktor menghasilkan tanggapan dari petunjuk pelatihan
Komputasi Hadiah - Fungsi hadiah mengevaluasi pasangan prompt respons
Pelatihan Model Aktor - Model belajar dari pasangan yang diberi skor menggunakan GRPO

Selama pelatihan, Anda dapat memantau kemajuan menggunakan grafik real-time dengan metrik pelatihan dan validasi seperti kerugian, hadiah, margin hadiah, dan akurasi. Setelah berhasil, model RFT dibuat dengan model khusus ARN.

Mengatur inferensi

Setelah pekerjaan selesai, Anda dapat menerapkan model RFT yang dihasilkan dengan satu klik untuk inferensi sesuai permintaan. Anda juga dapat menggunakan Provisioned Throughput untuk beban kerja penting misi yang memerlukan kinerja yang konsisten. Setelah inferensi diatur, gunakan Test in Playground untuk mengevaluasi dan membandingkan respons secara interaktif side-by-side dengan model dasar.

Untuk memantau kemajuan pekerjaan RFT Anda, lihatPantau pekerjaan pelatihan RFT Anda.

Untuk mengevaluasi model RFT Anda yang telah selesai, lihat. Evaluasi model RFT Anda

Awas Javascript dinonaktifkan atau tidak tersedia di browser Anda.

Untuk menggunakan Dokumentasi AWS, Javascript harus diaktifkan. Lihat halaman Bantuan browser Anda untuk petunjuk.

Konvensi Dokumen

Menyiapkan fungsi hadiah

Pantau pekerjaan pelatihan RFT Anda