

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

# RFT pada Nova 2.0
<a name="nova-hp-rft-nova2"></a>

Data pelatihan RFT mengikuti format percakapan OpenAI. Setiap contoh pelatihan adalah objek JSON yang berisi pesan, jawaban referensi, dan definisi alat opsional. Bagian ini memberikan panduan tentang mempersiapkan data pelatihan yang efektif untuk RFT di Nova 2.0.

**Topics**
+ [

## Format dan struktur data
](#nova-hp-rft-data-format)
+ [

## Deskripsi bidang
](#nova-hp-rft-field-descriptions)
+ [

## Panduan Hyperparameter
](#nova-hp-rft-monitoring-hyperparams)
+ [

## Properti tambahan
](#nova-hp-rft-additional-properties)
+ [

## Rekomendasi ukuran set data
](#nova-hp-rft-dataset-size)
+ [

## Karakteristik data pelatihan yang efektif
](#nova-hp-rft-effective-data)
+ [

# Memantau pelatihan RFT
](nova-hp-rft-monitoring.md)

## Format dan struktur data
<a name="nova-hp-rft-data-format"></a>

Setiap contoh pelatihan adalah objek JSON yang berisi berikut ini:
+ **pesan**: Array giliran percakapan menggunakan sistem, pengguna, dan peran asisten opsional
+ **reference\$1answer**: Output yang diharapkan atau kriteria evaluasi untuk perhitungan hadiah
+ **alat** (opsional): Array definisi fungsi yang tersedia untuk model
+ **id** (opsional): Pengidentifikasi unik untuk pelacakan dan deduplikasi

Setiap contoh harus pada satu baris dalam file JSONL Anda, dengan satu objek JSON per baris.

### Contoh 1: Masalah kimia
<a name="nova-hp-rft-example-chemistry"></a>

Contoh berikut menunjukkan masalah kimia dengan jawaban referensi yang mengandung nilai kebenaran dasar:

```
{  
  "id": "chem-001",  
  "messages": [  
    {  
      "role": "system",  
      "content": "You are a helpful chemistry assistant"  
    },  
    {  
      "role": "user",  
      "content": "Predict hydrogen bond donors and acceptors for this SMILES: CCN(CC)CCC(=O)c1sc(N)nc1C"  
    }  
  ],  
  "reference_answer": {  
    "donor_bond_counts": 2,  
    "acceptor_bond_counts": 4,  
    "explanation": "Calculated using Lipinski's rule of five: N-H groups (2 donors), N and O atoms with lone pairs (4 acceptors)"  
  }  
}
```

**catatan**  
Reference\$1answer berisi nilai kebenaran dasar yang dihitung menggunakan aturan khusus domain. Fungsi hadiah Anda membandingkan nilai prediksi model dengan nilai referensi ini untuk menghitung skor hadiah.

### Contoh 2: Masalah matematika
<a name="nova-hp-rft-example-math"></a>

Contoh berikut menunjukkan masalah matematika dengan langkah-langkah solusi:

```
{  
  "id": "math-001",  
  "messages": [  
    {  
      "role": "system",  
      "content": "You are a math tutor"  
    },  
    {  
      "role": "user",  
      "content": "Solve: 2x + 5 = 13"  
    }  
  ],  
  "reference_answer": {  
    "solution": "x = 4",  
    "steps": ["2x = 13 - 5", "2x = 8", "x = 4"]  
  }  
}
```

### Contoh 3: Penggunaan alat
<a name="nova-hp-rft-example-tool"></a>

Contoh berikut menunjukkan penggunaan alat dengan perilaku yang diharapkan:

```
{  
  "id": "tool-001",  
  "messages": [  
    {  
      "role": "system",  
      "content": "You are a helpful game master assistant"  
    },  
    {  
      "role": "user",  
      "content": "Generate a strength stat for a warrior character. Apply a +2 racial bonus modifier."  
    }  
  ],  
  "tools": [  
    {  
      "type": "function",  
      "function": {  
        "name": "StatRollAPI",  
        "description": "Generates character stats by rolling 4d6, dropping the lowest die result, and applying a modifier.",  
        "parameters": {  
          "type": "object",  
          "properties": {  
            "modifier": {  
              "description": "An integer representing the modifier to apply to the total of the stat roll.",  
              "type": "integer"  
            }  
          },  
          "required": ["modifier"]  
        }  
      }  
    }  
  ],  
  "reference_answer": {  
    "tool_called": "StatRollAPI",  
    "tool_parameters": {  
      "modifier": 2  
    },  
    "expected_behavior": "Call StatRollAPI with modifier=2 and return the calculated stat value"  
  }  
}
```

## Deskripsi bidang
<a name="nova-hp-rft-field-descriptions"></a>


| Bidang | Deskripsi | Catatan tambahan | Diperlukan | 
| --- |--- |--- |--- |
| id | Pengidentifikasi unik untuk contoh RFT ini | String (misalnya, “sample-001"). Berguna untuk melacak dan deduplikasi. | Tidak | 
| pesan | Daftar pesan obrolan yang diurutkan yang menentukan prompt dan konteks | Array objek. Model melihat mereka secara berurutan. Biasanya dimulai dengan pesan sistem, lalu pengguna. | Ya | 
| pesan [] .role | Siapa yang berbicara dalam pesan | Nilai umum: “sistem”, “pengguna” (terkadang “asisten” dalam konteks lain) | Tidak | 
| pesan [] .content | Isi teks pesan | Tali polos. Untuk sistem itu instruksi, untuk pengguna itu tugas atau input. | Tidak | 
| alat | Spesifikasi alat tersedia untuk model selama contoh ini | Array. Setiap item mendefinisikan antarmuka alat dan metadata. Jenis mungkin termasuk “fungsi” atau “internal”. | Tidak | 
| referensi\$1jawaban | Output model yang diharapkan untuk contoh ini | String atau objek tergantung pada tugas. Digunakan sebagai target untuk evaluasi atau pelatihan. | Tidak | 

**catatan**  
Setiap bidang kustom tambahan (misalnya, task\$1id, difficult level, context\$1data) tidak divalidasi dan akan diteruskan ke fungsi reward Anda sebagai metadata.

## Panduan Hyperparameter
<a name="nova-hp-rft-monitoring-hyperparams"></a>

Gunakan hiperparameter yang direkomendasikan berikut berdasarkan pendekatan pelatihan Anda:

**Umum:**
+ Zaman: 1
+ Tingkat pembelajaran (lr): 1e-7
+ Jumlah generasi: 8
+ Token baru maks: 8192
+ Ukuran Batch: 256

**LoRa (Adaptasi Peringkat Rendah):**
+ Ranking LoRa: 32

**catatan**  
Sesuaikan nilai-nilai ini berdasarkan ukuran set data dan kinerja validasi Anda. Pantau metrik pelatihan untuk mencegah overfitting.

## Properti tambahan
<a name="nova-hp-rft-additional-properties"></a>

Pengaturan “additionalProperties”: true memungkinkan Anda menyertakan bidang khusus di luar persyaratan skema inti, memberikan fleksibilitas untuk menambahkan data apa pun yang dibutuhkan fungsi hadiah Anda untuk evaluasi yang tepat.

### Bidang tambahan umum
<a name="nova-hp-rft-common-fields"></a>

Anda dapat menyertakan jenis bidang tambahan berikut:

**Metadata:**
+ task\$1id: Pengidentifikasi unik untuk melacak
+ complexty\$1level: Indikator kompleksitas masalah
+ domain: Area subjek atau kategori
+ expected\$1reasoning\$1steps: Jumlah langkah dalam solusi

**Kriteria evaluasi:**
+ evaluation\$1criteria: Rubrik penilaian khusus
+ custom\$1scoring\$1weights: Kepentingan relatif dari berbagai aspek
+ context\$1data: Informasi latar belakang untuk masalah
+ external\$1references: Tautan ke dokumentasi atau sumber daya yang relevan

### Contoh dengan properti tambahan
<a name="nova-hp-rft-additional-example"></a>

Contoh berikut mencakup bidang metadata kustom:

```
{  
  "id": "algebra_001",  
  "messages": [  
    {  
      "role": "system",  
      "content": "You are a math tutor"  
    },  
    {  
      "role": "user",  
      "content": "Solve: 2x + 5 = 13"  
    }  
  ],  
  "reference_answer": {  
    "solution": "x = 4",  
    "steps": ["2x = 13 - 5", "2x = 8", "x = 4"]  
  },  
  "task_id": "algebra_001",  
  "difficulty_level": "easy",  
  "domain": "algebra",  
  "expected_reasoning_steps": 3  
}
```

## Rekomendasi ukuran set data
<a name="nova-hp-rft-dataset-size"></a>

### Titik awal
<a name="nova-hp-rft-starting-point"></a>

Mulailah dengan ukuran set data minimum berikut:
+ Minimal 100 contoh pelatihan
+ Minimal 100 contoh evaluasi

Prioritaskan data input berkualitas tinggi dan fungsi hadiah yang andal yang dijalankan secara konsisten pada respons model.

### Pendekatan evaluasi-pertama
<a name="nova-hp-rft-evaluation-first"></a>

Sebelum berinvestasi dalam pelatihan RFT skala besar, evaluasi kinerja dasar model Anda:
+ **Kinerja tinggi (hadiah lebih dari 95%)**: RFT mungkin tidak perlu — model Anda sudah berkinerja baik
+ **Kinerja yang sangat buruk (hadiah 0%)**: Beralih ke SFT terlebih dahulu untuk membangun kemampuan dasar
+ **Kinerja sedang**: RFT kemungkinan sesuai

Pendekatan evaluasi pertama ini memastikan fungsi reward Anda bebas bug dan menentukan apakah RFT adalah metode yang tepat untuk kasus penggunaan Anda. Mulai dari yang kecil memungkinkan Anda merasa nyaman dengan alur kerja RFT, mengidentifikasi dan memperbaiki masalah lebih awal, memvalidasi pendekatan Anda sebelum meningkatkan, dan menguji keandalan fungsi hadiah. Setelah divalidasi, Anda dapat memperluas ke kumpulan data yang lebih besar untuk lebih meningkatkan kinerja.

## Karakteristik data pelatihan yang efektif
<a name="nova-hp-rft-effective-data"></a>

### Kejelasan dan konsistensi
<a name="nova-hp-rft-clarity"></a>

Contoh RFT yang baik membutuhkan data input yang jelas dan tidak ambigu yang memungkinkan perhitungan hadiah yang akurat di berbagai output model. Hindari kebisingan dalam data Anda, termasuk:
+ Pemformatan yang tidak konsisten
+ Label atau instruksi yang kontradiktif
+ Permintaan ambigu
+ Jawaban referensi yang bertentangan

Ambiguitas apa pun akan menyesatkan proses pelatihan dan menyebabkan model mempelajari perilaku yang tidak diinginkan.

### Keanekaragaman
<a name="nova-hp-rft-diversity"></a>

Dataset Anda harus menangkap keragaman penuh kasus penggunaan produksi untuk memastikan kinerja dunia nyata yang kuat. Termasuk:
+ Berbagai jenis masalah dan tingkat kesulitan
+ Format input dan kasus tepi yang berbeda
+ Sampel representatif dari semua skenario yang diharapkan

Keragaman ini membantu mencegah overfitting dan memastikan model menangani input yang tidak dikenal dengan anggun.

### Pertimbangan fungsi penghargaan
<a name="nova-hp-rft-reward-considerations"></a>

Rancang fungsi hadiah Anda untuk pelatihan yang efisien:
+ Jalankan dalam hitungan detik (bukan menit)
+ Paralelisasi secara efektif dengan Lambda
+ Kembalikan skor yang konsisten dan andal
+ Tangani berbagai jenis keluaran model dengan anggun

Fungsi hadiah yang cepat dan dapat diskalakan memungkinkan iterasi cepat dan eksperimen hemat biaya dalam skala besar.

# Memantau pelatihan RFT
<a name="nova-hp-rft-monitoring"></a>

Pantau metrik utama selama pelatihan untuk memastikan pembelajaran yang efektif dan mengidentifikasi potensi masalah sejak dini.

**Topics**
+ [

## Metrik kunci untuk dilacak
](#nova-hp-rft-monitoring-metrics)
+ [

## Evaluasi setelah RFT
](#nova-hp-rft-monitoring-evaluation)
+ [

## Menggunakan model yang disetel dengan baik
](#nova-hp-rft-monitoring-checkpoints)
+ [

## Keterbatasan dan praktik terbaik
](#nova-hp-rft-monitoring-limitations)
+ [

## Pemecahan masalah
](#nova-hp-rft-monitoring-troubleshooting)

## Metrik kunci untuk dilacak
<a name="nova-hp-rft-monitoring-metrics"></a>

Pantau metrik berikut yang digunakan MlFlow selama pelatihan:

**Metrik hadiah:**
+ **Skor hadiah rata-rata**: Kualitas keseluruhan respons model (harus meningkat seiring waktu)
+ **Distribusi hadiah**: Persentase tanggapan yang menerima hadiah tinggi, sedang, dan rendah
+ **Hadiah pelatihan vs. validasi**: Bandingkan untuk mendeteksi overfitting

**Metrik pelatihan:**
+ **Pembaruan kebijakan**: Jumlah pembaruan bobot yang berhasil
+ **Tingkat penyelesaian peluncuran**: Persentase sampel yang berhasil dievaluasi

**Mengenai pola:**
+ Imbalan dataran tinggi (menunjukkan pembelajaran yang buruk)
+ Hadiah validasi turun saat hadiah pelatihan meningkat (overfitting)
+ Varians hadiah meningkat secara signifikan dari waktu ke waktu (ketidakstabilan)
+ Persentase kesalahan fungsi hadiah yang tinggi (masalah implementasi)

**Kapan harus menghentikan pelatihan:**
+ Metrik kinerja target tercapai
+ Imbalan dataran tinggi dan tidak lagi membaik
+ Kinerja validasi menurun (overfitting terdeteksi)
+ Anggaran pelatihan maksimum tercapai

## Evaluasi setelah RFT
<a name="nova-hp-rft-monitoring-evaluation"></a>

Setelah pelatihan selesai, evaluasi model yang disetel dengan baik untuk menilai peningkatan kinerja:
+ **Jalankan pekerjaan evaluasi RFT**: Gunakan pos pemeriksaan dari pelatihan RFT Anda sebagai model
+ **Bandingkan dengan baseline**: Evaluasi model dasar dan model yang disetel dengan baik pada set pengujian yang sama
+ **Analisis metrik**: Tinjau metrik khusus tugas (akurasi, skor hadiah, dll.)
+ **Melakukan tinjauan kualitatif**: Periksa secara manual keluaran sampel untuk kualitas

Untuk prosedur evaluasi terperinci, lihat bagian Evaluasi.

## Menggunakan model yang disetel dengan baik
<a name="nova-hp-rft-monitoring-checkpoints"></a>

**Mengakses pos pemeriksaan:**

Setelah pelatihan selesai, cari pos pemeriksaan Anda:

1. Arahkan ke Anda `output_path` di S3

1. Unduh dan ekstrak `output.tar.gz`

1. Terbuka `manifest.json`

1. Salin `checkpoint_s3_bucket` nilainya

**Menerapkan untuk inferensi:**

Gunakan jalur pos pemeriksaan S3 untuk inferensi atau pelatihan lebih lanjut:

```
run:
    model_type: amazon.nova-2-lite-v1:0:256k
    model_name_or_path: "s3://customer-escrow-<account-number>-smtj-<unique-identifier>/<job-name>"
```

Untuk instruksi penyebaran dan inferensi, lihat bagian Inferensi.

## Keterbatasan dan praktik terbaik
<a name="nova-hp-rft-monitoring-limitations"></a>

**Keterbatasan saat ini:**

**Pembatasan beta:**
+ Perlu membuat grup RIG baru untuk RFT. Batasan ini akan diselesaikan oleh GA.
+ Persyaratan tipe instans: Hanya instans P5 yang didukung (minimal 8x p5.48xLarge). Segera Hadir: Dukungan untuk jenis instans yang lebih kecil (ETA: pertengahan Januari 2025).

**Keterbatasan fungsional:**
+ Batas waktu Lambda 15 menit: Fungsi hadiah harus selesai dalam 15 menit
+ Hanya satu putaran: Percakapan multi-putaran tidak didukung
+ Kumpulan data validasi: Tidak didukung selama pelatihan. Gunakan pekerjaan evaluasi terpisah untuk menilai kemajuan pelatihan.

**Pertimbangan pelatihan:**
+ Skenario hadiah rendah: Mungkin kesulitan ketika kurang dari 5% contoh menerima hadiah positif - pertimbangkan SFT terlebih dahulu
+ Persyaratan data: Membutuhkan keragaman yang cukup untuk belajar secara efektif
+ Biaya komputasi: Lebih mahal daripada fine-tuning yang diawasi

**Nova Forge menghapus beberapa keterbatasan ini:**
+ Mendukung percakapan multi-putaran
+ Memungkinkan fungsi hadiah melebihi batas waktu 15 menit
+ Menyediakan algoritma canggih dan opsi penyetelan
+ Dirancang untuk kasus penggunaan perusahaan yang kompleks, yang secara khusus disetel untuk membangun model perbatasan

**Praktik terbaik:**

**Mulai kecil dan skala:**
+ Mulailah dengan kumpulan data minimal (100-200 contoh) dan beberapa zaman pelatihan
+ Validasi pendekatan Anda sebelum meningkatkan
+ Secara bertahap meningkatkan ukuran dataset dan langkah-langkah pelatihan berdasarkan hasil

**Baseline dengan SFT terlebih dahulu:**
+ Jika skor hadiah secara konsisten rendah (misalnya, selalu 0), lakukan SFT sebelum RFT
+ RFT membutuhkan kinerja dasar yang wajar untuk meningkatkan secara efektif

**Desain fungsi hadiah yang efisien:**
+ Jalankan dalam hitungan detik, bukan menit
+ Minimalkan panggilan API eksternal
+ Gunakan algoritma dan struktur data yang efisien
+ Menerapkan penanganan kesalahan yang tepat
+ Uji secara menyeluruh sebelum pelatihan
+ Memanfaatkan kemampuan penskalaan paralel Lambda

**Pantau pelatihan secara aktif:**
+ Lacak skor hadiah rata-rata dari waktu ke waktu
+ Tonton distribusi hadiah di seluruh sampel
+ Bandingkan hadiah pelatihan vs. validasi
+ Cari pola yang menyangkut (dataran tinggi, overfitting, ketidakstabilan)

**Iterasi berdasarkan hasil:**
+ Jika reward tidak membaik setelah beberapa iterasi, sesuaikan desain fungsi reward
+ Tingkatkan keragaman kumpulan data untuk memberikan sinyal pembelajaran yang lebih jelas
+ Pertimbangkan untuk beralih ke SFT jika hadiah tetap mendekati nol
+ Bereksperimenlah dengan hiperparameter yang berbeda (tingkat pembelajaran, ukuran batch)

**Optimalkan kualitas data:**
+ Pastikan contoh yang beragam dan representatif
+ Sertakan kasing tepi dan sampel yang sulit
+ Verifikasi fungsi hadiah dengan benar menilai semua jenis contoh
+ Hapus atau perbaiki sampel yang membingungkan fungsi hadiah

## Pemecahan masalah
<a name="nova-hp-rft-monitoring-troubleshooting"></a>

**Kesalahan fungsi hadiah:**

Gejala: Tingkat kesalahan tinggi dalam panggilan fungsi hadiah selama pelatihan


| Isu | Gejala | Resolusi | 
| --- |--- |--- |
| Batas waktu Lambda | Batas waktu yang sering setelah 15 menit | Optimalkan kinerja fungsi; pertimbangkan Nova Forge untuk evaluasi kompleks | 
| Konkurensi tidak cukup | Kesalahan pelambatan Lambda | Tingkatkan lambda\$1concurrency\$1limit atau minta kenaikan kuota | 
| Format pengembalian tidak valid | Pelatihan gagal dengan kesalahan format | Verifikasi struktur pengembalian cocok dengan format antarmuka yang diperlukan | 
| Pengecualian yang tidak tertangani | Kesalahan intermiten | Tambahkan penanganan kesalahan dan pencatatan yang komprehensif | 
| Kegagalan API eksternal | Penilaian yang tidak konsisten | Menerapkan logika coba lagi dan strategi mundur | 

**Kinerja pelatihan yang buruk:**

Gejala: Imbalan tidak membaik atau mendatar pada nilai rendah

Resolusi:
+ **Verifikasi kebenaran fungsi hadiah**: Uji dengan contoh yang diketahui good/bad 
+ **Periksa kinerja dasar**: Evaluasi model dasar; jika akurasi mendekati nol, lakukan SFT terlebih dahulu
+ **Tingkatkan keragaman data**: Tambahkan contoh yang lebih bervariasi yang mencakup skenario berbeda
+ **Sesuaikan hiperparameter**: Coba tingkat pembelajaran atau ukuran batch yang berbeda
+ **Tinjau kualitas sinyal hadiah**: Pastikan hadiah membedakan antara respons yang baik dan buruk

**Overfitting:**

Gejala: Hadiah pelatihan meningkat sementara imbalan validasi menurun

Resolusi:
+ **Kurangi langkah pelatihan**: Hentikan pelatihan lebih awal
+ **Tingkatkan ukuran kumpulan data**: Tambahkan lebih banyak contoh pelatihan
+ **Tambahkan regularisasi**: Sesuaikan atau `weight_decay` `entropy_coeff`
+ **Meningkatkan keragaman data**: Pastikan set pelatihan mewakili distribusi penuh