Merancang contoh pelatihan yang efektif Contoh format dataset Kendala set data

Mempersiapkan data untuk fine-tuning multimodal

penting

Sebelum Anda mulai mempersiapkan dataset Anda, pastikan supervised fine-tuning (SFT) adalah pendekatan yang tepat untuk kasus penggunaan Anda. SFT mengajarkan model perilaku baru, format respons, dan pola penalaran. Itu tidak mengajarkan model pengetahuan faktual baru. Jika tujuan utama Anda adalah memperkenalkan fakta, terminologi, atau pengetahuan spesifik domain yang belum dilihat model, pertimbangkan retrieval-augmented generation (RAG) untuk menyediakan konteks itu pada waktu inferensi. Untuk panduan memilih antara SFT, reinforcement fine-tuning (RFT), dan RAG, lihat. Kustomisasi Amazon Nova pada Pekerjaan SageMaker Pelatihan

Berikut ini adalah pedoman dan persyaratan untuk menyiapkan data untuk menyempurnakan model Pemahaman:

Ukuran data minimum untuk fine-tuning tergantung pada tugas (yaitu, kompleks atau sederhana) tetapi kami sarankan Anda memiliki setidaknya 100 sampel untuk setiap tugas yang Anda ingin model pelajari.
Sebaiknya gunakan prompt yang dioptimalkan dalam pengaturan zero-shot selama pelatihan dan inferensi untuk mencapai hasil terbaik.
Kumpulan data pelatihan dan validasi harus berupa file JSONL, di mana setiap baris adalah objek JSON yang sesuai dengan catatan. Nama file ini hanya dapat terdiri dari karakter alfanumerik, garis bawah, tanda hubung, garis miring, dan titik.
Kendala gambar dan video
1. Dataset tidak dapat berisi modalitas media yang berbeda. Artinya, kumpulan data dapat berupa teks dengan gambar atau teks dengan video.
2. Satu sampel (catatan tunggal dalam pesan) dapat memiliki banyak gambar
3. Satu sampel (catatan tunggal dalam pesan) hanya dapat memiliki 1 video
schemaVersionbisa berupa nilai string
systemGiliran (opsional) dapat berupa prompt sistem kustom yang disediakan pelanggan.
Peran yang didukung adalah user danassistant.
Giliran pertama messages harus selalu dimulai dengan"role": "user". Giliran terakhir adalah respons bot, dilambangkan dengan. "role": "assistant"
Itu image.source.s3Location.uri dan video.source.s3Location.uri harus dapat diakses oleh Amazon Bedrock.
Peran layanan Amazon Bedrock Anda harus dapat mengakses file gambar di Amazon S3. Untuk informasi selengkapnya tentang pemberian akses, lihat Membuat peran layanan untuk penyesuaian model
Gambar atau video harus berada dalam bucket Amazon S3 yang sama dengan kumpulan data Anda. Misalnya, jika dataset Anda masuks3://amzn-s3-demo-bucket/train/train.jsonl, maka gambar atau video Anda harus ada di s3://amzn-s3-demo-bucket
IstilahUser:,,Bot:,Assistant:,System:, <image><video>, dan [EOS] merupakan kata kunci yang dicadangkan. Jika prompt pengguna atau prompt sistem dimulai dengan salah satu kata kunci ini, atau memiliki kata kunci ini di mana saja dalam prompt, pekerjaan pelatihan Anda akan gagal karena masalah data. Jika Anda perlu menggunakan kata kunci ini untuk kasus penggunaan Anda, Anda harus menggantinya dengan kata kunci yang berbeda dengan arti yang sama sehingga pelatihan Anda dapat dilanjutkan.

catatan

Untuk memvalidasi kumpulan data Anda sebelum mengirimkan pekerjaan fine-tuning, Anda dapat menggunakan skrip validasi kumpulan data yang tersedia di. GitHub

Merancang contoh pelatihan yang efektif

Data pelatihan Anda harus menunjukkan perilaku yang Anda inginkan untuk ditunjukkan oleh model. SFT mengajarkan model bagaimana merespons, bukan apa yang harus diketahui. Jika Anda menemukan diri Anda membuat contoh pelatihan terutama untuk menyuntikkan pengetahuan faktual (misalnya, “Apa E-45 arti kode kesalahan?” dengan jawaban "E-45 menunjukkan batas waktu sensor”), pertimbangkan apakah RAG atau teknik cepat dapat mencapai hasil yang sama tanpa fine-tuning.

Saat mengonversi data sumber ke dalam format percakapan, ikuti prinsip-prinsip ini:

Mulai dari kueri pengguna nyata. Write user mengubah cermin bagaimana pengguna akhir akan benar-benar meminta model dalam produksi. Hindari pertanyaan buatan atau terlalu disederhanakan yang tidak mencerminkan pola penggunaan nyata.
Tulis tanggapan asisten standar emas. Setiap giliran asisten harus menjadi respons ideal yang Anda ingin model hasilkan — benar, diformat dengan baik, dan konsisten dalam nada dan struktur di semua contoh.
Gunakan prompt sistem secara strategis. Tempatkan instruksi persisten seperti format output, persona, dan konteks domain di giliran sistem. Gunakan prompt sistem yang sama selama pelatihan dan inferensi untuk mencapai hasil terbaik.
Jaga agar contoh tetap fokus pada satu keterampilan per sampel. Jika Anda memerlukan model untuk mengklasifikasikan, menjawab pertanyaan, dan meringkas, buat set contoh terpisah untuk setiap keterampilan daripada menggabungkan beberapa keterampilan dalam satu sampel.
Prioritaskan kualitas daripada kuantitas. Beberapa ratus contoh berkualitas tinggi dan konsisten biasanya mengungguli ribuan yang berisik atau kontradiktif. Hapus duplikat dan tinjau data Anda sebelum pelatihan.

Pola transformasi data umum

Pola berikut menggambarkan bagaimana mengubah format data perusahaan umum menjadi contoh pelatihan SFT yang efektif.

Pola 1: Catatan terstruktur untuk klasifikasi atau pencarian

Jika data sumber Anda adalah tabel atau database catatan dengan bidang sepertiissue,cause, danresolution, bingkai setiap catatan sebagai pertanyaan pengguna dengan bidang input yang relevan dan respons asisten sebagai bidang keluaran target.


// train.jsonl
{
  "schemaVersion": "bedrock-conversation-2024",
  "system": [
    {
      "text": "You are a technical support assistant. Given an issue description, identify the most likely root cause and recommended resolution."
    }
  ],
  "messages": [
    {
      "role": "user",
      "content": [
        {
          "text": "A user reports: 'Application crashes on startup after the latest update.' What is the likely cause and resolution?"
        }
      ]
    },
    {
      "role": "assistant",
      "content": [
        {
          "text": "Cause: Incompatible configuration file from the previous version.\nResolution: Delete the local configuration cache and restart the application to regenerate default settings."
        }
      ]
    }
  ]
}

Pola 2: Data hierarkis atau taksonomi ke Tanya Jawab terstruktur

Ketika data sumber Anda adalah hierarki kode atau taksonomi seperti pohon kategori produk atau sistem klasifikasi, buat pertanyaan yang meminta model untuk menavigasi hierarki. Sertakan konteks klasifikasi dalam prompt sistem atau giliran pengguna.


// train.jsonl
{
  "schemaVersion": "bedrock-conversation-2024",
  "system": [
    {
      "text": "You are a product catalog assistant. Answer questions about product categories and classifications accurately."
    }
  ],
  "messages": [
    {
      "role": "user",
      "content": [
        {
          "text": "What top-level category does product code 'EL-4520' belong to, and what subcategories does it include?"
        }
      ]
    },
    {
      "role": "assistant",
      "content": [
        {
          "text": "Product code EL-4520 belongs to the Electronics category. It includes the subcategories: Audio Equipment, Portable Speakers, and Wireless Accessories."
        }
      ]
    }
  ]
}

Pola 3: Dokumen prosedural untuk dialog instruksional

Jika data sumber Anda terdiri dari prosedur operasi standar, buku runbook, atau panduan langkah demi langkah, ubah prosedur menjadi pertanyaan berorientasi tugas. Pengguna bertanya bagaimana melakukan tugas dan asisten memberikan langkah-langkah dalam format yang konsisten.


// train.jsonl
{
  "schemaVersion": "bedrock-conversation-2024",
  "system": [
    {
      "text": "You are an IT operations assistant. Provide step-by-step instructions based on approved runbooks and standard operating procedures."
    }
  ],
  "messages": [
    {
      "role": "user",
      "content": [
        {
          "text": "How do I reset a user's multi-factor authentication when they have lost access to their device?"
        }
      ]
    },
    {
      "role": "assistant",
      "content": [
        {
          "text": "Follow these steps to reset a user's multi-factor authentication:\n1. Verify the user's identity using the approved verification procedure.\n2. Disable the existing MFA configuration in the identity management console.\n3. Generate a new temporary access code and send it to the user's verified email.\n4. Instruct the user to log in with the temporary code and re-enroll their new device.\n5. Confirm the new MFA device is working by requesting a test authentication.\n6. Document the reset in the support ticket."
        }
      ]
    }
  ]
}

catatan

Dalam Pola 1 dan 2, jika konten faktual (seperti kode, kategori, atau resolusi) belum ada dalam data pra-pelatihan model, pertimbangkan untuk menggunakan RAG untuk menyediakan informasi ini pada waktu inferensi daripada hanya mengandalkan SFT untuk menghafalnya. SFT paling efektif untuk mengajarkan model format respons dan pola penalaran, sedangkan RAG menangani landasan faktual.

Contoh format dataset

Contoh format kumpulan data berikut memberikan panduan untuk Anda ikuti.

Contoh berikut adalah untuk fine tuning khusus atas teks saja.


// train.jsonl
{
  "schemaVersion": "bedrock-conversation-2024",
  "system": [
    {
      "text": "You are a digital assistant with a friendly personality"
    }
  ],
  "messages": [
    {
      "role": "user",
      "content": [
        {
          "text": "What is the capital of Mars?"
        }
      ]
    },
    {
      "role": "assistant",
      "content": [
        {
          "text": "Mars does not have a capital. Perhaps it will one day."
        }
      ]
    }
  ]
}

Contoh berikut adalah untuk penyesuaian kustom atas teks dan satu gambar.


// train.jsonl{
    "schemaVersion": "bedrock-conversation-2024",
    "system": [{
        "text": "You are a smart assistant that answers questions respectfully"
    }],
    "messages": [{
            "role": "user",
            "content": [{
                    "text": "What does the text in this image say?"
                },
                {
                    "image": {
                        "format": "png",
                        "source": {
                            "s3Location": {
                                "uri": "s3://your-bucket/your-path/your-image.png",
                                "bucketOwner": "your-aws-account-id"
                            }
                        }
                    }
                }
            ]
        },
        {
            "role": "assistant",
            "content": [{
                "text": "The text in the attached image says 'LOL'."
            }]
        }
    ]
}

Contoh berikut adalah untuk penyetelan kustom atas teks dan video.


{
    "schemaVersion": "bedrock-conversation-2024",
    "system": [{
        "text": "You are a helpful assistant designed to answer questions crisply and to the point"
    }],
    "messages": [{
            "role": "user",
            "content": [{
                    "text": "How many white items are visible in this video?"
                },
                {
                    "video": {
                        "format": "mp4",
                        "source": {
                            "s3Location": {
                                "uri": "s3://your-bucket/your-path/your-video.mp4",
                                "bucketOwner": "your-aws-account-id"
                            }
                        }
                    }
                }
            ]
        },
        {
            "role": "assistant",
            "content": [{
                "text": "There are at least eight visible items that are white"
            }]
        }
    ]
}

Kendala set data

Amazon Nova menerapkan batasan berikut pada kustomisasi model untuk Memahami model.

Model	Sampel Minimum	Sampel Maksimum	Panjang Konteks
Nova 2 Lite	8	20k	32k

Kendala gambar dan video
Gambar maksimum	10/sample
Ukuran file gambar maksimum	10 MB
Video maksimum	1/sample
Video maksimum length/duration	90 detik
Ukuran file video maksimum	50 MB

Format media yang didukung

Gambar -png,jpeg,gif, webp
Video -mov,mkv,mp4, webm

Awas Javascript dinonaktifkan atau tidak tersedia di browser Anda.

Untuk menggunakan Dokumentasi AWS, Javascript harus diaktifkan. Lihat halaman Bantuan browser Anda untuk petunjuk.

Konvensi Dokumen

Penyetelan halus yang diawasi (SFT)

Penguatan Fine-Tuning (RFT)