Siapkan data untuk menyempurnakan model Anda

Untuk menyiapkan kumpulan data pelatihan dan validasi untuk model kustom Anda, Anda membuat .jsonl file, di mana setiap baris adalah objek JSON yang sesuai dengan catatan. Sebelum Anda dapat memulai pekerjaan penyesuaian model, Anda setidaknya harus menyiapkan kumpulan data pelatihan. File yang Anda buat harus sesuai dengan format untuk metode kustomisasi dan model yang Anda pilih. Catatan di dalamnya harus sesuai dengan persyaratan ukuran tergantung model Anda.

Untuk informasi tentang persyaratan model, lihat. Persyaratan model untuk kumpulan data pelatihan dan validasi Untuk melihat kuota default yang berlaku untuk kumpulan data pelatihan dan validasi yang digunakan untuk menyesuaikan model yang berbeda, lihat Kuota Jumlah catatan pelatihan dan validasi di titik akhir Amazon Bedrock dan kuota di. Referensi Umum AWS

Apakah kumpulan data validasi didukung dan format kumpulan data pelatihan dan validasi Anda bergantung pada faktor-faktor berikut.

Jenis pekerjaan kustomisasi fine-tuning.
Modalitas input dan output data.

Untuk informasi tentang model fine-tuning, Amazon Nova lihat model. Fine-tuning Amazon Nova

Bagian berikut menjelaskan berbagai kemampuan fine-tuning yang didukung oleh masing-masing model, yang diatur oleh modalitas input dan outputnya. Untuk informasi tentang model fine-tuning, Amazon Nova lihat model. Fine-tuning Amazon Nova

Text-to-Text model

Text-to-Text model dapat disetel dengan baik untuk berbagai tugas berbasis teks, termasuk aplikasi percakapan dan non-percakapan. Untuk informasi tentang menyiapkan data untuk Text-to-Text model fine-tuning, lihat. Siapkan data untuk menyempurnakan model teks-ke-teks

Model non-percakapan berikut dioptimalkan untuk tugas-tugas seperti meringkas, terjemahan, dan menjawab pertanyaan:

Amazon Titan Text G1 - Express
Amazon Titan Text G1 - Lite
Amazon Titan Teks Premier
Cohere Command
Cohere Command Light
Meta Llama 3.1 8B Instruct
Meta Llama 3.1 70B Instruct

Model percakapan berikut dirancang untuk interaksi satu putaran dan multi-putaran. Jika model menggunakan Converse API, kumpulan data fine-tuning Anda harus mengikuti format pesan Converse API dan menyertakan pesan sistem, pengguna, dan asisten. Sebagai contoh, lihat Siapkan data untuk menyempurnakan model teks-ke-teks. Untuk informasi selengkapnya tentang operasi Converse API, lihatInferensi menggunakan Converse API.

Antropik Claude 3 Haiku
MetaLlama 3.2 1B Instruct(Format API Converse)
MetaLlama 3.2 3B Instruct(Format API Converse)
MetaLlama 3.2 11B InstructVisi (Format API Converse)
MetaLlama 3.2 90B InstructVisi (Format API Converse)
MetaInstruksi Visi Llama 3.3 70B (Format API Converse)

Text-Image-to-Text & Text-to-Image model s

Model berikut mendukung fine-tuning untuk pembuatan gambar dan pemrosesan teks-gambar. Model-model ini memproses atau menghasilkan gambar berdasarkan input tekstual, atau menghasilkan teks berdasarkan input tekstual dan gambar. Untuk informasi tentang menyiapkan data untuk model fine-tuning Text-Image-to-Text & Text-to-Image model, lihat. Siapkan data untuk menyempurnakan model pemrosesan gambar dan teks

Amazon Titan Image Generator G1 V1
MetaLlama 3.2 11B InstructVisi
MetaLlama 3.2 90B InstructVisi
MetaInstruksi Visi Llama 3.3 70B

Image-to-Embeddings

Model berikut mendukung fine-tuning untuk tugas-tugas seperti klasifikasi dan pengambilan. Model-model ini menghasilkan representasi numerik (embeddings) dari input gambar. Untuk informasi tentang menyiapkan data untuk Image-to-Embeddings model fine-tuning, lihat. Siapkan data untuk menyempurnakan pembuatan gambar dan model penyematan

Amazon Titan Multimodal Embeddings G1
Amazon Titan Image Generator G1 V1

Bagian berikut mencantumkan persyaratan untuk kumpulan data pelatihan dan validasi untuk model. Untuk informasi tentang batasan kumpulan data untuk Amazon Nova model, lihat model. Fine-tuning Amazon Nova

Deskripsi	Maksimum (Fine-tuning)
Jumlah token input dan output saat ukuran batch adalah 1	4,096
Jumlah token input dan output saat ukuran batch adalah 2, 3, atau 4	N/A
Kuota karakter per sampel dalam dataset	Kuota token x 6 (perkiraan)
Ukuran file kumpulan data pelatihan	1 GB
Ukuran file dataset validasi	100 MB

Deskripsi	Maksimum (Fine-tuning)
Jumlah token input dan output saat ukuran batch adalah 1	4,096
Jumlah token input dan output saat ukuran batch adalah 2, 3, atau 4	2,048
Kuota karakter per sampel dalam dataset	Kuota token x 6 (perkiraan)
Ukuran file kumpulan data pelatihan	1 GB
Ukuran file dataset validasi	100 MB

Deskripsi	Maksimum (Fine-tuning)
Jumlah token input dan output saat ukuran batch adalah 1 atau 2	4,096
Jumlah token input dan output saat ukuran batch adalah 3, 4, 5, atau 6	2,048
Kuota karakter per sampel dalam dataset	Kuota token x 6 (perkiraan)
Ukuran file kumpulan data pelatihan	1 GB
Ukuran file dataset validasi	100 MB

Deskripsi	Minimum (Fine-tuning)	Maksimum (Fine-tuning)
Panjang prompt teks dalam sampel pelatihan, dalam karakter	3	1,024
Catatan dalam kumpulan data pelatihan	5	10.000
Ukuran gambar masukan	0	50 MB
Input tinggi gambar dalam piksel	512	4,096
Masukan lebar gambar dalam piksel	512	4,096
Masukan total piksel gambar	0	12,582,912
Rasio aspek gambar masukan	1:4	4:1

Deskripsi	Minimum (Fine-tuning)	Maksimum (Fine-tuning)
Panjang prompt teks dalam sampel pelatihan, dalam karakter	0	2,560
Catatan dalam kumpulan data pelatihan	1.000	500.000
Ukuran gambar masukan	0	5 MB
Input tinggi gambar dalam piksel	128	4096
Masukan lebar gambar dalam piksel	128	4096
Masukan total piksel gambar	0	12,528,912
Rasio aspek gambar masukan	1:4	4:1

Deskripsi	Minimum (Fine-tuning)	Maksimum (Fine-tuning)
Token masukan	0	16.000
Token keluaran	0	16.000
Kuota karakter per sampel dalam dataset	0	Kuota token x 6 (perkiraan)
Jumlah token Input dan Output	0	16.000
Jumlah catatan pelatihan dan validasi	100	10.000 (dapat disesuaikan menggunakan kuota layanan)

Format gambar yang didukung untuk Meta Llama-3.2 11B Vision Instruct dan Meta Llama-3.2 90B Vision Instruct termasuk:gif,jpeg,png, danwebp. Untuk memperkirakan konversi gambar-ke-token selama fine-tuning model ini, Anda dapat menggunakan rumus ini sebagai perkiraan:. Tokens = min(2, max(Height // 560, 1)) * min(2, max(Width // 560, 1)) * 1601 Gambar dikonversi menjadi sekitar 1.601 hingga 6.404 token berdasarkan ukurannya.

Deskripsi	Minimum (Fine-tuning)	Maksimum (Fine-tuning)
Jumlah token Input dan Output	0	16.000 (10000 untuk Meta Llama 3.2 90B)
Jumlah catatan pelatihan dan validasi	100	10.000 (dapat disesuaikan menggunakan kuota layanan)
Masukan ukuran gambar untuk Meta Llama 11B and 90B instruct model)	0	10 MB
Masukkan tinggi gambar dalam piksel untuk Meta Llama 11B and 90B instruct model	10	8192
Masukan lebar gambar dalam piksel untuk Meta Llama 11B and 90B90B instruct model	10	8192

Deskripsi	Minimum (Fine-tuning)	Maksimum (Fine-tuning)
Jumlah token Input dan Output	0	16000
Jumlah catatan pelatihan dan validasi	100	10.000 (dapat disesuaikan menggunakan Service Quotas)

Deskripsi	Maksimum (Fine-tuning)
Token masukan	4,096
Token keluaran	2,048
Kuota karakter per sampel dalam dataset	Kuota token x 6 (perkiraan)
Catatan dalam kumpulan data pelatihan	10.000
Merekam dalam kumpulan data validasi	1.000

Deskripsi	Maksimum (Fine-tuning)
Jumlah catatan minimum	32
Catatan pelatihan maksimum	10.000
Catatan validasi maksimum	1.000
Total catatan maksimum	10.000 (dapat disesuaikan menggunakan kuota layanan)
Token maksimum	32.000
Ukuran dataset pelatihan maksimum	10 GB
Ukuran dataset validasi maksimum	1 GB

catatan

Untuk informasi tentang model fine-tuning, Amazon Nova lihat model. Fine-tuning Amazon Nova

Untuk menyempurnakan model teks-ke-teks, setiap objek JSON adalah sampel yang berisi bidang terstruktur yang dirancang untuk memandu model menuju menghasilkan output tekstual yang diinginkan berdasarkan prompt tekstual yang disediakan. Format data bervariasi tergantung pada kasus penggunaan, secara luas dikategorikan ke dalam kasus penggunaan non-percakapan dan percakapan.

Non-conversational tasks

Non-conversational tugas melibatkan menghasilkan output tunggal untuk input yang diberikan. Setiap sampel dataset mencakup prompt bidang yang berisi teks input dan completion bidang dengan output yang diharapkan. Format ini mendukung berbagai tugas seperti menjawab pertanyaan, meringkas, terjemahan, penyelesaian teks, dan ekstraksi informasi.

Contoh format


{"prompt": "What is the capital of France?", "completion": "The capital of France is Paris."}
{"prompt": "Summarize the article about climate change.", "completion": "Climate change refers to the long-term alteration of temperature and typical weather patterns in a place."}

Gunakan sekitar 6 karakter per token untuk memperkirakan jumlah token untuk merencanakan ukuran dataset.

Converse API format (Single turn and Multi turn)

Untuk menggunakan Converse API, Anda memanggil ConverseStream operasi Converse atau untuk mengirim pesan ke model. Untuk meneleponConverse, Anda memerlukan izin untuk bedrock:InvokeModel operasi. Untuk meneleponConverseStream, Anda memerlukan izin untuk bedrock:InvokeModelWithResponseStream operasi. Untuk informasi selengkapnya, lihat Menggunakan Bercakap-cakap API. Untuk informasi selengkapnya tentang operasi Converse API, lihat Inferensi menggunakan Converse API

Contoh format


{
    "schemaVersion": "bedrock-conversation-2024",
    "system": [
        {
            "text": "You are a digital assistant with a friendly personality"
        }
    ],
    "messages": [
        {
            "role": "user",
            "content": [
                {
                    "text": "What is the capital of Mars?"
                }
            ]
        },
        {
            "role": "assistant",
            "content": [
                {
                    "text": "Mars does not have a capital. Perhaps it will one day."
                }
            ]
        }
    ]
}

Anthropic Claude 3 Haiku: Single-turn conversations

Single-turn Tugas percakapan melibatkan pertukaran terisolasi, di mana model menghasilkan respons hanya berdasarkan input pengguna saat ini tanpa mempertimbangkan konteks sebelumnya. Setiap sampel dataset menggunakan array pesan, dengan peran bergantian dari dan. user assistant

format


{"system": "<system message>","messages":[{"role": "user", "content": "<user query>"},{"role": "assistant", "content": "<expected generated text>"}]}

Contoh


{"system": "You are an helpful assistant.","messages":[{"role": "user", "content": "what is AWS"},{"role": "assistant", "content": "it's Amazon Web Services."}]}

Anthropic Claude 3 Haiku: Multi-turn conversations

Multi-turn Tugas percakapan melibatkan dialog yang diperluas di mana model harus menghasilkan tanggapan sambil mempertahankan konteks pertukaran sebelumnya. Format ini menangkap sifat dinamis dari tugas interaktif, seperti dukungan pelanggan atau diskusi kompleks.

format


{"system": "<system message>","messages":[{"role": "user", "content": "<user query 1>"},{"role": "assistant", "content": "<expected generated text 1>"}, {"role": "user", "content": "<user query 2>"},{"role": "assistant", "content": "<expected generated text 2>"}]}

Contoh


{"system": "system message","messages":[{"role": "user", "content": "Hello there."},{"role": "assistant", "content": "Hi, how can I help you?"},{"role": "user", "content": "what are LLMs?"},{"role": "assistant", "content": "LLM means large language model."},]}

catatan

Untuk informasi tentang model fine-tuning, Amazon Nova lihat model. Fine-tuning Amazon Nova

Untuk menyempurnakan model gambar-teks-ke-teks, setiap objek JSON adalah sampel yang berisi percakapan yang terstruktur sebagai messages array, yang terdiri dari objek JSON bergantian yang mewakili input pengguna dan respons asisten. Masukan pengguna dapat mencakup teks dan gambar, sementara tanggapan asisten selalu tekstual. Struktur ini mendukung alur percakapan single-turn dan multi-turn, memungkinkan model untuk menangani beragam tugas secara efektif. Format gambar yang didukung untuk Meta Llama-3.2 11B Vision Instruct dan Meta Llama-3.2 90B Vision Instruct termasuk:gif,jpeg,png, danwebp.

Untuk mengizinkan Amazon Bedrock mengakses file gambar, tambahkan kebijakan IAM yang mirip dengan yang ada di Izin untuk mengakses file pelatihan dan validasi dan untuk menulis file output di S3 peran layanan kustomisasi model Amazon Bedrock yang Anda atur atau yang disiapkan secara otomatis untuk Anda di konsol. Jalur Amazon S3 yang Anda berikan dalam kumpulan data pelatihan harus berada di folder yang Anda tentukan dalam kebijakan.

Single-turn percakapan

Setiap objek JSON untuk percakapan satu putaran terdiri dari pesan pengguna dan pesan asisten. Pesan pengguna menyertakan bidang peran yang disetel ke pengguna dan bidang konten yang berisi array dengan type bidang (teks atau gambar) yang menjelaskan modalitas input. Untuk input teks, content bidang menyertakan text bidang dengan pertanyaan atau prompt pengguna. Untuk input gambar, content bidang menentukan gambar format (misalnya, jpeg, png) dan source dengan uri menunjuk ke lokasi Amazon S3 gambar. uriIni mewakili jalur unik ke gambar yang disimpan dalam bucket Amazon S3, biasanya dalam format. s3://<bucket-name>/<path-to-file> Pesan asisten menyertakan role bidang yang disetel ke asisten dan content bidang yang berisi larik dengan type bidang yang disetel ke teks dan text bidang yang berisi respons yang dihasilkan asisten.

Contoh format


{
    "schemaVersion": "bedrock-conversation-2024",
    "system": [{
        "text": "You are a smart assistant that answers questions respectfully"
    }],
    "messages": [{
            "role": "user",
            "content": [{
                    "text": "What does the text in this image say?"
                },
                {
                    "image": {
                        "format": "png",
                        "source": {
                            "s3Location": {
                                "uri": "s3://your-bucket/your-path/your-image.png",
                                "bucketOwner": "your-aws-account-id"
                            }
                        }
                    }
                }
            ]
        },
        {
            "role": "assistant",
            "content": [{
                "text": "The text in the attached image says 'LOL'."
            }]
        }
    ]
}

Multi-turn percakapan

Setiap objek JSON untuk percakapan multi-putaran berisi urutan pesan dengan peran bergantian, di mana pesan pengguna dan pesan asisten disusun secara konsisten untuk memungkinkan pertukaran yang koheren. Pesan pengguna menyertakan role bidang yang disetel ke pengguna dan content bidang yang menjelaskan modalitas input. Untuk input teks, content bidang menyertakan text bidang dengan pertanyaan atau tindak lanjut pengguna, sedangkan untuk input gambar, bidang tersebut menentukan gambar format dan source dengan uri menunjuk ke lokasi Amazon S3 gambar. Ini uri berfungsi sebagai pengidentifikasi unik dalam format s3://<bucket-name>/<path-to-file>dan memungkinkan model untuk mengakses gambar dari bucket Amazon S3 yang ditunjuk. Pesan asisten menyertakan role bidang yang disetel ke asisten dan content bidang yang berisi larik dengan type bidang yang disetel ke teks dan text bidang yang berisi respons yang dihasilkan asisten. Percakapan dapat mencakup beberapa pertukaran, memungkinkan asisten untuk mempertahankan konteks dan memberikan respons yang koheren di seluruh.

Contoh format


{
    "schemaVersion": "bedrock-conversation-2024",
    "system": [{
        "text": "You are a smart assistant that answers questions respectfully"
    }],
    "messages": [{
            "role": "user",
            "content": [{
                    "text": "What does the text in this image say?"
                },
                {
                    "image": {
                        "format": "png",
                        "source": {
                            "s3Location": {
                                "uri": "s3://your-bucket/your-path/your-image.png",
                                "bucketOwner": "your-aws-account-id"
                            }
                        }
                    }
                }
            ]
        },
        {
            "role": "assistant",
            "content": [{
                "text": "The text in the attached image says 'LOL'."
            }]
        },
        {
            "role": "user",
            "content": [{
                    "text": "What does the text in this image say?"
                }
            ]
        },
        {
            "role": "assistant",
            "content": [{
                "text": "The text in the attached image says 'LOL'."
            }]
        }
        
    ]
}

catatan

Amazon Novamodel memiliki persyaratan fine-tuning yang berbeda. Untuk menyempurnakan model ini, ikuti instruksi pada Fine-tuning Amazon Nova model.

Untuk model text-to-image atau image-to-embedding, siapkan kumpulan data pelatihan. Kumpulan data validasi tidak didukung. Setiap objek JSON adalah sampel yang berisiimage-ref, Amazon S3 URI untuk gambar, dan caption yang bisa menjadi prompt untuk gambar.

Gambar harus dalam format JPEG atau PNG dan memenuhi persyaratan berikut:

Dimensi - Setiap sisi harus antara 512 dan 4.096 piksel.
Rasio aspek - Antara 1:4 dan 4:1.
Total piksel - Tidak boleh melebihi 12.582.912 (sekitar 3.547 x 3.547).
Ukuran file - Tidak boleh melebihi 50 MB per gambar.
Panjang keterangan - Antara 3 dan 1.024 karakter.

Untuk daftar lengkap kendala, lihat. Amazon Generator Gambar Titan G1 V1


{"image-ref": "s3://bucket/path/to/image001.png", "caption": "<prompt text>"}
{"image-ref": "s3://bucket/path/to/image002.png", "caption": "<prompt text>"}{"image-ref": "s3://bucket/path/to/image003.png", "caption": "<prompt text>"}

Berikut ini adalah item contoh:


{"image-ref": "s3://amzn-s3-demo-bucket/my-pets/cat.png", "caption": "an orange cat with white spots"}

Awas Javascript dinonaktifkan atau tidak tersedia di browser Anda.

Untuk menggunakan Dokumentasi AWS, Javascript harus diaktifkan. Lihat halaman Bantuan browser Anda untuk petunjuk.

Konvensi Dokumen

Penyetelan halus yang diawasi

Fine-tune Amazon Novamodel