Siapkan data untuk menyempurnakan model Anda - Amazon Bedrock

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Siapkan data untuk menyempurnakan model Anda

Untuk menyiapkan kumpulan data pelatihan dan validasi untuk model kustom Anda, Anda membuat .jsonl file, di mana setiap baris adalah objek JSON yang sesuai dengan catatan. Sebelum Anda dapat memulai pekerjaan penyesuaian model, Anda setidaknya harus menyiapkan kumpulan data pelatihan. File yang Anda buat harus sesuai dengan format untuk metode kustomisasi dan model yang Anda pilih. Catatan di dalamnya harus sesuai dengan persyaratan ukuran tergantung model Anda.

Untuk informasi tentang persyaratan model, lihat. Persyaratan model untuk kumpulan data pelatihan dan validasi Untuk melihat kuota default yang berlaku untuk kumpulan data pelatihan dan validasi yang digunakan untuk menyesuaikan model yang berbeda, lihat Kuota Jumlah catatan pelatihan dan validasi di titik akhir Amazon Bedrock dan kuota di. Referensi Umum AWS

Apakah kumpulan data validasi didukung dan format kumpulan data pelatihan dan validasi Anda bergantung pada faktor-faktor berikut.

  • Jenis pekerjaan kustomisasi fine-tuning.

  • Modalitas input dan output data.

Untuk informasi tentang model fine-tuning, lihat Amazon Nova Model fine-tuning. Amazon Nova

Bagian berikut menjelaskan berbagai kemampuan fine-tuning yang didukung oleh masing-masing model, yang diatur oleh modalitas input dan outputnya. Untuk informasi tentang model fine-tuning, lihat Amazon Nova Model fine-tuning. Amazon Nova

Text-to-Text model

Text-to-Text model dapat disetel dengan baik untuk berbagai tugas berbasis teks, termasuk aplikasi percakapan dan non-percakapan. Untuk informasi tentang menyiapkan data untuk Text-to-Text model fine-tuning, lihat. Siapkan data untuk model text-to-text fine-tuning

Model non-percakapan berikut dioptimalkan untuk tugas-tugas seperti meringkas, terjemahan, dan menjawab pertanyaan:

  • Amazon Titan Text G1 - Express

  • Amazon Titan Text G1 - Lite

  • Amazon Titan Teks Premier

  • Cohere Command

  • Cohere Command Light

  • Meta Llama 3.1 8B Instruct

  • Meta Llama 3.1 70B Instruct

Model percakapan berikut dirancang untuk interaksi satu putaran dan multi-putaran. Jika model menggunakan Converse API, kumpulan data fine-tuning Anda harus mengikuti format pesan Converse API dan menyertakan pesan sistem, pengguna, dan asisten. Sebagai contoh, lihat Siapkan data untuk model text-to-text fine-tuning. Untuk informasi selengkapnya tentang operasi Converse API, lihatMelakukan percakapan dengan operasi Converse API.

  • Antropik Claude 3 Haiku

  • MetaLlama 3.2 1B Instruct(Format API Converse)

  • MetaLlama 3.2 3B Instruct(Format API Converse)

  • MetaLlama 3.2 11B InstructVisi (Format API Converse)

  • MetaLlama 3.2 90B InstructVisi (Format API Converse)

  • MetaInstruksi Visi Llama 3.3 70B (Format API Converse)

Text-Image-to-Text & Text-to-Image model s

Model berikut mendukung fine-tuning untuk pembuatan gambar dan pemrosesan teks-gambar. Model-model ini memproses atau menghasilkan gambar berdasarkan input tekstual, atau menghasilkan teks berdasarkan input tekstual dan gambar. Untuk informasi tentang menyiapkan data untuk model fine-tuning Text-Image-to-Text & Text-to-Image model, lihat. Siapkan data untuk menyempurnakan model pemrosesan gambar dan teks

  • Amazon Titan Image Generator G1 V1

  • MetaLlama 3.2 11B InstructVisi

  • MetaLlama 3.2 90B InstructVisi

  • MetaInstruksi Visi Llama 3.3 70B

Gambar-untuk-Embeddings

Model berikut mendukung fine-tuning untuk tugas-tugas seperti klasifikasi dan pengambilan. Model-model ini menghasilkan representasi numerik (embeddings) dari input gambar. Untuk informasi tentang menyiapkan data untuk Image-to-Embeddings model fine-tuning, lihat. Siapkan data untuk menyempurnakan pembuatan gambar dan model penyematan

  • Amazon Titan Multimodal Embeddings G1

  • Amazon Titan Image Generator G1 V1

Bagian berikut mencantumkan persyaratan untuk kumpulan data pelatihan dan validasi untuk model. Untuk informasi tentang batasan kumpulan data untuk model, lihat Amazon Nova Model fine-tuning. Amazon Nova

Deskripsi Maksimum (Fine-tuning)
Jumlah token input dan output saat ukuran batch adalah 1 4,096
Jumlah token input dan output saat ukuran batch adalah 2, 3, atau 4 N/A
Kuota karakter per sampel dalam dataset Kuota token x 6 (perkiraan)
Ukuran file kumpulan data pelatihan 1 GB
Ukuran file dataset validasi 100 MB
Deskripsi Maksimum (Fine-tuning)
Jumlah token input dan output saat ukuran batch adalah 1 4,096
Jumlah token input dan output saat ukuran batch adalah 2, 3, atau 4 2,048
Kuota karakter per sampel dalam dataset Kuota token x 6 (perkiraan)
Ukuran file kumpulan data pelatihan 1 GB
Ukuran file dataset validasi 100 MB
Deskripsi Maksimum (Fine-tuning)
Jumlah token input dan output saat ukuran batch adalah 1 atau 2 4,096
Jumlah token input dan output saat ukuran batch adalah 3, 4, 5, atau 6 2,048
Kuota karakter per sampel dalam dataset Kuota token x 6 (perkiraan)
Ukuran file kumpulan data pelatihan 1 GB
Ukuran file dataset validasi 100 MB
Deskripsi Minimum (Penyetelan halus) Maksimum (Fine-tuning)
Panjang prompt teks dalam sampel pelatihan, dalam karakter 3 1,024
Catatan dalam kumpulan data pelatihan 5 10.000
Ukuran gambar masukan 0 50 MB
Input tinggi gambar dalam piksel 512 4,096
Masukan lebar gambar dalam piksel 512 4,096
Masukan total piksel gambar 0 12,582,912
Rasio aspek gambar masukan 1:4 4:1
Deskripsi Minimum (Penyetelan halus) Maksimum (Fine-tuning)
Panjang prompt teks dalam sampel pelatihan, dalam karakter 0 2,560
Catatan dalam kumpulan data pelatihan 1.000 500.000
Ukuran gambar masukan 0 5 MB
Input tinggi gambar dalam piksel 128 4096
Masukan lebar gambar dalam piksel 128 4096
Masukan total piksel gambar 0 12,528,912
Rasio aspek gambar masukan 1:4 4:1
Deskripsi Minimum (Penyetelan halus) Maksimum (Fine-tuning)
Token masukan 0 16.000
Token keluaran 0 16.000
Kuota karakter per sampel dalam dataset 0 Kuota token x 6 (perkiraan)
Jumlah token Input dan Output 0 16.000
Jumlah catatan pelatihan dan validasi 100 10.000 (dapat disesuaikan menggunakan kuota layanan)

Format gambar yang didukung untuk Meta Llama-3.2 11B Vision Instruct dan Meta Llama-3.2 90B Vision Instruct termasuk:gif,jpeg,png, danwebp. Untuk memperkirakan image-to-token konversi selama fine-tuning model ini, Anda dapat menggunakan rumus ini sebagai perkiraan:. Tokens = min(2, max(Height // 560, 1)) * min(2, max(Width // 560, 1)) * 1601 Gambar dikonversi menjadi sekitar 1.601 hingga 6.404 token berdasarkan ukurannya.

Deskripsi Minimum (Penyetelan halus) Maksimum (Fine-tuning)
Jumlah token Input dan Output 0 16.000 (10000 untuk Meta Llama 3.2 90B)
Jumlah catatan pelatihan dan validasi 100 10.000 (dapat disesuaikan menggunakan kuota layanan)
Masukan ukuran gambar untuk Meta Llama 11B and 90B instruct model) 0 10 MB
Masukkan tinggi gambar dalam piksel untuk Meta Llama 11B and 90B instruct model 10 8192
Masukan lebar gambar dalam piksel untuk Meta Llama 11B and 90B90B instruct model 10 8192
Deskripsi Minimum (Penyetelan halus) Maksimum (Fine-tuning)
Jumlah token Input dan Output 0 16000
Jumlah catatan pelatihan dan validasi 100 10.000 (dapat disesuaikan menggunakan Service Quotas)
Deskripsi Maksimum (Fine-tuning)
Token masukan 4,096
Token keluaran 2,048
Kuota karakter per sampel dalam dataset Kuota token x 6 (perkiraan)
Catatan dalam kumpulan data pelatihan 10.000
Merekam dalam kumpulan data validasi 1.000
Deskripsi Maksimum (Fine-tuning)
Jumlah catatan minimum 32
Catatan pelatihan maksimum 10.000
Catatan validasi maksimum 1.000
Total catatan maksimum 10.000 (dapat disesuaikan menggunakan kuota layanan)
Token maksimum 32.000
Ukuran dataset pelatihan maksimum 10 GB
Ukuran dataset validasi maksimum 1 GB

Untuk text-to-text model fine-tuning, setiap objek JSON adalah sampel yang berisi bidang terstruktur yang dirancang untuk memandu model menuju menghasilkan output tekstual yang diinginkan berdasarkan prompt tekstual yang disediakan. Format data bervariasi tergantung pada kasus penggunaan, secara luas dikategorikan ke dalam kasus penggunaan non-percakapan dan percakapan.

Non-conversational tasks

Tugas non-percakapan melibatkan menghasilkan output tunggal untuk input yang diberikan. Setiap sampel dataset mencakup prompt bidang yang berisi teks input dan completion bidang dengan output yang diharapkan. Format ini mendukung berbagai tugas seperti menjawab pertanyaan, meringkas, terjemahan, penyelesaian teks, dan ekstraksi informasi.

Contoh format

{"prompt": "What is the capital of France?", "completion": "The capital of France is Paris."} {"prompt": "Summarize the article about climate change.", "completion": "Climate change refers to the long-term alteration of temperature and typical weather patterns in a place."}

Gunakan sekitar 6 karakter per token untuk memperkirakan jumlah token untuk merencanakan ukuran dataset.

Converse API format (Single turn and Multi turn)

Untuk menggunakan Converse API, Anda memanggil ConverseStream operasi Converse atau untuk mengirim pesan ke model. Untuk meneleponConverse, Anda memerlukan izin untuk bedrock:InvokeModel operasi. Untuk meneleponConverseStream, Anda memerlukan izin untuk bedrock:InvokeModelWithResponseStream operasi. Untuk informasi selengkapnya, lihat Menggunakan API Converse ini. Untuk informasi selengkapnya tentang operasi Converse API, lihat Melakukan percakapan dengan operasi Converse API

Contoh format

{ "schemaVersion": "bedrock-conversation-2024", "system": [ { "text": "You are a digital assistant with a friendly personality" } ], "messages": [ { "role": "user", "content": [ { "text": "What is the capital of Mars?" } ] }, { "role": "assistant", "content": [ { "text": "Mars does not have a capital. Perhaps it will one day." } ] } ] }
Anthropic Claude 3 Haiku: Single-turn conversations

Tugas percakapan satu putaran melibatkan pertukaran terisolasi, di mana model menghasilkan respons hanya berdasarkan input pengguna saat ini tanpa mempertimbangkan konteks sebelumnya. Setiap sampel dataset menggunakan array pesan, dengan peran bergantian dari dan. user assistant

format

{"system": "<system message>","messages":[{"role": "user", "content": "<user query>"},{"role": "assistant", "content": "<expected generated text>"}]}

Contoh

{"system": "You are an helpful assistant.","messages":[{"role": "user", "content": "what is AWS"},{"role": "assistant", "content": "it's Amazon Web Services."}]}
Anthropic Claude 3 Haiku: Multi-turn conversations

Tugas percakapan multi-giliran melibatkan dialog yang diperluas di mana model harus menghasilkan respons sambil mempertahankan konteks pertukaran sebelumnya. Format ini menangkap sifat dinamis dari tugas interaktif, seperti dukungan pelanggan atau diskusi kompleks.

format

{"system": "<system message>","messages":[{"role": "user", "content": "<user query 1>"},{"role": "assistant", "content": "<expected generated text 1>"}, {"role": "user", "content": "<user query 2>"},{"role": "assistant", "content": "<expected generated text 2>"}]}

Contoh

{"system": "system message","messages":[{"role": "user", "content": "Hello there."},{"role": "assistant", "content": "Hi, how can I help you?"},{"role": "user", "content": "what are LLMs?"},{"role": "assistant", "content": "LLM means large language model."},]}

Untuk image-text-to-text model fine-tuning, setiap objek JSON adalah sampel yang berisi percakapan yang terstruktur sebagai messages array, yang terdiri dari objek JSON bergantian yang mewakili input pengguna dan respons asisten. Masukan pengguna dapat mencakup teks dan gambar, sementara tanggapan asisten selalu tekstual. Struktur ini mendukung alur percakapan single-turn dan multi-turn, memungkinkan model untuk menangani beragam tugas secara efektif. Format gambar yang didukung untuk Meta Llama-3.2 11B Vision Instruct dan Meta Llama-3.2 90B Vision Instruct termasuk:gif,jpeg,png, danwebp.

Untuk mengizinkan Amazon Bedrock mengakses file gambar, tambahkan kebijakan IAM yang mirip dengan yang ada di Izin untuk mengakses file pelatihan dan validasi dan untuk menulis file output di S3 peran layanan kustomisasi model Amazon Bedrock yang Anda atur atau yang disiapkan secara otomatis untuk Anda di konsol. Jalur Amazon S3 yang Anda berikan dalam kumpulan data pelatihan harus berada di folder yang Anda tentukan dalam kebijakan.

Percakapan satu putaran

Setiap objek JSON untuk percakapan satu putaran terdiri dari pesan pengguna dan pesan asisten. Pesan pengguna menyertakan bidang peran yang disetel ke pengguna dan bidang konten yang berisi array dengan type bidang (teks atau gambar) yang menjelaskan modalitas input. Untuk input teks, content bidang menyertakan text bidang dengan pertanyaan atau prompt pengguna. Untuk input gambar, content bidang menentukan gambar format (misalnya, jpeg, png) dan source dengan uri menunjuk ke lokasi Amazon S3 gambar. uriIni mewakili jalur unik ke gambar yang disimpan dalam bucket Amazon S3, biasanya dalam format. s3://<bucket-name>/<path-to-file> Pesan asisten menyertakan role bidang yang disetel ke asisten dan content bidang yang berisi larik dengan type bidang yang disetel ke teks dan text bidang yang berisi respons yang dihasilkan asisten.

Contoh format

{ "schemaVersion": "bedrock-conversation-2024", "system": [{ "text": "You are a smart assistant that answers questions respectfully" }], "messages": [{ "role": "user", "content": [{ "text": "What does the text in this image say?" }, { "image": { "format": "png", "source": { "s3Location": { "uri": "s3://your-bucket/your-path/your-image.png", "bucketOwner": "your-aws-account-id" } } } } ] }, { "role": "assistant", "content": [{ "text": "The text in the attached image says 'LOL'." }] } ] }

Percakapan multi-giliran

Setiap objek JSON untuk percakapan multi-putaran berisi urutan pesan dengan peran bergantian, di mana pesan pengguna dan pesan asisten disusun secara konsisten untuk memungkinkan pertukaran yang koheren. Pesan pengguna menyertakan role bidang yang disetel ke pengguna dan content bidang yang menjelaskan modalitas input. Untuk input teks, content bidang menyertakan text bidang dengan pertanyaan atau tindak lanjut pengguna, sedangkan untuk input gambar, bidang ini menentukan gambar format dan source dengan uri menunjuk ke lokasi Amazon S3 gambar. Ini uri berfungsi sebagai pengenal unik dalam format s3://<bucket-name>/< path-to-file > dan memungkinkan model untuk mengakses gambar dari bucket Amazon S3 yang ditunjuk. Pesan asisten menyertakan role bidang yang disetel ke asisten dan content bidang yang berisi larik dengan type bidang yang disetel ke teks dan text bidang yang berisi respons yang dihasilkan asisten. Percakapan dapat mencakup beberapa pertukaran, memungkinkan asisten untuk mempertahankan konteks dan memberikan respons yang koheren di seluruh.

Contoh format

{ "schemaVersion": "bedrock-conversation-2024", "system": [{ "text": "You are a smart assistant that answers questions respectfully" }], "messages": [{ "role": "user", "content": [{ "text": "What does the text in this image say?" }, { "image": { "format": "png", "source": { "s3Location": { "uri": "s3://your-bucket/your-path/your-image.png", "bucketOwner": "your-aws-account-id" } } } } ] }, { "role": "assistant", "content": [{ "text": "The text in the attached image says 'LOL'." }] }, { "role": "user", "content": [{ "text": "What does the text in this image say?" } ] }, { "role": "assistant", "content": [{ "text": "The text in the attached image says 'LOL'." }] } ] }
catatan

Amazon Novamodel memiliki persyaratan fine-tuning yang berbeda. Untuk menyempurnakan model ini, ikuti instruksi di model Amazon NovaFine-tuning.

Untuk text-to-image atau image-to-embedding model, siapkan dataset pelatihan. Kumpulan data validasi tidak didukung. Setiap objek JSON adalah sampel yang berisiimage-ref, Amazon S3 URI untuk gambar, dan caption yang bisa menjadi prompt untuk gambar.

Gambar harus dalam format JPEG atau PNG.

{"image-ref": "s3://bucket/path/to/image001.png", "caption": "<prompt text>"} {"image-ref": "s3://bucket/path/to/image002.png", "caption": "<prompt text>"}{"image-ref": "s3://bucket/path/to/image003.png", "caption": "<prompt text>"}

Berikut ini adalah item contoh:

{"image-ref": "s3://amzn-s3-demo-bucket/my-pets/cat.png", "caption": "an orange cat with white spots"}

Untuk mengizinkan Amazon Bedrock mengakses file gambar, tambahkan kebijakan IAM yang mirip dengan yang ada di Izin untuk mengakses file pelatihan dan validasi dan untuk menulis file output di S3 peran layanan kustomisasi model Amazon Bedrock yang Anda atur atau yang disiapkan secara otomatis untuk Anda di konsol. Jalur Amazon S3 yang Anda berikan dalam kumpulan data pelatihan harus berada di folder yang Anda tentukan dalam kebijakan.