Siapkan kumpulan data pelatihan Anda untuk distilasi

Sebelum Anda dapat memulai pekerjaan penyesuaian model, Anda perlu menyiapkan kumpulan data pelatihan secara minimal. Untuk menyiapkan kumpulan data masukan untuk model kustom Anda, Anda membuat .jsonl file, yang setiap barisnya adalah objek JSON yang sesuai dengan catatan. File yang Anda buat harus sesuai dengan format distilasi model dan model yang Anda pilih. Catatan di dalamnya juga harus sesuai dengan persyaratan ukuran.

Berikan data input sebagai petunjuk. Amazon Bedrock menggunakan data input untuk menghasilkan respons dari model guru dan menggunakan respons yang dihasilkan untuk menyempurnakan model siswa. Untuk informasi selengkapnya tentang input yang digunakan Amazon Bedrock, dan untuk memilih opsi yang paling sesuai untuk kasus penggunaan Anda, lihat. Cara kerja Distilasi Model Amazon Bedrock Ada beberapa opsi untuk menyiapkan dataset input Anda.

catatan

Amazon Novamodel memiliki persyaratan yang berbeda untuk distilasi. Untuk informasi selengkapnya, lihat Amazon NovaModel penyulingan.

Model yang tercantum hanya Model dan Wilayah yang didukung untuk Distilasi Model Batuan Dasar Amazon mendukung modalitas teks-ke-teks.

Selama distilasi model, Amazon Bedrock menghasilkan kumpulan data sintetis yang digunakannya untuk menyempurnakan model siswa Anda untuk kasus penggunaan spesifik Anda. Untuk informasi selengkapnya, lihat Cara kerja Distilasi Model Amazon Bedrock.

Anda dapat mengoptimalkan proses pembuatan data sintetis dengan memformat prompt input Anda untuk kasus penggunaan yang Anda inginkan. Misalnya, jika kasus penggunaan model suling Anda adalah retrieval augmented generation (RAG), Anda akan memformat prompt Anda secara berbeda daripada jika Anda ingin model fokus pada kasus penggunaan agen.

Berikut ini adalah contoh bagaimana Anda dapat memformat prompt input Anda untuk kasus penggunaan RAG atau agen.

RAG prompt example


{
  "schemaVersion": "bedrock-conversation-2024",
  "system": [
    {
      "text": "You are a financial analyst charged with answering questions about 10K and 10Q SEC filings. Given the context below, answer the following question."
    }
  ],
  "messages": [
    {
      "role": "user",
      "content": [
        {
          "text": "<context>\nDocument 1: Multiple legal actions have been filed against us as a result of the October 29, 2018 accident of Lion Air Flight 610 and the March 10, 2019 accident of Ethiopian Airlines Flight 302.\n</context>\n\n<question>Has Boeing reported any materially important ongoing legal battles from FY2022?</question>"
        }
      ]
    }
  ]
}

Agent prompt example


{
    "schemaVersion": "bedrock-conversation-2024",
    "system": [
        {
            "text": 'You are an expert in composing functions. You are given a question and a set of possible functions. Based on the question, you will need to make one or more function/tool calls to achieve the purpose.
                    Here is a list of functions in JSON format that you can invoke.
                    [
                        {
                            "name": "lookup_weather",
                            "description: "Lookup weather to a specific location",
                            "parameters": {
                                "type": "dict",
                                "required": [
                                    "city"
                                ],
                                "properties": {
                                    "location": {
                                        "type": "string",
                                    },
                                    "date": {
                                        "type": "string",
                                    }
                                }
                            }
                        }
                    ]'
        }
    ],
    "messages": [
        {
            "role": "user",
            "content": [
                {
                    "text": "What's the weather tomorrow?"
                }
            ]
        },
        {
            "role": "assistant",
            "content": [
               {
                   "text": "[lookup_weather(location=\"san francisco\", date=\"tomorrow\")]"
               }
            ]
        }
    ]
}

Kumpulkan petunjuk Anda dan simpan dalam format .jsonl file. Setiap catatan di JSONL harus menggunakan struktur berikut.

Sertakan schemaVersion bidang yang harus memiliki nilaibedrock-conversion-2024.
[Opsional] Sertakan prompt sistem yang menunjukkan peran yang ditetapkan ke model.
Di messages bidang, sertakan peran pengguna yang berisi prompt input yang diberikan kepada model.
[Opsional] Di messages lapangan, sertakan peran asisten yang berisi respons yang diinginkan.

Anthropicdan Meta Llama model hanya mendukung permintaan percakapan satu putaran, artinya Anda hanya dapat memiliki satu prompt pengguna. Amazon NovaModel mendukung percakapan multi-putaran, memungkinkan Anda untuk menyediakan beberapa pertukaran pengguna dan asisten dalam satu catatan.

Contoh format


{
    "schemaVersion": "bedrock-conversation-2024",
    "system": [{
        "text": "A chat between a curious User and an artificial intelligence Bot. The Bot gives helpful, detailed, and polite answers to the User's questions."
    }],
    "messages": [{
            "role": "user",
            "content": [{
                "text": "why is the sky blue"
            }]
        },
        {
            "role": "assistant",
            "content": [{
                "text": "The sky is blue because molecules in the air scatter blue light from the Sun more than other colors."
            }]
        }
    ]
}

Validasi kumpulan data Anda

Sebelum Anda menjalankan pekerjaan distilasi Anda, Anda dapat memvalidasi dataset input Anda menggunakan skrip Python.

Saat membuat pekerjaan distilasi, Amazon Bedrock dapat menggunakan tanggapan guru yang ada dari CloudWatch log pemanggilan Log sebagai data pelatihan. Untuk Amazon Bedrock, log pemanggilan adalah catatan rinci tentang pemanggilan model.

Untuk menggunakan log pemanggilan untuk distilasi model, setel log pemanggilan model, gunakan salah satu operasi pemanggilan model, dan pastikan Anda telah menyiapkan bucket Amazon S3 sebagai tujuan log. Sebelum Anda dapat memulai pekerjaan distilasi model, Anda harus memberikan izin Amazon Bedrock untuk mengakses log. Untuk informasi selengkapnya tentang menyiapkan log pemanggilan, lihat Memantau pemanggilan model menggunakan Amazon Logs. CloudWatch

Dengan opsi ini, Anda dapat menentukan apakah Anda ingin Amazon Bedrock hanya menggunakan petunjuknya, atau menggunakan pasangan prompt respons dari log pemanggilan. Jika Anda ingin Amazon Bedrock hanya menggunakan prompt, maka Amazon Bedrock dapat menambahkan teknik sintesis data eksklusif untuk menghasilkan respons yang beragam dan berkualitas lebih tinggi dari model guru. Jika Anda ingin Amazon Bedrock menggunakan pasangan prompt respons, Amazon Bedrock tidak akan menghasilkan kembali respons dari model guru. Amazon Bedrock akan langsung menggunakan tanggapan dari log pemanggilan untuk menyempurnakan model siswa.

penting

Anda dapat memberikan maksimum 15K prompt atau pasangan respons prompt ke Amazon Bedrock untuk menyempurnakan model siswa. Untuk memastikan bahwa model siswa disesuaikan untuk memenuhi kebutuhan spesifik Anda, kami sangat merekomendasikan hal berikut:

Jika Anda ingin Amazon Bedrock hanya menggunakan prompt, pastikan setidaknya ada 100 pasangan respons prompt yang dihasilkan dari semua model.
Jika Anda ingin Amazon Bedrock menggunakan respons dari log pemanggilan, pastikan Anda memiliki setidaknya 100 pasangan respons prompt yang dihasilkan dari model di log pemanggilan yang sama persis dengan model guru yang Anda pilih.

Anda dapat menambahkan metadata permintaan secara opsional ke pasangan prompt respons dalam log pemanggilan menggunakan salah satu operasi pemanggilan model dan kemudian menggunakannya untuk memfilter log. Amazon Bedrock dapat menggunakan log yang difilter untuk menyempurnakan model siswa.

Untuk memfilter log menggunakan beberapa metadata permintaan, gunakan satu operasi Boolean operator AND, OR, atau NOT. Anda tidak dapat menggabungkan operasi. Untuk pemfilteran metadata permintaan tunggal, gunakan operator Boolean NOT.

Tambahkan metadata permintaan ke prompt dan tanggapan di log pemanggilan Anda untuk distilasi model

Pencatatan pemanggilan model mengumpulkan log pemanggilan, data input model (prompt), dan data keluaran model (respons) untuk semua pemanggilan yang digunakan di Amazon Bedrock. Jika Anda telah mengaktifkan logging, Anda dapat mengumpulkan log setiap kali Anda berinteraksi dengan model dasar Amazon Bedrock melalui operasi Converse API Invoke atau apa pun. Jika Anda ingin Amazon Bedrock menggunakan prompt dan tanggapan terkait dari log pemanggilan untuk menyempurnakan model siswa, maka Anda harus memberi Amazon Bedrock akses ke log ini. Menggunakan respons yang telah dihasilkan model membuatnya lebih cepat untuk menyempurnakan model siswa. Menggunakan tanggapan dari log pemanggilan juga membuat distilasi model lebih hemat biaya, namun, teknik sintesis data milik Amazon Bedrock tidak ditambahkan yang dapat menghasilkan model suling yang lebih berkinerja.

Dengan log pemanggilan, Anda dapat mengidentifikasi pasangan prompt respons yang ingin digunakan Amazon Bedrock untuk distilasi model. Pasangan respon cepat ini bisa untuk kasus penggunaan tertentu. Agar dapat mengidentifikasi pasangan respons prompt yang akan digunakan untuk distilasi, Anda harus menambahkan string metadata permintaan ke pasangan respons prompt saat Anda memanggil model atau menggunakan operasi API. Converse Metadata permintaan disediakan dalam format:. "priority" : "High"

Saat Anda terus berinteraksi dengan model menggunakan operasi Invoke atau Converse API, interaksi dan metadata permintaan dicatat di log pemanggilan. Berikut ini adalah contoh log pemanggilan dari InvokeModel panggilan yang menunjukkan metadata permintaan:


{
    "schemaType": "ModelInvocationLog",
    "schemaVersion": "1.0",
    "timestamp": "2024-09-11T17:16:18Z",
    "accountId": "XXXXX",
    "identity": {
        "arn": "arn:aws:sts::XXXXXXX:assumed-role/Admin/XXXXXX"
    },
    "region": "us-east-1",
    "requestId": "7ee514f3-9eff-467c-af75-8fd564ce58e5",
    "operation": "InvokeModel",
    "modelId": "meta.llama3-1-405b-instruct-v1:0",
    "input": {
        "inputContentType": "application/json",
        "inputBodyJson": {
            "prompt": "story of two dogs",
            "max_tokens_to_sample": 300
        },
        "inputTokenCount": 13
    },
    "output": {
        "outputContentType": "application/json",
        "outputBodyJson": {
            "type": "completion",
            "completion": " Here is a story about two dogs:\n\nRex and Charlie were best friends who lived next door to each other. Every morning, their owners would let them out into the backyard to play. Rex was a golden retriever with long, shaggy fur. He loved to run and chase sticks. Charlie was a corgi with short legs and a big smile. He was happy just sniffing the grass and rolling around. \n\nThe two dogs spent every day playing together. Rex would grab a stick and bring it over to Charlie, wagging his tail excitedly. Charlie would take the other end of the stick in his mouth and they'd have a friendly game of tug-of-war. After tiring themselves out, they'd flop down in the warm sunshine for a nap. \n\nAt lunchtime, their owners would call them in for food. Rex would gobble up his kibble hungrily while Charlie ate his at a more leisurely pace. After lunch, it was right back outside for more playtime. The afternoon sunbeams would light up their fur as they chased each other around the yard. \n\nWhen it started getting late, their owners called them in for the night. Rex and Charlie would head inside, tired but happy after another fun day of play. After slurping up fresh water from their bowls, they'd curl up on their beds, Rex's fluffy golden tail tucked over his nose and little",
            "stop_reason": "max_tokens",
            "stop": null
        },
        "outputTokenCount": 300
    },
    "requestMetadata": {
        "project": "CustomerService",
        "intent": "ComplaintResolution",
        "priority": "High"
    }
}

Anda dapat menentukan log pemanggilan sebagai sumber data masukan saat memulai pekerjaan distilasi model. Anda dapat memulai pekerjaan distilasi model di konsol Amazon Bedrock, menggunakan API AWS CLI, atau AWS SDK.

Persyaratan untuk menyediakan metadata permintaan

Metadata permintaan harus memenuhi persyaratan berikut:

Disediakan dalam key:value format JSON.
Pasangan kunci dan nilai harus berupa string maksimum 256 karakter.
Berikan maksimal 16 pasangan kunci-nilai.

Menggunakan filter metadata permintaan

Anda dapat menerapkan filter ke metadata permintaan untuk secara selektif memilih pasangan permintaan-respons mana yang akan disertakan dalam distilasi untuk menyempurnakan model siswa. Misalnya, Anda mungkin hanya ingin menyertakan metadata permintaan “project”: CustomerService "" dan “priority”: “High”.

Untuk memfilter log menggunakan beberapa metadata permintaan, gunakan satu operator Boolean AND, OR, atau NOT. Anda tidak dapat menggabungkan operasi. Untuk pemfilteran metadata permintaan tunggal, gunakan operator Boolean NOT.

Anda dapat menentukan log pemanggilan sebagai sumber data input Anda dan filter apa yang akan digunakan untuk memilih pasangan prompt respons saat Anda memulai pekerjaan distilasi model. Anda dapat memulai pekerjaan distilasi model di konsol Amazon Bedrock, menggunakan API AWS CLI, atau AWS SDK. Untuk informasi selengkapnya, lihat Kirim pekerjaan distilasi model di Amazon Bedrock.

Validasi kumpulan data Anda

Sebelum Anda menjalankan pekerjaan distilasi Anda, Anda dapat memvalidasi dataset input Anda menggunakan skrip Python.

Awas Javascript dinonaktifkan atau tidak tersedia di browser Anda.

Untuk menggunakan Dokumentasi AWS, Javascript harus diaktifkan. Lihat halaman Bantuan browser Anda untuk petunjuk.

Konvensi Dokumen

Prasyarat

Kirim pekerjaan distilasi model