Preparare i set di dati di addestramento per la distillazione

Prima di iniziare un processo di personalizzazione del modello, è necessario preparare almeno un set di dati di addestramento. Per preparare i set di dati di input per il modello personalizzato, creare file .jsonl, ogni riga dei quali è un oggetto JSON corrispondente a un record. I file creati devono essere conformi al formato per la distillazione di modelli e al modello scelto. I record in esso contenuti devono inoltre essere conformi ai requisiti di dimensione.

Fornire i dati di input come prompt. Amazon Bedrock utilizza i dati di input forniti per generare risposte dal modello insegnante e utilizza le risposte generate per eseguire il fine-tuning del modello studente. Per ulteriori informazioni sugli input utilizzati da Amazon Bedrock e per scegliere l’opzione più adatta al caso d’uso, consultare Come funziona Amazon Bedrock Model Distillation. Esistono un paio di opzioni per preparare il set di dati di input.

Nota

I modelli Amazon Nova hanno requisiti diversi per la distillazione. Per ulteriori informazioni, consulta Distillazione di modelli Amazon Nova.

I modelli elencati in Modelli e Regioni supportati per Amazon Bedrock Model Distillation supportano solo la modalità da testo a testo.

Durante la distillazione di modelli, Amazon Bedrock genera un set di dati sintetico che utilizza per eseguire il fine-tuning del modello studente in base al caso d’uso specifico. Per ulteriori informazioni, consulta Come funziona Amazon Bedrock Model Distillation.

È possibile ottimizzare il processo di generazione di dati sintetici formattando i prompt di input per il caso d’uso desiderato. Ad esempio, se il caso d’uso del modello distillato è la generazione potenziata da recupero dati (RAG), è necessario formattare i prompt in modo diverso rispetto a quando si vuole che il modello si concentri sui casi d’uso degli agenti.

Di seguito sono riportati alcuni esempi di come è possibile formattare i prompt di input per la RAG o i casi d’uso degli agenti.

RAG prompt example


{
  "schemaVersion": "bedrock-conversation-2024",
  "system": [
    {
      "text": "You are a financial analyst charged with answering questions about 10K and 10Q SEC filings. Given the context below, answer the following question."
    }
  ],
  "messages": [
    {
      "role": "user",
      "content": [
        {
          "text": "<context>\nDocument 1: Multiple legal actions have been filed against us as a result of the October 29, 2018 accident of Lion Air Flight 610 and the March 10, 2019 accident of Ethiopian Airlines Flight 302.\n</context>\n\n<question>Has Boeing reported any materially important ongoing legal battles from FY2022?</question>"
        }
      ]
    }
  ]
}

Agent prompt example


{
    "schemaVersion": "bedrock-conversation-2024",
    "system": [
        {
            "text": 'You are an expert in composing functions. You are given a question and a set of possible functions. Based on the question, you will need to make one or more function/tool calls to achieve the purpose.
                    Here is a list of functions in JSON format that you can invoke.
                    [
                        {
                            "name": "lookup_weather",
                            "description: "Lookup weather to a specific location",
                            "parameters": {
                                "type": "dict",
                                "required": [
                                    "city"
                                ],
                                "properties": {
                                    "location": {
                                        "type": "string",
                                    },
                                    "date": {
                                        "type": "string",
                                    }
                                }
                            }
                        }
                    ]'
        }
    ],
    "messages": [
        {
            "role": "user",
            "content": [
                {
                    "text": "What's the weather tomorrow?"
                }
            ]
        },
        {
            "role": "assistant",
            "content": [
               {
                   "text": "[lookup_weather(location=\"san francisco\", date=\"tomorrow\")]"
               }
            ]
        }
    ]
}

Raccogli i prompt e archiviali in un file in formato .jsonl. Ogni record nel file JSONL deve utilizzare la seguente struttura.

Includi il campo schemaVersion che deve avere il valore bedrock-conversion-2024.
[Facoltativo] Includi un prompt di sistema che indichi il ruolo assegnato al modello.
Nel campo messages, includi il ruolo utente contenente il prompt di input fornito al modello.
[Facoltativo] Nel campo messages, includi il ruolo di assistente contenente la risposta desiderata.

I modelli Anthropic e Meta Llama supportano solo istruzioni di conversazione a singolo turno, il che significa che puoi avere solo un prompt utente. I modelli Amazon Nova supportano conversazioni a più turni, consentendoti di fornire più scambi di utenti e assistenti all’interno di un unico record.

Formato di esempio


{
    "schemaVersion": "bedrock-conversation-2024",
    "system": [{
        "text": "A chat between a curious User and an artificial intelligence Bot. The Bot gives helpful, detailed, and polite answers to the User's questions."
    }],
    "messages": [{
            "role": "user",
            "content": [{
                "text": "why is the sky blue"
            }]
        },
        {
            "role": "assistant",
            "content": [{
                "text": "The sky is blue because molecules in the air scatter blue light from the Sun more than other colors."
            }]
        }
    ]
}

Convalida del set di dati

Prima di eseguire il processo di distillazione, è possibile convalidare il set di dati di input utilizzando uno script di Python.

Quando crei un lavoro di distillazione, puoi fare in modo che Amazon Bedrock utilizzi le risposte esistenti degli insegnanti dai CloudWatch log di invocazione di Logs come dati di formazione. Per Amazon Bedrock, un log delle invocazioni è un registro dettagliato delle invocazioni del modello.

Per utilizzare i log delle invocazioni per la distillazione di modelli, attivare la registrazione delle invocazioni del modello, utilizzare una delle operazioni di invocazione del modello e assicurarsi di avere impostato un bucket Amazon S3 come destinazione per i log. Prima di avviare il processo di distillazione di modelli, è necessario fornire le autorizzazioni di Amazon Bedrock per accedere ai log. Per ulteriori informazioni sulla configurazione dei log delle chiamate, consulta Monitorare la chiamata del modello utilizzando Amazon Logs. CloudWatch

Con questa opzione, è possibile specificare se Amazon Bedrock deve utilizzare solo i prompt oppure le coppie di prompt-risposta presenti nel log delle invocazioni. Se si vuole che Amazon Bedrock utilizzi solo i prompt, Amazon Bedrock potrebbe aggiungere tecniche di sintesi dei dati proprietari per generare risposte diverse e di qualità superiore dal modello insegnante. Se si vuole che Amazon Bedrock utilizzi le coppie di prompt-risposta, Amazon Bedrock non rigenera le risposte del modello insegnante. Amazon Bedrock utilizzerà direttamente le risposte del log delle invocazioni per eseguire il fine-tuning del modello studente.

Importante

È possibile fornire ad Amazon Bedrock al massimo 15.000 prompt o coppie di prompt-risposta per eseguire il fine-tuning del modello studente. Per garantire che il modello studente venga ottimizzato con il fine-tuning per soddisfare requisiti specifici, consigliamo vivamente quanto segue:

Se si vuole che Amazon Bedrock utilizzi solo i prompt, assicurarsi che siano presenti almeno 100 coppie di prompt-risposta generate da tutti i modelli.
Se si vuole che Amazon Bedrock utilizzi le risposte dei log delle invocazioni, assicurarsi che nei log delle invocazioni siano presenti almeno 100 coppie prompt-risposta generate dal modello e che corrispondano esattamente al modello insegnante scelto.

Facoltativamente, è possibile aggiungere i metadati delle richieste alle coppie di prompt-risposta nel log delle invocazioni utilizzando una delle operazioni di invocazione del modello e utilizzarli in seguito per filtrare i log. Amazon Bedrock può utilizzare i log filtrati per eseguire il fine-tuning del modello studente.

Per filtrare i log utilizzando più metadati delle richieste, utilizzare un solo operatore booleano AND, OR o NOT. Non è possibile combinare le operazioni. Per filtrare i metadati di una singola richiesta, utilizzare l’operatore booleano NOT.

Aggiungere i metadati delle richieste ai prompt e alle risposte nei log delle invocazioni per la distillazione di modelli

La registrazione delle invocazioni dei modelli consente di raccogliere i log delle invocazioni, i dati di input (prompt) dei modelli e i dati di output (risposte) dei modelli per tutte le invocazioni utilizzate in Amazon Bedrock. Se la registrazione è abilitata, è possibile raccogliere i log ogni volta che si interagisce con i modelli di fondazione di Amazon Bedrock tramite qualsiasi operazione delle API Invoke o Converse. Se si vuole che Amazon Bedrock utilizzi i prompt e le risposte associate presenti nel log delle invocazioni per eseguire il fine-tuning il modello studente, è necessario consentire ad Amazon Bedrock l’accesso a questi log. L’utilizzo delle risposte che un modello ha già generato velocizza il fine-tuning del modello studente. L’utilizzo delle risposte dei log delle invocazioni rende anche la distillazione di modelli più conveniente, tuttavia non vengono aggiunte le tecniche di sintesi dei dati proprietari di Amazon Bedrock, che potrebbe portare a un modello distillato più performante.

Con i log delle invocazioni è possibile identificare le coppie di prompt-risposta che Amazon Bedrock deve utilizzare per la distillazione di modelli. Queste coppie di prompt-risposta possono essere destinate a casi d’uso specifici. Per poter identificare le coppie di prompt-risposta da utilizzare per la distillazione, è necessario aggiungere una stringa di metadati delle richieste alle coppie di prompt-risposta quando si invoca un modello o si utilizza l’operazione dell’API Converse. I metadati della richiesta sono forniti nel formato "priority" : "High".

Man mano che si interagisce con il modello utilizzando le operazioni delle API Invoke o Converse, le interazioni e i metadati delle richieste vengono registrati nei log delle invocazioni. Di seguito è riportato un esempio di log delle invocazioni generato da una chiamata InvokeModel che mostra i metadati della richiesta:


{
    "schemaType": "ModelInvocationLog",
    "schemaVersion": "1.0",
    "timestamp": "2024-09-11T17:16:18Z",
    "accountId": "XXXXX",
    "identity": {
        "arn": "arn:aws:sts::XXXXXXX:assumed-role/Admin/XXXXXX"
    },
    "region": "us-east-1",
    "requestId": "7ee514f3-9eff-467c-af75-8fd564ce58e5",
    "operation": "InvokeModel",
    "modelId": "meta.llama3-1-405b-instruct-v1:0",
    "input": {
        "inputContentType": "application/json",
        "inputBodyJson": {
            "prompt": "story of two dogs",
            "max_tokens_to_sample": 300
        },
        "inputTokenCount": 13
    },
    "output": {
        "outputContentType": "application/json",
        "outputBodyJson": {
            "type": "completion",
            "completion": " Here is a story about two dogs:\n\nRex and Charlie were best friends who lived next door to each other. Every morning, their owners would let them out into the backyard to play. Rex was a golden retriever with long, shaggy fur. He loved to run and chase sticks. Charlie was a corgi with short legs and a big smile. He was happy just sniffing the grass and rolling around. \n\nThe two dogs spent every day playing together. Rex would grab a stick and bring it over to Charlie, wagging his tail excitedly. Charlie would take the other end of the stick in his mouth and they'd have a friendly game of tug-of-war. After tiring themselves out, they'd flop down in the warm sunshine for a nap. \n\nAt lunchtime, their owners would call them in for food. Rex would gobble up his kibble hungrily while Charlie ate his at a more leisurely pace. After lunch, it was right back outside for more playtime. The afternoon sunbeams would light up their fur as they chased each other around the yard. \n\nWhen it started getting late, their owners called them in for the night. Rex and Charlie would head inside, tired but happy after another fun day of play. After slurping up fresh water from their bowls, they'd curl up on their beds, Rex's fluffy golden tail tucked over his nose and little",
            "stop_reason": "max_tokens",
            "stop": null
        },
        "outputTokenCount": 300
    },
    "requestMetadata": {
        "project": "CustomerService",
        "intent": "ComplaintResolution",
        "priority": "High"
    }
}

È possibile impostare il log delle invocazioni come origine dati di input all’avvio di un processo di distillazione di modelli. Puoi avviare il processo di distillazione del modello nella console Amazon Bedrock, utilizzando l'API o AWS l' AWS CLI SDK.

Requisiti per fornire i metadati delle richieste

I metadati delle richieste devono soddisfare i seguenti requisiti:

Devono essere nel formato key:value di JSON.
La coppia chiave-valore deve essere una stringa al massimo di 256 caratteri.
Devono fornire al massimo 16 coppie chiave-valore.

Utilizzo di filtri per metadati delle richieste

È possibile applicare filtri ai metadati delle richieste per scegliere in modo selettivo quali coppie di prompt/risposta includere nella distillazione per il fine-tuning del modello studente, Ad esempio, potresti voler includere solo quelli con metadati di richiesta «project»: "CustomerService" e «priority»: «High».

È possibile impostare il log delle invocazioni come origine dati di input e specificare quali filtri utilizzare per selezionare le coppie di prompt-risposta all’avvio di un processo di distillazione di modelli. Puoi avviare il processo di distillazione del modello nella console Amazon Bedrock, utilizzando l'API o AWS l' AWS CLI SDK. Per ulteriori informazioni, consulta Inviare un processo di distillazione di modelli in Amazon Bedrock.

Convalida del set di dati

Prima di eseguire il processo di distillazione, è possibile convalidare il set di dati di input utilizzando uno script di Python.

Avvertimento JavaScript è disabilitato o non è disponibile nel tuo browser.

Per usare la documentazione AWS, JavaScript deve essere abilitato. Consulta le pagine della guida del browser per le istruzioni.

Convenzioni dei documenti

Prerequisiti

Inviare un processo di distillazione di modelli