Preparare i dati per il fine-tuning dei modelli di elaborazione di immagini e testo

Nota

Per informazioni sull’esecuzione del fine-tuning dei modelli Amazon Nova, consulta Eseguire il fine-tuning dei modelli Amazon Nova.

Per eseguire il fine-tuning dei modelli da immagine e testo a testo, ogni oggetto JSON è un esempio contenente una conversazione strutturata come un array messages, costituito da oggetti JSON alternati che rappresentano gli input dell’utente e le risposte dell’assistente. Gli input dell’utente possono includere sia testo che immagini, mentre le risposte dell’assistente sono sempre testuali. Questa struttura supporta sia flussi conversazionali a turno singolo o a più turni, consentendo al modello di gestire in modo efficace una varietà di attività. I formati di immagine supportati per Meta Llama-3.2 11B Vision Instruct e Meta Llama-3.2 90B Vision Instruct includono: gif, jpeg, png e webp.

Per consentire ad Amazon Bedrock l’accesso ai file immagine, aggiungi una policy IAM simile a quella in Autorizzazioni per accedere ai file di addestramento e convalida e scrivere i file di output in S3 sul ruolo del servizio di personalizzazione del modello Amazon Bedrock che hai impostato o che è stato impostato automaticamente per te nella console. I percorsi Amazon S3 che fornisci nel set di dati di addestramento devono trovarsi nelle cartelle specificate nella policy.

Conversazioni a turno singolo

Ogni oggetto JSON per conversazioni a turno singolo è costituito da un messaggio utente e da un messaggio di assistente. Il messaggio dell’utente include un campo ruolo impostato su utente e un campo contenuto contenente un array con un campo type (testo o immagine) che descrive la modalità di input. Per gli input di testo, il campo content include un campo text con la domanda o il prompt dell’utente. Per gli input di immagini, il campo content specifica l’immagine format (ad esempio, jpeg, png) e la relativa source con un uri che indica la posizione dell’immagine in Amazon S3. uri rappresenta il percorso univoco per l’immagine archiviata in un bucket Amazon S3, in genere nel formato s3://<bucket-name>/<path-to-file>. Il messaggio dell’assistente include un campo role impostato su assistente e un campo content contenente un array con un campo type impostato su testo e un campo text contenente la risposta generata dall’assistente.

Formato di esempio


{
    "schemaVersion": "bedrock-conversation-2024",
    "system": [{
        "text": "You are a smart assistant that answers questions respectfully"
    }],
    "messages": [{
            "role": "user",
            "content": [{
                    "text": "What does the text in this image say?"
                },
                {
                    "image": {
                        "format": "png",
                        "source": {
                            "s3Location": {
                                "uri": "s3://your-bucket/your-path/your-image.png",
                                "bucketOwner": "your-aws-account-id"
                            }
                        }
                    }
                }
            ]
        },
        {
            "role": "assistant",
            "content": [{
                "text": "The text in the attached image says 'LOL'."
            }]
        }
    ]
}

Conversazioni a più turni

Ogni oggetto JSON per conversazioni a più turni contiene una sequenza di messaggi con ruoli alternati, in cui i messaggi dell’utente e dell’assistente sono strutturati in modo coerente per consentire scambi altrettanto coerenti. I messaggi utente includono un role campo impostato su utente e un campo content che descrive la modalità di input. Per gli input di testo, il campo content include un campo text con la domanda o il follow-up dell’utente, mentre per gli input di immagini, specifica l’immagine format e la relativa source con un uri che indica la posizione dell’immagine in Amazon S3. uri funge da identificatore univoco nel formato s3://<bucket-name>/<path-to-file>e consente al modello di accedere all’immagine dal bucket Amazon S3 designato. I messaggi dell’assistente includono un campo role impostato su assistente e un campo content contenente un array con un campo type impostato su testo e un campo text contenente la risposta generata dall’assistente. Le conversazioni possono estendersi su più scambi, permettendo all’assistente di mantenere il contesto e fornire risposte coerenti per l’intera durata.

Formato di esempio


{
    "schemaVersion": "bedrock-conversation-2024",
    "system": [{
        "text": "You are a smart assistant that answers questions respectfully"
    }],
    "messages": [{
            "role": "user",
            "content": [{
                    "text": "What does the text in this image say?"
                },
                {
                    "image": {
                        "format": "png",
                        "source": {
                            "s3Location": {
                                "uri": "s3://your-bucket/your-path/your-image.png",
                                "bucketOwner": "your-aws-account-id"
                            }
                        }
                    }
                }
            ]
        },
        {
            "role": "assistant",
            "content": [{
                "text": "The text in the attached image says 'LOL'."
            }]
        },
        {
            "role": "user",
            "content": [{
                    "text": "What does the text in this image say?"
                }
            ]
        },
        {
            "role": "assistant",
            "content": [{
                "text": "The text in the attached image says 'LOL'."
            }]
        }
        
    ]
}

Avvertimento JavaScript è disabilitato o non è disponibile nel tuo browser.

Per usare la documentazione AWS, JavaScript deve essere abilitato. Consulta le pagine della guida del browser per le istruzioni.

Convenzioni dei documenti

Preparazione dei dati per eseguire il fine-tuning dei modelli da testo a testo

Preparazione dei dati per il fine-tuning della generazione di immagini e dei modelli di embedding