Vorbereiten von Daten für die Feinabstimmung von Bild- und Textverarbeitungsmodellen

Anmerkung

Informationen zur Feinabstimmung der Modelle von Amazon Nova finden Sie unter Feinabstimmung von Amazon Nova-Modellen.

Für die Feinabstimmung von Bild-Text-zu-Text-Modellen ist jedes JSON-Objekt ein Beispiel, das eine als messages-Array strukturierte Konversation enthält. Es besteht aus abwechselnden JSON-Objekten, die die Eingaben des Benutzers und die Antworten des Assistenten darstellen. Benutzereingaben können sowohl Text als auch Bilder enthalten, während die Antworten des Assistenten immer in Textform erfolgen. Diese Struktur unterstützt sowohl Single-Turn- als auch Multi-Turn-Konversationsabläufe, sodass das Modell verschiedene Aufgaben effektiv bewältigen kann. Zu den unterstützten Bildformaten für Meta Llama-3.2 11B Vision Instruct und Meta Llama-3.2 90B Vision Instruct gehören: gif, jpeg, png und webp.

Damit Amazon Bedrock auf die Bilddateien zugreifen kann, fügen Sie eine IAM-Richtlinie hinzu, die der Servicerolle für die Amazon-Bedrock-Modellanpassung in Berechtigungen zum Zugriff auf Trainings- und Validierungsdateien und zum Schreiben von Ausgabedateien in S3 ähnelt, die Sie eingerichtet haben oder die automatisch für Sie in der Konsole eingerichtet wurde. Die Amazon-S3-Pfade, die Sie im Trainingsdatensatz angeben, müssen sich in Ordnern befinden, die Sie in der Richtlinie angeben.

Single-Turn-Konversationen

Jedes JSON-Objekt für Single-Turn-Konversationen besteht aus einer Benutzernachricht und einer Assistentennachricht. Die Benutzernachricht umfasst ein auf Benutzer festgelegtes Rollenfeld und ein Inhaltsfeld, das ein Array mit einem type-Feld (Text oder Bild) zur Beschreibung der Eingabemodalität enthält. Bei Texteingaben enthält das content-Feld ein text-Feld mit der Frage oder dem Prompt des Benutzers. Bei Bildeingaben spezifiziert das content-Feld das Bild format (z. B. JPEG oder PNG) und seinen uri mit einer source, die auf den Amazon-S3-Speicherort des Bilds zeigt. Der uri steht für den eindeutigen Pfad zu dem in einem Amazon-S3-Bucket gespeicherten Bild, in der Regel im Format s3://<bucket-name>/<path-to-file>. Die Assistentennachricht umfasst ein role-Feld, das auf Assistent eingestellt ist, ein content-Feld, das ein Array mit einem type-Feld enthält, das auf Text festgelegt ist, und ein text-Feld mit der vom Assistenten generierten Antwort.

Beispielformat


{
    "schemaVersion": "bedrock-conversation-2024",
    "system": [{
        "text": "You are a smart assistant that answers questions respectfully"
    }],
    "messages": [{
            "role": "user",
            "content": [{
                    "text": "What does the text in this image say?"
                },
                {
                    "image": {
                        "format": "png",
                        "source": {
                            "s3Location": {
                                "uri": "s3://your-bucket/your-path/your-image.png",
                                "bucketOwner": "your-aws-account-id"
                            }
                        }
                    }
                }
            ]
        },
        {
            "role": "assistant",
            "content": [{
                "text": "The text in the attached image says 'LOL'."
            }]
        }
    ]
}

Multi-turn-Konversationen

Jedes JSON-Objekt für Multi-Turn-Konversationen enthält eine Abfolge von Nachrichten mit wechselnden Rollen, wobei Benutzernachrichten und Assistentennachrichten einheitlich strukturiert sind, um einen kohärenten Austausch zu ermöglichen. Benutzernachrichten enthalten ein role-Feld, das auf Benutzer festgelegt ist, und ein content-Feld, das die Eingabemodalität beschreibt. Bei Texteingaben enthält das content-Feld ein text-Feld mit der Frage oder dem Follow-up des Benutzers. Bei Bildeingaben spezifiziert es hingegen das Bild-format und seine source mit einem uri, der auf den Amazon-S3-Speicherort des Bildes verweist. Der uri dient als eindeutige Kennung im Format s3://<bucket-name>/<path-to-file> und ermöglicht dem Modell den Zugriff auf das Bild aus dem angegebenen Amazon-S3-Bucket. Assistentennachrichten umfassen ein role-Feld, das auf Assistent eingestellt ist, ein content-Feld, das ein Array mit einem type-Feld enthält, das auf Text festgelegt ist, und ein text-Feld mit der vom Assistenten generierten Antwort. Konversationen können sich über mehrere Austausche erstrecken, sodass der Assistent den Kontext beibehalten und durchgehend kohärente Antworten geben kann.

Beispielformat


{
    "schemaVersion": "bedrock-conversation-2024",
    "system": [{
        "text": "You are a smart assistant that answers questions respectfully"
    }],
    "messages": [{
            "role": "user",
            "content": [{
                    "text": "What does the text in this image say?"
                },
                {
                    "image": {
                        "format": "png",
                        "source": {
                            "s3Location": {
                                "uri": "s3://your-bucket/your-path/your-image.png",
                                "bucketOwner": "your-aws-account-id"
                            }
                        }
                    }
                }
            ]
        },
        {
            "role": "assistant",
            "content": [{
                "text": "The text in the attached image says 'LOL'."
            }]
        },
        {
            "role": "user",
            "content": [{
                    "text": "What does the text in this image say?"
                }
            ]
        },
        {
            "role": "assistant",
            "content": [{
                "text": "The text in the attached image says 'LOL'."
            }]
        }
        
    ]
}

Warnung JavaScript ist in Ihrem Browser nicht verfügbar oder deaktiviert.

Zur Nutzung der AWS-Dokumentation muss JavaScript aktiviert sein. Weitere Informationen finden auf den Hilfe-Seiten Ihres Browsers.

Dokumentkonventionen

Vorbereiten von Daten für die Feinabstimmung von Text-zu-Text-Modellen

Vorbereiten von Daten für die Feinabstimmung der Bildgenerierung und das Einbetten von Modellen