Bereiten Sie Daten für die Feinabstimmung Ihrer Modelle vor

Zum Vorbereiten von Trainings- und Validierungsdatensätzen für Ihr benutzerdefiniertes Modell erstellen Sie .jsonl-Dateien, bei denen jede Zeile ein JSON-Objekt ist, das einem Datensatz entspricht. Bevor Sie mit einer Modellanpassung beginnen können, müssen Sie mindestens einen Trainingsdatensatz vorbereiten. Die von Ihnen erstellten Dateien müssen dem Format für die Anpassung und das ausgewählte Modell entsprechen. Die darin enthaltenen Datensätze müssen die Größenanforderungen je nach Modell erfüllen.

Weitere Informationen zu den Modellanforderungen finden Sie unter Modellanforderungen für Trainings- und Validierungsdatensätze. Die Standardkontingente, die für Trainings- und Validierungsdatensätze gelten, welche für die Anpassung verschiedener Modelle verwendet werden, finden Sie unter Summe der Trainings- und Validierungsdatensätze unter Endpunkte und Kontingente von Amazon Bedrock in der Allgemeine AWS-Referenz.

Ob ein Validierungsdatensatz unterstützt wird und welches Format Ihr Trainings- und Validierungsdatensatz hat, hängt von den folgenden Faktoren ab.

Die Art des Anpassungsauftrags zur Feinabstimmung.
Die Eingabe- und Ausgabemodalitäten der Daten

Informationen zur Feinabstimmung der Modelle von Amazon Nova finden Sie unter Feinabstimmung der Modelle von Amazon Nova.

In den folgenden Abschnitten werden die verschiedenen Funktionen zur Feinabstimmung beschrieben, die von den einzelnen Modellen unterstützt werden, geordnet nach ihren Eingabe- und Ausgabemodalitäten. Weitere Informationen zur Feinabstimmung von Amazon Nova-Modellen finden Sie unter Feinabstimmung von Amazon Nova-Modellen.

Text-to-Text --Modelle

Text-to-Text Modelle können für verschiedene textbasierte Aufgaben optimiert werden, sowohl für Konversationsanwendungen als auch für Anwendungen, die nicht auf Konversation basieren. Hinweise zur Vorbereitung von Daten für die Feinabstimmung von Modellen finden Sie unter. Text-to-Text Bereiten Sie Daten für die Feinabstimmung von Modellen vor text-to-text

Die folgenden Modelle ohne Konversationen sind für Aufgaben wie Zusammenfassung, Übersetzung und Beantwortung von Fragen optimiert:

Amazon Titan Text G1 - Express
Amazon Titan Text G1 - Lite
Amazon Titan Text Premier
Cohere Command
Cohere Command Light
Meta Llama 3.1 8B Instruct
Meta Llama 3.1 70B Instruct

Die folgenden Konversationsmodelle sind für Single-Turn- und Multi-Turn-Interaktionen konzipiert. Wenn ein Modell die Converse-API verwendet, muss Ihr Datensatz zur Feinabstimmung dem Nachrichtenformat der Converse-API entsprechen und System-, Benutzer- und Assistentennachrichten enthalten. Beispiele finden Sie unter Bereiten Sie Daten für die Feinabstimmung von Modellen vor text-to-text. Weitere Informationen über Converse-API-Operationen finden Sie im Abschnitt Führen einer Konversation mit den Converse-API-Operationen.

Anthropic Claude 3 Haiku
Meta Llama 3.2 1B Instruct (Converse-API-Format)
Meta Llama 3.2 3B Instruct (Converse-API-Format)
Meta Llama 3.2 11B Instruct Vision (Converse-API-Format)
Meta Llama 3.2 90B Instruct Vision (Converse-API-Format)
Meta Llama 3.3 70B Vision Instruct (Converse-API-Format)

Text-Image-to-Text & Text-to-Image Modelle

Die folgenden Modelle unterstützen die Feinabstimmung für die Bildgenerierung und die Text-Bild-Verarbeitung. Diese Modelle verarbeiten oder generieren Bilder auf der Grundlage von Texteingaben oder generieren Text, der sowohl auf Text- als auch auf Bildeingaben basiert. Informationen zur Vorbereitung von Daten für die Feinabstimmung von Text-to-Image Modellen Text-Image-to-Text und Modellen finden Sie unterVorbereiten von Daten für die Feinabstimmung von Bild- und Textverarbeitungsmodellen.

Amazon Titan Image Generator G1 V1
Meta Llama 3.2 11B Instruct Vision
Meta Llama 3.2 90B Instruct Vision
Meta Llama 3,3 70B Vision Instruct

Bild-zu-Einbettungen

Die folgenden Modelle unterstützen die Feinabstimmung für Aufgaben wie Klassifizierung und Abruf. Diese Modelle erzeugen numerische Repräsentationen (Einbettungen) aus Bildeingaben. Informationen zur Vorbereitung von Daten für die Feinabstimmung von Image-to-Embeddings Modellen finden Sie unter. Vorbereiten von Daten für die Feinabstimmung der Bildgenerierung und das Einbetten von Modellen

Amazon Titan Multimodal Embeddings G1
Amazon Titan Image Generator G1 V1

In den folgenden Abschnitten werden die Anforderungen an Trainings- und Validierungsdatensätze für ein Modell aufgeführt. Informationen zu Datensatzeinschränkungen für Modelle von Amazon Nova finden Sie unter Feinabstimmung von Modellen in Amazon Nova.

Description	Maximum (Feinabstimmung)
Summe der Ein- und Ausgabetoken, wenn die Batchgröße 1 ist	4.096
Summe der Ein- und Ausgabetoken, wenn die Batchgröße 2, 3 oder 4 ist	–
Zeichenkontingent pro Stichprobe im Datensatz	Token-Kontingent x 6 (geschätzt)
Dateigröße des Trainingsdatensatzes	1 GB
Dateigröße des Validierungsdatensatzes	100 MB

Description	Maximum (Feinabstimmung)
Summe der Ein- und Ausgabetoken, wenn die Batchgröße 1 ist	4.096
Summe der Ein- und Ausgabetoken, wenn die Batchgröße 2, 3 oder 4 ist	2 048
Zeichenkontingent pro Stichprobe im Datensatz	Token-Kontingent x 6 (geschätzt)
Dateigröße des Trainingsdatensatzes	1 GB
Dateigröße des Validierungsdatensatzes	100 MB

Description	Maximum (Feinabstimmung)
Summe der Ein- und Ausgabetoken, wenn die Batchgröße 1 oder 2 ist	4.096
Summe der Ein- und Ausgabetoken, wenn die Batchgröße 3, 4, 5 oder 6 ist	2 048
Zeichenkontingent pro Stichprobe im Datensatz	Token-Kontingent x 6 (geschätzt)
Dateigröße des Trainingsdatensatzes	1 GB
Dateigröße des Validierungsdatensatzes	100 MB

Description	Minimum (Feinabstimmung)	Maximum (Feinabstimmung)
Länge der Text-Prompts im Trainingsbeispiel, in Zeichen	3	1,024
Einträge in einem Trainingsdatensatz	5	10.000
Größe des Eingabebilds	0	50 MB
Höhe des Eingabebilds in Pixel	512	4.096
Breite des Eingabebilds in Pixel	512	4.096
Gesamtzahl der Pixel für das Eingabebild	0	12.582.912
Seitenverhältnis des Eingabebilds	1:4	4:1

Description	Minimum (Feinabstimmung)	Maximum (Feinabstimmung)
Länge der Text-Prompts im Trainingsbeispiel, in Zeichen	0	2.560
Einträge in einem Trainingsdatensatz	1.000	500 000
Größe des Eingabebilds	0	5 MB
Höhe des Eingabebilds in Pixel	128	4096
Breite des Eingabebilds in Pixel	128	4096
Gesamtzahl der Pixel für das Eingabebild	0	12.528.912
Seitenverhältnis des Eingabebilds	1:4	4:1

Description	Minimum (Feinabstimmung)	Maximum (Feinabstimmung)
Eingabe-Token	0	16,000
Ausgabe-Token	0	16,000
Zeichenkontingent pro Stichprobe im Datensatz	0	Token-Kontingent x 6 (geschätzt)
Summe der Eingabe- und Ausgabetoken	0	16,000
Summe der Trainings- und Validierungsdatensätze	100	10 000 (einstellbar über Service Quotas)

Zu den unterstützten Bildformaten für Meta Llama-3.2 11B Vision Instruct und Meta Llama-3.2 90B Vision Instruct gehören: gif, jpeg, png und webp. Um die image-to-token Umrechnung bei der Feinabstimmung dieser Modelle abzuschätzen, können Sie diese Formel als Näherung verwenden:. Tokens = min(2, max(Height // 560, 1)) * min(2, max(Width // 560, 1)) * 1601 Bilder werden basierend auf ihrer Größe in ungefähr 1 601 bis 6 404 Token konvertiert.

Description	Minimum (Feinabstimmung)	Maximum (Feinabstimmung)
Summe der Eingabe- und Ausgabetoken	0	16 000 (10 000 für Meta Llama 3.2 90B)
Summe der Trainings- und Validierungsdatensätze	100	10 000 (einstellbar über Service Quotas)
Eingabebildgröße (für Modelle von Meta Llama 11B and 90B instruct)	0	10 MB
Höhe des Eingabebilds in Pixel für Modelle von Meta Llama 11B and 90B instruct	10	8192
Breite des Eingabebilds in Pixel für Modelle von Meta Llama 11B and 90B90B instruct	10	8192

Description	Minimum (Feinabstimmung)	Maximum (Feinabstimmung)
Summe der Eingabe- und Ausgabetoken	0	16000
Summe der Trainings- und Validierungsdatensätze	100	10 000 (einstellbar über Service Quotas)

Description	Maximum (Feinabstimmung)
Eingabe-Token	4.096
Ausgabe-Token	2 048
Zeichenkontingent pro Stichprobe im Datensatz	Token-Kontingent x 6 (geschätzt)
Einträge in einem Trainingsdatensatz	10.000
Datensätze in einem Validierungsdatensatz	1.000

Description	Maximum (Feinabstimmung)
Mindestanzahl von Datensätzen	32
Maximale Anzahl von Trainingsdatensätzen	10.000
Maximale Anzahl von Validierungsdatensätzen	1.000
Maximale Gesamtzahl der Datensätze	10 000 (einstellbar über Service Quotas)
Maximale Anzahl von Token	32 000
Maximale Größe des Trainingsdatensatzes	10 GB
Maximale Größe des Validierungsdatensatzes	1 GB

Anmerkung

Weitere Informationen zur Feinabstimmung von Amazon Nova-Modellen finden Sie unter Feinabstimmung von Amazon Nova-Modellen.

Bei der Feinabstimmung von text-to-text Modellen handelt es sich bei jedem JSON-Objekt um ein Beispiel mit strukturierten Feldern, die das Modell dazu anleiten sollen, die gewünschte Textausgabe auf der Grundlage einer bereitgestellten Textaufforderung zu generieren. Das Datenformat variiert je nach Anwendungsfall und wird grob in konversationsbezogene und nicht konversationsbezogene Anwendungsfälle unterteilt.

Non-conversational tasks

Nicht konversationsbezogene Aufgaben umfassen die Generierung einer einzigen Ausgabe für eine bestimmte Eingabe. Jedes Datensatzbeispiel enthält ein prompt-Feld mit dem Eingabetext und ein completion-Feld mit der erwarteten Ausgabe. Dieses Format unterstützt eine Reihe von Aufgaben wie die Beantwortung von Fragen, die Zusammenfassung, Übersetzung, Textvervollständigung und Informationsextraktion.

Beispielformat


{"prompt": "What is the capital of France?", "completion": "The capital of France is Paris."}
{"prompt": "Summarize the article about climate change.", "completion": "Climate change refers to the long-term alteration of temperature and typical weather patterns in a place."}

Verwenden Sie ungefähr 6 Zeichen pro Token, um die Anzahl der Token für die Planung der Datensatzgröße zu schätzen.

Converse API format (Single turn and Multi turn)

Wenn Sie die Converse-API verwenden möchten, rufen Sie die Operationen Converse oder ConverseStream auf, um Nachrichten an ein Modell zu senden. Für den Aufruf von Converse ist die Berechtigung für die Operation bedrock:InvokeModel erforderlich. Für den Aufruf von ConverseStream ist die Berechtigung für die Operation bedrock:InvokeModelWithResponseStream erforderlich. Weitere Informationen finden Sie unter Verwenden der Converse-API. Weitere Informationen über Converse-API-Operationen finden Sie im Abschnitt Führen einer Konversation mit den Converse-API-Operationen.

Beispielformat


{
    "schemaVersion": "bedrock-conversation-2024",
    "system": [
        {
            "text": "You are a digital assistant with a friendly personality"
        }
    ],
    "messages": [
        {
            "role": "user",
            "content": [
                {
                    "text": "What is the capital of Mars?"
                }
            ]
        },
        {
            "role": "assistant",
            "content": [
                {
                    "text": "Mars does not have a capital. Perhaps it will one day."
                }
            ]
        }
    ]
}

Anthropic Claude 3 Haiku: Single-turn conversations

Single-Turn-Konversationsaufgaben umfassen isolierte Austausche, bei denen das Modell eine Antwort generiert, die ausschließlich auf den aktuellen Benutzereingaben basiert, ohne den vorherigen Kontext zu berücksichtigen. Jedes Datensatzbeispiel verwendet ein Nachrichten-Array mit abwechselnden Rollen von user und assistant.

Format


{"system": "<system message>","messages":[{"role": "user", "content": "<user query>"},{"role": "assistant", "content": "<expected generated text>"}]}

Beispiel


{"system": "You are an helpful assistant.","messages":[{"role": "user", "content": "what is AWS"},{"role": "assistant", "content": "it's Amazon Web Services."}]}

Anthropic Claude 3 Haiku: Multi-turn conversations

Multi-Turn-Konversationsaufgaben beinhalten ausgedehnte Dialoge, bei denen das Modell Antworten generieren und gleichzeitig den Kontext früherer Austausche beibehalten muss. Dieses Format erfasst die Dynamik interaktiver Aufgaben wie Kundensupport oder komplexe Diskussionen.

Format


{"system": "<system message>","messages":[{"role": "user", "content": "<user query 1>"},{"role": "assistant", "content": "<expected generated text 1>"}, {"role": "user", "content": "<user query 2>"},{"role": "assistant", "content": "<expected generated text 2>"}]}

Beispiel


{"system": "system message","messages":[{"role": "user", "content": "Hello there."},{"role": "assistant", "content": "Hi, how can I help you?"},{"role": "user", "content": "what are LLMs?"},{"role": "assistant", "content": "LLM means large language model."},]}

Anmerkung

Weitere Informationen zur Feinabstimmung von Amazon Nova-Modellen finden Sie unter Feinabstimmung von Amazon Nova-Modellen.

Für die Feinabstimmung von image-text-to-text Modellen ist jedes JSON-Objekt ein Beispiel, das eine als messages Array strukturierte Konversation enthält, die aus abwechselnden JSON-Objekten besteht, die die Eingaben des Benutzers und die Antworten des Assistenten darstellen. Benutzereingaben können sowohl Text als auch Bilder enthalten, während die Antworten des Assistenten immer in Textform erfolgen. Diese Struktur unterstützt sowohl Single-Turn- als auch Multi-Turn-Konversationsabläufe, sodass das Modell verschiedene Aufgaben effektiv bewältigen kann. Zu den unterstützten Bildformaten für Meta Llama-3.2 11B Vision Instruct und Meta Llama-3.2 90B Vision Instruct gehören: gif, jpeg, png und webp.

Damit Amazon Bedrock auf die Bilddateien zugreifen kann, fügen Sie eine IAM-Richtlinie hinzu, die der Servicerolle für die Amazon-Bedrock-Modellanpassung in Berechtigungen zum Zugriff auf Trainings- und Validierungsdateien und zum Schreiben von Ausgabedateien in S3 ähnelt, die Sie eingerichtet haben oder die automatisch für Sie in der Konsole eingerichtet wurde. Die Amazon-S3-Pfade, die Sie im Trainingsdatensatz angeben, müssen sich in Ordnern befinden, die Sie in der Richtlinie angeben.

Single-Turn-Konversationen

Jedes JSON-Objekt für Single-Turn-Konversationen besteht aus einer Benutzernachricht und einer Assistentennachricht. Die Benutzernachricht umfasst ein auf Benutzer festgelegtes Rollenfeld und ein Inhaltsfeld, das ein Array mit einem type-Feld (Text oder Bild) zur Beschreibung der Eingabemodalität enthält. Bei Texteingaben enthält das content-Feld ein text-Feld mit der Frage oder dem Prompt des Benutzers. Bei Bildeingaben spezifiziert das content-Feld das Bild format (z. B. JPEG oder PNG) und seinen uri mit einer source, die auf den Amazon-S3-Speicherort des Bilds zeigt. Der uri steht für den eindeutigen Pfad zu dem in einem Amazon-S3-Bucket gespeicherten Bild, in der Regel im Format s3://<bucket-name>/<path-to-file>. Die Assistentennachricht umfasst ein role-Feld, das auf Assistent eingestellt ist, ein content-Feld, das ein Array mit einem type-Feld enthält, das auf Text festgelegt ist, und ein text-Feld mit der vom Assistenten generierten Antwort.

Beispielformat


{
    "schemaVersion": "bedrock-conversation-2024",
    "system": [{
        "text": "You are a smart assistant that answers questions respectfully"
    }],
    "messages": [{
            "role": "user",
            "content": [{
                    "text": "What does the text in this image say?"
                },
                {
                    "image": {
                        "format": "png",
                        "source": {
                            "s3Location": {
                                "uri": "s3://your-bucket/your-path/your-image.png",
                                "bucketOwner": "your-aws-account-id"
                            }
                        }
                    }
                }
            ]
        },
        {
            "role": "assistant",
            "content": [{
                "text": "The text in the attached image says 'LOL'."
            }]
        }
    ]
}

Multi-turn-Konversationen

Jedes JSON-Objekt für Multi-Turn-Konversationen enthält eine Abfolge von Nachrichten mit wechselnden Rollen, wobei Benutzernachrichten und Assistentennachrichten einheitlich strukturiert sind, um einen kohärenten Austausch zu ermöglichen. Benutzernachrichten enthalten ein role-Feld, das auf Benutzer festgelegt ist, und ein content-Feld, das die Eingabemodalität beschreibt. Bei Texteingaben enthält das content-Feld ein text-Feld mit der Frage oder dem Follow-up des Benutzers. Bei Bildeingaben spezifiziert es hingegen das Bild-format und seine source mit einem uri, der auf den Amazon-S3-Speicherort des Bildes verweist. Das uri dient als eindeutige Kennung im Format s3://<bucket-name>/< path-to-file > und ermöglicht dem Modell den Zugriff auf das Bild aus dem angegebenen Amazon S3 S3-Bucket. Assistentennachrichten umfassen ein role-Feld, das auf Assistent eingestellt ist, ein content-Feld, das ein Array mit einem type-Feld enthält, das auf Text festgelegt ist, und ein text-Feld mit der vom Assistenten generierten Antwort. Konversationen können sich über mehrere Austausche erstrecken, sodass der Assistent den Kontext beibehalten und durchgehend kohärente Antworten geben kann.

Beispielformat


{
    "schemaVersion": "bedrock-conversation-2024",
    "system": [{
        "text": "You are a smart assistant that answers questions respectfully"
    }],
    "messages": [{
            "role": "user",
            "content": [{
                    "text": "What does the text in this image say?"
                },
                {
                    "image": {
                        "format": "png",
                        "source": {
                            "s3Location": {
                                "uri": "s3://your-bucket/your-path/your-image.png",
                                "bucketOwner": "your-aws-account-id"
                            }
                        }
                    }
                }
            ]
        },
        {
            "role": "assistant",
            "content": [{
                "text": "The text in the attached image says 'LOL'."
            }]
        },
        {
            "role": "user",
            "content": [{
                    "text": "What does the text in this image say?"
                }
            ]
        },
        {
            "role": "assistant",
            "content": [{
                "text": "The text in the attached image says 'LOL'."
            }]
        }
        
    ]
}

Anmerkung

Modelle von Amazon Nova haben unterschiedliche Anforderungen an die Feinabstimmung. Folgen Sie zur Feinabstimmung dieser Modelle den Anweisungen unter Feinabstimmung von Modellen in Amazon Nova.

Bereiten Sie für text-to-image image-to-embedding unsere Modelle einen Trainingsdatensatz vor. Validierungsdatensätze werden nicht unterstützt. Jedes JSON-Objekt ist ein Beispiel mit einer image-ref, dem Amazon-S3-URI für ein Bild und einer caption, die ein Prompt für das Bild sein könnte.

Die Bilder müssen im JPEG- oder PNG-Format vorliegen.


{"image-ref": "s3://bucket/path/to/image001.png", "caption": "<prompt text>"}
{"image-ref": "s3://bucket/path/to/image002.png", "caption": "<prompt text>"}{"image-ref": "s3://bucket/path/to/image003.png", "caption": "<prompt text>"}

Im Folgenden wird ein Beispielelement gezeigt:


{"image-ref": "s3://amzn-s3-demo-bucket/my-pets/cat.png", "caption": "an orange cat with white spots"}

Warnung JavaScript ist in Ihrem Browser nicht verfügbar oder deaktiviert.

Zur Nutzung der AWS-Dokumentation muss JavaScript aktiviert sein. Weitere Informationen finden auf den Hilfe-Seiten Ihres Browsers.

Dokumentkonventionen

Beaufsichtigte Feinabstimmung

Feinabstimmung von Modellen Amazon Nova