Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.
Bereiten Sie Daten für die Feinabstimmung Ihrer Modelle vor
Zum Vorbereiten von Trainings- und Validierungsdatensätzen für Ihr benutzerdefiniertes Modell erstellen Sie .jsonl-Dateien, bei denen jede Zeile ein JSON-Objekt ist, das einem Datensatz entspricht. Bevor Sie mit einer Modellanpassung beginnen können, müssen Sie mindestens einen Trainingsdatensatz vorbereiten. Die von Ihnen erstellten Dateien müssen dem Format für die Anpassung und das ausgewählte Modell entsprechen. Die darin enthaltenen Datensätze müssen die Größenanforderungen je nach Modell erfüllen.
Weitere Informationen zu den Modellanforderungen finden Sie unter Modellanforderungen für Trainings- und Validierungsdatensätze. Die Standardkontingente, die für Trainings- und Validierungsdatensätze gelten, welche für die Anpassung verschiedener Modelle verwendet werden, finden Sie unter Summe der Trainings- und Validierungsdatensätze unter Endpunkte und Kontingente von Amazon Bedrock in der Allgemeine AWS-Referenz.
Ob ein Validierungsdatensatz unterstützt wird und welches Format Ihr Trainings- und Validierungsdatensatz hat, hängt von den folgenden Faktoren ab.
-
Die Art des Anpassungsauftrags zur Feinabstimmung.
-
Die Eingabe- und Ausgabemodalitäten der Daten
Informationen zur Feinabstimmung der Modelle von Amazon Nova finden Sie unter Feinabstimmung der Modelle von Amazon Nova.
In den folgenden Abschnitten werden die verschiedenen Funktionen zur Feinabstimmung beschrieben, die von den einzelnen Modellen unterstützt werden, geordnet nach ihren Eingabe- und Ausgabemodalitäten. Weitere Informationen zur Feinabstimmung von Amazon Nova-Modellen finden Sie unter Feinabstimmung von Amazon Nova-Modellen.
Text-to-Text --Modelle
Text-to-Text Modelle können für verschiedene textbasierte Aufgaben optimiert werden, sowohl für Konversationsanwendungen als auch für Anwendungen, die nicht auf Konversation basieren. Hinweise zur Vorbereitung von Daten für die Feinabstimmung von Modellen finden Sie unter. Text-to-Text Bereiten Sie Daten für die Feinabstimmung von Modellen vor text-to-text
Die folgenden Modelle ohne Konversationen sind für Aufgaben wie Zusammenfassung, Übersetzung und Beantwortung von Fragen optimiert:
Amazon Titan Text G1 - Express
Amazon Titan Text G1 - Lite
Amazon Titan Text Premier
Cohere Command
Cohere Command Light
Meta Llama 3.1 8B Instruct
Meta Llama 3.1 70B Instruct
Die folgenden Konversationsmodelle sind für Single-Turn- und Multi-Turn-Interaktionen konzipiert. Wenn ein Modell die Converse-API verwendet, muss Ihr Datensatz zur Feinabstimmung dem Nachrichtenformat der Converse-API entsprechen und System-, Benutzer- und Assistentennachrichten enthalten. Beispiele finden Sie unter Bereiten Sie Daten für die Feinabstimmung von Modellen vor text-to-text. Weitere Informationen über Converse-API-Operationen finden Sie im Abschnitt Führen einer Konversation mit den Converse-API-Operationen.
Anthropic Claude 3 Haiku
Meta Llama 3.2 1B Instruct (Converse-API-Format)
Meta Llama 3.2 3B Instruct (Converse-API-Format)
Meta Llama 3.2 11B Instruct Vision (Converse-API-Format)
Meta Llama 3.2 90B Instruct Vision (Converse-API-Format)
Meta Llama 3.3 70B Vision Instruct (Converse-API-Format)
Text-Image-to-Text & Text-to-Image Modelle
Die folgenden Modelle unterstützen die Feinabstimmung für die Bildgenerierung und die Text-Bild-Verarbeitung. Diese Modelle verarbeiten oder generieren Bilder auf der Grundlage von Texteingaben oder generieren Text, der sowohl auf Text- als auch auf Bildeingaben basiert. Informationen zur Vorbereitung von Daten für die Feinabstimmung von Text-to-Image Modellen Text-Image-to-Text und Modellen finden Sie unterVorbereiten von Daten für die Feinabstimmung von Bild- und Textverarbeitungsmodellen.
Amazon Titan Image Generator G1 V1
Meta Llama 3.2 11B Instruct Vision
Meta Llama 3.2 90B Instruct Vision
Meta Llama 3,3 70B Vision Instruct
Bild-zu-Einbettungen
Die folgenden Modelle unterstützen die Feinabstimmung für Aufgaben wie Klassifizierung und Abruf. Diese Modelle erzeugen numerische Repräsentationen (Einbettungen) aus Bildeingaben. Informationen zur Vorbereitung von Daten für die Feinabstimmung von Image-to-Embeddings Modellen finden Sie unter. Vorbereiten von Daten für die Feinabstimmung der Bildgenerierung und das Einbetten von Modellen
Amazon Titan Multimodal Embeddings G1
Amazon Titan Image Generator G1 V1
In den folgenden Abschnitten werden die Anforderungen an Trainings- und Validierungsdatensätze für ein Modell aufgeführt. Informationen zu Datensatzeinschränkungen für Modelle von Amazon Nova finden Sie unter Feinabstimmung von Modellen in Amazon Nova.
| Description | Maximum (Feinabstimmung) |
|---|---|
| Summe der Ein- und Ausgabetoken, wenn die Batchgröße 1 ist | 4.096 |
| Summe der Ein- und Ausgabetoken, wenn die Batchgröße 2, 3 oder 4 ist | – |
| Zeichenkontingent pro Stichprobe im Datensatz | Token-Kontingent x 6 (geschätzt) |
| Dateigröße des Trainingsdatensatzes | 1 GB |
| Dateigröße des Validierungsdatensatzes | 100 MB |
| Description | Maximum (Feinabstimmung) |
|---|---|
| Summe der Ein- und Ausgabetoken, wenn die Batchgröße 1 ist | 4.096 |
| Summe der Ein- und Ausgabetoken, wenn die Batchgröße 2, 3 oder 4 ist | 2 048 |
| Zeichenkontingent pro Stichprobe im Datensatz | Token-Kontingent x 6 (geschätzt) |
| Dateigröße des Trainingsdatensatzes | 1 GB |
| Dateigröße des Validierungsdatensatzes | 100 MB |
| Description | Maximum (Feinabstimmung) |
|---|---|
| Summe der Ein- und Ausgabetoken, wenn die Batchgröße 1 oder 2 ist | 4.096 |
| Summe der Ein- und Ausgabetoken, wenn die Batchgröße 3, 4, 5 oder 6 ist | 2 048 |
| Zeichenkontingent pro Stichprobe im Datensatz | Token-Kontingent x 6 (geschätzt) |
| Dateigröße des Trainingsdatensatzes | 1 GB |
| Dateigröße des Validierungsdatensatzes | 100 MB |
| Description | Minimum (Feinabstimmung) | Maximum (Feinabstimmung) |
|---|---|---|
| Länge der Text-Prompts im Trainingsbeispiel, in Zeichen | 3 | 1,024 |
| Einträge in einem Trainingsdatensatz | 5 | 10.000 |
| Größe des Eingabebilds | 0 | 50 MB |
| Höhe des Eingabebilds in Pixel | 512 | 4.096 |
| Breite des Eingabebilds in Pixel | 512 | 4.096 |
| Gesamtzahl der Pixel für das Eingabebild | 0 | 12.582.912 |
| Seitenverhältnis des Eingabebilds | 1:4 | 4:1 |
| Description | Minimum (Feinabstimmung) | Maximum (Feinabstimmung) |
|---|---|---|
| Länge der Text-Prompts im Trainingsbeispiel, in Zeichen | 0 | 2.560 |
| Einträge in einem Trainingsdatensatz | 1.000 | 500 000 |
| Größe des Eingabebilds | 0 | 5 MB |
| Höhe des Eingabebilds in Pixel | 128 | 4096 |
| Breite des Eingabebilds in Pixel | 128 | 4096 |
| Gesamtzahl der Pixel für das Eingabebild | 0 | 12.528.912 |
| Seitenverhältnis des Eingabebilds | 1:4 | 4:1 |
| Description | Minimum (Feinabstimmung) | Maximum (Feinabstimmung) |
|---|---|---|
| Eingabe-Token | 0 | 16,000 |
| Ausgabe-Token | 0 | 16,000 |
| Zeichenkontingent pro Stichprobe im Datensatz | 0 | Token-Kontingent x 6 (geschätzt) |
| Summe der Eingabe- und Ausgabetoken | 0 | 16,000 |
| Summe der Trainings- und Validierungsdatensätze | 100 | 10 000 (einstellbar über Service Quotas) |
Zu den unterstützten Bildformaten für Meta Llama-3.2 11B Vision Instruct und Meta
Llama-3.2 90B Vision Instruct gehören: gif, jpeg, png und webp. Um die image-to-token Umrechnung bei der Feinabstimmung dieser Modelle abzuschätzen, können Sie diese Formel als Näherung verwenden:. Tokens = min(2,
max(Height // 560, 1)) * min(2, max(Width // 560, 1)) * 1601 Bilder werden basierend auf ihrer Größe in ungefähr 1 601 bis 6 404 Token konvertiert.
| Description | Minimum (Feinabstimmung) | Maximum (Feinabstimmung) |
|---|---|---|
| Summe der Eingabe- und Ausgabetoken | 0 | 16 000 (10 000 für Meta Llama 3.2 90B) |
| Summe der Trainings- und Validierungsdatensätze | 100 | 10 000 (einstellbar über Service Quotas) |
| Eingabebildgröße (für Modelle von Meta Llama 11B and 90B instruct) | 0 | 10 MB |
| Höhe des Eingabebilds in Pixel für Modelle von Meta Llama 11B and 90B instruct | 10 | 8192 |
| Breite des Eingabebilds in Pixel für Modelle von Meta Llama 11B and 90B90B instruct | 10 | 8192 |
| Description | Minimum (Feinabstimmung) | Maximum (Feinabstimmung) |
|---|---|---|
| Summe der Eingabe- und Ausgabetoken | 0 | 16000 |
| Summe der Trainings- und Validierungsdatensätze | 100 | 10 000 (einstellbar über Service Quotas) |
| Description | Maximum (Feinabstimmung) |
|---|---|
| Eingabe-Token | 4.096 |
| Ausgabe-Token | 2 048 |
| Zeichenkontingent pro Stichprobe im Datensatz | Token-Kontingent x 6 (geschätzt) |
| Einträge in einem Trainingsdatensatz | 10.000 |
| Datensätze in einem Validierungsdatensatz | 1.000 |
| Description | Maximum (Feinabstimmung) |
|---|---|
| Mindestanzahl von Datensätzen | 32 |
| Maximale Anzahl von Trainingsdatensätzen | 10.000 |
| Maximale Anzahl von Validierungsdatensätzen | 1.000 |
| Maximale Gesamtzahl der Datensätze | 10 000 (einstellbar über Service Quotas) |
| Maximale Anzahl von Token | 32 000 |
| Maximale Größe des Trainingsdatensatzes | 10 GB |
| Maximale Größe des Validierungsdatensatzes | 1 GB |
Anmerkung
Weitere Informationen zur Feinabstimmung von Amazon Nova-Modellen finden Sie unter Feinabstimmung von Amazon Nova-Modellen.
Bei der Feinabstimmung von text-to-text Modellen handelt es sich bei jedem JSON-Objekt um ein Beispiel mit strukturierten Feldern, die das Modell dazu anleiten sollen, die gewünschte Textausgabe auf der Grundlage einer bereitgestellten Textaufforderung zu generieren. Das Datenformat variiert je nach Anwendungsfall und wird grob in konversationsbezogene und nicht konversationsbezogene Anwendungsfälle unterteilt.
Anmerkung
Weitere Informationen zur Feinabstimmung von Amazon Nova-Modellen finden Sie unter Feinabstimmung von Amazon Nova-Modellen.
Für die Feinabstimmung von image-text-to-text Modellen ist jedes JSON-Objekt ein Beispiel, das eine als messages Array strukturierte Konversation enthält, die aus abwechselnden JSON-Objekten besteht, die die Eingaben des Benutzers und die Antworten des Assistenten darstellen. Benutzereingaben können sowohl Text als auch Bilder enthalten, während die Antworten des Assistenten immer in Textform erfolgen. Diese Struktur unterstützt sowohl Single-Turn- als auch Multi-Turn-Konversationsabläufe, sodass das Modell verschiedene Aufgaben effektiv bewältigen kann. Zu den unterstützten Bildformaten für Meta Llama-3.2 11B Vision Instruct und Meta Llama-3.2 90B Vision
Instruct gehören: gif, jpeg, png und webp.
Damit Amazon Bedrock auf die Bilddateien zugreifen kann, fügen Sie eine IAM-Richtlinie hinzu, die der Servicerolle für die Amazon-Bedrock-Modellanpassung in Berechtigungen zum Zugriff auf Trainings- und Validierungsdateien und zum Schreiben von Ausgabedateien in S3 ähnelt, die Sie eingerichtet haben oder die automatisch für Sie in der Konsole eingerichtet wurde. Die Amazon-S3-Pfade, die Sie im Trainingsdatensatz angeben, müssen sich in Ordnern befinden, die Sie in der Richtlinie angeben.
Single-Turn-Konversationen
Jedes JSON-Objekt für Single-Turn-Konversationen besteht aus einer Benutzernachricht und einer Assistentennachricht. Die Benutzernachricht umfasst ein auf Benutzer festgelegtes Rollenfeld und ein Inhaltsfeld, das ein Array mit einem type-Feld (Text oder Bild) zur Beschreibung der Eingabemodalität enthält. Bei Texteingaben enthält das content-Feld ein text-Feld mit der Frage oder dem Prompt des Benutzers. Bei Bildeingaben spezifiziert das content-Feld das Bild format (z. B. JPEG oder PNG) und seinen uri mit einer source, die auf den Amazon-S3-Speicherort des Bilds zeigt. Der uri steht für den eindeutigen Pfad zu dem in einem Amazon-S3-Bucket gespeicherten Bild, in der Regel im Format s3://<bucket-name>/<path-to-file>. Die Assistentennachricht umfasst ein role-Feld, das auf Assistent eingestellt ist, ein content-Feld, das ein Array mit einem type-Feld enthält, das auf Text festgelegt ist, und ein text-Feld mit der vom Assistenten generierten Antwort.
Beispielformat
{ "schemaVersion": "bedrock-conversation-2024", "system": [{ "text": "You are a smart assistant that answers questions respectfully" }], "messages": [{ "role": "user", "content": [{ "text": "What does the text in this image say?" }, { "image": { "format": "png", "source": { "s3Location": { "uri": "s3://your-bucket/your-path/your-image.png", "bucketOwner": "your-aws-account-id" } } } } ] }, { "role": "assistant", "content": [{ "text": "The text in the attached image says 'LOL'." }] } ] }
Multi-turn-Konversationen
Jedes JSON-Objekt für Multi-Turn-Konversationen enthält eine Abfolge von Nachrichten mit wechselnden Rollen, wobei Benutzernachrichten und Assistentennachrichten einheitlich strukturiert sind, um einen kohärenten Austausch zu ermöglichen. Benutzernachrichten enthalten ein role-Feld, das auf Benutzer festgelegt ist, und ein content-Feld, das die Eingabemodalität beschreibt. Bei Texteingaben enthält das content-Feld ein text-Feld mit der Frage oder dem Follow-up des Benutzers. Bei Bildeingaben spezifiziert es hingegen das Bild-format und seine source mit einem uri, der auf den Amazon-S3-Speicherort des Bildes verweist. Das uri dient als eindeutige Kennung im Format s3://<bucket-name>/< path-to-file > und ermöglicht dem Modell den Zugriff auf das Bild aus dem angegebenen Amazon S3 S3-Bucket. Assistentennachrichten umfassen ein role-Feld, das auf Assistent eingestellt ist, ein content-Feld, das ein Array mit einem type-Feld enthält, das auf Text festgelegt ist, und ein text-Feld mit der vom Assistenten generierten Antwort. Konversationen können sich über mehrere Austausche erstrecken, sodass der Assistent den Kontext beibehalten und durchgehend kohärente Antworten geben kann.
Beispielformat
{ "schemaVersion": "bedrock-conversation-2024", "system": [{ "text": "You are a smart assistant that answers questions respectfully" }], "messages": [{ "role": "user", "content": [{ "text": "What does the text in this image say?" }, { "image": { "format": "png", "source": { "s3Location": { "uri": "s3://your-bucket/your-path/your-image.png", "bucketOwner": "your-aws-account-id" } } } } ] }, { "role": "assistant", "content": [{ "text": "The text in the attached image says 'LOL'." }] }, { "role": "user", "content": [{ "text": "What does the text in this image say?" } ] }, { "role": "assistant", "content": [{ "text": "The text in the attached image says 'LOL'." }] } ] }
Anmerkung
Modelle von Amazon Nova haben unterschiedliche Anforderungen an die Feinabstimmung. Folgen Sie zur Feinabstimmung dieser Modelle den Anweisungen unter Feinabstimmung von Modellen in Amazon Nova.
Bereiten Sie für text-to-image image-to-embedding unsere Modelle einen Trainingsdatensatz vor. Validierungsdatensätze werden nicht unterstützt. Jedes JSON-Objekt ist ein Beispiel mit einer image-ref, dem Amazon-S3-URI für ein Bild und einer caption, die ein Prompt für das Bild sein könnte.
Die Bilder müssen im JPEG- oder PNG-Format vorliegen.
{"image-ref": "s3://bucket/path/to/image001.png", "caption": "<prompt text>"} {"image-ref": "s3://bucket/path/to/image002.png", "caption": "<prompt text>"}{"image-ref": "s3://bucket/path/to/image003.png", "caption": "<prompt text>"}
Im Folgenden wird ein Beispielelement gezeigt:
{"image-ref": "s3://amzn-s3-demo-bucket/my-pets/cat.png", "caption": "an orange cat with white spots"}
Damit Amazon Bedrock auf die Bilddateien zugreifen kann, fügen Sie eine IAM-Richtlinie hinzu, die der Servicerolle für die Amazon-Bedrock-Modellanpassung in Berechtigungen zum Zugriff auf Trainings- und Validierungsdateien und zum Schreiben von Ausgabedateien in S3 ähnelt, die Sie eingerichtet haben oder die automatisch für Sie in der Konsole eingerichtet wurde. Die Amazon-S3-Pfade, die Sie im Trainingsdatensatz angeben, müssen sich in Ordnern befinden, die Sie in der Richtlinie angeben.