Vorbereitung von Daten für die Feinabstimmung von Verständnismodellen
Im Folgenden finden Sie Richtlinien und Anforderungen für die Vorbereitung von Daten für die Feinabstimmung von Verständnismodellen:
-
Die Mindestdatengröße für die Feinabstimmung hängt von der Aufgabe ab (d. h. komplex oder einfach), jedoch empfehlen wir Ihnen, mindestens 100 Beispiele für jede Aufgabe zu verwenden, die das Modell lernen soll.
-
Wir empfehlen, Ihren optimierten Prompt sowohl während des Trainings als auch während der Inferenz in einer Zero-Shot-Umgebung zu verwenden, um optimale Ergebnisse zu erzielen.
-
Trainings- und Validierungsdatensätze müssen JSONL-Dateien sein, wobei jede Zeile ein JSON-Objekt darstellt, welches einem Datensatz entspricht. Diese Dateinamen dürfen nur aus alphanumerischen Zeichen, Unterstrichen, Bindestrichen, Schrägstrichen und Punkten bestehen.
-
Bild- und Video-Einschränkungen
-
Der Datensatz darf keine unterschiedlichen Medienmodalitäten enthalten. Das heißt, der Datensatz kann entweder Text mit Bildern oder Text mit Videos sein.
-
Ein Beispiel (einzelner Datensatz in Nachrichten) kann mehrere Bilder enthalten
-
Ein Beispiel (einzelner Datensatz in Nachrichten) kann nur 1 Video enthalten
-
-
schemaVersionkann ein beliebiger Zeichenfolgenwert sein -
Die (Optional)
system-Runde kann ein vom Kunden bereitgestellter benutzerdefinierter System-Prompt sein. -
Unterstützte Rollen sind
userundassistant. -
Die erste Runde in
messagessollte immer mit"role": "user"beginnen. Die letzte Runde ist die Antwort des Bots, die mit „Rolle“: „Assistent“ gekennzeichnet ist. -
image.source.s3Location.uriundvideo.source.s3Location.urimüssen für Amazon Bedrock zugänglich sein. -
Ihre Amazon-Bedrock-Servicerolle muss in der Lage sein, auf die Bilddateien in Amazon S3 zuzugreifen. Weitere Informationen über die Gewährung von Zugriffsrechten finden Sie unter Eine Servicerolle für die Modellanpassung erstellen
-
Die Bilder oder Videos müssen sich im selben Amazon-S3-Bucket wie Ihr Datensatz befinden. Wenn sich Ihr Datensatz beispielsweise in
s3://amzn-s3-demo-bucket/train/train.jsonlbefindet, müssen Ihre Bilder oder Videos ins3://amzn-s3-demo-bucketgespeichert sein -
Die Begriffe
User:,Bot:,Assistant:,System:,<image>,<video>und[EOS]sind reservierte Schlüsselwörter. Wenn ein Benutzer-Prompt oder System-Prompt mit einem dieser Schlüsselwörter beginnt oder diese Schlüsselwörter an einer beliebigen Stelle im Prompt enthält, schlägt Ihr Trainingsjob aufgrund von Datenproblemen fehl. Sollten Sie diese Schlüsselwörter für Ihren Anwendungsfall verwenden müssen, ersetzen Sie diese bitte durch ein anderes Schlüsselwort mit ähnlicher Bedeutung, damit Ihr Training fortgesetzt werden kann.
Beispieldatensatzformate
Die folgenden Beispieldatensatzformate bieten Ihnen eine Orientierungshilfe.
Das folgende Beispiel dient ausschließlich der benutzerdefinierten Feinabstimmung von Text.
// train.jsonl { "schemaVersion": "bedrock-conversation-2024", "system": [ { "text": "You are a digital assistant with a friendly personality" } ], "messages": [ { "role": "user", "content": [ { "text": "What is the capital of Mars?" } ] }, { "role": "assistant", "content": [ { "text": "Mars does not have a capital. Perhaps it will one day." } ] } ] }
Das folgende Beispiel dient der benutzerdefinierten Feinabstimmung von Text und einem einzelnen Bild.
// train.jsonl{ "schemaVersion": "bedrock-conversation-2024", "system": [{ "text": "You are a smart assistant that answers questions respectfully" }], "messages": [{ "role": "user", "content": [{ "text": "What does the text in this image say?" }, { "image": { "format": "png", "source": { "s3Location": { "uri": "s3://your-bucket/your-path/your-image.png", "bucketOwner": "your-aws-account-id" } } } } ] }, { "role": "assistant", "content": [{ "text": "The text in the attached image says 'LOL'." }] } ] }
Das folgende Beispiel dient der benutzerdefinierten Feinabstimmung von Text und Video.
{ "schemaVersion": "bedrock-conversation-2024", "system": [{ "text": "You are a helpful assistant designed to answer questions crisply and to the point" }], "messages": [{ "role": "user", "content": [{ "text": "How many white items are visible in this video?" }, { "video": { "format": "mp4", "source": { "s3Location": { "uri": "s3://your-bucket/your-path/your-video.mp4", "bucketOwner": "your-aws-account-id" } } } } ] }, { "role": "assistant", "content": [{ "text": "There are at least eight visible items that are white" }] } ] }
Einschränkungen für Datensätze
Amazon Nova wendet die folgenden Einschränkungen auf Modellanpassungen für Verständnismodelle an.
Modell |
Minimale Anzahl von Beispielen |
Maximale Anzahl von Beispielen |
Kontextlänge |
|---|---|---|---|
Amazon Nova Micro |
8 |
20 000 |
32 000 |
Amazon Nova Lite |
8 |
20 000 |
32 000 |
Amazon Nova Pro |
8 |
20 000 |
32 000 |
Maximale Anzahl an Bildern |
10/Beispiel |
Maximale Größe von Bilddateien |
10 MB |
Maximale Anzahl von Videos |
1/Beispiel |
Maximale Videolänge/-dauer |
90 Sekunden |
Maximale Größe von Videodateien |
50 MB |
Unterstützte Medienformate
-
Bild –
png,jpeg,gif,webp -
Video –
mov,mkv,mp4,webm