Beispieldatensatzformate Einschränkungen für Datensätze

Vorbereitung von Daten für die Feinabstimmung von Verständnismodellen

Im Folgenden finden Sie Richtlinien und Anforderungen für die Vorbereitung von Daten für die Feinabstimmung von Verständnismodellen:

Die Mindestdatengröße für die Feinabstimmung hängt von der Aufgabe ab (d. h. komplex oder einfach), jedoch empfehlen wir Ihnen, mindestens 100 Beispiele für jede Aufgabe zu verwenden, die das Modell lernen soll.
Wir empfehlen, Ihren optimierten Prompt sowohl während des Trainings als auch während der Inferenz in einer Zero-Shot-Umgebung zu verwenden, um optimale Ergebnisse zu erzielen.
Trainings- und Validierungsdatensätze müssen JSONL-Dateien sein, wobei jede Zeile ein JSON-Objekt darstellt, welches einem Datensatz entspricht. Diese Dateinamen dürfen nur aus alphanumerischen Zeichen, Unterstrichen, Bindestrichen, Schrägstrichen und Punkten bestehen.
Bild- und Video-Einschränkungen
1. Der Datensatz darf keine unterschiedlichen Medienmodalitäten enthalten. Das heißt, der Datensatz kann entweder Text mit Bildern oder Text mit Videos sein.
2. Ein Beispiel (einzelner Datensatz in Nachrichten) kann mehrere Bilder enthalten
3. Ein Beispiel (einzelner Datensatz in Nachrichten) kann nur 1 Video enthalten
schemaVersion kann ein beliebiger Zeichenfolgenwert sein
Die (Optional) system-Runde kann ein vom Kunden bereitgestellter benutzerdefinierter System-Prompt sein.
Unterstützte Rollen sind user und assistant.
Die erste Runde in messages sollte immer mit "role": "user" beginnen. Die letzte Runde ist die Antwort des Bots, die mit „Rolle“: „Assistent“ gekennzeichnet ist.
image.source.s3Location.uri und video.source.s3Location.uri müssen für Amazon Bedrock zugänglich sein.
Ihre Amazon-Bedrock-Servicerolle muss in der Lage sein, auf die Bilddateien in Amazon S3 zuzugreifen. Weitere Informationen über die Gewährung von Zugriffsrechten finden Sie unter Eine Servicerolle für die Modellanpassung erstellen
Die Bilder oder Videos müssen sich im selben Amazon-S3-Bucket wie Ihr Datensatz befinden. Wenn sich Ihr Datensatz beispielsweise in s3://amzn-s3-demo-bucket/train/train.jsonl befindet, müssen Ihre Bilder oder Videos in s3://amzn-s3-demo-bucket gespeichert sein
Die Begriffe User:, Bot:, Assistant:, System:, <image>, <video> und [EOS] sind reservierte Schlüsselwörter. Wenn ein Benutzer-Prompt oder System-Prompt mit einem dieser Schlüsselwörter beginnt oder diese Schlüsselwörter an einer beliebigen Stelle im Prompt enthält, schlägt Ihr Trainingsjob aufgrund von Datenproblemen fehl. Sollten Sie diese Schlüsselwörter für Ihren Anwendungsfall verwenden müssen, ersetzen Sie diese bitte durch ein anderes Schlüsselwort mit ähnlicher Bedeutung, damit Ihr Training fortgesetzt werden kann.

Beispieldatensatzformate

Die folgenden Beispieldatensatzformate bieten Ihnen eine Orientierungshilfe.

Das folgende Beispiel dient ausschließlich der benutzerdefinierten Feinabstimmung von Text.


// train.jsonl
{
  "schemaVersion": "bedrock-conversation-2024",
  "system": [
    {
      "text": "You are a digital assistant with a friendly personality"
    }
  ],
  "messages": [
    {
      "role": "user",
      "content": [
        {
          "text": "What is the capital of Mars?"
        }
      ]
    },
    {
      "role": "assistant",
      "content": [
        {
          "text": "Mars does not have a capital. Perhaps it will one day."
        }
      ]
    }
  ]
}

Das folgende Beispiel dient der benutzerdefinierten Feinabstimmung von Text und einem einzelnen Bild.


// train.jsonl{
    "schemaVersion": "bedrock-conversation-2024",
    "system": [{
        "text": "You are a smart assistant that answers questions respectfully"
    }],
    "messages": [{
            "role": "user",
            "content": [{
                    "text": "What does the text in this image say?"
                },
                {
                    "image": {
                        "format": "png",
                        "source": {
                            "s3Location": {
                                "uri": "s3://your-bucket/your-path/your-image.png",
                                "bucketOwner": "your-aws-account-id"
                            }
                        }
                    }
                }
            ]
        },
        {
            "role": "assistant",
            "content": [{
                "text": "The text in the attached image says 'LOL'."
            }]
        }
    ]
}

Das folgende Beispiel dient der benutzerdefinierten Feinabstimmung von Text und Video.


{
    "schemaVersion": "bedrock-conversation-2024",
    "system": [{
        "text": "You are a helpful assistant designed to answer questions crisply and to the point"
    }],
    "messages": [{
            "role": "user",
            "content": [{
                    "text": "How many white items are visible in this video?"
                },
                {
                    "video": {
                        "format": "mp4",
                        "source": {
                            "s3Location": {
                                "uri": "s3://your-bucket/your-path/your-video.mp4",
                                "bucketOwner": "your-aws-account-id"
                            }
                        }
                    }
                }
            ]
        },
        {
            "role": "assistant",
            "content": [{
                "text": "There are at least eight visible items that are white"
            }]
        }
    ]
}

Einschränkungen für Datensätze

Amazon Nova wendet die folgenden Einschränkungen auf Modellanpassungen für Verständnismodelle an.

Modell	Minimale Anzahl von Beispielen	Maximale Anzahl von Beispielen	Kontextlänge
Amazon Nova Micro	8	20 000	32 000
Amazon Nova Lite	8	20 000	32 000
Amazon Nova Pro	8	20 000	32 000

Bild- und Video-Einschränkungen
Maximale Anzahl an Bildern	10/Beispiel
Maximale Größe von Bilddateien	10 MB
Maximale Anzahl von Videos	1/Beispiel
Maximale Videolänge/-dauer	90 Sekunden
Maximale Größe von Videodateien	50 MB

Unterstützte Medienformate

Bild – png,jpeg,gif, webp
Video – mov, mkv, mp4, webm

Warnung JavaScript ist in Ihrem Browser nicht verfügbar oder deaktiviert.

Zur Nutzung der AWS-Dokumentation muss JavaScript aktiviert sein. Weitere Informationen finden auf den Hilfe-Seiten Ihres Browsers.

Dokumentkonventionen

Verschlüsselung von Aufträgen und Artefakten

Vorbereitung von Daten für die Feinabstimmung von Modellen zur Generierung kreativer Inhalte