Vorbereiten Ihrer Trainingsdatensätze für die Feinabstimmung und das fortgesetzte Vortraining - Amazon Bedrock

Vorbereiten Ihrer Trainingsdatensätze für die Feinabstimmung und das fortgesetzte Vortraining

Zum Vorbereiten von Trainings- und Validierungsdatensätzen für Ihr benutzerdefiniertes Modell erstellen Sie .jsonl-Dateien, bei denen jede Zeile ein JSON-Objekt ist, das einem Datensatz entspricht. Bevor Sie mit einer Modellanpassung beginnen können, müssen Sie mindestens einen Trainingsdatensatz vorbereiten. Die von Ihnen erstellten Dateien müssen dem Format für die Anpassung und das ausgewählte Modell entsprechen. Die darin enthaltenen Datensätze müssen die Größenanforderungen je nach Modell erfüllen.

Weitere Informationen zu den Modellanforderungen finden Sie unter Modellanforderungen für Trainings- und Validierungsdatensätze. Die Standardkontingente, die für Trainings- und Validierungsdatensätze gelten, welche für die Anpassung verschiedener Modelle verwendet werden, finden Sie unter Summe der Trainings- und Validierungsdatensätze unter Endpunkte und Kontingente von Amazon Bedrock in der Allgemeine AWS-Referenz.

Ob ein Validierungsdatensatz unterstützt wird und welches Format Ihr Trainings- und Validierungsdatensatz hat, hängt von den folgenden Faktoren ab.

  • Die Art des Anpassungsauftrags zur Feinabstimmung (Feinabstimmung oder fortgesetztes Vortraining)

  • Die Eingabe- und Ausgabemodalitäten der Daten

Informationen zur Feinabstimmung der Modelle von Amazon Nova finden Sie unter Feinabstimmung der Modelle von Amazon Nova.

Unterstützte Modalitäten zur Feinabstimmung und zum fortgesetzten Vortraining

In den folgenden Abschnitten werden die verschiedenen Funktionen zur Feinabstimmung und Vortrainings beschrieben, die von den einzelnen Modellen unterstützt werden, geordnet nach ihren Eingabe- und Ausgabemodalitäten. Informationen zur Feinabstimmung der Modelle von Amazon Nova finden Sie unter Feinabstimmung der Modelle von Amazon Nova.

Text-zu-Text-Modelle

Text-zu-Text-Modelle können für verschiedene textbasierte Aufgaben optimiert werden, sowohl für Konversationsanwendungen als auch für Anwendungen ohne Konversation. Informationen zur Vorbereitung von Daten für die Feinabstimmung von Text-zu-Text-Modellen finden Sie unter Vorbereiten von Daten für die Feinabstimmung von Text-zu-Text-Modellen.

Die folgenden Modelle ohne Konversationen sind für Aufgaben wie Zusammenfassung, Übersetzung und Beantwortung von Fragen optimiert:

  • Amazon Titan Text G1 - Express

  • Amazon Titan Text G1 - Lite

  • Amazon Titan Text Premier

  • Cohere Command

  • Cohere Command Light

  • Meta Llama 3.1 8B Instruct

  • Meta Llama 3.1 70B Instruct

Die folgenden Konversationsmodelle sind für Single-Turn- und Multi-Turn-Interaktionen konzipiert. Wenn ein Modell die Converse-API verwendet, muss Ihr Datensatz zur Feinabstimmung dem Nachrichtenformat der Converse-API entsprechen und System-, Benutzer- und Assistentennachrichten enthalten. Beispiele finden Sie unter Vorbereiten von Daten für die Feinabstimmung von Text-zu-Text-Modellen. Weitere Informationen über Converse-API-Operationen finden Sie im Abschnitt Führen einer Konversation mit den Converse-API-Operationen.

  • Anthropic Claude 3 Haiku

  • Meta Llama 3.2 1B Instruct (Converse-API-Format)

  • Meta Llama 3.2 3B Instruct (Converse-API-Format)

  • Meta Llama 3.2 11B Instruct Vision (Converse-API-Format)

  • Meta Llama 3.2 90B Instruct Vision (Converse-API-Format)

  • Meta Llama 3.3 70B Vision Instruct (Converse-API-Format)

Text-Bild-zu-Text- und Text-zu-Bild-Modelle

Die folgenden Modelle unterstützen die Feinabstimmung für die Bildgenerierung und die Text-Bild-Verarbeitung. Diese Modelle verarbeiten oder generieren Bilder auf der Grundlage von Texteingaben oder generieren Text, der sowohl auf Text- als auch auf Bildeingaben basiert. Informationen zur Vorbereitung von Daten für die Feinabstimmung von Text-Bild-zu-Text- und Text-zu-Bild-Modellen finden Sie unter Vorbereiten von Daten für die Feinabstimmung von Bild- und Textverarbeitungsmodellen.

  • Amazon Titan Image Generator G1 V1

  • Meta Llama 3.2 11B Instruct Vision

  • Meta Llama 3.2 90B Instruct Vision

  • Meta Llama 3,3 70B Vision Instruct

Bild-zu-Einbettungen

Die folgenden Modelle unterstützen die Feinabstimmung für Aufgaben wie Klassifizierung und Abruf. Diese Modelle erzeugen numerische Repräsentationen (Einbettungen) aus Bildeingaben. Informationen zur Vorbereitung von Daten für die Feinabstimmung von Bild-zu-Einbettungen-Modellen finden Sie unter Vorbereiten von Daten für die Feinabstimmung der Bildgenerierung und das Einbetten von Modellen.

  • Amazon Titan Multimodal Embeddings G1

  • Amazon Titan Image Generator G1 V1

Fortgesetztes Vortraining: Text-zu-Text

Die folgenden Modelle können für das fortgesetzte Vortraining verwendet werden. Diese Modelle unterstützen das fortgesetzte Vortraining mit domainspezifischen Daten, um ihr Basiswissen zu erweitern. Informationen zur Vorbereitung von Daten für das fortgesetzte Vortraining für Text-zu-Text-Modelle finden Sie unter Vorbereiten von Datensätzen für fortgesetztes Vortraining.

  • Amazon Titan Text G1 - Express

  • Amazon Titan Text G1 - Lite