Modellanforderungen für Trainings- und Validierungsdatensätze - Amazon Bedrock

Modellanforderungen für Trainings- und Validierungsdatensätze

In den folgenden Abschnitten werden die Anforderungen an Trainings- und Validierungsdatensätze für ein Modell aufgeführt. Informationen zu Datensatzeinschränkungen für Modelle von Amazon Nova finden Sie unter Feinabstimmung von Modellen in Amazon Nova.

Beschreibung Maximum (Feinabstimmung)
Summe der Ein- und Ausgabetoken, wenn die Batchgröße 1 ist 4.096
Summe der Ein- und Ausgabetoken, wenn die Batchgröße 2, 3 oder 4 ist N/A
Zeichenkontingent pro Stichprobe im Datensatz Token-Kontingent x 6 (geschätzt)
Dateigröße des Trainingsdatensatzes 1 GB
Dateigröße des Validierungsdatensatzes 100 MB
Beschreibung Maximum (kontinuierliches Vortraining) Maximum (Feinabstimmung)
Summe der Ein- und Ausgabetoken, wenn die Batchgröße 1 ist 4.096 4.096
Summe der Ein- und Ausgabetoken, wenn die Batchgröße 2, 3 oder 4 ist 2 048 2 048
Zeichenkontingent pro Stichprobe im Datensatz Token-Kontingent x 6 (geschätzt) Token-Kontingent x 6 (geschätzt)
Dateigröße des Trainingsdatensatzes 10 GB 1 GB
Dateigröße des Validierungsdatensatzes 100 MB 100 MB
Beschreibung Maximum (kontinuierliches Vortraining) Maximum (Feinabstimmung)
Summe der Ein- und Ausgabetoken, wenn die Batchgröße 1 oder 2 ist 4.096 4.096
Summe der Ein- und Ausgabetoken, wenn die Batchgröße 3, 4, 5 oder 6 ist 2 048 2 048
Zeichenkontingent pro Stichprobe im Datensatz Token-Kontingent x 6 (geschätzt) Token-Kontingent x 6 (geschätzt)
Dateigröße des Trainingsdatensatzes 10 GB 1 GB
Dateigröße des Validierungsdatensatzes 100 MB 100 MB
Beschreibung Minimum (Feinabstimmung) Maximum (Feinabstimmung)
Länge der Text-Prompts im Trainingsbeispiel, in Zeichen 3 1,024
Einträge in einem Trainingsdatensatz 5 10 000
Größe des Eingabebilds 0 50 MB
Höhe des Eingabebilds in Pixel 512 4.096
Breite des Eingabebilds in Pixel 512 4.096
Gesamtzahl der Pixel für das Eingabebild 0 12 582 912
Seitenverhältnis des Eingabebilds 1:4 4:1
Beschreibung Minimum (Feinabstimmung) Maximum (Feinabstimmung)
Länge der Text-Prompts im Trainingsbeispiel, in Zeichen 0 2 560
Einträge in einem Trainingsdatensatz 1 000 500 000
Größe des Eingabebilds 0 5 MB
Höhe des Eingabebilds in Pixel 128 4096
Breite des Eingabebilds in Pixel 128 4096
Gesamtzahl der Pixel für das Eingabebild 0 12 528 912
Seitenverhältnis des Eingabebilds 1:4 4:1
Beschreibung Minimum (Feinabstimmung) Maximum (Feinabstimmung)
Eingabe-Token 0 16,000
Ausgabe-Token 0 16,000
Zeichenkontingent pro Stichprobe im Datensatz 0 Token-Kontingent x 6 (geschätzt)
Summe der Eingabe- und Ausgabetoken 0 16,000
Summe der Trainings- und Validierungsdatensätze 100 10 000 (einstellbar über Service Quotas)

Zu den unterstützten Bildformaten für Meta Llama-3.2 11B Vision Instruct und Meta Llama-3.2 90B Vision Instruct gehören: gif, jpeg, png und webp. Wenn Sie die Konvertierung von Bild zu Token bei der Feinabstimmung dieser Modelle abschätzen möchten, können Sie diese Formel als Näherung verwenden: Tokens = min(2, max(Height // 560, 1)) * min(2, max(Width // 560, 1)) * 1601 Bilder werden basierend auf ihrer Größe in ungefähr 1 601 bis 6 404 Token konvertiert.

Beschreibung Minimum (Feinabstimmung) Maximum (Feinabstimmung)
Summe der Eingabe- und Ausgabetoken 0 16 000 (10 000 für Meta Llama 3.2 90B)
Summe der Trainings- und Validierungsdatensätze 100 10 000 (einstellbar über Service Quotas)
Eingabebildgröße (für Modelle von Meta Llama 11B and 90B instruct) 0 10 MB
Höhe des Eingabebilds in Pixel für Modelle von Meta Llama 11B and 90B instruct 10 8192
Breite des Eingabebilds in Pixel für Modelle von Meta Llama 11B and 90B90B instruct 10 8192
Beschreibung Minimum (Feinabstimmung) Maximum (Feinabstimmung)
Summe der Eingabe- und Ausgabetoken 0 16000
Summe der Trainings- und Validierungsdatensätze 100 10 000 (einstellbar über Service Quotas)
Beschreibung Maximum (Feinabstimmung)
Eingabe-Token 4.096
Ausgabe-Token 2 048
Zeichenkontingent pro Stichprobe im Datensatz Token-Kontingent x 6 (geschätzt)
Einträge in einem Trainingsdatensatz 10 000
Datensätze in einem Validierungsdatensatz 1 000
Beschreibung Maximum (Feinabstimmung)
Mindestanzahl von Datensätzen 32
Maximale Anzahl von Trainingsdatensätzen 10 000
Maximale Anzahl von Validierungsdatensätzen 1 000
Maximale Gesamtzahl der Datensätze 10 000 (einstellbar über Service Quotas)
Maximale Anzahl von Token 32 000
Maximale Größe des Trainingsdatensatzes 10 GB
Maximale Größe des Validierungsdatensatzes 1 GB