Modellanforderungen für Trainings- und Validierungsdatensätze
In den folgenden Abschnitten werden die Anforderungen an Trainings- und Validierungsdatensätze für ein Modell aufgeführt. Informationen zu Datensatzeinschränkungen für Modelle von Amazon Nova finden Sie unter Feinabstimmung von Modellen in Amazon Nova.
| Beschreibung | Maximum (Feinabstimmung) |
|---|---|
| Summe der Ein- und Ausgabetoken, wenn die Batchgröße 1 ist | 4.096 |
| Summe der Ein- und Ausgabetoken, wenn die Batchgröße 2, 3 oder 4 ist | N/A |
| Zeichenkontingent pro Stichprobe im Datensatz | Token-Kontingent x 6 (geschätzt) |
| Dateigröße des Trainingsdatensatzes | 1 GB |
| Dateigröße des Validierungsdatensatzes | 100 MB |
| Beschreibung | Maximum (kontinuierliches Vortraining) | Maximum (Feinabstimmung) |
|---|---|---|
| Summe der Ein- und Ausgabetoken, wenn die Batchgröße 1 ist | 4.096 | 4.096 |
| Summe der Ein- und Ausgabetoken, wenn die Batchgröße 2, 3 oder 4 ist | 2 048 | 2 048 |
| Zeichenkontingent pro Stichprobe im Datensatz | Token-Kontingent x 6 (geschätzt) | Token-Kontingent x 6 (geschätzt) |
| Dateigröße des Trainingsdatensatzes | 10 GB | 1 GB |
| Dateigröße des Validierungsdatensatzes | 100 MB | 100 MB |
| Beschreibung | Maximum (kontinuierliches Vortraining) | Maximum (Feinabstimmung) |
|---|---|---|
| Summe der Ein- und Ausgabetoken, wenn die Batchgröße 1 oder 2 ist | 4.096 | 4.096 |
| Summe der Ein- und Ausgabetoken, wenn die Batchgröße 3, 4, 5 oder 6 ist | 2 048 | 2 048 |
| Zeichenkontingent pro Stichprobe im Datensatz | Token-Kontingent x 6 (geschätzt) | Token-Kontingent x 6 (geschätzt) |
| Dateigröße des Trainingsdatensatzes | 10 GB | 1 GB |
| Dateigröße des Validierungsdatensatzes | 100 MB | 100 MB |
| Beschreibung | Minimum (Feinabstimmung) | Maximum (Feinabstimmung) |
|---|---|---|
| Länge der Text-Prompts im Trainingsbeispiel, in Zeichen | 3 | 1,024 |
| Einträge in einem Trainingsdatensatz | 5 | 10 000 |
| Größe des Eingabebilds | 0 | 50 MB |
| Höhe des Eingabebilds in Pixel | 512 | 4.096 |
| Breite des Eingabebilds in Pixel | 512 | 4.096 |
| Gesamtzahl der Pixel für das Eingabebild | 0 | 12 582 912 |
| Seitenverhältnis des Eingabebilds | 1:4 | 4:1 |
| Beschreibung | Minimum (Feinabstimmung) | Maximum (Feinabstimmung) |
|---|---|---|
| Länge der Text-Prompts im Trainingsbeispiel, in Zeichen | 0 | 2 560 |
| Einträge in einem Trainingsdatensatz | 1 000 | 500 000 |
| Größe des Eingabebilds | 0 | 5 MB |
| Höhe des Eingabebilds in Pixel | 128 | 4096 |
| Breite des Eingabebilds in Pixel | 128 | 4096 |
| Gesamtzahl der Pixel für das Eingabebild | 0 | 12 528 912 |
| Seitenverhältnis des Eingabebilds | 1:4 | 4:1 |
| Beschreibung | Minimum (Feinabstimmung) | Maximum (Feinabstimmung) |
|---|---|---|
| Eingabe-Token | 0 | 16,000 |
| Ausgabe-Token | 0 | 16,000 |
| Zeichenkontingent pro Stichprobe im Datensatz | 0 | Token-Kontingent x 6 (geschätzt) |
| Summe der Eingabe- und Ausgabetoken | 0 | 16,000 |
| Summe der Trainings- und Validierungsdatensätze | 100 | 10 000 (einstellbar über Service Quotas) |
Zu den unterstützten Bildformaten für Meta Llama-3.2 11B Vision Instruct und Meta
Llama-3.2 90B Vision Instruct gehören: gif, jpeg, png und webp. Wenn Sie die Konvertierung von Bild zu Token bei der Feinabstimmung dieser Modelle abschätzen möchten, können Sie diese Formel als Näherung verwenden: Tokens = min(2,
max(Height // 560, 1)) * min(2, max(Width // 560, 1)) * 1601 Bilder werden basierend auf ihrer Größe in ungefähr 1 601 bis 6 404 Token konvertiert.
| Beschreibung | Minimum (Feinabstimmung) | Maximum (Feinabstimmung) |
|---|---|---|
| Summe der Eingabe- und Ausgabetoken | 0 | 16 000 (10 000 für Meta Llama 3.2 90B) |
| Summe der Trainings- und Validierungsdatensätze | 100 | 10 000 (einstellbar über Service Quotas) |
| Eingabebildgröße (für Modelle von Meta Llama 11B and 90B instruct) | 0 | 10 MB |
| Höhe des Eingabebilds in Pixel für Modelle von Meta Llama 11B and 90B instruct | 10 | 8192 |
| Breite des Eingabebilds in Pixel für Modelle von Meta Llama 11B and 90B90B instruct | 10 | 8192 |
| Beschreibung | Minimum (Feinabstimmung) | Maximum (Feinabstimmung) |
|---|---|---|
| Summe der Eingabe- und Ausgabetoken | 0 | 16000 |
| Summe der Trainings- und Validierungsdatensätze | 100 | 10 000 (einstellbar über Service Quotas) |
| Beschreibung | Maximum (Feinabstimmung) |
|---|---|
| Eingabe-Token | 4.096 |
| Ausgabe-Token | 2 048 |
| Zeichenkontingent pro Stichprobe im Datensatz | Token-Kontingent x 6 (geschätzt) |
| Einträge in einem Trainingsdatensatz | 10 000 |
| Datensätze in einem Validierungsdatensatz | 1 000 |
| Beschreibung | Maximum (Feinabstimmung) |
|---|---|
| Mindestanzahl von Datensätzen | 32 |
| Maximale Anzahl von Trainingsdatensätzen | 10 000 |
| Maximale Anzahl von Validierungsdatensätzen | 1 000 |
| Maximale Gesamtzahl der Datensätze | 10 000 (einstellbar über Service Quotas) |
| Maximale Anzahl von Token | 32 000 |
| Maximale Größe des Trainingsdatensatzes | 10 GB |
| Maximale Größe des Validierungsdatensatzes | 1 GB |