Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.
Modell von Amazon Titan Multimodal Embeddings G1
Amazon-Titan-Basismodelle werden anhand großer Datensätze vortrainiert, wodurch sie zu leistungsstarken Allzweckmodellen werden. Verwenden Sie sie unverändert oder passen Sie sie an, indem Sie eine Feinabstimmung der Modelle anhand Ihrer eigenen Daten für eine bestimmte Aufgabe vornehmen, ohne große Datenmengen mit Anmerkungen zu versehen.
Es gibt drei Typen von Titan-Modellen: Einbettungen, Textgenerierung und Bildgenerierung.
Es gibt zwei Modelle von Titan Multimodal Embeddings G1. Das Modell „Titan Multimodal Embeddings G1“ übersetzt Texteingaben (Wörter, Wortgruppen oder möglicherweise große Texteinheiten) in numerische Repräsentationen (sogenannte Einbettungen), die die semantische Bedeutung des Textes enthalten. Dieses Modell generiert zwar keinen Text, ist aber für Anwendungen wie Personalisierung und Suche hilfreich. Durch den Vergleich von Einbettungen erzeigt das Modell relevantere und kontextuellere Antworten als beim Wortabgleich. Das Modell „Titan Multimodal Embeddings G1“ wird für Anwendungsfälle wie die Suche nach Bildern anhand von Text, Bildern auf Ähnlichkeit oder durch eine Kombination aus Text und Bildern verwendet. Es übersetzt das eingegebene Bild oder den eingegebenen Text in eine Einbettung, die die semantische Bedeutung von Bild und Text in derselben semantischen Umgebung enthält.
Titan-Text-Modelle sind generative LLMs für Aufgaben wie Zusammenfassung, Textgenerierung, Klassifizierung, QnA mit offenem Ende und Informationsextraktion. Sie sind auch für viele verschiedene Programmiersprachen sowie in Rich-Text-Formaten wie Tabellen, JSON- und CSV-Dateien und anderen Formaten trainiert.
Das Modell „Amazon Titan Multimodal Embeddings G1“
Model ID –
amazon.titan-embed-image-v1Max. Anzahl der eingegebenen Text-Token – 256
Sprachen: Englisch
Max. Größe des Eingabebilds: 25 MB
Größe des Ausgabevektors: 1.024 (Standard), 384, 256
Inferenztypen – Auf Abruf bereitgestellter Durchsatz
Unterstützte Anwendungsfälle – Suche, Empfehlung und Personalisierung.
Titan Text Embeddings V1 verwendet als Eingabe eine nicht leere Zeichenfolge mit bis zu 8 192 Token und gibt eine 1 024-dimensionale Einbettung zurück. Das Verhältnis von Zeichen zu Token beträgt im Englischen durchschnittlich 4,7 Zeichen/Token. Hinweis zu RAG-Anwendungsfällen: Titan Text Embeddings V2 kann bis zu 8 192 Token aufnehmen. Wir empfehlen jedoch, Dokumente in logische Segmente (wie Absätze oder Abschnitte) zu unterteilen.
Einbettungslänge
Das Festlegen einer benutzerdefinierten Einbettungslänge ist optional. Die Standardlänge für die Einbettung beträgt 1024 Zeichen, was für die meisten Anwendungsfälle geeignet ist. Die Einbettungslänge kann auf 256, 384 oder 1024 Zeichen festgelegt werden. Je größer die Einbettung desto detaillierter die Antwort, allerdings erhöht sich dadurch auch die Rechenzeit. Kürzere Einbettungslängen sind weniger detailliert, verbessern aber die Reaktionszeit.
# EmbeddingConfig Shape { 'outputEmbeddingLength':int// Optional, One of: [256, 384, 1024], default: 1024 } # Updated API Payload Example body = json.dumps({ "inputText": "hi", "inputImage": image_string, "embeddingConfig": { "outputEmbeddingLength": 256 } })
Feinabstimmung
Die Feinabstimmung von Amazon Titan Multimodal Embeddings G1 erfolgt über Bild-Text-Paare.
Bildformate: PNG, JPEG
Max. Größe des Eingabebilds: 25 MB
Bildabmessungen: min: 256 px, max: 4.096 px
Maximale Anzahl von Token in der Bildunterschrift: 128
Größenbereich für Trainingsdatensätze: 1 000–500 000
Größenbereich des Validierungsdatensatzes: 8–50 000
Anzahl der Zeichen in Untertiteln: 0–2.560
Maximale Gesamtpixelanzahl pro Bild: 2048*2048*3
Seitenverhältnis (B/H): min.: 0,25, max.: 4
Vorbereiten von Datensätzen
Erstellen Sie für den Trainingsdatensatz eine .jsonl-Datei mit mehreren JSON-Zeilen. Jede JSON-Zeile enthält image-ref- und caption-Attribute, die dem Erweiterten Manifestformat von Sagemaker ähneln. Ein Validierungsdatensatz ist erforderlich. Automatische Untertitelung wird derzeit nicht unterstützt.
{"image-ref": "s3://bucket-1/folder1/0001.png", "caption": "some text"} {"image-ref": "s3://bucket-1/folder2/0002.png", "caption": "some text"} {"image-ref": "s3://bucket-1/folder1/0003.png", "caption": "some text"}
Erstellen Sie sowohl für den Trainingsdatensatz als auch für den Validierungsdatensatz .jsonl-Dateien mit mehreren JSON-Zeilen.
Die Amazon-S3-Pfade müssen sich in denselben Ordnern befinden, in denen Sie Amazon Bedrock Berechtigungen für den Zugriff auf die Daten erteilt haben, indem Sie Ihrer Amazon-Bedrock-Servicerolle eine IAM-Richtlinie anhängen. Weitere Informationen zur Gewährung von IAM-Richtlinien für Trainingsdaten finden Sie unter Gewähren des Zugriffs von benutzerdefinierten Aufträgen auf Ihre Trainingsdaten.
Hyperparameter
Diese Werte können für die Hyperparameter des Modells „Multimodale Einbettungen“ angepasst werden. Die Standardwerte eignen sich für die meisten Anwendungsfälle gut.
-
Lernrate – (min/max. Lernrate) – Standard: 5.00E-05, min: 5.00E-08, max: 1
-
Batchgröße – Effektive Batchgröße – Standard: 576, min: 256, max.: 9.216
-
Max. Epochen – Standard: „auto“, min: 1, max: 100