Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.
Modello Amazon Titan Multimodal Embeddings G1
I modelli di fondazione Amazon Titan vengono pre-addestrati su set di dati di grandi dimensioni, diventando così potenti modelli generici. Utilizzali così come sono o personalizzali eseguendone il fine-tuning con i tuoi dati per un’attività particolare senza annotare grandi volumi di dati.
Esistono tre tipi di modelli Titan: embedding, generazione di testo e generazione di immagini.
Esistono due modelli Titan Multimodal Embeddings G1. Il modello Embedding multimodali Titan G1 traduce gli input di testo (parole, frasi o eventualmente grandi unità di testo) in rappresentazioni numeriche (note come embedding) che contengono il significato semantico del testo. Sebbene questo modello non generi testo, è utile per applicazioni come la personalizzazione e la ricerca. Confrontando gli embedding, il modello produrrà risposte più pertinenti e contestuali rispetto alla corrispondenza delle parole. Il modello Multimodal Embeddings G1 viene utilizzato per casi d’uso come la ricerca di immagini per testo, per immagine per somiglianza o per una combinazione di testo e immagini. Traduce l’immagine o il testo di input in un embedding che contiene il significato semantico sia dell’immagine che del testo nello stesso spazio semantico.
I modelli Titan Text sono LLM generativi per attività quali riepilogo, generazione di testo, classificazione, QnA aperte ed estrazione di informazioni. Sono inoltre addestrati su numerosi linguaggi di programmazione diversi, nonché su formati RTF, tra cui tabelle, file JSON e .csv.
Modello Embedding multimodali Amazon Titan G1
ID modello –
amazon.titan-embed-image-v1Numero massimo di token di testo in input – 256
Lingue: inglese
Dimensione massima dell'immagine di input: 25 MB
Dimensione del vettore di output: 1.024 (impostazione predefinita), 384, 256
Tipi di inferenza: on demand, velocità di trasmissione effettiva assegnata
Casi d’uso supportati: ricerca di immagini, raccomandazioni e personalizzazione.
Titan Text Embeddings V1 accetta come input una stringa non vuota con un massimo di 8.192 token e restituisce un embedding dimensionale di 1.024. Il rapporto tra caratteri e token in inglese è in media di 4,7 caratteri per token. Nota sui casi d’uso di RAG: sebbene Titan Text Embeddings V2 sia in grado di gestire fino a 8.192 token, si raccomanda di segmentare i documenti in segmenti logici (come paragrafi o sezioni).
Lunghezza di incorporamento
L'impostazione di una lunghezza di incorporamento personalizzata è facoltativa. La lunghezza di incorporamento predefinita è di 1.024 caratteri, il che funzionerà per la maggior parte dei casi d'uso. La lunghezza di incorporamento può essere impostata su 256, 384 o 1.024 caratteri. Dimensioni di incorporamento maggiori creano risposte più dettagliate, ma aumentano anche il tempo di calcolo. Lunghezze di incorporamento più brevi sono meno dettagliate ma migliorano i tempi di risposta.
# EmbeddingConfig Shape { 'outputEmbeddingLength':int// Optional, One of: [256, 384, 1024], default: 1024 } # Updated API Payload Example body = json.dumps({ "inputText": "hi", "inputImage": image_string, "embeddingConfig": { "outputEmbeddingLength": 256 } })
Ottimizzazione
L’input per il fine-tuning di Amazon Titan Multimodal Embeddings G1 è costituito dalle coppie immagine-testo.
Formati di immagine: PNG, JPEG
Dimensione massima dell'immagine di input: 25 MB
Dimensioni dell'immagine: min: 256 px, max: 4.096 px
Numero massimo di token nella didascalia: 128
Intervallo dimensioni del set di dati di addestramento: 1.000–500.000
Intervallo dimensioni del set di dati di convalida: 8–50.000
Lunghezza della didascalia in caratteri: 0–2.560
Numero massimo di pixel totali per immagine: 2048*2048*3
Proporzioni (l/h): min: 0,25, max: 4
Preparazione di set di dati
Per il set di dati di addestramento, crea un file .jsonl con più righe JSON. Ogni riga JSON contiene attributi image-ref e caption simili al formato Sagemaker Augmented Manifest. È richiesto un set di dati di convalida. I sottotitoli automatici non sono attualmente supportati.
{"image-ref": "s3://bucket-1/folder1/0001.png", "caption": "some text"} {"image-ref": "s3://bucket-1/folder2/0002.png", "caption": "some text"} {"image-ref": "s3://bucket-1/folder1/0003.png", "caption": "some text"}
Per i set di dati di addestramento e di convalida, crea file .jsonl con più righe JSON.
I percorsi Amazon S3 devono trovarsi nelle stesse cartelle in cui hai fornito le autorizzazioni ad Amazon Bedrock per accedere ai dati allegando una policy IAM al tuo ruolo di servizio Amazon Bedrock. Per ulteriori informazioni sulla concessione di policy IAM per i dati di addestramento, consulta Concessione dell'accesso ai dati di addestramento ai processi personalizzati.
Iperparametri
Questi valori possono essere adattati per gli iperparametri del modello Multimodal Embeddings. I valori predefiniti saranno adatti alla maggior parte dei casi d'uso.
-
Velocità di apprendimento – (frequenza di apprendimento min/max) – impostazione predefinita: 5,00E-05, min: 5,00E-08, max: 1
-
Dimensione del batch – dimensione effettiva del batch – impostazione predefinita: 576, min: 256, max: 9.216
-
Numero massimo di epoche – impostazione predefinita: "auto", min: 1, max: 100