Lunghezza di incorporamento Ottimizzazione Preparazione di set di dati Iperparametri

Amazon Titan Multimodal Embeddings G1 modello

I modelli di fondazione Amazon Titan vengono pre-addestrati su set di dati di grandi dimensioni, diventando così potenti modelli generici. Utilizzali così come sono o personalizzali eseguendone il fine-tuning con i tuoi dati per un’attività particolare senza annotare grandi volumi di dati.

Esistono tre tipi di modelli Titan: embedding, generazione di testo e generazione di immagini.

Esistono due modelli Titan Multimodal Embeddings G1. Il modello Embedding multimodali Titan G1 traduce gli input di testo (parole, frasi o eventualmente grandi unità di testo) in rappresentazioni numeriche (note come embedding) che contengono il significato semantico del testo. Sebbene questo modello non generi testo, è utile per applicazioni come la personalizzazione e la ricerca. Confrontando gli embedding, il modello produrrà risposte più pertinenti e contestuali rispetto alla corrispondenza delle parole. Il modello Multimodal Embeddings G1 viene utilizzato per casi d’uso come la ricerca di immagini per testo, per immagine per somiglianza o per una combinazione di testo e immagini. Traduce l’immagine o il testo di input in un embedding che contiene il significato semantico sia dell’immagine che del testo nello stesso spazio semantico.

I modelli Titan Text sono LLM generativi per attività quali riepilogo, generazione di testo, classificazione, QnA aperte ed estrazione di informazioni. Sono inoltre addestrati su numerosi linguaggi di programmazione diversi, nonché su formati RTF, tra cui tabelle, file JSON e .csv.

Modello Embedding multimodali Amazon Titan G1

ID modello: amazon.titan-embed-image-v1
Numero massimo di token di testo in ingresso: 256
Lingue: inglese
Dimensione massima dell'immagine di input: 25 MB
Risoluzione massima dell'immagine in ingresso: 2048 x 2048 pixel
Dimensione del vettore di output: 1.024 (impostazione predefinita), 384, 256
Tipi di inferenza: On-Demand Provisioned Throughput
Casi d’uso supportati: ricerca di immagini, raccomandazioni e personalizzazione.

Titan Text Embeddings V1 accetta come input una stringa non vuota con un massimo di 8.192 token e restituisce un embedding dimensionale di 1.024. Il rapporto caratteri/token in inglese è in media 4,7 char/token. Nota sui casi d’uso di RAG: sebbene Titan Text Embeddings V2 sia in grado di gestire fino a 8.192 token, si raccomanda di segmentare i documenti in segmenti logici (come paragrafi o sezioni).

Lunghezza di incorporamento

L'impostazione di una lunghezza di incorporamento personalizzata è facoltativa. La lunghezza di incorporamento predefinita è di 1.024 caratteri, il che funzionerà per la maggior parte dei casi d'uso. La lunghezza di incorporamento può essere impostata su 256, 384 o 1.024 caratteri. Dimensioni di incorporamento maggiori creano risposte più dettagliate, ma aumentano anche il tempo di calcolo. Lunghezze di incorporamento più brevi sono meno dettagliate ma migliorano i tempi di risposta.



    # EmbeddingConfig Shape
    {
     'outputEmbeddingLength': int // Optional, One of: [256, 384, 1024], default: 1024
    }
    
    # Updated API Payload Example
    body = json.dumps({
     "inputText": "hi",
     "inputImage": image_string,
     "embeddingConfig": { 
     "outputEmbeddingLength": 256
     }
    })

Ottimizzazione

L’input per il fine-tuning di Amazon Titan Multimodal Embeddings G1 è costituito dalle coppie immagine-testo.
Formati di immagine: PNG, JPEG
Limite di dimensione dell'immagine in ingresso: 25 MB
Dimensioni dell'immagine: min: 256 px, max: 4.096 px
Numero massimo di token nella didascalia: 128
Intervallo dimensioni del set di dati di addestramento: 1.000–500.000
Intervallo dimensioni del set di dati di convalida: 8–50.000
Lunghezza della didascalia in caratteri: 0–2.560
Numero massimo di pixel totali per immagine: 2048*2048*3
Proporzioni (w/h): min: 0,25, max: 4

Preparazione di set di dati

Per il set di dati di addestramento, crea un file .jsonl con più righe JSON. Ogni riga JSON contiene attributi image-ref e caption simili al formato Sagemaker Augmented Manifest. È richiesto un set di dati di convalida. Auto-captioning non è attualmente supportato.



   {"image-ref": "s3://bucket-1/folder1/0001.png", "caption": "some text"}
   {"image-ref": "s3://bucket-1/folder2/0002.png", "caption": "some text"}
   {"image-ref": "s3://bucket-1/folder1/0003.png", "caption": "some text"}

Per i set di dati di addestramento e di convalida, crea file .jsonl con più righe JSON.

I percorsi Amazon S3 devono trovarsi nelle stesse cartelle in cui hai fornito le autorizzazioni ad Amazon Bedrock per accedere ai dati allegando una policy IAM al tuo ruolo di servizio Amazon Bedrock. Per ulteriori informazioni sulla concessione di policy IAM per i dati di addestramento, consulta Concessione dell'accesso ai dati di addestramento ai processi personalizzati.

Iperparametri

Questi valori possono essere adattati per gli iperparametri del modello Multimodal Embeddings. I valori predefiniti saranno adatti alla maggior parte dei casi d'uso.

Tasso di min/max apprendimento - (tasso di apprendimento): predefinito: 5,00E-05, min: 5,00E-08, max: 1
Dimensione del batch – dimensione effettiva del batch – impostazione predefinita: 576, min: 256, max: 9.216
Numero massimo di epoche – impostazione predefinita: "auto", min: 1, max: 100

Avvertimento JavaScript è disabilitato o non è disponibile nel tuo browser.

Per usare la documentazione AWS, JavaScript deve essere abilitato. Consulta le pagine della guida del browser per le istruzioni.

Convenzioni dei documenti

Incorporamenti di testo

Generatore di immagini G1