View a markdown version of this page

Comprensione multimodale - Amazon Nova

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Comprensione multimodale

Amazon Nova 2 Lite è in grado di comprendere diverse modalità di input. Questo modello è dotato di funzionalità di visione che gli consentono di comprendere e analizzare immagini, documenti, video e comandi vocali per inferire e rispondere a domande in base al contenuto fornito.

Questa sezione descrive le linee guida per lavorare con immagini, documenti e video in Amazon Nova, comprese le strategie di preelaborazione utilizzate, esempi di codice e le limitazioni pertinenti da considerare.

Tipo di contenuto supportato per modalità

Le seguenti informazioni descrivono in dettaglio i formati di file supportati da ciascun tipo di file multimediale e il metodo di input accettato.

Tipo di file multimediale Formati di file supportati Metodo di input Limiti di dimensione Numero di oggetti
Immagine

PNG, JPEG, GIF, WebP

Nota: se utilizzate un file GIF o WebP animato, verrà utilizzato solo il primo fotogramma.

Incorporamento dei dati nella richiesta

Se utilizzi l'API Converse, codifica i dati come byte.

Se utilizzi l'API Invoke, codifica i dati come stringa Base64.

25 MB 5
URI Amazon S3 2 GB in totale 1000
Video MP4, MOV, MKV, WebM, FLV, MPEG, MPG, WMV, 3GP

Incorporamento dei dati nella richiesta

Se utilizzi l'API Converse, codifica i dati come byte.

Se utilizzi l'API Invoke, codifica i dati come stringa Base64.

25 MB 1
URI Amazon S3 1 GB 1

Comprensione delle immagini

La comprensione delle immagini si riferisce alla capacità di Amazon Nova di elaborare un'immagine e condurre una serie di attività di visione artificiale come:

  • Esecuzione del rilevamento di oggetti

  • Risposta a domande sulle immagini tramite Visual Question Answering (VQA)

  • Classificazione e riepilogo delle immagini

  • Esecuzione del rilevamento del bounding box

  • Riconoscimento ottico dei caratteri (OCR)

  • Conteggio degli oggetti

Le immagini possono essere incluse come prompt passato all'API come array di byte o tramite URI S3.

Informazioni tecniche chiave

Di seguito sono riportate le informazioni tecniche chiave da tenere presente quando si utilizza questa funzionalità.

Ridimensionamento e ridimensionamento delle immagini

Amazon Nova ridimensiona automaticamente le immagini per ottimizzare qualità e prestazioni:

  • Determina le proporzioni più vicine (ad esempio 1:1, 1:2, 2:3 e così via)

  • Ridimensiona in modo che un lato sia ≥ 896 px o corrisponda al lato più corto dell'immagine originale, a seconda di quale dei due sia più grande

  • Mantiene le proporzioni

  • Supporta una risoluzione fino a 8.000 × 8.000 px

Coordinate del riquadro di delimitazione:

  • Utile per attività come l'identificazione di elementi nelle schermate o la messa a terra delle immagini

  • Le coordinate possono essere ridimensionate in modo che corrispondano alle dimensioni originali dell'immagine in fase di post-elaborazione

  • Restituisce i riquadri di delimitazione su una scala [0, 1000].

Stima dei token di immagine

Amazon Nova converte ogni immagine in token per l'elaborazione. Il numero di token dipende dalla risoluzione e dalle proporzioni dell'immagine.

Di seguito sono riportati alcuni esempi di conteggio approssimativo dei token in base alla risoluzione dell'immagine:

Risoluzione dell'immagine Token stimati
900 x 450 515
900 x 900 ~1.035
1400 x 900 ~1.600
1800 x 900 ~2.060
1300 x 1300 ~2.155

Esempi di comprensione delle immagini

Per un esempio di come incorporare i dati delle immagini direttamente nella richiesta, fai riferimento all'esempio Multimodal input using embedded asset - Converse API (non-streaming) in. Libreria di codici

Per caricare file di immagini di grandi dimensioni o più file di immagine, in cui il carico utile complessivo è superiore a 25 MB, usa Amazon S3. Per un esempio completo di come utilizzare i riferimenti URI di Amazon S3 per l'input di immagini, consulta l'esempio Input multimodal using S3 URI - Converse API (non-streaming) in. Libreria di codici

Nota

Quando usi S3, assicurati che il servizio Amazon Bedrock disponga dell'autorizzazione per accedere al bucket e all'oggetto.

Limitazioni principali

L'elenco seguente descrive le attuali limitazioni dei modelli di comprensione delle immagini:

  • Comprensione multilingue delle immagini: i modelli hanno una comprensione limitata delle immagini e dei fotogrammi video multilingue e possono avere difficoltà o allucinazioni su compiti semplici.

  • Identificazione delle persone: i modelli Amazon Nova 2 non supportano la capacità di identificare o nominare persone in immagini, documenti o video.

  • Ragionamento spaziale: i modelli Amazon Nova 2 hanno capacità di ragionamento spaziale limitate. Possono avere difficoltà a svolgere attività che richiedono una localizzazione precisa o un’analisi del layout.

  • Testo piccolo nelle immagini e nei video: se il testo dell'immagine o del video è troppo piccolo, valuta la possibilità di aumentare la dimensione relativa del testo nell'immagine ritagliandolo nella sezione pertinente e preservando il contesto necessario.

Comprensione dei video

La comprensione video si riferisce alla capacità di Amazon Nova di elaborare input video ed eseguire una serie di attività di comprensione video come:

  • Analisi dei frame chiave e riepilogo dei contenuti video

  • Rispondere a domande sui segmenti video (Video Question Answering o Video QA)

  • Rilevamento e tracciamento di oggetti tra i frame

  • Identificazione di azioni, scene ed eventi

  • Esecuzione della segmentazione temporale per individuare momenti specifici

  • Generazione di didascalie o riassunti descrittivi di sequenze video

Informazioni tecniche chiave

Di seguito sono riportate le informazioni tecniche chiave da tenere presente quando si utilizza questa funzionalità.

Informazioni sulle dimensioni del video

Le funzionalità di comprensione video di Amazon Nova supportano il formato multiaspetto. Tutti i video vengono ridimensionati con distorsione (verso l'alto o verso il basso, in base alle proporzioni originali) a 672 × 672 dimensioni quadrate prima di essere inseriti nel modello.

Il modello utilizza una strategia di campionamento dinamico basata sulla lunghezza del video. Per i video di durata pari o inferiore a 16 minuti, Amazon Nova 2 Lite campiona 1 fotogramma al secondo (FPS). Per i video di durata superiore a 16 minuti, la frequenza di campionamento diminuisce per mantenere un campionamento costante di 960 fotogrammi, con la frequenza di campionamento dei fotogrammi che varia di conseguenza. Questo approccio è pensato per fornire una comprensione dei video più accurata a livello di scena per video più brevi rispetto a contenuti video più lunghi.

Ti consigliamo di mantenere la lunghezza del video inferiore a 1 ora per il basso movimento e meno di 16 minuti per i video ad alto movimento.

Non dovrebbero esserci differenze tra l’analisi di una versione 4K e una versione Full HD di un video. Analogamente, poiché la frequenza di campionamento è di 1 FPS, un video a 60 FPS dovrebbe funzionare come un video a 30 FPS. L'utilizzo di una risoluzione e di FPS superiori a quelli richiesti non è vantaggioso a causa del limite di 1 GB nella dimensione del video. In questo modo limiterai la lunghezza del video che rientra in quel limite di dimensione, quindi potresti voler pre-elaborare video più lunghi di 1 GB.

Token video

La lunghezza del video è il fattore principale che influisce sul numero di token generati. Per calcolare il costo approssimativo, moltiplica il numero stimato di token video per il prezzo per token del modello specifico utilizzato.

La tabella seguente fornisce alcune approssimazioni del campionamento dei frame e dell'utilizzo dei token per lunghezza video per Amazon Nova 2 Lite:

Lunghezza del video Cornici da campionare Frequenza di campionamento (fps) Token approssimativi
10 secondi 10 1 2.880
30 secondi 30 1 8.640
16 minuti 960 1 276.480
20 minuti 1200 1 345.600
30 minuti 1800 1 518.400
45 minuti 2700 1 777.600

Esempi di comprensione dei video

Per un esempio di come incorporare i dati video direttamente nella richiesta, fai riferimento all'esempio Multimodal input using embedded asset - Converse API (non streaming) in. Libreria di codici

Per un esempio di come utilizzare i riferimenti URI S3 nell'input video, fai riferimento all'esempio di input multimodal che utilizza S3 URI - Converse API (non streaming) in. Libreria di codici

Limitazioni principali

Di seguito sono riportate le principali limitazioni del modello, in cui la precisione e le prestazioni del modello potrebbero non essere garantite:

  • Nessun supporto audio: i modelli Amazon Nova sono attualmente addestrati per elaborare e comprendere i contenuti video esclusivamente in base ai frame visivi. Le tracce audio nei video non vengono elaborate o analizzate.

  • Comprensione multilingue delle immagini: i modelli Amazon Nova hanno una comprensione limitata delle immagini e dei frame video multilingue. Potrebbero avere difficoltà o avere allucinazioni durante compiti semplici.

  • Identificazione delle persone: i modelli Amazon Nova non supportano la capacità di identificare o nominare persone in immagini, documenti o video. I modelli non forniranno nomi o identità di persone nei contenuti visivi.

  • Testo piccolo nei video: se il testo dell'immagine o del video è troppo piccolo, valuta la possibilità di aumentare la dimensione relativa del testo nel video.

  • Ragionamento spaziale: i modelli Amazon Nova 2 hanno capacità di ragionamento spaziale limitate. Possono avere difficoltà a svolgere attività che richiedono una comprensione precisa delle posizioni, delle distanze o delle relazioni spaziali degli oggetti nei video.

  • Contenuti inappropriati: i modelli Amazon Nova non elaboreranno immagini inappropriate o esplicite che violano la Policy di utilizzo accettabile

  • Applicazioni sanitarie: a causa della natura sensibile di questi artefatti, anche se i modelli Amazon Nova potrebbero fornire analisi generali su alcune immagini o video sanitari, non ne consigliamo l'uso per interpretare immagini mediche sensibili come scansioni diagnostiche complesse. La risposta dei modelli Amazon Nova non deve mai essere considerata un sostituto della consulenza medica professionale.

Comprensione dei documenti

La funzionalità di comprensione dei documenti di Amazon Nova ti consente di includere interi documenti (file WordPDFs, fogli di calcolo e così via) come parte del prompt. Ciò consente al modello di analizzare, riepilogare, estrarre informazioni o rispondere a domande sul contenuto del documento.

Amazon Nova 2 Lite può interpretare sia il testo che gli elementi visivi (come grafici o tabelle) all'interno di questi documenti. Ciò consente casi d'uso come la risposta a domande, il riepilogo e l'analisi di report lunghi o documenti scansionati.

Le principali funzionalità di comprensione dei documenti includono una finestra contestuale molto ampia (1 milione di token) per documenti lunghi e la capacità di gestire più documenti in un'unica query.

Modalità e formati di documenti supportati

Amazon Nova distingue due tipi di input di documenti:

  • I documenti basati su testo, come i file TXT, CSV, HTML, Markdown o DOC, vengono elaborati principalmente per il loro contenuto testuale. Amazon Nova comprende ed estrae informazioni dal testo di questi documenti.

  • I documenti multimediali, come i file PDF o DOCX, possono contenere layout complessi, immagini, grafici o grafica incorporata. Per i documenti multimediali, Amazon Nova utilizza la comprensione basata sulla visione per interpretare i contenuti visivi, come grafici, tabelle, diagrammi o schermate, insieme al testo del documento.

I formati di file supportati includono tipi di documenti comuni come:

  • File di testo semplice e di testo strutturato: CSV, TXT

  • Fogli di calcolo: XLS, XLSX, HTML, Markdown

  • Formati di immagine standard (per immagini all'interno di documenti): PNG, JPG, GIF, WebP

  • Formati di documenti: DOC, DOCX, PDF

  • PDFs che contengono codifiche di immagini, come CMYK o SVG, non sono supportate.

Limiti di dimensione dei documenti e linee guida per l'utilizzo

Vincolo

Limite

Numero massimo di documenti

Fino a 5 documenti per richiesta (valido sia per il caricamento diretto che per Amazon S3)

Dimensioni del documento basato su testo

Ogni documento di testo deve essere uguale o inferiore a 4,5 MB

Dimensioni del documento basato su supporti

Per i file PDF e DOCX, non esiste un limite alla dimensione dei singoli file. Quando si utilizza il caricamento diretto, la dimensione combinata di tutti i documenti multimediali deve essere inferiore o uguale a 25 MB. Quando si utilizza Amazon S3, la dimensione combinata di tutti i documenti multimediali deve essere inferiore o uguale a 2 GB.

Contenuti PDF non supportati

PDFs che contengono profili di colore CMYK o immagini SVG non sono supportati.

Prezzi

Amazon Nova utilizza prezzi basati su token: paghi per i token di input (tutto ciò che invii, inclusi i documenti allegati) e i token di output (la risposta del modello).

Stima dei token per PDFs: Per la pianificazione, supponiamo una pagina PDF standard da 8,5x11 pollici con 2.560 token di input (questa stima copre sia gli elementi di testo che quelli visivi di una pagina tipica).

Esempi: utilizzo della comprensione dei documenti di Nova tramite API e S3

Per un esempio di come utilizzarlo tramite API, fai riferimento all'esempio Multimodal input using embedded asset - Converse API (non streaming) in. Libreria di codici

Per un esempio di utilizzo tramite S3, fai riferimento all'esempio Multimodal input using S3 URI - Converse API (non streaming) in. Libreria di codici