Comprensione delle immagini - Amazon Nova

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Comprensione delle immagini

Nota

Questa documentazione è per Amazon Nova versione 1. Per la guida alla comprensione delle immagini di Amazon Nova 2, visita Image understanding.

I modelli Amazon Nova permettono di includere più immagini nel payload con un limite di payload totale di 25 MB. Tuttavia, puoi specificare un URI Amazon S3 che contenga le tue immagini per la comprensione delle immagini. Questo approccio permette di sfruttare il modello per immagini più grandi e più numerose senza essere vincolati dal limite di 25 MB di payload. I modelli Amazon Nova possono analizzare le immagini trasmesse e rispondere a domande, classificare le immagini e riassumerle in base alle istruzioni che hai fornito.

Informazioni sulle dimensioni dell’immagine

Per fornire i migliori risultati possibili, Amazon Nova ridimensiona automaticamente le immagini di input verso l’alto o verso il basso in base alle loro proporzioni e alla risoluzione originale. Per ogni immagine, Amazon Nova identifica innanzitutto la proporzione più vicina tra 1:1, 1:2, 1:3, 1:4, 1:5, 1:6, 1:7, 1:8, 1:9 2:3, 2:4 e le relative trasposizioni. Quindi l’immagine viene ridimensionata in modo che almeno un lato dell’immagine sia maggiore di 896 px o della lunghezza del lato più corto dell’immagine originale, mantenendo le proporzioni più vicine. La risoluzione massima è di 8.000 x 8.000 pixel

Rilevamento del riquadro di delimitazione

I modelli Amazon Nova Lite e Amazon Nova Pro sono addestrati a rilevare con precisione i riquadri di delimitazione all’interno delle immagini. Questa funzionalità può essere utile quando l’obiettivo è ottenere le coordinate di un oggetto di interesse specifico. La funzionalità di rilevamento dei riquadri di delimitazione del modello Amazon Nova lo rende un candidato ideale per le attività di grounding delle immagini, consentendo così una migliore comprensione delle schermate. Il modello Amazon Nova genera riquadri di delimitazione su una scala compresa tra [0, 1000] e, una volta ottenute queste coordinate, è possibile ridimensionarle in base alle dimensioni dell’immagine come fase di post-elaborazione.

Conversione da immagine a token

Come spiegato in precedenza, le immagini vengono ridimensionate per massimizzare l’estrazione delle informazioni, mantenendo comunque le proporzioni. Di seguito sono riportati alcuni esempi di dimensioni delle immagini campione e calcoli approssimativi dei token.

image_resolution (HxW o WxH)

900 x 450

900 x 900

1400 x 900

1,8K x 900

1,3K x 1,3K

Numero stimato di token

~800

~1300

~1800

~2400

~2600

Consideriamo ad esempio un’immagine di dimensioni 800x400 e supponiamo di voler stimare il numero di token presenti in essa. In base alle dimensioni, per mantenere una proporzione di 1:2, la risoluzione più vicina è 900x450. Pertanto, il numero approssimativo di token per questa immagine è di circa 800.