Soporte multimodal para Amazon Nova - Amazon Nova

Soporte multimodal para Amazon Nova

Los modelos de comprensión de Amazon Nova son modelos de comprensión multimodales, lo que significa que admiten entradas multimodales, como imágenes, videos y documentos, para inferir y responder preguntas en función del contenido proporcionado. La familia de modelos de Amazon Nova está equipada con capacidades de visión novedosas que permiten que el modelo comprenda y analice imágenes, documentos y videos, lo que permite realizar casos de uso de comprensión multimodal.

En la siguiente sección, se describen las directrices para trabajar con imágenes, documentos y videos en Amazon Nova. Estas incluyen las estrategias de preprocesamiento empleadas, ejemplos de código y las limitaciones relevantes que se deben tener en cuenta.

Tipo de contenido compatible por modalidad

A continuación, se detallan los formatos de archivo compatibles con el archivo multimedia y el método de entrada aceptado.

Tipo de archivo multimedia

Formatos de archivo compatibles

Método de entrada

Estrategia de análisis

Imagen

PNG, JPG, JPEG, GIF, WebP

Base64

URI de Amazon S3

Comprensión visual de la imagen

Documento de texto

(Solo API de Converse)

CSV, XLS, XLSX, HTML, TXT, MD, DOC

Bytes

URI de Amazon S3

Comprensión textual únicamente del documento.

Documento multimedia

(Solo API de Converse)

PDF, DOCX

Bytes

URI de Amazon S3

Texto con comprensión de imágenes intercalada

Video

MP4, MOV, MKV, WebM, FLV, MPEG, MPG, WMV, 3GP

Base64

URI de Amazon S3

Comprensión visual del video

nota

Puede incluir hasta cinco archivos de su ordenador o mil archivos de Amazon S3. Cada archivo no debe superar 1 GB cuando se cargue desde Amazon S3. El tamaño total de los archivos cargados no puede superar los 25 MB si se cargan desde su ordenador o los 2 GB si se cargan desde Amazon S3.

Dado que el límite total de carga útil es de 25 MB, asegúrese de tener en cuenta la sobrecarga de base64. Mientras trabaja, recuerde que las bibliotecas y los marcos mantienen la memoria, y que el contenido multimedia transmitido puede acumularse rápidamente. Al utilizar videos, especificar una s3Location debería aliviar muchos problemas de almacenamiento.

nota

El procesamiento de videos y documentos de gran tamaño lleva tiempo, independientemente del método de entrada. Si se agota el tiempo de espera del SDK de boto3 mientras se espera una respuesta de Amazon Bedrock, asegúrese de haber establecido un valor de read_timeout adecuado.