Soporte multimodal para Amazon Nova
Los modelos de comprensión de Amazon Nova son modelos de comprensión multimodales, lo que significa que admiten entradas multimodales, como imágenes, videos y documentos, para inferir y responder preguntas en función del contenido proporcionado. La familia de modelos de Amazon Nova está equipada con capacidades de visión novedosas que permiten que el modelo comprenda y analice imágenes, documentos y videos, lo que permite realizar casos de uso de comprensión multimodal.
En la siguiente sección, se describen las directrices para trabajar con imágenes, documentos y videos en Amazon Nova. Estas incluyen las estrategias de preprocesamiento empleadas, ejemplos de código y las limitaciones relevantes que se deben tener en cuenta.
Temas
Tipo de contenido compatible por modalidad
A continuación, se detallan los formatos de archivo compatibles con el archivo multimedia y el método de entrada aceptado.
Tipo de archivo multimedia |
Formatos de archivo compatibles |
Método de entrada |
Estrategia de análisis |
---|---|---|---|
Imagen |
PNG, JPG, JPEG, GIF, WebP |
Base64 URI de Amazon S3 |
Comprensión visual de la imagen |
Documento de texto (Solo API de Converse) |
CSV, XLS, XLSX, HTML, TXT, MD, DOC |
Bytes URI de Amazon S3 |
Comprensión textual únicamente del documento. |
Documento multimedia (Solo API de Converse) |
PDF, DOCX |
Bytes URI de Amazon S3 |
Texto con comprensión de imágenes intercalada |
Video |
MP4, MOV, MKV, WebM, FLV, MPEG, MPG, WMV, 3GP |
Base64 URI de Amazon S3 |
Comprensión visual del video |
nota
Puede incluir hasta cinco archivos de su ordenador o mil archivos de Amazon S3. Cada archivo no debe superar 1 GB cuando se cargue desde Amazon S3. El tamaño total de los archivos cargados no puede superar los 25 MB si se cargan desde su ordenador o los 2 GB si se cargan desde Amazon S3.
Dado que el límite total de carga útil es de 25 MB, asegúrese de tener en cuenta la sobrecarga de base64. Mientras trabaja, recuerde que las bibliotecas y los marcos mantienen la memoria, y que el contenido multimedia transmitido puede acumularse rápidamente. Al utilizar videos, especificar una s3Location
debería aliviar muchos problemas de almacenamiento.
nota
El procesamiento de videos y documentos de gran tamaño lleva tiempo, independientemente del método de entrada. Si se agota el tiempo de espera del SDK de boto3 mientras se espera una respuesta de Amazon Bedrock, asegúrese de haber establecido un valor de read_timeout