Enfoque de procesamiento multimodal Disponibilidad regional Criterios de selección por tipo de contenido Tipos de archivos y fuentes de datos compatibles Capacidades y limitaciones

Cómo elegir su enfoque de procesamiento multimodal

Amazon Bedrock Knowledge Bases ofrece dos enfoques para procesar contenido multimodal: Nova Multimodal Embeddings para búsquedas de similitudes visuales y Bedrock Data Automation (BDA) para el procesamiento de contenido multimedia basado en texto. También puede utilizar modelos básicos como analizador si la modalidad de entrada es la imagen, pero no el audio o el vídeo.

En esta sección se describe el uso de Nova Multimodal Embeddings y BDA como enfoque de procesamiento del contenido multimodal. Cada enfoque está optimizado para diferentes casos de uso y patrones de consulta.

Temas

Enfoque de procesamiento multimodal
Disponibilidad regional
Criterios de selección por tipo de contenido
Tipos de archivos y fuentes de datos compatibles
Capacidades y limitaciones

Enfoque de procesamiento multimodal

La siguiente tabla muestra una comparación entre Nova Multimodal Embeddings y BDA para procesar contenido multimodal.

Comparación de enfoques de procesamiento
Característica	Incrustaciones multimodales de Nova	Automatización de datos de Bedrock (BDA)
Método de procesamiento	Genera incrustaciones sin conversión de texto intermedia	Convierte contenido multimedia en texto y, a continuación, crea incrustaciones
Tipos de consultas compatibles	Consultas de texto o consultas de imágenes	Solo consultas de texto
Casos de uso principales	Búsqueda de similitudes visuales, coincidencia de productos, descubrimiento de imágenes	Transcripción de voz, búsqueda basada en texto, análisis de contenido
Funcionalidad RAG	Limitado únicamente al contenido de texto	`RetrieveAndGenerate`Soporte completo
Requisitos de almacenamiento	Se requiere un destino de almacenamiento multimodal	El destino de almacenamiento multimodal es opcional, aunque si no se especifica, BDA solo procesará los datos de texto. Para la entrada que no sea de texto, debe especificar un destino de almacenamiento multimodal.

Disponibilidad regional

Disponibilidad regional
Incrustaciones multimodales de Nova	Automatización de datos de Bedrock (BDA)
Únicamente Este de EE. UU. (Norte de Virginia)	Oeste de EE. UU. (Oregón) Este de EE. UU. (Norte de Virginia) Europa (Fráncfort) Europa (Londres) Europa (Irlanda) Asia-Pacífico (Mumbai) Asia-Pacífico (Sídney) AWSGovCloud (EE. UU.-Oeste)

Criterios de selección por tipo de contenido

Utilice esta matriz de decisiones para elegir el enfoque de procesamiento adecuado en función de sus requisitos de contenido y caso de uso:

nota

Si utiliza el analizador BDA con el modelo de incrustaciones multimodales de Amazon Nova, el modelo de incrustaciones actuará como un modelo de incrustaciones de texto. Cuando trabaje con contenido multimodal, utilice uno de los enfoques de procesamiento para obtener los mejores resultados en función de su caso de uso.

Recomendaciones de enfoques de procesamiento por tipo de contenido
Tipo de contenido	Incrustaciones multimodales de Nova	Automatización de datos de Bedrock (BDA)
Catálogos e imágenes de productos	Recomendado: permite la búsqueda de similitudes visuales y las consultas basadas en imágenes	Limitado: solo extrae texto mediante OCR
Grabaciones y llamadas de reuniones	No se puede procesar el contenido de la voz de manera significativa	Recomendado: proporciona una transcripción completa de la voz y texto que se puede buscar
Vídeos formativos y educativos	Parcial: maneja el contenido visual pero omite la voz	Recomendado: captura tanto las transcripciones de voz como las descripciones visuales
Grabaciones de atención al cliente	No recomendado: el contenido de la voz no se puede procesar de forma eficaz	Recomendado: crea transcripciones de conversaciones completas con capacidad de búsqueda
Diagramas y gráficos técnicos	Recomendado: excelente para la similitud visual y la coincidencia de patrones	Limitado: extrae las etiquetas de texto pero omite las relaciones visuales

Tipos de archivos y fuentes de datos compatibles

Los tipos de archivos admitidos dependen del método de procesamiento que elija:

Tipos de archivos admitidos según el enfoque de procesamiento
Tipo de archivo	Incrustaciones multimodales de Nova	Automatización de datos de Bedrock (BDA)
Imágenes	.png, .jpg, .jpeg, .gif, .webp	.png, .jpg, .jpeg
Audio	.mp3, .ogg, .wav	.amr, .flac, .m4a, .mp3, .ogg, .wav
Video	.mp4, .mov, .mkv, .webm, .flv, .mpeg, .mpg, .wmv, .3gp	.mp4, .mov
Documentos	Procesado como texto	.pdf (más extracción de texto de imágenes)

Orígenes de datos admitidos

El contenido multimodal es compatible con las siguientes fuentes de datos:

Amazon S3: compatibilidad total con todos los tipos de archivos multimodales
Fuentes de datos personalizadas: Support para contenido en línea de hasta 10 MB codificado en base64

importante

La recuperación multimodal solo está disponible actualmente para las fuentes de datos de Amazon S3. Otras fuentes de datos (Confluence, Salesforce SharePoint, Web Crawler) no procesan los archivos multimodales durante la ingesta. Estos archivos se omiten y no estarán disponibles para consultas multimodales.

Capacidades y limitaciones

Incrustaciones multimodales de Nova

Capacidades clave:

El procesamiento multimodal nativo conserva el formato del contenido original para una coincidencia óptima de similitudes visuales
Las consultas basadas en imágenes permiten a los usuarios cargar imágenes y encontrar contenido visualmente similar
Excelente rendimiento para catálogos de productos, aplicaciones de búsqueda visual y descubrimiento de contenido

Limitaciones:

No se puede procesar eficazmente el contenido de voz o audio; la información hablada no se puede buscar
RetrieveAndGeneratey la funcionalidad de recuperación se limita únicamente al contenido de texto
Requiere la configuración de un destino de almacenamiento multimodal dedicado

Bedrock Data Automation (BDA)

Capacidades clave:

Transcripción de voz completa mediante la tecnología de reconocimiento automático de voz (ASR)
El análisis de contenido visual genera texto descriptivo para imágenes y escenas de vídeo
El RetrieveAndGenerate soporte completo permite una funcionalidad RAG completa en todo el contenido
La búsqueda basada en texto funciona de manera uniforme en todos los tipos de contenido multimedia

Limitaciones:

No se admiten consultas basadas en imágenes cuando se utilizan sin Nova Multimodal Embeddings: todas las búsquedas deben utilizar la entrada de texto
No se pueden realizar búsquedas ni coincidencias de similitudes visuales image-to-image
Mayor tiempo de procesamiento de la ingesta debido a los requisitos de conversión de contenido
Soporta menos formatos de archivos multimedia en comparación con Nova Multimodal Embeddings

Procesamiento del contenido de voz

Nova Multimodal Embeddings no puede procesar eficazmente el contenido de voz en archivos de audio o vídeo. Si su contenido multimedia contiene información hablada importante que los usuarios necesitan buscar, elija el enfoque BDA para garantizar una transcripción y una capacidad de búsqueda completas.

Aviso JavaScript está desactivado o no está disponible en su navegador.

Para utilizar la documentación de AWS, debe estar habilitado JavaScript. Para obtener más información, consulte las páginas de ayuda de su navegador.

Convenciones del documento

Cree una base de conocimientos para contenido multimodal

Requisitos previos