Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.
Cómo elegir su enfoque de procesamiento multimodal
Amazon Bedrock Knowledge Bases ofrece dos enfoques para procesar contenido multimodal: Nova Multimodal Embeddings para búsquedas de similitudes visuales y Bedrock Data Automation (BDA) para el procesamiento de contenido multimedia basado en texto. También puede utilizar modelos básicos como analizador si la modalidad de entrada es la imagen, pero no el audio o el vídeo.
En esta sección se describe el uso de Nova Multimodal Embeddings y BDA como enfoque de procesamiento del contenido multimodal. Cada enfoque está optimizado para diferentes casos de uso y patrones de consulta.
Temas
Enfoque de procesamiento multimodal
La siguiente tabla muestra una comparación entre Nova Multimodal Embeddings y BDA para procesar contenido multimodal.
| Característica | Incrustaciones multimodales de Nova | Automatización de datos de Bedrock (BDA) |
|---|---|---|
| Método de procesamiento | Genera incrustaciones sin conversión de texto intermedia | Convierte contenido multimedia en texto y, a continuación, crea incrustaciones |
| Tipos de consultas compatibles | Consultas de texto o consultas de imágenes | Solo consultas de texto |
| Casos de uso principales | Búsqueda de similitudes visuales, coincidencia de productos, descubrimiento de imágenes | Transcripción de voz, búsqueda basada en texto, análisis de contenido |
| Funcionalidad RAG | Limitado únicamente al contenido de texto | RetrieveAndGenerateSoporte completo |
| Requisitos de almacenamiento | Se requiere un destino de almacenamiento multimodal | El destino de almacenamiento multimodal es opcional, aunque si no se especifica, BDA solo procesará los datos de texto. Para la entrada que no sea de texto, debe especificar un destino de almacenamiento multimodal. |
Disponibilidad regional
| Incrustaciones multimodales de Nova | Automatización de datos de Bedrock (BDA) |
|---|---|
| Únicamente Este de EE. UU. (Norte de Virginia) |
|
Criterios de selección por tipo de contenido
Utilice esta matriz de decisiones para elegir el enfoque de procesamiento adecuado en función de sus requisitos de contenido y caso de uso:
nota
Si utiliza el analizador BDA con el modelo de incrustaciones multimodales de Amazon Nova, el modelo de incrustaciones actuará como un modelo de incrustaciones de texto. Cuando trabaje con contenido multimodal, utilice uno de los enfoques de procesamiento para obtener los mejores resultados en función de su caso de uso.
| Tipo de contenido | Incrustaciones multimodales de Nova | Automatización de datos de Bedrock (BDA) |
|---|---|---|
| Catálogos e imágenes de productos | Recomendado: permite la búsqueda de similitudes visuales y las consultas basadas en imágenes | Limitado: solo extrae texto mediante OCR |
| Grabaciones y llamadas de reuniones | No se puede procesar el contenido de la voz de manera significativa | Recomendado: proporciona una transcripción completa de la voz y texto que se puede buscar |
| Vídeos formativos y educativos | Parcial: maneja el contenido visual pero omite la voz | Recomendado: captura tanto las transcripciones de voz como las descripciones visuales |
| Grabaciones de atención al cliente | No recomendado: el contenido de la voz no se puede procesar de forma eficaz | Recomendado: crea transcripciones de conversaciones completas con capacidad de búsqueda |
| Diagramas y gráficos técnicos | Recomendado: excelente para la similitud visual y la coincidencia de patrones | Limitado: extrae las etiquetas de texto pero omite las relaciones visuales |
Tipos de archivos y fuentes de datos compatibles
Los tipos de archivos admitidos dependen del método de procesamiento que elija:
| Tipo de archivo | Incrustaciones multimodales de Nova | Automatización de datos de Bedrock (BDA) |
|---|---|---|
| Imágenes | .png, .jpg, .jpeg, .gif, .webp | .png, .jpg, .jpeg |
| Audio | .mp3, .ogg, .wav | .amr, .flac, .m4a, .mp3, .ogg, .wav |
| Video | .mp4, .mov, .mkv, .webm, .flv, .mpeg, .mpg, .wmv, .3gp | .mp4, .mov |
| Documentos | Procesado como texto | .pdf (más extracción de texto de imágenes) |
Orígenes de datos admitidos
El contenido multimodal es compatible con las siguientes fuentes de datos:
-
Amazon S3: compatibilidad total con todos los tipos de archivos multimodales
-
Fuentes de datos personalizadas: Support para contenido en línea de hasta 10 MB codificado en base64
importante
La recuperación multimodal solo está disponible actualmente para las fuentes de datos de Amazon S3. Otras fuentes de datos (Confluence, Salesforce SharePoint, Web Crawler) no procesan los archivos multimodales durante la ingesta. Estos archivos se omiten y no estarán disponibles para consultas multimodales.
Capacidades y limitaciones
- Incrustaciones multimodales de Nova
-
Capacidades clave:
-
El procesamiento multimodal nativo conserva el formato del contenido original para una coincidencia óptima de similitudes visuales
-
Las consultas basadas en imágenes permiten a los usuarios cargar imágenes y encontrar contenido visualmente similar
-
Excelente rendimiento para catálogos de productos, aplicaciones de búsqueda visual y descubrimiento de contenido
Limitaciones:
-
No se puede procesar eficazmente el contenido de voz o audio; la información hablada no se puede buscar
-
RetrieveAndGeneratey la funcionalidad de recuperación se limita únicamente al contenido de texto -
Requiere la configuración de un destino de almacenamiento multimodal dedicado
-
- Bedrock Data Automation (BDA)
-
Capacidades clave:
-
Transcripción de voz completa mediante la tecnología de reconocimiento automático de voz (ASR)
-
El análisis de contenido visual genera texto descriptivo para imágenes y escenas de vídeo
-
El
RetrieveAndGeneratesoporte completo permite una funcionalidad RAG completa en todo el contenido -
La búsqueda basada en texto funciona de manera uniforme en todos los tipos de contenido multimedia
Limitaciones:
-
No se admiten consultas basadas en imágenes cuando se utilizan sin Nova Multimodal Embeddings: todas las búsquedas deben utilizar la entrada de texto
-
No se pueden realizar búsquedas ni coincidencias de similitudes visuales image-to-image
-
Mayor tiempo de procesamiento de la ingesta debido a los requisitos de conversión de contenido
-
Soporta menos formatos de archivos multimedia en comparación con Nova Multimodal Embeddings
-
Procesamiento del contenido de voz
Nova Multimodal Embeddings no puede procesar eficazmente el contenido de voz en archivos de audio o vídeo. Si su contenido multimedia contiene información hablada importante que los usuarios necesitan buscar, elija el enfoque BDA para garantizar una transcripción y una capacidad de búsqueda completas.