Cómo elegir su enfoque de procesamiento multimodal - Amazon Bedrock

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Cómo elegir su enfoque de procesamiento multimodal

Amazon Bedrock Knowledge Bases ofrece dos enfoques para procesar contenido multimodal: Nova Multimodal Embeddings para búsquedas de similitudes visuales y Bedrock Data Automation (BDA) para el procesamiento de contenido multimedia basado en texto. También puede utilizar modelos básicos como analizador si la modalidad de entrada es la imagen, pero no el audio o el vídeo.

En esta sección se describe el uso de Nova Multimodal Embeddings y BDA como enfoque de procesamiento del contenido multimodal. Cada enfoque está optimizado para diferentes casos de uso y patrones de consulta.

Enfoque de procesamiento multimodal

La siguiente tabla muestra una comparación entre Nova Multimodal Embeddings y BDA para procesar contenido multimodal.

Comparación de enfoques de procesamiento
Característica Incrustaciones multimodales de Nova Automatización de datos de Bedrock (BDA)
Método de procesamiento Genera incrustaciones sin conversión de texto intermedia Convierte contenido multimedia en texto y, a continuación, crea incrustaciones
Tipos de consultas compatibles Consultas de texto o consultas de imágenes Solo consultas de texto
Casos de uso principales Búsqueda de similitudes visuales, coincidencia de productos, descubrimiento de imágenes Transcripción de voz, búsqueda basada en texto, análisis de contenido
Funcionalidad RAG Limitado únicamente al contenido de texto RetrieveAndGenerateSoporte completo
Requisitos de almacenamiento Se requiere un destino de almacenamiento multimodal El destino de almacenamiento multimodal es opcional, aunque si no se especifica, BDA solo procesará los datos de texto. Para la entrada que no sea de texto, debe especificar un destino de almacenamiento multimodal.

Disponibilidad regional

Disponibilidad regional
Incrustaciones multimodales de Nova Automatización de datos de Bedrock (BDA)
Únicamente Este de EE. UU. (Norte de Virginia)
  • Oeste de EE. UU. (Oregón)

  • Este de EE. UU. (Norte de Virginia)

  • Europa (Fráncfort)

  • Europa (Londres)

  • Europa (Irlanda)

  • Asia-Pacífico (Mumbai)

  • Asia-Pacífico (Sídney)

  • AWSGovCloud (EE. UU.-Oeste)

Criterios de selección por tipo de contenido

Utilice esta matriz de decisiones para elegir el enfoque de procesamiento adecuado en función de sus requisitos de contenido y caso de uso:

nota

Si utiliza el analizador BDA con el modelo de incrustaciones multimodales de Amazon Nova, el modelo de incrustaciones actuará como un modelo de incrustaciones de texto. Cuando trabaje con contenido multimodal, utilice uno de los enfoques de procesamiento para obtener los mejores resultados en función de su caso de uso.

Recomendaciones de enfoques de procesamiento por tipo de contenido
Tipo de contenido Incrustaciones multimodales de Nova Automatización de datos de Bedrock (BDA)
Catálogos e imágenes de productos Recomendado: permite la búsqueda de similitudes visuales y las consultas basadas en imágenes Limitado: solo extrae texto mediante OCR
Grabaciones y llamadas de reuniones No se puede procesar el contenido de la voz de manera significativa Recomendado: proporciona una transcripción completa de la voz y texto que se puede buscar
Vídeos formativos y educativos Parcial: maneja el contenido visual pero omite la voz Recomendado: captura tanto las transcripciones de voz como las descripciones visuales
Grabaciones de atención al cliente No recomendado: el contenido de la voz no se puede procesar de forma eficaz Recomendado: crea transcripciones de conversaciones completas con capacidad de búsqueda
Diagramas y gráficos técnicos Recomendado: excelente para la similitud visual y la coincidencia de patrones Limitado: extrae las etiquetas de texto pero omite las relaciones visuales

Tipos de archivos y fuentes de datos compatibles

Los tipos de archivos admitidos dependen del método de procesamiento que elija:

Tipos de archivos admitidos según el enfoque de procesamiento
Tipo de archivo Incrustaciones multimodales de Nova Automatización de datos de Bedrock (BDA)
Imágenes .png, .jpg, .jpeg, .gif, .webp .png, .jpg, .jpeg
Audio .mp3, .ogg, .wav .amr, .flac, .m4a, .mp3, .ogg, .wav
Video .mp4, .mov, .mkv, .webm, .flv, .mpeg, .mpg, .wmv, .3gp .mp4, .mov
Documentos Procesado como texto .pdf (más extracción de texto de imágenes)
Orígenes de datos admitidos

El contenido multimodal es compatible con las siguientes fuentes de datos:

  • Amazon S3: compatibilidad total con todos los tipos de archivos multimodales

  • Fuentes de datos personalizadas: Support para contenido en línea de hasta 10 MB codificado en base64

importante

La recuperación multimodal solo está disponible actualmente para las fuentes de datos de Amazon S3. Otras fuentes de datos (Confluence, Salesforce SharePoint, Web Crawler) no procesan los archivos multimodales durante la ingesta. Estos archivos se omiten y no estarán disponibles para consultas multimodales.

Capacidades y limitaciones

Incrustaciones multimodales de Nova

Capacidades clave:

  • El procesamiento multimodal nativo conserva el formato del contenido original para una coincidencia óptima de similitudes visuales

  • Las consultas basadas en imágenes permiten a los usuarios cargar imágenes y encontrar contenido visualmente similar

  • Excelente rendimiento para catálogos de productos, aplicaciones de búsqueda visual y descubrimiento de contenido

Limitaciones:

  • No se puede procesar eficazmente el contenido de voz o audio; la información hablada no se puede buscar

  • RetrieveAndGeneratey la funcionalidad de recuperación se limita únicamente al contenido de texto

  • Requiere la configuración de un destino de almacenamiento multimodal dedicado

Bedrock Data Automation (BDA)

Capacidades clave:

  • Transcripción de voz completa mediante la tecnología de reconocimiento automático de voz (ASR)

  • El análisis de contenido visual genera texto descriptivo para imágenes y escenas de vídeo

  • El RetrieveAndGenerate soporte completo permite una funcionalidad RAG completa en todo el contenido

  • La búsqueda basada en texto funciona de manera uniforme en todos los tipos de contenido multimedia

Limitaciones:

  • No se admiten consultas basadas en imágenes cuando se utilizan sin Nova Multimodal Embeddings: todas las búsquedas deben utilizar la entrada de texto

  • No se pueden realizar búsquedas ni coincidencias de similitudes visuales image-to-image

  • Mayor tiempo de procesamiento de la ingesta debido a los requisitos de conversión de contenido

  • Soporta menos formatos de archivos multimedia en comparación con Nova Multimodal Embeddings

Procesamiento del contenido de voz

Nova Multimodal Embeddings no puede procesar eficazmente el contenido de voz en archivos de audio o vídeo. Si su contenido multimedia contiene información hablada importante que los usuarios necesitan buscar, elija el enfoque BDA para garantizar una transcripción y una capacidad de búsqueda completas.