Cree una base de conocimientos para contenido multimodal - Amazon Bedrock

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Cree una base de conocimientos para contenido multimodal

Las bases de conocimiento de Amazon Bedrock admiten contenido multimodal, incluidos archivos de imágenes, audio y vídeo. Puede realizar búsquedas utilizando imágenes como consultas, recuperar contenido visualmente similar y procesar archivos multimedia junto con documentos de texto tradicionales. Esta capacidad le permite extraer información de diversos tipos de datos: imágenes independientes, grabaciones de audio y archivos de vídeo almacenados en toda la organización.

Las bases de conocimiento de Amazon Bedrock le permiten indexar y recuperar información de contenido de texto, visual y de audio. Las organizaciones ahora pueden buscar en los catálogos de productos mediante imágenes, encontrar momentos específicos en los vídeos de formación y recuperar segmentos relevantes de las grabaciones de llamadas de atención al cliente.

Disponibilidad regional

Los enfoques de procesamiento multimodal tienen una disponibilidad regional diferente. Para obtener información detallada, consulta Disponibilidad regional.

Características y funciones básicas

Las bases de conocimiento multimodales proporcionan las siguientes capacidades clave:

Consultas basadas en imágenes

Envíe imágenes como consultas de búsqueda para encontrar contenido visualmente similar cuando utilice Nova Multimodal Embeddings. Soporta la coincidencia de productos, la búsqueda de similitudes visuales y la recuperación de imágenes.

Recuperación de contenido de audio

Busque archivos de audio mediante consultas de texto. Recupere segmentos específicos de grabaciones con referencias de marcas de tiempo. La transcripción de audio permite realizar búsquedas basadas en texto en todo el contenido hablado, incluidas las reuniones, las llamadas y los podcasts.

Extracción de segmentos de vídeo

Localice momentos específicos dentro de los archivos de vídeo mediante consultas de texto. Recupera segmentos de vídeo con marcas de tiempo precisas.

Búsqueda multimodal

Busque en diferentes tipos de datos, incluidos documentos de texto, imágenes, audio y vídeo. Recupera el contenido relevante independientemente del formato original.

Referencias de fuentes con marcas de tiempo

Los resultados de la recuperación incluyen referencias a los archivos originales con metadatos temporales de audio y vídeo. Permite una navegación precisa a los segmentos relevantes del contenido multimedia.

Opciones de procesamiento flexibles

Elija entre incrustaciones multimodales nativas para lograr una similitud visual o conversión de texto para contenido basado en voz. Configure el enfoque de procesamiento en función de las características del contenido y los requisitos de la aplicación.

Funcionamiento

Las bases de conocimiento multimodales procesan y recuperan el contenido a través de una canalización de varias etapas que maneja los diferentes tipos de datos de manera adecuada:

Ingestión y procesamiento
  1. Conexión a la fuente de datos: conecte su base de conocimientos a depósitos de Amazon S3 o fuentes de datos personalizadas que contengan documentos de texto, imágenes, archivos de audio y archivos de vídeo.

  2. Detección del tipo de archivo: el sistema identifica cada tipo de archivo por su extensión y lo dirige al proceso de procesamiento correspondiente.

  3. Procesamiento de contenido: según la configuración, los archivos se procesan mediante uno de estos dos enfoques:

    • Incrustaciones multimodales de Nova: conserva el formato nativo para hacer coincidir las similitudes visuales y sonoras. Las imágenes, el audio y el vídeo se incrustan directamente sin convertirlos a texto.

    • Bedrock Data Automation (BDA): convierte contenido multimedia en representaciones de texto. El audio se transcribe mediante el reconocimiento automático de voz (ASR), el vídeo se procesa para extraer resúmenes y transcripciones de las escenas, y las imágenes se someten a un OCR y a extraer contenido visual.

  4. Generación de incrustaciones: el contenido procesado se convierte en incrustaciones vectoriales utilizando el modelo de incrustación seleccionado. Estas incrustaciones capturan el significado semántico y permiten la recuperación basada en similitudes.

  5. Almacenamiento vectorial: las incrustaciones se almacenan en la base de datos vectorial configurada junto con los metadatos, incluidas las referencias a los archivos, las marcas de tiempo (para audio y vídeo) y la información sobre el tipo de contenido.

  6. Almacenamiento multimodal (opcional): si está configurado, los archivos multimedia originales se copian en un destino de almacenamiento multimodal específico para poder recuperarlos de forma fiable, lo que garantiza su disponibilidad incluso si se modifican o eliminan los archivos de origen.

Consulta y recuperación
  1. Procesamiento de consultas: las consultas de los usuarios (texto o imagen) se convierten en incrustaciones utilizando el mismo modelo de incrustación utilizado durante la ingesta.

  2. Búsqueda por similitud: la incrustación de consultas se compara con las incrustaciones almacenadas en la base de datos vectorial para identificar el contenido más relevante.

  3. Recuperación de resultados: el sistema devuelve el contenido coincidente con metadatos que incluyen:

    • URI de origen (ubicación del archivo original)

    • Metadatos de marca temporal (para segmentos de audio y vídeo)

    • Información sobre el tipo y la modalidad del contenido

  4. Generación de respuestas (opcional): en el caso de RetrieveAndGenerate las solicitudes, el contenido recuperado se pasa a un modelo básico para generar respuestas de texto relevantes desde el punto de vista del contexto. Esto se admite cuando se utiliza el procesamiento BDA o cuando la base de conocimientos contiene contenido de texto.

importante

El sistema devuelve referencias a archivos completos con metadatos de fecha y hora para el contenido de audio y vídeo. La aplicación debe extraer y reproducir segmentos específicos en función de las marcas de tiempo de inicio y finalización proporcionadas. The Consola de administración de AWS gestiona esto automáticamente.