Probar y consultar bases de conocimiento multimodales - Amazon Bedrock

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Probar y consultar bases de conocimiento multimodales

Tras ingerir tu contenido multimodal, puedes probar y consultar tu base de conocimientos mediante la consola o la API. Los tipos de consultas disponibles dependen del enfoque de procesamiento que elijas.

Console
Para poner a prueba su base de conocimientos desde la consola
  1. En la página de detalles de la base de conocimientos, dirígete a la sección Probar la base de conocimientos.

  2. Elija el tipo de consulta:

    • Solo recuperación estándar: consulte y recupere información de fuentes de datos en una única base de conocimientos.

    • Recuperación y generación de respuestas: consulte una única base de conocimientos y genere respuestas basadas en los resultados recuperados mediante un modelo básico.

      nota

      Si tiene contenido multimodal, debe usar el analizador BDA para la recuperación y la generación de respuestas.

  3. Configure opciones adicionales según sea necesario:

    • Fragmentos de origen: especifique el número máximo de fragmentos de origen que se van a devolver

    • Tipo de búsqueda: seleccione el tipo de búsqueda para personalizar la estrategia de consulta

    • Filtros de metadatos: aplique filtros para restringir los resultados de búsqueda

    • Barandillas: seleccione una barandilla existente o cree una nueva

  4. Introduce una consulta de texto o sube una imagen (solo para Nova Multimodal Embeddings) para buscar tu contenido multimodal. Usa el botón de adjuntar para cargar imágenes y buscar similitudes visuales.

  5. Revisa los resultados, que incluyen:

    • Fragmentos de contenido recuperados con puntuaciones de relevancia

    • Referencias del archivo fuente y marcas de tiempo (para audio/vídeo)

    • Metadatos, incluidos los tipos de archivos y la información de procesamiento

    • En el caso del contenido multimedia, los controles de reproducción incluyen un posicionamiento automático de los segmentos en función de las marcas de tiempo recuperadas

API

Los siguientes ejemplos muestran cómo utilizar la API Amazon Bedrock Agent Runtime para consultar su base de conocimientos multimodal mediante programación:

Ejemplo de consulta de texto

Búsqueda mediante entrada de texto:

aws bedrock-agent-runtime retrieve \ --knowledge-base-id <knowledge-base-id> \ --retrieval-query text="robot automation in manufacturing"
Ejemplo de consulta de imagen (solo incorporaciones multimodales de Nova)

Búsqueda mediante una imagen cargada:

{ "knowledgeBaseId": "<knowledge-base-id>", "retrievalQuery": { "imageQuery": { "inlineContent": { "mimeType": "image/jpeg", "data": "<base64-encoded-image>" } } } }

Tipos de consulta compatibles

Consultas de texto

Compatible con los enfoques Nova Multimodal Embeddings y BDA. Realice búsquedas con texto en lenguaje natural para encontrar contenido relevante en todos los tipos de medios.

Consultas de imágenes

Solo es compatible con Nova Multimodal Embeddings. Sube imágenes para encontrar contenido visualmente similar en tu base de conocimientos.

Entender los metadatos de las respuestas

Las respuestas a las consultas multimodales incluyen metadatos adicionales para el contenido multimedia:

Atribución de la fuente

Ubicación original del archivo (SourceURI) y ubicación de almacenamiento multimodal (SupplementalURI) para un acceso fiable

Metadatos temporales

Marcas de tiempo de inicio y finalización de los segmentos de audio y vídeo, lo que permite una navegación precisa al contenido relevante

Información sobre el tipo de contenido

Indicadores de formato de archivo, método de procesamiento y modalidad para ayudar a las aplicaciones a gestionar los diferentes tipos de contenido de forma adecuada

Estructura de metadatos de bases de datos vectoriales

Cuando se procesa y almacena contenido multimodal, se utiliza la siguiente estructura de metadatos en la base de datos vectorial:

  • campo de texto: en el caso de los archivos multimedia procesados con Nova Multimodal Embeddings, este campo contiene una cadena vacía, ya que el contenido está incrustado como multimedia nativo y no como texto

  • campo de metadatos: contiene información estructurada, incluidos los detalles de la fuente y las referencias al contenido relacionado:

    { "source": { "sourceType": "S3", "s3Location": { "uri": "s3://source-bucket/path/to/file.mp4" } }, "relatedContent": [{ "type": "S3", "s3Location": { "uri": "s3://multimodal-storage-bucket/processed/file.mp4" } }] }
  • Campos creados automáticamente: campos adicionales para filtrar e identificar:

    • x-amz-bedrock-kb-source-uri: URI de origen original para las operaciones de filtrado

    • x-amz-bedrock-kb-data-source-id: identificador de fuente de datos para rastrear el origen del contenido

    • x-amz-bedrock-kb-chunk-start-time-in-millis: inicia la marca de tiempo en milisegundos para los segmentos de audio y vídeo

    • x-amz-bedrock-kb-chunk-end-time-in-millis: Finaliza la marca de tiempo en milisegundos para los segmentos de audio y vídeo

    • x-amz-bedrock-kb-source-file-mime-type: tipo MIME del archivo fuente

    • x-amz-bedrock-kb-source-file-modality: Modalidad del archivo fuente (TEXTO, IMAGEN, AUDIO, VÍDEO)

importante

Las aplicaciones deben usar las marcas de tiempo proporcionadas para extraer y reproducir segmentos específicos de los archivos de audio y vídeo. La base de conocimientos devuelve referencias a archivos completos, no a clips presegmentados.