Conversión de datos en una base de conocimiento - Amazon Bedrock

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Conversión de datos en una base de conocimiento

Para crear una base de conocimiento, conéctese a un origen de datos compatible al que desee que pueda acceder su base de conocimiento. Su base de conocimiento podrá responder a las consultas de los usuarios o generar respuestas en función de los datos recuperados.

Bases de conocimiento de Amazon Bedrock admite una serie de documentos, incluidos texto, imágenes o documentos multimodales que contienen tablas, gráficos, diagramas y otras imágenes. Los datos multimodales se refieren a una combinación de texto y datos visuales. Algunos ejemplos de tipos de archivos que contienen datos no estructurados son texto, markdown, HTML y. PDFs

En las siguientes secciones se describen los tipos de datos que admite Bases de conocimiento de Amazon Bedrock y los servicios a los que puede conectar su base de conocimiento para cada tipo de datos:

Datos no estructurados

Los datos no estructurados son aquellos que se no se ajustan a una estructura predefinida. Bases de conocimiento de Amazon Bedrock permite conectarse a los siguientes servicios para añadir datos no estructurados a una base de conocimiento:

  • Amazon S3

  • Confluence (versión preliminar)

  • Microsoft SharePoint (versión preliminar)

  • Salesforce (versión preliminar)

  • Web Crawler (versión preliminar)

  • Origen de datos personalizado (permite la ingesta directa de datos en bases de conocimiento sin necesidad de sincronizarlos)

Un origen de datos contiene el formato original de sus documentos. Para optimizar el proceso de consulta, una base de conocimiento convierte los datos sin procesar en incrustaciones vectoriales, una representación numérica de los datos, para cuantificar la similitud con las consultas que también se convierten en incrustaciones vectoriales. Bases de conocimiento de Amazon Bedrock utiliza los siguientes recursos en el proceso de conversión del origen de datos:

  • Modelo de incrustación: modelo fundacional que convierte los datos en incrustaciones vectoriales. Para los datos multimodales que contienen texto e imágenes, puede utilizar modelos de incrustación multimodales como Amazon Titan Multimodal Embeddings G1 o Cohere Embed v3.

  • Almacén de vectores: un servicio que almacena la representación vectorial de los datos. Se admiten los siguientes almacenes de vectores:

    • Amazon OpenSearch Serverless

    • Amazon Neptune

    • Amazon Aurora (RDS)

    • Pinecone

    • Redis Enterprise Cloud

    • Atlas MongoDB

El proceso de convertir los datos en incrustaciones vectoriales se denomina ingesta. El proceso de ingesta que convierte los datos en una base de conocimiento consta de los siguientes pasos:

Ingesta
  1. El analizador que elija analiza los datos. Para obtener más información acerca del análisis, consulte Opciones de análisis del origen de datos.

  2. Cada documento del origen de datos se divide en fragmentos, es decir, subdivisiones de los datos que se pueden definir por el número de tokens y otros parámetros. Para obtener más información sobre la fragmentación, consulte Funcionamiento de la fragmentación de contenido para las bases de conocimiento.

  3. El modelo de incrustación que elija convierte los datos en incrustaciones vectoriales. En el caso del contenido multimodal, las imágenes se incrustan como vectores visuales, mientras que el texto se incrusta como vectores de texto, lo que permite realizar búsquedas en ambas modalidades.

  4. Las incrustaciones vectoriales se escriben en un índice vectorial del almacén de vectores que elija.

Una vez finalizado el proceso de ingesta, su base de conocimiento estará lista para ser consultada. Para obtener información sobre cómo consultar y recuperar información de la base de conocimiento, consulte Recuperación de información de orígenes de datos mediante Bases de conocimiento de Amazon Bedrock.

Si realiza cambios en un origen de datos, debe sincronizarlos para ingerir las adiciones, modificaciones y eliminaciones en la base de conocimiento. Algunos orígenes de datos admiten la ingesta o eliminación directa de archivos en la base de conocimiento, lo que elimina la necesidad de tratar la modificación y la ingesta de orígenes de datos como pasos distintos y la necesidad de realizar siempre sincronizaciones completas. Para obtener información sobre cómo ingerir documentos directamente en su base de conocimiento y los orígenes de datos que lo admiten, consulte Ingesta de cambios directamente en una base de conocimiento.

Bases de conocimiento de Amazon Bedrock ofrece varias opciones para personalizar la forma en que se ingieren los datos. Para obtener más información acerca de la personalización de este proceso, consulte Personalización de la base de conocimiento.

Datos estructurados

Los datos estructurados son datos tabulares en un formato predefinido por el almacén de datos en el que se encuentran. Bases de conocimiento de Amazon Bedrock se conecta a los almacenes de datos estructurados compatibles mediante el motor de consultas de Amazon Redshift. Bases de conocimiento de Amazon Bedrock proporciona un mecanismo totalmente administrado que analiza los patrones de consulta, el historial de consultas y los metadatos del esquema para convertir las consultas en lenguaje natural en consultas SQL. Estas consultas convertidas se utilizan luego para recuperar la información pertinente de los orígenes de datos compatibles.

Bases de conocimiento de Amazon Bedrock permite conectarse a los siguientes servicios para añadir datos estructurados a una base de conocimiento:

  • Amazon Redshift

  • AWS Glue Data Catalog(AWS Lake Formation)

Si conecta su base de conocimiento a un almacén de datos estructurado, no necesita convertir los datos en incrustaciones vectoriales. En su lugar, Bases de conocimiento de Amazon Bedrock puede consultar directamente el almacén de datos estructurados. Durante la consulta, Bases de conocimiento de Amazon Bedrock pueden convertir las consultas de los usuarios en consultas SQL para recuperar los datos pertinentes para la consulta del usuario y generar respuestas más precisas. También puede generar consultas SQL sin recuperar datos y utilizarlas en otros flujos de trabajo.

Veamos este ejemplo de un repositorio de base de datos contiene la siguiente tabla con información sobre los clientes y sus compras:

ID de de cliente Importe comprado en 2020 Importe comprado en 2021 Importe comprado en 2022 Importe total comprado hasta la fecha
1 200 300 500 1 000
2 150 100 120 370
3 300 300 300 900
4 720 180 100 900
5 500 400 100 1 000
6 900 800 1 000 2700
7 470 420 400 1290
8 250 280 250 780
9 620 830 740 2190
10 300 200 300 800

Si la consulta de un usuario dice “envíame un resumen de los cinco clientes que más gastan”, la base de conocimiento puede hacer lo siguiente:

  • Convertir la consulta en una consulta SQL

  • Devolver un extracto de la tabla que contenga los siguientes elementos:

    • Columnas pertinentes de la tabla: “ID de cliente” e “Importe total comprado hasta la fecha”

    • Filas de la tabla que contienen el importe total de compra de los diez clientes que más gastan

  • Generar una respuesta que indique qué clientes fueron los cinco que más gastaron y cuánto compraron

Otros ejemplos de consultas para las que una base de conocimiento puede generar un extracto de la tabla son:

  • “los 5 clientes que más gastaron en 2020”

  • “cliente principal por importe de compra en 2020”

  • “los 5 clientes principales por importe de compra en 2020-2022”

  • “los 5 clientes con el mayor gasto en 2020-2022”

  • “clientes con un importe total de compra inferior a 10 USD”

  • “los 5 clientes que menos gastan”

Cuanto más específica o detallada sea una consulta, más podrá acotar la base de conocimiento la información exacta que se devuelve. Por ejemplo, en lugar de la consulta “los 10 clientes que más gastaron en 2020”, una consulta más específica sería “buscar los 10 clientes con el importe total más alto comprado hasta la fecha en 2020”. La consulta específica hace referencia al nombre de la columna “Importe total comprado hasta la fecha” de la tabla de la base de datos de gastos de los clientes y también indica que los datos deben ordenarse por “más alto”.