Requisitos previos para usar un almacén de vectores que haya creado para una base de conocimiento - Amazon Bedrock

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Requisitos previos para usar un almacén de vectores que haya creado para una base de conocimiento

Para almacenar las incrustaciones vectoriales a las que se convierten los documentos, se utiliza un almacén de vectores. Bases de conocimiento de Amazon Bedrock admite un flujo de creación rápida para algunos de los almacenes de vectores, por lo que si prefiere que Amazon Bedrock cree un índice vectorial de forma automática en uno de esos almacenes de vectores, omita este requisito previo y continúe con Creación de una base de conocimiento conectándola a un origen de datos de Bases de conocimiento de Amazon Bedrock.

Si desea almacenar incrustaciones de vectores binarios en lugar de las incrustaciones vectoriales estándar de punto flotante (float32), debe utilizar un almacén de vectores que admita vectores binarios.

nota

Los clústeres Amazon OpenSearch Serverless y Amazon OpenSearch Managed son los únicos almacenes de vectores que admiten el almacenamiento de vectores binarios.

Puede configurar su propio almacén vectorial compatible para indexar la representación de incrustaciones vectoriales de sus datos. Puede crear campos para los siguientes datos:

  • Un campo para los vectores generados a partir del texto del origen de datos mediante el modelo de incrustaciones que elija.

  • Un campo para los fragmentos de texto extraídos de los archivos del origen de datos.

  • Campos para los metadatos de los archivos de origen que administra Amazon Bedrock.

  • (Si utiliza una base de datos de Amazon Aurora y desea configurar el filtrado de los metadatos) Campos para los metadatos que asocia a sus archivos de origen. Si planea configurar el filtrado en otros almacenes vectoriales, no es necesario que configure estos campos para el filtrado.

Puede cifrar los almacenes vectoriales de terceros con una clave de KMS. Para obtener más información, consulte Cifrado de recursos de bases de conocimientos.

Seleccione la pestaña correspondiente al servicio de almacenamiento vectorial que utilizará para crear el índice vectorial.

nota

La elección del modelo de incrustación y las dimensiones de los vectores puede afectar a las opciones de almacén de vectores disponibles. Si no puede utilizar su almacén de vectores preferido, elija opciones de modelo de incrustación y dimensiones de vectores compatibles.

Amazon OpenSearch Serverless
  1. Para configurar los permisos y crear una colección de búsquedas vectoriales en Amazon OpenSearch ServerlessConsola de administración de AWS, siga los pasos 1 y 2 de Cómo trabajar con colecciones de búsquedas vectoriales de la Guía para desarrolladores de Amazon OpenSearch Service. Tenga en cuenta las siguientes consideraciones al configurar la colección:

    1. Asigne un nombre a la colección y redacte una descripción.

    2. Para que la colección sea privada, seleccione Creación estándar en la sección Seguridad. A continuación, en la sección Configuración de acceso a la red, seleccione VPC como Tipo de acceso y elija un punto de conexión de VPC. Para obtener más información sobre la configuración de un punto de enlace de VPC para una colección de Amazon OpenSearch Serverless, consulte Acceder a Amazon OpenSearch Serverless mediante un punto de enlace de interfaz () AWS PrivateLink en la Guía para desarrolladores de Amazon OpenSearch Service.

  2. Después de crear la colección, tome nota del ARN de la colección para crear la base de conocimientos.

  3. En el panel de navegación de la izquierda, seleccione Colecciones en Sin servidor. A continuación, seleccione la colección de búsqueda vectorial.

  4. Seleccione la pestaña Índices. A continuación, elija Crear índice vectorial.

  5. En la sección Detalles del índice vectorial, introduzca un nombre para el índice en el campo Nombre del índice vectorial.

  6. En la sección Campos vectoriales, seleccione Agregar campo vectorial. Amazon Bedrock almacena las incrustaciones vectoriales del origen de datos en este campo. Proporcione las siguientes configuraciones:

    • Nombre del campo vectorial: proporcione un nombre para el campo (por ejemplo, embeddings).

    • Motor: es el motor vectorial utilizado para la búsqueda. Seleccione faiss.

    • Dimensiones: el número de dimensiones del vector. Consulte la siguiente tabla para determinar cuántas dimensiones debe contener el vector:

      Modelo Dimensiones
      Titan G1 Embeddings - Text 1536
      Titan V2 Embeddings - Text 1024, 512 y 256
      Cohere Embed English 1 024
      Cohere Embed Multilingual 1 024
    • Métrica de distancia: métrica que se utiliza para medir la similitud entre los vectores. Recomendamos utilizar Euclidean para incrustaciones vectoriales de punto flotante.

  7. Expanda la sección Administración de metadatos y añada dos campos para configurar el índice vectorial para almacenar metadatos adicionales que una base de conocimientos pueda recuperar con vectores. En la siguiente tabla se describen los campos y los valores a especificar para cada campo:

    Descripción del campo Asignación de campos Tipo de datos: Filtrable
    Amazon Bedrock fragmenta el texto sin procesar de sus datos y almacena los fragmentos en este campo. El nombre que quiera (por ejemplo, text) Cadena True
    Amazon Bedrock almacena los metadatos relacionados con su base de conocimientos en este campo. El nombre que quiera (por ejemplo, bedrock-metadata) Cadena False
  8. Tome nota de los nombres que elija para el índice vectorial, el campo vectorial y el campo de asignación de la administración de metadatos para cuando cree la base de conocimientos. A continuación, seleccione Crear.

Después de crear el índice vectorial, puede continuar con la creación de la base de conocimientos. En la siguiente tabla se resume dónde se debe introducir cada dato del que haya tomado nota.

Campo Campo correspondiente en la configuración de la base de conocimientos (consola) Campo correspondiente en la configuración de la base de conocimientos (API) Description (Descripción)
ARN de colección ARN de colección collectionARN Es el nombre de recurso de Amazon (ARN) de la colección de búsqueda vectorial.
Nombre del índice vectorial Nombre del índice vectorial vectorIndexName Es el nombre del índice vectorial.
Nombre del campo vectorial Campo vectorial vectorField Es el nombre del campo en el que se almacenan las incrustaciones vectoriales para los orígenes de datos.
Administración de metadatos (primer campo de asignación) Campo de texto textField Es el nombre del campo en el que se almacena el texto sin procesar de los orígenes de datos.
Administración de metadatos (segundo campo de asignación) Campo de metadatos administrado por Bedrock metadataField Es el nombre del campo en el que se almacenan los metadatos que administra Amazon Bedrock.

Para obtener documentación más detallada sobre la configuración de un almacén vectorial en Amazon OpenSearch Serverless, consulte Cómo trabajar con colecciones de búsquedas vectoriales en la Guía para desarrolladores de Amazon OpenSearch Service.

Amazon OpenSearch Service Managed Clusters
importante
  1. Para crear un índice de dominios y vectores en OpenSearch Cluster in theConsola de administración de AWS, siga los pasos descritos en Creación y gestión de dominios de OpenSearch servicio de la Guía para desarrolladores de Amazon OpenSearch Service.

    Tenga en cuenta las siguientes consideraciones al configurar el dominio:

    1. Proporcione el nombre que desee al dominio.

    2. Le recomendamos que utilice la opción Creación sencilla para empezar rápidamente a crear su dominio.

      nota

      Esta opción le ofrece un dominio con un rendimiento bajo. Si tiene cargas de trabajo más grandes que requieren un rendimiento superior, elija la opción Creación estándar. Puede ajustar la capacidad más adelante según sea necesario. Con esta opción, puede comenzar con la capacidad más baja, que se puede modificar más adelante según sea necesario.

    3. Para Red, debe elegir Acceso público. OpenSearch los dominios que están detrás de una VPC no son compatibles con su base de conocimientos.

    4. En Versión, si utiliza incrustaciones de vectores binarios, Bases de conocimiento de Amazon Bedrock requiere una versión del motor 2.16 o posterior. Además, se requiere una versión 2.13 o superior para crear un índice k-nn. Para obtener más información, consulta K-NN Search en la guía para desarrolladores de Amazon OpenSearch Service.

    5. Le recomendamos que utilice el modo de doble pila.

    6. Le recomendamos que habilite un control de acceso detallado para proteger los datos de su dominio y que controle aún más los permisos que permiten a su rol de servicio de la base de conocimientos acceder al OpenSearch dominio y realizar solicitudes.

    7. Deje todas las demás opciones con sus valores predeterminados y elija Crear para crear su dominio.

  2. Una vez creado el dominio, haga clic en él para anotar el ARN del dominio y el punto de conexión del dominio para cuando cree la base de conocimiento.

  3. Una vez creado el dominio, puede crear un índice vectorial ejecutando los siguientes comandos en un OpenSearch panel de control o utilizando los comandos curl. Para obtener más información, consulte la Documentación de OpenSearch .

    Al ejecutar el comando:

    • Proporcione un nombre al campo vectorial (por ejemplo, embeddings).

    • Asegúrese de que el vector utilizado para la búsqueda sea faiss. nmslib no se admite.

    • Consulte la siguiente tabla para determinar cuántas dimensiones debe contener el vector:

      nota

      El modelo Titan V2 Embeddings - Text admite varias dimensiones. También puede ser 256 o 512.

      Modelo Dimensiones
      Titan G1 Embeddings - Text 1536
      Titan V2 Embeddings - Text 1024, 512 y 256
      Cohere Embed English 1 024
      Cohere Embed Multilingual 1 024
    • Puede añadir dos campos para configurar el índice vectorial para almacenar metadatos adicionales que una base de conocimiento pueda recuperar con vectores. En la siguiente tabla se describen los campos y los valores que se pueden especificar en cada uno de ellos.

      Descripción del campo Asignación de campos
      Amazon Bedrock fragmenta el texto sin procesar de sus datos y almacena los fragmentos en este campo. Especificado como un objeto, por ejemplo, AMAZON_BEDROCK_TEXT_CHUNK.
      Amazon Bedrock almacena los metadatos relacionados con su base de conocimientos en este campo. Especificado como un objeto, por ejemplo, AMAZON_BEDROCK_METADATA.
    PUT /<index-name> { "settings": { "index": { "knn": true } }, "mappings": { "properties": { "<vector-name>": { "type": "knn_vector", "dimension": <embedding-dimension>, "data_type": "binary", # Only needed for binary embeddings "space_type": "l2" | "hamming", # Use l2 for float embeddings and hamming for binary embeddings "method": { "name": "hnsw", "engine": "faiss", "parameters": { "ef_construction": 128, "m": 24 } } }, "AMAZON_BEDROCK_METADATA": { "type": "text", "index": "false" }, "AMAZON_BEDROCK_TEXT_CHUNK": { "type": "text", "index": "true" } } } }
  4. Anote el ARN y el punto de conexión del dominio, así como los nombres que elija para el índice vectorial, el campo vectorial y los campos de asignación de la administración de metadatos para cuando cree la base de conocimiento.

Después de crear el índice vectorial, puede continuar con la creación de la base de conocimientos. En la siguiente tabla se resume dónde se debe introducir cada dato del que haya tomado nota.

Campo Campo correspondiente en la configuración de la base de conocimientos (consola) Campo correspondiente en la configuración de la base de conocimientos (API) Description (Descripción)
ARN del dominio ARN del dominio domainARN El nombre de recurso de Amazon (ARN) del OpenSearch dominio.
Punto de conexión del dominio Punto de conexión del dominio domainEndpoint El punto final para conectarse al OpenSearch dominio.
Nombre del índice vectorial Nombre del índice vectorial vectorIndexName Es el nombre del índice vectorial.
Nombre del campo vectorial Campo vectorial vectorField Es el nombre del campo en el que se almacenan las incrustaciones vectoriales para los orígenes de datos.
Administración de metadatos (primer campo de asignación) Campo de texto textField Es el nombre del campo en el que se almacena el texto sin procesar de los orígenes de datos.
Administración de metadatos (segundo campo de asignación) Campo de metadatos administrado por Bedrock metadataField Es el nombre del campo en el que se almacenan los metadatos que administra Amazon Bedrock.
Amazon S3 Vectors

Amazon S3 Vectors proporciona un almacenamiento vectorial rentable en Amazon S3 que se puede utilizar para almacenar y consultar datos vectoriales. Proporciona un almacenamiento duradero y elástico de grandes conjuntos de datos vectoriales con un rendimiento de consulta inferior a un segundo. Amazon S3 Vectors es ideal para cargas de trabajo de consultas poco frecuentes y puede ayudar a reducir los costos cuando se utiliza en aplicaciones de generación aumentada por recuperación (RAG) y búsqueda semántica.

Amazon S3 Vectors presenta los cubos vectoriales S3, que contienen índices vectoriales que puede consultar en función del significado y la similitud semánticos. Se puede usar para ofrecer tiempos de respuesta a las consultas inferiores a un segundo y reducir los costos, además de para almacenar, acceder y consultar datos vectoriales a escala sin aprovisionar ninguna infraestructura. En un bucket de vectores, puede organizar los datos vectoriales en índices vectoriales. Su cubo vectorial puede tener varios índices vectoriales. Para obtener más información, consulte Amazon S3 Vectors en la Guía del usuario de Amazon S3.

nota
  • Puede crear una base de conocimientos para Amazon S3 Vectors en todos los sitios en Región de AWS los que estén disponibles Amazon Bedrock y Amazon S3 Vectors. Para obtener información sobre la disponibilidad regional de Amazon S3 Vectors, consulte Amazon S3 Vectors en la Guía del usuario de Amazon S3.

  • Si utiliza recuentos de tokens muy altos con fragmentación jerárquica en las bases de conocimiento de Amazon Bedrock, puede superar los límites máximos de tamaño de los metadatos, ya que las relaciones de los fragmentos padre-hijo y el contexto jerárquico se almacenan como metadatos no filtrables en Amazon S3 Vectors. Para obtener más información sobre los límites de tamaño de los metadatos por vector, consulte Limitaciones y restricciones en la Guía del usuario de Amazon S3. Para obtener información sobre las estrategias de fragmentación, consulte Funcionamiento de la fragmentación de contenido para las bases de conocimiento.

Compatibilidad con metadatos

Puede adjuntar metadatos como pares clave-valor a cada vector. De forma predeterminada, los metadatos se pueden filtrar y se pueden usar en consultas de búsqueda por similitud para filtrar por condiciones como fechas, categorías o preferencias del usuario.

También puede configurar los metadatos para que no se puedan filtrar al crear el índice vectorial. Los índices vectoriales de Amazon S3 admiten los tipos cadena, booleano y número.

Al utilizar Amazon S3 Vectors con las bases de conocimiento de Amazon Bedrock, puede adjuntar hasta 1 KB de metadatos personalizados (incluidos los metadatos filtrables y no filtrables) y 35 claves de metadatos por vector. Para obtener más información sobre los límites de tamaño de los metadatos por vector, consulte Limitaciones y restricciones en la Guía del usuario de Amazon S3.

Si los metadatos superan estos límites, el trabajo de ingesta generará una excepción al rellenar el índice vectorial. Para obtener más información, consulte Amazon S3 Vectors en la Guía del usuario de Amazon S3.

Permisos necesarios

Asegúrese de que su política de IAM permita a Amazon Bedrock acceder a su índice vectorial en el bucket de vectores de S3. Para obtener más información sobre los permisos necesarios, consulte Creación de un rol de servicio para bases de conocimientos de Amazon Bedrock.

Creación de un bucket e índice vectorial de S3

Para utilizar Amazon S3 Vectors con la base de conocimiento, debe crear un bucket de vectores y un índice vectorial de S3. Puede crear un bucket vectorial y un índice mediante la consola o el AWS SDK de Amazon S3. AWS CLI Para obtener instrucciones detalladas, consulte Creación de un índice vectorial en la Guía del usuario de Amazon S3.

Tenga en cuenta las siguientes consideraciones al crear el bucket y el índice vectoriales en la consola de Amazon S3.

  1. Tenga en cuenta las siguientes consideraciones cuando cree un bucket de vectores de S3.

    • Proporcione un nombre de bucket de vectores único.

    • (Opcional) Amazon S3 cifrará los datos de forma automática mediante el cifrado predeterminado del servidor con claves administradas de Amazon S3 (SSE-S3). Puede elegir si desea utilizar este cifrado predeterminado o, en su lugar, el cifrado del lado del servidor con claves del servicio de administración de AWS claves (SSE-KMS).

      nota

      El tipo de cifrado no se puede cambiar después de crear el bucket de vectores.

      Para obtener step-by-step instrucciones, consulte Cifrado con claves KMS. AWS

  2. Después de crear el bucket de vectores de S3, tome nota del Nombre de recurso de Amazon (ARN) del bucket de vectores para crear la base de conocimiento.

  3. Elija el bucket de vectores que creó y, a continuación, cree un índice vectorial. Tenga en cuenta las siguientes consideraciones cuando cree un índice vectorial.

    • Nombre del índice vectorial: proporcione un nombre para el campo (por ejemplo, embeddings).

    • Dimensión: el número de dimensiones del vector. Las dimensiones deben tener un valor comprendido entre 1 y 4096. Consulte la siguiente tabla para determinar cuántas dimensiones debe contener el vector en función del modelo de incrustación elegido:

      Modelo Dimensiones
      Titan G1 Embeddings - Text 1536
      Titan V2 Embeddings - Text 1024, 512 y 256
      Cohere Embed English 1 024
      Cohere Embed Multilingual 1 024
    • nota

      Amazon S3 Vectors solo admite incrustaciones de punto flotante. No se admiten las incrustaciones binarias.

      Métrica de distancia: métrica que se utiliza para medir la similitud entre los vectores. Puede usar Cosine o Euclidean.

  4. Amplíe Configuración adicional y proporcione los metadatos no filtrables en el campo Metadatos no filtrables.

    Puede configurar hasta un máximo de diez claves de metadatos no filtrables. Seleccione Agregar clave y, a continuación, añada AMAZON_BEDROCK_TEXT y AMAZON_BEDROCK_METADATA como claves.

  5. En Cifrado, elija Especificar tipo de cifrado. Tiene la opción de utilizar la configuración del bucket para el cifrado o anular la configuración de cifrado del índice vectorial. Si anula la configuración a nivel de bucket, tiene la opción de especificar el tipo de cifrado para el índice vectorial como cifrado del lado del servidor con AWS claves del Servicio de administración de claves (SSE-KMS) o el cifrado predeterminado del lado del servidor con claves administradas de Amazon S3 (SSE-S3). Para obtener más información sobre cómo configurar el cifrado para los índices vectoriales, consulte Protección de datos y cifrado en Amazon S3 Vectors.

  6. En Etiquetas (opcional), puede añadir etiquetas como pares clave-valor para facilitar el seguimiento y la organización de los costes indexados vectoriales mediante AWS Billing and Cost Management. Introduzca la información pertinente en Key (Clave) y Value (Valor). Para agregar otra etiqueta, elija Add Tag (Añadir etiqueta). Puede introducir hasta 50 etiquetas para un índice vectorial. Para obtener más información, consulte Uso de etiquetas con índices vectoriales de Amazon S3.

  7. Después de crear el índice vectorial, tome nota del Nombre de recurso de Amazon (ARN) del índice vectorial para crear la base de conocimiento.

Creación de una base de conocimiento para un bucket de vectores de S3

Después de recopilar esta información, puede continuar con la creación de la base de conocimiento. Al crear su base de conocimiento con el bucket de vectores de S3, tendrá que proporcionar el ARN del bucket de vectores y el índice vectorial. El índice vectorial almacenará las incrustaciones que se generen a partir de los orígenes de datos. En la siguiente tabla se indica dónde se debe introducir cada dato:

Campo Campo correspondiente en la configuración de la base de conocimientos (consola) Campo correspondiente en la configuración de la base de conocimientos (API) Description (Descripción)
ARN del bucket de vectores ARN del bucket de vectores de S3 vectorBucketArn El Nombre de recurso de Amazon (ARN) del bucket de vectores de S3
ARN del índice vectorial ARN del índice vectorial de S3 vectorIndexARN El Nombre de recurso de Amazon (ARN) del índice vectorial del bucket de vectores de S3
Amazon Aurora (RDS)
  1. Para crear un clúster de base de datos (DB) de Amazon Aurora, un esquema y una tabla, siga los pasos que se indican en Uso de Aurora PostgreSQL como base de conocimientos. Cuando cree la tabla, configúrela con las columnas y tipos de datos siguientes. Puede usar los nombres de columna que prefiera en lugar de los que aparecen en la tabla anterior. Tome nota de los nombres de las columnas que elija para poder proporcionarlos durante la configuración de la base de conocimientos.

    Debe proporcionar estos campos antes de crear la base de conocimiento. No se pueden actualizar una vez creada la base de conocimiento.

    importante

    El clúster Aurora debe residir en el Cuenta de AWS mismo lugar en el que se creó la base de conocimientos para Amazon Bedrock.

    Nombre de la columna Tipo de datos: Campo correspondiente en la configuración de la base de conocimientos (consola) Campo correspondiente en la configuración de la base de conocimientos (API) Description (Descripción)
    id UUID clave principal Clave principal primaryKeyField Contiene identificadores únicos para cada registro.
    Incrustación Vector Campo vectorial vectorField Contiene las incrustaciones vectoriales de los orígenes de datos.
    fragmentos Texto Campo de texto textField Contiene los fragmentos de texto sin procesar de los orígenes de datos.
    metadatos JSON Campo de metadatos administrado por Bedrock metadataField Contiene los metadatos necesarios para llevar a cabo la atribución del origen y para permitir la ingesta y consulta de datos
    custom_metadata JSONB Campo de metadatos personalizados customMetadataField Campo opcional que indica la columna en la que Amazon Bedrock escribirá toda la información de cualquier archivo de metadatos de sus orígenes de datos.
  2. Debe crear un índice en el vector y el texto de las columnas para los campos de texto e incrustaciones. Si utiliza el campo de metadatos personalizados, también debe crear un índice GIN en esta columna. Los índices GIN se pueden usar para buscar de manera eficaz pares de clave-valor en documentos jsonb para filtrar metadatos. Para obtener más información, consulte jsonb indexing en la documentación de PostgreSQL.

    Nombre de la columna Create index on ¿Obligatorio?
    Incrustación CREATE INDEX ON bedrock_integration.bedrock_kb USING hnsw (embedding vector_cosine_ops);
    fragmentos CREATE INDEX ON bedrock_integration.bedrock_kb USING gin (to_tsvector('simple', chunks));
    metadatos personalizados CREATE INDEX ON bedrock_integration.bedrock_kb USING gin (custom_metadata); Solo si ha creado la columna de metadatos personalizados.
    nota

    Para mejorar la precisión y la latencia de las búsquedas híbridas con contenido en inglés, considere la posibilidad de utilizar el diccionario «inglés» en lugar del «simple»:

    CREATE INDEX ON bedrock_integration.bedrock_kb USING gin (to_tsvector('english', chunks));
  3. (Opcional) Si ha agregado metadatos a sus archivos para filtrarlos, le recomendamos que proporcione el nombre de la columna en el campo de metadatos personalizados para almacenar todos los metadatos en una sola columna. Durante la ingesta de datos, esta columna se rellenará con toda la información de los archivos de metadatos de los orígenes de datos. Si decide proporcionar este campo, debe crear un índice GIN en esta columna.

    nota

    Si utiliza con frecuencia filtros de intervalo en lugar de metadatos numéricos, cree un índice para la clave específica para optimizar el rendimiento. Por ejemplo, si utiliza filtros como "lessThan": { "key": "year", "value": 1989 }, cree un índice de expresión en la clave year. Para obtener más información, consulte Indexes on expressions en la documentación de PostgreSQL.

    CREATE INDEX ON your_table ((custom_metadata->>'year')::double precision

    Si no proporciona este nombre de campo, también puede crear una columna para cada atributo de metadatos de sus archivos y especificar el tipo de datos (texto, número o booleano). Por ejemplo, si existiera el atributo genre en el origen de datos, añadiría una columna con el nombre genre y especificaría text como tipo de datos. Durante la ingesta de datos, estas columnas distintas se rellenarán con los valores de atributo correspondientes.

  4. Configure un AWS Secrets Manager secreto para su clúster de base de datos Aurora siguiendo los pasos de Administración de contraseñas con Amazon Aurora y AWS Secrets Manager.

  5. Tome nota de la siguiente información después de crear el clúster de base de datos y configurar el secreto.

    Campo en la configuración de la base de conocimientos (consola) Campo en la configuración de la base de conocimientos (API) Description (Descripción)
    ARN del clúster de base de datos de Amazon Aurora resourceArn El ARN del clúster de base de datos.
    Nombre de base de datos databaseName El nombre de la base de datos
    Nombre de la tabla tableName El nombre de la tabla en su clúster de base de datos.
    ARN del secreto credentialsSecretArn El ARN de la AWS Secrets Manager clave de su clúster de base de datos
Neptune Analytics graphs (GraphRAG)
  1. Para crear un almacén de gráficos y vectores en Análisis por Amazon Neptune en la Consola de administración de AWS, siga los pasos que se describen en Indexación vectorial en Análisis por Amazon Neptune de la Guía del usuario de Análisis por Amazon Neptune.

    nota

    Para usar Neptune GraphRAG, cree un gráfico de Análisis por Amazon Neptune vacío con un índice de búsqueda vectorial. El índice de búsqueda vectorial solo puede crearse cuando se crea el gráfico. Al crear un gráfico de Análisis por Amazon Neptune en la consola, se especifica la dimensión del índice en Configuración de búsqueda vectorial cerca del final del proceso.

    Tenga en cuenta las siguientes consideraciones al crear el gráfico:

    1. Proporcione el nombre que desee al gráfico.

    2. En Fuente de datos, elija Crear gráfico vacío y especifique el número de m- NCUs que se va a asignar. Cada m-NCU tiene alrededor de 1 GiB de capacidad de memoria y los recursos de computación y de red correspondientes.

      nota

      La capacidad del gráfico se puede modificar más adelante. Le recomendamos que comience con la instancia más pequeña y, más adelante, elija una instancia diferente, si es necesario.

    3. Puede dejar la configuración de conectividad de red predeterminada. Amazon Bedrock creará una conexión de red con el gráfico de Análisis por Amazon Neptune al que asocie la base de conocimiento. No tiene que configurar la conectividad pública ni los puntos de conexión privados para su gráfico.

    4. En Configuración de búsqueda vectorial, elija Usar dimensión vectorial y especifique el número de dimensiones de cada vector.

      nota

      El número de dimensiones de cada vector debe coincidir con las dimensiones de los vectores del modelo de incrustación. Consulte la siguiente tabla para determinar cuántas dimensiones debe contener el vector:

      Modelo Dimensiones
      Titan G1 Embeddings - Text 1536
      Titan V2 Embeddings - Text 1024, 512 y 256
      Cohere Embed English 1 024
      Cohere Embed Multilingual 1 024
    5. Deje todas las demás opciones con sus valores predeterminados y cree el gráfico.

  2. Una vez creado el gráfico, haga clic en él para anotar el ARN del recurso y las dimensiones vectoriales para cuando cree la base de conocimiento. Cuando elija el modelo de incrustación en Amazon Bedrock, asegúrese de elegir un modelo con las mismas dimensiones que las dimensiones vectoriales que configuró en el gráfico de Análisis por Amazon Neptune.

Después de crear el índice vectorial, puede continuar con la creación de la base de conocimientos. En la siguiente tabla se resume dónde se debe introducir cada dato del que haya tomado nota.

Campo Campo correspondiente en la configuración de la base de conocimientos (consola) Campo correspondiente en la configuración de la base de conocimientos (API) Description (Descripción)
ARN de gráfico ARN del gráfico de Análisis por Amazon Neptune graphARN El Nombre de recurso de Amazon (ARN) del gráfico de Análisis por Amazon Neptune.
Administración de metadatos (primer campo de asignación) Nombre del campo de texto textField Es el nombre del campo en el que se almacena el texto sin procesar de los orígenes de datos. Puede proporcionar cualquier valor para este campo (por ejemplo, texto).
Administración de metadatos (segundo campo de asignación) Campo de metadatos administrado por Bedrock metadataField Es el nombre del campo en el que se almacenan los metadatos que administra Amazon Bedrock. Puede proporcionar cualquier valor para este campo (por ejemplo, metadatos).
Cono de pino
nota

Si lo usaPinecone, acepta autorizar el acceso AWS a la fuente externa designada en su nombre para proporcionarle servicios de tienda vectorial. Usted es responsable de cumplir con las condiciones de terceros aplicables al uso y la transferencia de datos desde el servicio de terceros.

Para obtener documentación detallada sobre cómo configurar un almacén vectorial en Pinecone, consulte Pinecone as a knowledge base for Amazon Bedrock.

Mientras configura el almacén vectorial, anote la información siguiente, que deberá rellenar al crear una base de conocimientos.

  • URL del punto de conexión: la URL del punto de conexión de la página de administración de índices.

  • ARN secreto de credenciales: el nombre de recurso de Amazon (ARN) del secreto que creó y AWS Secrets Manager que contiene el nombre de usuario y la contraseña de un usuario de la base de datos.

  • (Opcional) Clave de KMS administrada por el cliente para el ARN secreto de credenciales: si ha cifrado el ARN secreto de sus credenciales, proporcione la clave de KMS para que Amazon Bedrock pueda descifrarla.

  • Espacio de nombres (opcional): el espacio de nombres que se utilizará para escribir nuevos datos en la base de datos. Para obtener más información, consulte Uso de espacios de nombres.

Hay configuraciones adicionales que debe proporcionar al crear un índice de Pinecone:

  • Nombre del campo de texto: es el nombre del campo en el que Amazon Bedrock debe almacenar el texto de los fragmentos sin procesar.

  • Nombre del campo de metadatos: es el nombre del campo en el que Amazon Bedrock debe almacenar los metadatos de atribución de origen.

Para acceder a su índice de Pinecone, debe proporcionar su clave de API de Pinecone a Amazon Bedrock mediante AWS Secrets Manager.

Definición de un secreto para la configuración de Pinecone
  1. Siga los pasos que se indican en Crear un AWS Secrets Manager secreto y establezca la clave como clave de API apiKey y el valor como clave de API para acceder a su Pinecone índice.

  2. Para encontrar su clave de API, abra la consola de Pinecone y seleccione Claves de API.

  3. Después de crear el secreto, anote el ARN de la clave KMS.

  4. Asocie permisos a su rol de servicio para descifrar el ARN de la clave KMS siguiendo los pasos que se indican en Permisos para descifrar un AWS Secrets Manager secreto para el almacén de vectores que contiene tu base de conocimientos.

  5. Más adelante, cuando cree su base de conocimientos, introduzca el ARN en el campo ARN secreto de credenciales.

Redis Enterprise Cloud
nota

Si la utilizasRedis Enterprise Cloud, aceptas autorizarte AWS a acceder a la fuente externa designada en tu nombre para proporcionarte servicios de tienda vectorial. Usted es responsable de cumplir con las condiciones de terceros aplicables al uso y la transferencia de datos desde el servicio de terceros.

Para obtener documentación detallada sobre la configuración de un almacén vectorial en Redis Enterprise Cloud, consulte Integrating Redis Enterprise Cloud con Amazon Bedrock.

Mientras configura el almacén vectorial, anote la información siguiente, que deberá rellenar al crear una base de conocimientos.

  • URL del punto de conexión: es la URL del punto de conexión público de su base de datos.

  • Nombre del índice vectorial: es el nombre del índice vectorial de su base de datos.

  • Campo vectorial: es el nombre del campo en el que se almacenarán las incrustaciones vectoriales. Consulte la siguiente tabla para determinar cuántas dimensiones debe contener el vector.

    Modelo Dimensiones
    Titan G1 Embeddings - Text 1536
    Titan V2 Embeddings - Text 1024, 512 y 256
    Cohere Embed English 1 024
    Cohere Embed Multilingual 1 024
  • Campo de texto: es el nombre del campo en el que Amazon Bedrock almacena los fragmentos de texto sin procesar.

  • Campo de metadatos administrado por Bedrock: es el nombre del campo en el que Amazon Bedrock almacena los metadatos relacionados con su base de conocimientos.

Para acceder a su clúster de Redis Enterprise Cloud, debe proporcionar su configuración de seguridad de Redis Enterprise Cloud a Amazon Bedrock mediante AWS Secrets Manager.

Definición de un secreto para la configuración de Redis Enterprise Cloud
  1. Habilite TLS para usar su base de datos con Amazon Bedrock siguiendo los pasos de seguridad de la capa de transporte (TLS).

  2. Sigue los pasos que se indican en Crear un AWS Secrets Manager secreto. Configure las siguientes claves con los valores correspondientes de su configuración de Redis Enterprise Cloud en el secreto:

    • username: es el nombre de usuario para acceder a la base de datos de Redis Enterprise Cloud. Para encontrar el nombre de usuario, busque en la sección Seguridad de su base de datos en la Consola de Redis.

    • password: es la contraseña para acceder a la base de datos de Redis Enterprise Cloud. Para encontrar la contraseña, busque en la sección Seguridad de su base de datos en la Consola de Redis.

    • serverCertificate: el contenido del certificado de la autoridad de certificación de Redis Cloud. Descargue el certificado del servidor desde la Consola de administración de Redis siguiendo los pasos que se indican en Descargar los certificados.

    • clientPrivateKey: la clave privada del certificado de la autoridad de certificación de Redis Cloud. Descargue el certificado del servidor desde la Consola de administración de Redis siguiendo los pasos que se indican en Descargar los certificados.

    • clientCertificate: la clave pública del certificado de la autoridad de certificación de Redis Cloud. Descargue el certificado del servidor desde la Consola de administración de Redis siguiendo los pasos que se indican en Descargar los certificados.

  3. Después de crear el secreto, anote su ARN. Más adelante, cuando cree su base de conocimientos, introduzca el ARN en el campo ARN secreto de credenciales.

MongoDB Atlas
nota

Si utiliza MongoDB Atlas, acepta AWS autorizar el acceso a la fuente externa designada en su nombre para proporcionarle servicios de almacenamiento vectorial. Usted es responsable de cumplir con las condiciones de terceros aplicables al uso y la transferencia de datos desde el servicio de terceros.

Para obtener documentación detallada sobre cómo configurar un almacén de vectores en MongoDB Atlas, consulte Launch a Fully Managed RAG Workflow With MongoDB Atlas and Amazon Bedrock.

Mientras configura el almacén vectorial, tome nota de la información siguiente, que deberá rellenar al crear una base de conocimientos:

  • URL del punto de conexión: es la URL del punto de conexión de su clúster de MongoDB Atlas.

  • Nombre de la base de datos: es el nombre de la base de datos de su clúster de MongoDB Atlas.

  • Nombre de la colección: es el nombre de la colección en la base de datos.

  • ARN secreto de credenciales: el nombre de recurso de Amazon (ARN) del secreto que creó y AWS Secrets Manager que contiene el nombre de usuario y la contraseña de un usuario de base de datos de su clúster de MongoDB Atlas. El secreto debe contener claves llamadas username y password.

  • (Opcional) Clave de KMS administrada por el cliente para el ARN secreto de credenciales: si ha cifrado el ARN secreto de sus credenciales, proporcione la clave de KMS para que Amazon Bedrock pueda descifrarla.

Hay configuraciones adicionales de Asignación de campos que debe proporcionar al crear un índice de MongoDB Atlas:

  • Nombre del índice vectorial: es el nombre del índice de búsqueda vectorial de MongoDB Atlas de su colección.

  • Nombre del campo vectorial: es el nombre del campo en el que Amazon Bedrock debe almacenar las incrustaciones vectoriales.

  • Nombre del campo de texto: es el nombre del campo en el que Amazon Bedrock debe almacenar el texto de los fragmentos sin procesar.

  • Nombre del campo de metadatos: es el nombre del campo en el que Amazon Bedrock debe almacenar los metadatos de atribución de origen.

  • Nombre del índice de búsqueda de texto (opcional): el nombre del índice de búsqueda de MongoDB Atlas en la colección.

importante

Si tiene previsto utilizar el filtrado de metadatos con su base de conocimiento de MongoDB Atlas, debe configurar manualmente los filtros en su índice vectorial. El filtrado de metadatos no funciona de forma predeterminada y requiere una configuración adicional en los ajustes del índice vectorial de MongoDB Atlas.

(Opcional) Para que Amazon Bedrock se conecte a su clúster de MongoDB Atlas mediante, consulte Flujo de trabajo de RAG AWS PrivateLink con MongoDB Atlas mediante Amazon Bedrock.