Requisitos previos para usar un almacén de vectores que haya creado para una base de conocimiento

Para almacenar las incrustaciones vectoriales a las que se convierten los documentos, se utiliza un almacén de vectores. Bases de conocimiento de Amazon Bedrock admite un flujo de creación rápida para algunos de los almacenes de vectores, por lo que si prefiere que Amazon Bedrock cree un índice vectorial de forma automática en uno de esos almacenes de vectores, omita este requisito previo y continúe con Creación de una base de conocimiento conectándola a un origen de datos de Bases de conocimiento de Amazon Bedrock.

Si desea almacenar incrustaciones de vectores binarios en lugar de las incrustaciones vectoriales estándar de punto flotante (float32), debe utilizar un almacén de vectores que admita vectores binarios.

nota

Los clústeres Amazon OpenSearch Serverless y Amazon OpenSearch Managed son los únicos almacenes de vectores que admiten el almacenamiento de vectores binarios.

Puede configurar su propio almacén vectorial compatible para indexar la representación de incrustaciones vectoriales de sus datos. Puede crear campos para los siguientes datos:

Un campo para los vectores generados a partir del texto del origen de datos mediante el modelo de incrustaciones que elija.
Un campo para los fragmentos de texto extraídos de los archivos del origen de datos.
Campos para los metadatos de los archivos de origen que administra Amazon Bedrock.
(Si utiliza una base de datos de Amazon Aurora y desea configurar el filtrado de los metadatos) Campos para los metadatos que asocia a sus archivos de origen. Si planea configurar el filtrado en otros almacenes vectoriales, no es necesario que configure estos campos para el filtrado.

Puede cifrar los almacenes vectoriales de terceros con una clave de KMS. Para obtener más información, consulte Cifrado de recursos de bases de conocimientos.

Seleccione la pestaña correspondiente al servicio de almacenamiento vectorial que utilizará para crear el índice vectorial.

nota

La elección del modelo de incrustación y las dimensiones de los vectores puede afectar a las opciones de almacén de vectores disponibles. Si no puede utilizar su almacén de vectores preferido, elija opciones de modelo de incrustación y dimensiones de vectores compatibles.

Amazon OpenSearch Serverless

Para configurar los permisos y crear una colección de búsquedas vectoriales en Amazon OpenSearch Serverless Consola de administración de AWS, siga los pasos 1 y 2 de Cómo trabajar con colecciones de búsquedas vectoriales de la Guía para desarrolladores de Amazon OpenSearch Service. Tenga en cuenta las siguientes consideraciones al configurar la colección:
1. Asigne un nombre a la colección y redacte una descripción.
2. Para que la colección sea privada, seleccione Creación estándar en la sección Seguridad. A continuación, en la sección Configuración de acceso a la red, seleccione VPC como Tipo de acceso y elija un punto de conexión de VPC. Para obtener más información sobre la configuración de un punto de enlace de VPC para una colección de Amazon OpenSearch Serverless, consulte Acceder a Amazon OpenSearch Serverless mediante un punto de enlace de interfaz ()AWS PrivateLink en la Guía para desarrolladores de Amazon OpenSearch Service.
Después de crear la colección, tome nota del ARN de la colección para crear la base de conocimientos.
En el panel de navegación de la izquierda, seleccione Colecciones en Sin servidor. A continuación, seleccione la colección de búsqueda vectorial.
Seleccione la pestaña Índices. A continuación, elija Crear índice vectorial.
En la sección Detalles del índice vectorial, introduzca un nombre para el índice en el campo Nombre del índice vectorial.

En la sección Campos vectoriales, seleccione Agregar campo vectorial. Amazon Bedrock almacena las incrustaciones vectoriales del origen de datos en este campo. Proporcione las siguientes configuraciones:

Nombre del campo vectorial: proporcione un nombre para el campo (por ejemplo, embeddings).
Motor: es el motor vectorial utilizado para la búsqueda. Seleccione faiss.

Dimensiones: el número de dimensiones del vector. Consulte la siguiente tabla para determinar cuántas dimensiones debe contener el vector:

Modelo	Dimensiones
Titan G1 Embeddings - Text	1536
Titan V2 Embeddings - Text	1024, 512 y 256
Cohere Embed English	1 024
Cohere Embed Multilingual	1 024

Métrica de distancia: métrica que se utiliza para medir la similitud entre los vectores. Recomendamos utilizar Euclidean para incrustaciones vectoriales de punto flotante.

Expanda la sección Administración de metadatos y añada dos campos para configurar el índice vectorial para almacenar metadatos adicionales que una base de conocimientos pueda recuperar con vectores. En la siguiente tabla se describen los campos y los valores a especificar para cada campo:

Descripción del campo	Asignación de campos	Tipo de datos:	Filtrable
Amazon Bedrock fragmenta el texto sin procesar de sus datos y almacena los fragmentos en este campo.	El nombre que quiera (por ejemplo, `text`)	Cadena	True
Amazon Bedrock almacena los metadatos relacionados con su base de conocimientos en este campo.	El nombre que quiera (por ejemplo, `bedrock-metadata`)	Cadena	False

Tome nota de los nombres que elija para el índice vectorial, el campo vectorial y el campo de asignación de la administración de metadatos para cuando cree la base de conocimientos. A continuación, seleccione Crear.

Después de crear el índice vectorial, puede continuar con la creación de la base de conocimientos. En la siguiente tabla se resume dónde se debe introducir cada dato del que haya tomado nota.

Campo	Campo correspondiente en la configuración de la base de conocimientos (consola)	Campo correspondiente en la configuración de la base de conocimientos (API)	Description (Descripción)
ARN de colección	ARN de colección	collectionARN	Es el nombre de recurso de Amazon (ARN) de la colección de búsqueda vectorial.
Nombre del índice vectorial	Nombre del índice vectorial	vector IndexName	Es el nombre del índice vectorial.
Nombre del campo vectorial	Campo vectorial	vectorField	Es el nombre del campo en el que se almacenan las incrustaciones vectoriales para los orígenes de datos.
Administración de metadatos (primer campo de asignación)	Campo de texto	textField	Es el nombre del campo en el que se almacena el texto sin procesar de los orígenes de datos.
Administración de metadatos (segundo campo de asignación)	Bedrock-managed campo de metadatos	metadataField	Es el nombre del campo en el que se almacenan los metadatos que administra Amazon Bedrock.

Para obtener documentación más detallada sobre la configuración de un almacén vectorial en Amazon OpenSearch Serverless, consulte Cómo trabajar con colecciones de búsquedas vectoriales en la Guía para desarrolladores de Amazon OpenSearch Service.

Amazon OpenSearch Service Managed Clusters

importante

Antes de utilizar cualquier recurso de dominio en clústeres OpenSearch gestionados, debe configurar determinados permisos y políticas de acceso de IAM. Para obtener más información, consulte Requisitos previos y permisos necesarios para usar clústeres OpenSearch gestionados con las bases de conocimiento de Amazon Bedrock.
Si se producen errores en la ingesta de datos, es posible que se deba a que la capacidad del OpenSearch dominio es insuficiente. Para resolver este problema, aumente la capacidad de su dominio aprovisionando un número mayor de IOPS y aumentando la configuración de rendimiento. Para obtener más información, consulta Mejores prácticas operativas para Amazon OpenSearch Service.

Para crear un índice de dominios y vectores en OpenSearch Cluster in the Consola de administración de AWS, siga los pasos descritos en Creación y gestión de dominios de OpenSearch servicio de la Guía para desarrolladores de Amazon OpenSearch Service.

Tenga en cuenta las siguientes consideraciones al configurar el dominio:
1. Proporcione el nombre que desee al dominio.
2. Le recomendamos que utilice la opción Creación sencilla para empezar rápidamente a crear su dominio.
  
  nota
  Esta opción le ofrece un dominio con un rendimiento bajo. Si tiene cargas de trabajo más grandes que requieren un rendimiento superior, elija la opción Creación estándar. Puede ajustar la capacidad más adelante según sea necesario. Con esta opción, puede comenzar con la capacidad más baja, que se puede modificar más adelante según sea necesario.
3. Para Red, debe elegir Acceso público. OpenSearch los dominios que están detrás de una VPC no son compatibles con su base de conocimientos.
4. En Versión, si utiliza incrustaciones de vectores binarios, Bases de conocimiento de Amazon Bedrock requiere una versión del motor 2.16 o posterior. Además, se requiere una versión 2.13 o superior para crear un índice k-nn. Para obtener más información, consulta K-NN Buscar en la guía para desarrolladores OpenSearch de Amazon Service.
5. Te recomendamos que utilices este Dual-stackmodo.
6. Le recomendamos que active el control de Fine-grained acceso para proteger los datos de su dominio y que controle aún más los permisos que permiten a su rol de servicio de la base de conocimientos acceder al OpenSearch dominio y realizar solicitudes.
7. Deje todas las demás opciones con sus valores predeterminados y elija Crear para crear su dominio.
Una vez creado el dominio, elíjalo para tener en cuenta el ARN del dominio y el punto final del dominio para crear la base de conocimientos.

Una vez creado el dominio, puede crear un índice vectorial ejecutando los siguientes comandos en un OpenSearch panel de control o utilizando los comandos curl. Para obtener más información, consulte la Documentación de OpenSearch .

Al ejecutar el comando:

Proporcione un nombre al campo vectorial (por ejemplo, embeddings).
Asegúrese de que el vector utilizado para la búsqueda sea faiss. nmslib no se admite.

Consulte la siguiente tabla para determinar cuántas dimensiones debe contener el vector:

nota

El modelo Titan V2 Embeddings - Text admite varias dimensiones. También puede ser 256 o 512.

Modelo	Dimensiones
Titan G1 Embeddings - Text	1536
Titan V2 Embeddings - Text	1024, 512 y 256
Cohere Embed English	1 024
Cohere Embed Multilingual	1 024

Puede añadir dos campos para configurar el índice vectorial para almacenar metadatos adicionales que una base de conocimiento pueda recuperar con vectores. En la siguiente tabla se describen los campos y los valores que se pueden especificar en cada uno de ellos.

Descripción del campo	Asignación de campos
Amazon Bedrock fragmenta el texto sin procesar de sus datos y almacena los fragmentos en este campo.	Especificado como un objeto, por ejemplo, `AMAZON_BEDROCK_TEXT_CHUNK`.
Amazon Bedrock almacena los metadatos relacionados con su base de conocimientos en este campo.	Especificado como un objeto, por ejemplo, `AMAZON_BEDROCK_METADATA`.


PUT /<index-name>
{
    "settings": {
        "index": {
            "knn": true
        }
    },
    "mappings": {
        "properties": {
            "<vector-name>": {
                "type": "knn_vector",
                "dimension": <embedding-dimension>,
                "data_type": "binary",          # Only needed for binary embeddings
                "space_type": "l2" | "hamming", # Use l2 for float embeddings and hamming for binary embeddings
                "method": {
                    "name": "hnsw",
                    "engine": "faiss",
                    "parameters": {
                        "ef_construction": 128,
                        "m": 24
                    }
                }
            },

            "AMAZON_BEDROCK_METADATA": {
                "type": "text",
                "index": "false"
            },
            "AMAZON_BEDROCK_TEXT_CHUNK": {
                "type": "text",
                "index": "true"            
            }
        }
    }
}

Campos de metadatos personalizados para filtrar

Si planea usar el filtrado de metadatos con campos de metadatos personalizados, debe definir esos campos con un keyword tipo o como un text tipo con un keyword subcampo. Por ejemplo:


"my_custom_field": {
    "type": "text",
    "fields": {
        "keyword": {
            "type": "keyword"
        }
    }
}

Sin esta estructura, las consultas de filtrado en los campos de metadatos personalizados fallarán y se generará el error «Reescribir primero».

Anote el ARN y el punto de conexión del dominio, así como los nombres que elija para el índice vectorial, el campo vectorial y los campos de asignación de la administración de metadatos para cuando cree la base de conocimiento.

Después de crear el índice vectorial, puede continuar con la creación de la base de conocimientos. En la siguiente tabla se resume dónde se debe introducir cada dato del que haya tomado nota.

Campo	Campo correspondiente en la configuración de la base de conocimientos (consola)	Campo correspondiente en la configuración de la base de conocimientos (API)	Description (Descripción)
ARN del dominio	ARN del dominio	domainARN	El nombre de recurso de Amazon (ARN) del OpenSearch dominio.
Punto de conexión del dominio	Punto de conexión del dominio	domainEndpoint	El punto final para conectarse al OpenSearch dominio.
Nombre del índice vectorial	Nombre del índice vectorial	vector IndexName	Es el nombre del índice vectorial.
Nombre del campo vectorial	Campo vectorial	vectorField	Es el nombre del campo en el que se almacenan las incrustaciones vectoriales para los orígenes de datos.
Administración de metadatos (primer campo de asignación)	Campo de texto	textField	Es el nombre del campo en el que se almacena el texto sin procesar de los orígenes de datos.
Administración de metadatos (segundo campo de asignación)	Bedrock-managed campo de metadatos	metadataField	Es el nombre del campo en el que se almacenan los metadatos que administra Amazon Bedrock.

Amazon S3 Vectors

Amazon S3 Vectors proporciona un almacenamiento vectorial rentable en Amazon S3 que se puede utilizar para almacenar y consultar datos vectoriales. Proporciona un almacenamiento duradero y elástico de grandes conjuntos de datos vectoriales con un rendimiento de consulta inferior a un segundo. Amazon S3 Vectors es ideal para cargas de trabajo de consultas poco frecuentes y puede ayudar a reducir los costos cuando se utiliza en aplicaciones de generación aumentada por recuperación (RAG) y búsqueda semántica.

Amazon S3 Vectors presenta los cubos vectoriales S3, que contienen índices vectoriales que puede consultar en función del significado y la similitud semánticos. Se puede usar para ofrecer tiempos de respuesta a las consultas inferiores a un segundo y reducir los costos, además de para almacenar, acceder y consultar datos vectoriales a escala sin aprovisionar ninguna infraestructura. En un bucket de vectores, puede organizar los datos vectoriales en índices vectoriales. Su cubo vectorial puede tener varios índices vectoriales. Para obtener más información, consulte Amazon S3 Vectors en la Guía del usuario de Amazon S3.

nota

Puede crear una base de conocimientos para Amazon S3 Vectors en todos los sitios en Región de AWS los que estén disponibles Amazon Bedrock y Amazon S3 Vectors. Para obtener información sobre la disponibilidad regional de Amazon S3 Vectors, consulte Amazon S3 Vectors en la Guía del usuario de Amazon S3.
Si utiliza recuentos de tokens muy altos con fragmentación jerárquica en las bases de conocimiento de Amazon Bedrock, puede superar los límites máximos de tamaño de los metadatos, ya que las relaciones de los fragmentos padre-hijo y el contexto jerárquico se almacenan como metadatos no filtrables en Amazon S3 Vectors. Para obtener más información sobre los límites de tamaño de los metadatos por vector, consulte Limitaciones y restricciones en la Guía del usuario de Amazon S3. Para obtener información sobre las estrategias de fragmentación, consulte Funcionamiento de la fragmentación de contenido para las bases de conocimiento.

Compatibilidad con metadatos

Puede adjuntar metadatos como pares clave-valor a cada vector. De forma predeterminada, los metadatos se pueden filtrar y se pueden usar en consultas de búsqueda por similitud para filtrar por condiciones como fechas, categorías o preferencias del usuario.

También puede configurar los metadatos para que no se puedan filtrar al crear el índice vectorial. Los índices vectoriales de Amazon S3 admiten los tipos cadena, booleano y número.

Al utilizar Amazon S3 Vectors con las bases de conocimiento de Amazon Bedrock, puede adjuntar hasta 1 KB de metadatos personalizados (incluidos los metadatos filtrables y no filtrables) y 35 claves de metadatos por vector. Para obtener más información sobre los límites de tamaño de los metadatos por vector, consulte Limitaciones y restricciones en la Guía del usuario de Amazon S3.

Si los metadatos superan estos límites, el trabajo de ingestión generará una excepción al rellenar el índice vectorial. Para obtener más información, consulte Amazon S3 Vectors en la Guía del usuario de Amazon S3.

Permisos necesarios

Asegúrese de que su política de IAM permita a Amazon Bedrock acceder a su índice vectorial en el bucket de vectores de S3. Para obtener más información sobre los permisos necesarios, consulte Creación de un rol de servicio para bases de conocimientos de Amazon Bedrock.

Creación de un bucket e índice vectorial de S3

Para utilizar Amazon S3 Vectors con la base de conocimiento, debe crear un bucket de vectores y un índice vectorial de S3. Puede crear un bucket vectorial y un índice mediante la consola o el AWS SDK de Amazon S3. AWS CLI Para obtener instrucciones detalladas, consulte Creación de un índice vectorial en la Guía del usuario de Amazon S3.

Tenga en cuenta las siguientes consideraciones al crear el bucket y el índice vectoriales en la consola de Amazon S3.

Tenga en cuenta las siguientes consideraciones cuando cree un bucket de vectores de S3.
- Proporcione un nombre de bucket de vectores único.
- (Opcional) Amazon S3 cifrará automáticamente los datos mediante el Server-side cifrado predeterminado con las claves gestionadas de Amazon S3 (SSE-S3). Puede elegir si desea utilizar este cifrado predeterminado o, en su lugar, el Server-side cifrado con AWS claves del Servicio de administración de claves (SSE-KMS).
  
  nota
  El tipo de cifrado no se puede cambiar después de crear el bucket de vectores.
  
  Para obtener instrucciones paso a paso, consulte Cifrado con claves AWS KMS.
Después de crear el bucket de vectores de S3, tome nota del Nombre de recurso de Amazon (ARN) del bucket de vectores para crear la base de conocimiento.

Elija el bucket de vectores que creó y, a continuación, cree un índice vectorial. Tenga en cuenta las siguientes consideraciones cuando cree un índice vectorial.

Nombre del índice vectorial: proporcione un nombre para el campo (por ejemplo, embeddings).

Dimensión: el número de dimensiones del vector. Las dimensiones deben tener un valor comprendido entre 1 y 4096. Consulte la siguiente tabla para determinar cuántas dimensiones debe contener el vector en función del modelo de incrustación elegido:

Modelo	Dimensiones
Titan G1 Embeddings - Text	1536
Titan V2 Embeddings - Text	1024, 512 y 256
Cohere Embed English	1 024
Cohere Embed Multilingual	1 024

nota
Amazon S3 Vectors solo admite incrustaciones de punto flotante. No se admiten las incrustaciones binarias.

Métrica de distancia: métrica que se utiliza para medir la similitud entre los vectores. Puede usar Cosine o Euclidean.

Amplíe la configuración adicional y proporcione los metadatos que no se puedan filtrar en el Non-filterable campo de metadatos.

Puede configurar hasta un máximo de diez claves de metadatos no filtrables. Seleccione Agregar clave y, a continuación, añada AMAZON_BEDROCK_TEXT y AMAZON_BEDROCK_METADATA como claves.
En Cifrado, elija Especificar tipo de cifrado. Tiene la opción de Utilizar la configuración de bucket para el cifrado o invalidar la configuración de cifrado del índice vectorial. Si anula la configuración a nivel de bucket, tiene la opción de especificar el tipo de cifrado para el índice vectorial como Server-side cifrado con AWS claves del Servicio de administración de claves (SSE-KMS) o Server-side cifrado predeterminado con claves administradas de Amazon S3 (). SSE-S3 Para obtener más información sobre cómo configurar el cifrado para los índices vectoriales, consulte Protección de datos y cifrado en Amazon S3 Vectors.
En Etiquetas (opcional), puede añadir etiquetas como pares clave-valor para facilitar el seguimiento y la organización de los costes indexados vectoriales mediante AWS Billing and Cost Management. Introduzca la información pertinente en Key (Clave) y Value (Valor). Para agregar otra etiqueta, elija Add Tag (Añadir etiqueta). Puede ingresar un máximo de 50 etiquetas para un índice vectorial. Para obtener más información, consulte Uso de etiquetas con índices vectoriales de Amazon S3.
Después de crear el índice vectorial, tome nota del Nombre de recurso de Amazon (ARN) del índice vectorial para crear la base de conocimiento.

Creación de una base de conocimiento para un bucket de vectores de S3

Después de recopilar esta información, puede continuar con la creación de la base de conocimiento. Al crear su base de conocimiento con el bucket de vectores de S3, tendrá que proporcionar el ARN del bucket de vectores y el índice vectorial. El índice vectorial almacenará las incrustaciones que se generen a partir de los orígenes de datos. En la siguiente tabla se indica dónde se debe introducir cada dato:

Campo	Campo correspondiente en la configuración de la base de conocimientos (consola)	Campo correspondiente en la configuración de la base de conocimientos (API)	Description (Descripción)
ARN del bucket de vectores	ARN del bucket de vectores de S3	vector BucketArn	El Nombre de recurso de Amazon (ARN) del bucket de vectores de S3
ARN del índice vectorial	ARN del índice vectorial de S3	vectorIndexARN	El Nombre de recurso de Amazon (ARN) del índice vectorial del bucket de vectores de S3

Amazon Aurora (RDS)

Para crear un clúster de base de datos (DB) de Amazon Aurora, un esquema y una tabla, siga los pasos que se indican en Uso de Aurora PostgreSQL como base de conocimientos. Cuando cree la tabla, configúrela con las columnas y tipos de datos siguientes. Puede usar los nombres de columna que prefiera en lugar de los que aparecen en la tabla anterior. Tome nota de los nombres de las columnas que elija para poder proporcionarlos durante la configuración de la base de conocimientos.

Debe proporcionar estos campos antes de crear la base de conocimiento. No se pueden actualizar una vez creada la base de conocimiento.

importante

El clúster Aurora debe residir en el Cuenta de AWS mismo lugar en el que se creó la base de conocimientos para Amazon Bedrock.

Nombre de la columna	Tipo de datos:	Campo correspondiente en la configuración de la base de conocimientos (consola)	Campo correspondiente en la configuración de la base de conocimientos (API)	Description (Descripción)
id	UUID clave principal	Clave principal	`primaryKeyField`	Contiene identificadores únicos para cada registro.
Incrustación	Vector	Campo vectorial	`vectorField`	Contiene las incrustaciones vectoriales de los orígenes de datos.
fragmentos	Texto	Campo de texto	`textField`	Contiene los fragmentos de texto sin procesar de los orígenes de datos.
metadatos	JSON	Bedrock-managed campo de metadatos	`metadataField`	Contiene los metadatos necesarios para llevar a cabo la atribución del origen y para permitir la ingesta y consulta de datos
custom_metadata	JSONB	Campo de metadatos personalizados	`customMetadataField`	Campo opcional que indica la columna en la que Amazon Bedrock escribirá toda la información de cualquier archivo de metadatos de sus orígenes de datos.

Debe crear un índice en el vector y el texto de las columnas para los campos de texto e incrustaciones. Si utiliza el campo de metadatos personalizados, también debe crear un índice GIN en esta columna. Los índices GIN se pueden usar para buscar de manera eficaz pares de clave-valor en documentos jsonb para filtrar metadatos. Para obtener más información, consulte jsonb indexing en la documentación de PostgreSQL.

Nombre de la columna	Create index on	¿Obligatorio?
Incrustación	`CREATE INDEX ON bedrock_integration.bedrock_kb USING hnsw (embedding vector_cosine_ops);`	Sí
fragmentos	`CREATE INDEX ON bedrock_integration.bedrock_kb USING gin (to_tsvector('simple', chunks));`	Sí
metadatos personalizados	`CREATE INDEX ON bedrock_integration.bedrock_kb USING gin (custom_metadata);`	Solo si ha creado la columna de metadatos personalizados.

nota

Para mejorar la precisión y la latencia de las búsquedas híbridas con contenido en inglés, considera usar el diccionario «inglés» en lugar del «simple»:


CREATE INDEX ON bedrock_integration.bedrock_kb USING gin (to_tsvector('english', chunks));

nota

Si utilizas el filtrado de metadatos con tu base de conocimientos, te recomendamos que habilites los escaneos de índice iterativos del HNSW (requiere pgvector 0.8.0 o una versión posterior). Sin escaneos iterativos, los filtros de metadatos selectivos pueden arrojar menos resultados de los esperados porque el filtrado se aplica después del escaneo de índices HNSW. Los escaneos iterativos escanean automáticamente una mayor parte del índice hasta encontrar suficientes resultados filtrados.


ALTER DATABASE your_database SET hnsw.iterative_scan = 'relaxed_order';
ALTER DATABASE your_database SET hnsw.max_scan_tuples = 20000;

Esta configuración se mantiene en el nivel de la base de datos, pero solo se aplica a las sesiones nuevas. Si utiliza la API de datos de RDS, espere unos minutos para que las sesiones del grupo de conexiones se reciclen antes de que la configuración surta efecto.

(Opcional) Si ha agregado metadatos a sus archivos para filtrarlos, le recomendamos que proporcione el nombre de la columna en el campo de metadatos personalizados para almacenar todos los metadatos en una sola columna. Durante la ingesta de datos, esta columna se rellenará con toda la información de los archivos de metadatos de los orígenes de datos. Si decide proporcionar este campo, debe crear un índice GIN en esta columna.
nota
Si utiliza con frecuencia filtros de intervalo en lugar de metadatos numéricos, cree un índice para la clave específica para optimizar el rendimiento. Por ejemplo, si utiliza filtros como "lessThan": { "key": "year", "value": 1989 }, cree un índice de expresión en la clave year. Para obtener más información, consulte Indexes on expressions en la documentación de PostgreSQL.
```
CREATE INDEX ON your_table ((custom_metadata->>'year')::double precision
```
Si no proporciona este nombre de campo, también puede crear una columna para cada atributo de metadatos de sus archivos y especificar el tipo de datos (texto, número o booleano). Por ejemplo, si existiera el atributo genre en el origen de datos, añadiría una columna con el nombre genre y especificaría text como tipo de datos. Durante la ingesta de datos, estas columnas distintas se rellenarán con los valores de atributo correspondientes.
Configure un AWS Secrets Manager secreto para su clúster de base de datos Aurora siguiendo los pasos de Administración de contraseñas con Amazon Aurora y AWS Secrets Manager.

Tome nota de la siguiente información después de crear el clúster de base de datos y configurar el secreto.

Campo en la configuración de la base de conocimientos (consola)	Campo en la configuración de la base de conocimientos (API)	Description (Descripción)
ARN del clúster de base de datos de Amazon Aurora	resourceArn	El ARN del clúster de base de datos.
Nombre de base de datos	databaseName	El nombre de la base de datos
Nombre de la tabla	tableName	El nombre de la tabla en su clúster de base de datos.
ARN del secreto	credenciales SecretArn	El ARN de la AWS Secrets Manager clave de su clúster de base de datos

Neptune Analytics graphs (GraphRAG)

Para crear un almacén de gráficos y vectores en Análisis por Amazon Neptune en la Consola de administración de AWS, siga los pasos que se describen en Indexación vectorial en Análisis por Amazon Neptune de la Guía del usuario de Análisis por Amazon Neptune.

nota

Para usar Neptune GraphRAG, cree un gráfico de Análisis por Amazon Neptune vacío con un índice de búsqueda vectorial. El índice de búsqueda vectorial solo puede crearse cuando se crea el gráfico. Al crear un gráfico de Análisis por Amazon Neptune en la consola, se especifica la dimensión del índice en Configuración de búsqueda vectorial cerca del final del proceso.

Tenga en cuenta las siguientes consideraciones al crear el gráfico:

Proporcione el nombre que desee al gráfico.
En Origen de datos, elija Crear gráfico vacío y especifique el número de m-NCU que se van a asignar. Cada m-NCU tiene alrededor de 1 GiB de capacidad de memoria y los recursos de computación y de red correspondientes.

nota
La capacidad del gráfico se puede modificar más adelante. Le recomendamos que comience con la instancia más pequeña y, más adelante, elija una instancia diferente, si es necesario.
Puede dejar la configuración de conectividad de red predeterminada. Amazon Bedrock creará una conexión de red con el gráfico de Análisis por Amazon Neptune al que asocie la base de conocimiento. No tiene que configurar la conectividad pública ni los puntos de conexión privados para su gráfico.

En Configuración de búsqueda vectorial, elija Usar dimensión vectorial y especifique el número de dimensiones de cada vector.

nota

El número de dimensiones de cada vector debe coincidir con las dimensiones de los vectores del modelo de incrustación. Consulte la siguiente tabla para determinar cuántas dimensiones debe contener el vector:

Modelo	Dimensiones
Titan G1 Embeddings - Text	1536
Titan V2 Embeddings - Text	1024, 512 y 256
Cohere Embed English	1 024
Cohere Embed Multilingual	1 024

Deje todas las demás opciones con sus valores predeterminados y cree el gráfico.

Una vez creado el gráfico, elíjalo para tomar nota del ARN del recurso y las dimensiones vectoriales para cuando crees la base de conocimientos. Cuando elija el modelo de incrustación en Amazon Bedrock, asegúrese de elegir un modelo con las mismas dimensiones que las dimensiones vectoriales que configuró en el gráfico de Análisis por Amazon Neptune.

Después de crear el índice vectorial, puede continuar con la creación de la base de conocimientos. En la siguiente tabla se resume dónde se debe introducir cada dato del que haya tomado nota.

Campo	Campo correspondiente en la configuración de la base de conocimientos (consola)	Campo correspondiente en la configuración de la base de conocimientos (API)	Description (Descripción)
ARN de gráfico	ARN del gráfico de Análisis por Amazon Neptune	graphARN	El Nombre de recurso de Amazon (ARN) del gráfico de Análisis por Amazon Neptune.
Administración de metadatos (primer campo de asignación)	Nombre del campo de texto	textField	Es el nombre del campo en el que se almacena el texto sin procesar de los orígenes de datos. Puede proporcionar cualquier valor para este campo (por ejemplo, texto).
Administración de metadatos (segundo campo de asignación)	Bedrock-managed campo de metadatos	metadataField	Es el nombre del campo en el que se almacenan los metadatos que administra Amazon Bedrock. Puede proporcionar cualquier valor para este campo (por ejemplo, metadatos).

Pinecone

nota

Si lo utilizaPinecone, acepta autorizar el acceso AWS a la fuente externa designada en su nombre para proporcionarle servicios de tienda vectorial. Usted es responsable de cumplir con las condiciones de terceros aplicables al uso y la transferencia de datos desde el servicio de terceros.

Para obtener documentación detallada sobre cómo configurar un almacén vectorial en Pinecone, consulte Pinecone as a knowledge base for Amazon Bedrock.

Mientras configura el almacén vectorial, anote la información siguiente, que deberá rellenar al crear una base de conocimientos.

URL del punto de conexión: la URL del punto de conexión de la página de administración de índices.
ARN secreto de credenciales: el nombre de recurso de Amazon (ARN) del secreto que creó y AWS Secrets Manager que contiene el nombre de usuario y la contraseña de un usuario de la base de datos.
(Opcional) Clave de Customer-managed KMS para el ARN secreto de sus credenciales: si ha cifrado el ARN secreto de sus credenciales, proporcione la clave de KMS para que Amazon Bedrock pueda descifrarla.
Espacio de nombres (opcional): el espacio de nombres que se utilizará para escribir nuevos datos en la base de datos. Para obtener más información, consulte Uso de espacios de nombres.

Hay configuraciones adicionales que debe proporcionar al crear un índice de Pinecone:

Nombre del campo de texto: es el nombre del campo en el que Amazon Bedrock debe almacenar el texto de los fragmentos sin procesar.
Nombre del campo de metadatos: es el nombre del campo en el que Amazon Bedrock debe almacenar los metadatos de atribución de origen.

Para acceder a su índice de Pinecone, debe proporcionar su clave de API de Pinecone a Amazon Bedrock mediante AWS Secrets Manager.

Para configurar un secreto para su ¿Piña configuración

Sigue los pasos que se indican en Crear un AWS Secrets Manager secreto y establece la clave como clave de API apiKey y el valor como clave de API para acceder a tu Pinecone índice.
Para encontrar su clave de API, abra la consola de Pinecone y seleccione Claves de API.
Después de crear el secreto, anote el ARN de la clave KMS.
Asocie permisos a su rol de servicio para descifrar el ARN de la clave KMS siguiendo los pasos que se indican en Permisos para descifrar un AWS Secrets Manager secreto para el almacén de vectores que contiene su base de conocimientos.
Más adelante, cuando cree su base de conocimientos, introduzca el ARN en el campo ARN secreto de credenciales.

Redis Enterprise Cloud

nota

Si la utilizasRedis Enterprise Cloud, aceptas acceder AWS a la fuente externa designada en tu nombre para proporcionarte servicios de almacenamiento vectorial. Usted es responsable de cumplir con las condiciones de terceros aplicables al uso y la transferencia de datos desde el servicio de terceros.

Para obtener documentación detallada sobre la configuración de un almacén vectorial en Redis Enterprise Cloud, consulte Integrating Redis Enterprise Cloud con Amazon Bedrock.

Mientras configura el almacén vectorial, anote la información siguiente, que deberá rellenar al crear una base de conocimientos.

URL del punto de conexión: es la URL del punto de conexión público de su base de datos.
Nombre del índice vectorial: es el nombre del índice vectorial de su base de datos.

Campo vectorial: es el nombre del campo en el que se almacenarán las incrustaciones vectoriales. Consulte la siguiente tabla para determinar cuántas dimensiones debe contener el vector.

Modelo	Dimensiones
Titan G1 Embeddings - Text	1536
Titan V2 Embeddings - Text	1024, 512 y 256
Cohere Embed English	1 024
Cohere Embed Multilingual	1 024

Campo de texto: es el nombre del campo en el que Amazon Bedrock almacena los fragmentos de texto sin procesar.
Bedrock-managed campo de metadatos: el nombre del campo en el que Amazon Bedrock almacena los metadatos relacionados con su base de conocimientos.

Para acceder a su clúster de Redis Enterprise Cloud, debe proporcionar su configuración de seguridad de Redis Enterprise Cloud a Amazon Bedrock mediante AWS Secrets Manager.

Para configurar un secreto para su Redis Enterprise Cloud configuración

Habilite TLS para usar su base de datos con Amazon Bedrock siguiendo los pasos de seguridad de la capa de transporte (TLS).
Sigue los pasos que se indican en Crear un AWS Secrets Manager secreto. Configure las siguientes claves con los valores correspondientes de su configuración de Redis Enterprise Cloud en el secreto:
- username: es el nombre de usuario para acceder a la base de datos de Redis Enterprise Cloud. Para encontrar el nombre de usuario, busque en la sección Seguridad de su base de datos en la Consola de Redis.
- password: es la contraseña para acceder a la base de datos de Redis Enterprise Cloud. Para encontrar la contraseña, busque en la sección Seguridad de su base de datos en la Consola de Redis.
- serverCertificate: el contenido del certificado de la autoridad de certificación de Redis Cloud. Descargue el certificado del servidor desde la Consola de administración de Redis siguiendo los pasos que se indican en Descargar los certificados.
- clientPrivateKey: la clave privada del certificado de la autoridad de certificación de Redis Cloud. Descargue el certificado del servidor desde la Consola de administración de Redis siguiendo los pasos que se indican en Descargar los certificados.
- clientCertificate: la clave pública del certificado de la autoridad de certificación de Redis Cloud. Descargue el certificado del servidor desde la Consola de administración de Redis siguiendo los pasos que se indican en Descargar los certificados.
Después de crear el secreto, anote su ARN. Más adelante, cuando cree su base de conocimientos, introduzca el ARN en el campo ARN secreto de credenciales.

MongoDB Atlas

nota

Si utiliza MongoDB Atlas, acepta AWS autorizar el acceso a la fuente externa designada en su nombre para proporcionarle servicios de almacenamiento vectorial. Usted es responsable de cumplir con las condiciones de terceros aplicables al uso y la transferencia de datos desde el servicio de terceros.

Para obtener documentación detallada sobre cómo configurar un almacén de vectores en MongoDB Atlas, consulte Launch a Fully Managed RAG Workflow With MongoDB Atlas and Amazon Bedrock.

Mientras configura el almacén vectorial, tome nota de la información siguiente, que deberá rellenar al crear una base de conocimientos:

URL del punto de conexión: es la URL del punto de conexión de su clúster de MongoDB Atlas.
Nombre de la base de datos: es el nombre de la base de datos de su clúster de MongoDB Atlas.
Nombre de la colección: es el nombre de la colección en la base de datos.
ARN secreto de credenciales: el nombre de recurso de Amazon (ARN) del secreto que creó y AWS Secrets Manager que contiene el nombre de usuario y la contraseña de un usuario de base de datos de su clúster de MongoDB Atlas. El secreto debe contener claves llamadas username y password.
(Opcional) Clave de Customer-managed KMS para el ARN secreto de sus credenciales: si ha cifrado el ARN secreto de sus credenciales, proporcione la clave de KMS para que Amazon Bedrock pueda descifrarla.

Hay configuraciones adicionales de Asignación de campos que debe proporcionar al crear un índice de MongoDB Atlas:

Nombre del índice vectorial: es el nombre del índice de búsqueda vectorial de MongoDB Atlas de su colección.
Nombre del campo vectorial: es el nombre del campo en el que Amazon Bedrock debe almacenar las incrustaciones vectoriales.
Nombre del campo de texto: es el nombre del campo en el que Amazon Bedrock debe almacenar el texto de los fragmentos sin procesar.
Nombre del campo de metadatos: es el nombre del campo en el que Amazon Bedrock debe almacenar los metadatos de atribución de origen.
Nombre del índice de búsqueda de texto (opcional): el nombre del índice de búsqueda de MongoDB Atlas en la colección.

importante

Si tiene previsto utilizar el filtrado de metadatos con su base de conocimiento de MongoDB Atlas, debe configurar manualmente los filtros en su índice vectorial. El filtrado de metadatos no funciona de forma predeterminada y requiere una configuración adicional en los ajustes del índice vectorial de MongoDB Atlas.

(Opcional) Para que Amazon Bedrock se conecte a su clúster de MongoDB Atlas mediante, consulte Flujo de trabajo de RAG AWS PrivateLink con MongoDB Atlas mediante Amazon Bedrock.

Aviso JavaScript está desactivado o no está disponible en su navegador.

Para utilizar la documentación de AWS, debe estar habilitado JavaScript. Para obtener más información, consulte las páginas de ayuda de su navegador.

Convenciones del documento

Requisitos previos para los datos de la base de conocimientos

Requisitos previos para los clústeres gestionados OpenSearch