Características admitidas Requisitos previos Configuración de la conexión

Conexión a Amazon S3 para la base de conocimiento

importante

Para una precisión de recuperación optimizada y una experiencia gestionada, recomendamos la base de conocimientos gestionada de Amazon Bedrock.

Amazon S3 es un servicio de almacenamiento de objetos que almacena datos como objetos dentro de buckets. Puede conectarse a su bucket de Amazon S3 para su base de conocimientos de Amazon Bedrock mediante la consola de AWS administración de Amazon Bedrock o la CreateDataSourceAPI (consulte los SDK compatibles con Amazon Bedrock y). AWS CLI

Soporte de contenido multimodal

Las fuentes de datos de Amazon S3 admiten contenido multimodal, incluidos archivos de imágenes, audio y vídeo. Para obtener una guía completa sobre cómo trabajar con contenido multimodal, consulte. Cree una base de conocimientos para contenido multimodal

Puede cargar un lote pequeño de archivos en un bucket de Amazon S3 con la consola o la API de Amazon S3. También puede usarlo AWS DataSyncpara cargar varios archivos a S3 de forma continua y transferir archivos de forma programada desde una ubicación local, perimetral, otra nube o AWS almacenamiento.

Actualmente, solo se admiten los buckets de S3 de uso general.

Existen límites en cuanto al número de archivos y MB por archivo que pueden rastrearse. Consulte Cuotas de las bases de conocimientos.

Características admitidas

Campos de metadatos del documento
Prefijos de inclusión
El contenido incremental se sincroniza para añadir, actualizar o eliminar contenido

Requisitos previos

En Amazon S3, asegúrese de:

Tomar nota del URI del bucket de Amazon S3, el nombre de recurso de Amazon (ARN) y el ID de la cuenta de AWS del propietario del bucket. Puede encontrar el URI y el ARN en la sección de propiedades de la consola de Amazon S3. Su bucket debe estar en la misma región que su base de conocimiento de Amazon Bedrock. Debe disponer de permiso para acceder al bucket.

En tu AWS cuenta, asegúrate de:

Incluya los permisos necesarios para conectarse a su fuente de datos en la role/permissions política AWS Identity and Access Management (IAM) de su base de conocimientos. Para obtener información sobre los permisos necesarios para que esta fuente de datos se añada a su IAM función de base de conocimientos, consulte Permisos para acceder a las fuentes de datos.

nota

Si usa la consola, puede crear automáticamente el IAM rol con todos los permisos necesarios como parte de los pasos para crear una base de conocimientos. Una vez que haya configurado el origen de datos y otras configuraciones, el rol de IAM con todos los permisos necesarios se aplicará a su base de conocimientos específica.

Configuración de la conexión

Para conectarse al bucket de Amazon S3, debe proporcionar la información de configuración necesaria para que Amazon Bedrock pueda acceder a sus datos y rastrearlos. También debe seguir los Requisitos previos.

En esta sección se incluye un ejemplo de configuración para este origen de datos.

Para obtener más información sobre los filtros de inclusión o exclusión, los campos de metadatos del documento, la sincronización incremental y su funcionamiento, seleccione lo siguiente:

Puede incluir un archivo independiente que especifique los metadatos del documento fields/attributes para cada archivo de la fuente de datos de Amazon S3 y si desea incluirlos en las incrustaciones al indexar la fuente de datos en el almacén vectorial. Por ejemplo, puede crear un archivo con el siguiente formato, asignarle un nombre fileName.extension.metadata.json y subirlo a su bucket de S3.



{
  "metadataAttributes": {
    "company": {
      "value": {
        "type": "STRING",
        "stringValue": "BioPharm Innovations"
      },
      "includeForEmbedding": true
    },
    "created_date": {
      "value": {
        "type": "NUMBER",
        "numberValue": 20221205
      },
      "includeForEmbedding": true
    },
    "author": {
      "value": {
        "type": "STRING",
        "stringValue": "Lisa Thompson"
      },
      "includeForEmbedding": true
    },
    "origin": {
      "value": {
        "type": "STRING",
        "stringValue": "Overview"
      },
      "includeForEmbedding": true
    }
  }
}

El archivo de metadatos debe usar el mismo nombre que el archivo de documento de origen asociado, con .metadata.json adjunto al final del nombre del archivo. El archivo de metadatos debe estar almacenado en la misma carpeta o ubicación que el archivo de origen en su bucket de Amazon S3. El archivo no debe superar el límite de 10 KB. Para obtener información sobre los tipos de attribute/field datos compatibles y los operadores de filtrado que puede aplicar a sus campos de metadatos, consulte Metadatos y filtrado.

El includeForEmbedding campo controla si se incluye un atributo de metadatos al incrustar el fragmento:

includeForEmbedding: false— Solo el texto fragmentado se incrusta y se convierte en un vector durante la ingestión. Los metadatos siguen almacenados y disponibles para su filtrado, pero no influyen en los resultados de la búsqueda semántica.
includeForEmbedding: true— El par clave-valor de los metadatos se concatena al fragmento de texto antes de la incrustación (por ejemplo,). key1: value1\n\nchunk text Esto significa que la información de los metadatos se incluye en el vector de incrustación, por lo que las consultas que mencionen la clave o el valor de los metadatos contribuirán a la puntuación de similitud y aumentarán la relevancia de la búsqueda. El par clave-valor de los metadatos no se incluye en el fragmento de texto devuelto en los resultados, lo que garantiza que los resultados contengan únicamente el contenido sin procesar de los archivos fuente.

También puedes usar un formato simplificado para los atributos de los metadatos cuando no necesites controlar el comportamiento de incrustación:


{
    "metadataAttributes": {
        "tag": "value"
    }
}

Con el formato simplificado, los metadatos se almacenan para filtrarlos, pero no se incluyen en la incrustación (equivalente aincludeForEmbedding: false).

Puede especificar un prefijo de inclusión, que es un prefijo de ruta de Amazon S3, donde puede usar un archivo o una carpeta de S3 en lugar de todo el bucket para crear el conector de origen de datos de S3.

El conector de la fuente de datos rastrea el contenido nuevo, modificado y eliminado cada vez que la fuente de datos se sincroniza con la base de conocimientos. Amazon Bedrockpuede utilizar el mecanismo de la fuente de datos para realizar un seguimiento de los cambios en el contenido y rastrear el contenido modificado desde la última sincronización. Al sincronizar el origen de datos con la base de conocimientos por primera vez, todo el contenido se rastrea de forma predeterminada.

Para sincronizar la fuente de datos con la base de conocimientos, usa la StartIngestionJobAPI o selecciona tu base de conocimientos en la consola y selecciona Sincronizar en la sección de información general de la fuente de datos.

importante

Todos los datos que sincronice desde el origen de datos estarán disponibles para cualquier persona que tenga permisos bedrock:Retrieve para obtenerlos. Esto también puede incluir los datos con permisos de orígenes de datos controlados. Para obtener más información, consulte Permisos de la base de conocimientos.

Console

Cómo conectar un bucket de Amazon S3 a su base de conocimiento

Siga los pasos que se indican en Creación de una base de conocimiento conectándola a un origen de datos de Bases de conocimiento de Amazon Bedrock y elija Amazon S3 como el origen de datos.
Proporcione un nombre para el origen de datos.
Especifique si el bucket de Amazon S3 está en su AWS cuenta corriente o en otra AWS cuenta. Su bucket debe estar en la misma región que la base de conocimiento.
(Opcional) Si el bucket de Amazon S3 está cifrado con una clave de KMS, incluya la clave. Para obtener más información, consulte Permisos para descifrar su AWS KMS clave para sus fuentes de datos en Amazon S3.
(Opcional) En la sección Análisis y fragmentación del contenido, puede personalizar la forma de analizar y fragmentar los datos. Para obtener más información sobre estas personalizaciones, consulte los siguientes recursos:
- Para obtener más información sobre las opciones de análisis, consulte Opciones de análisis del origen de datos.
- Para obtener más información sobre las estrategias de fragmentación, consulte Funcionamiento de la fragmentación de contenido para las bases de conocimiento.
  
  aviso
  No puede cambiar la configuración de fragmentación después de conectarse al origen de datos.
- Para obtener más información acerca de cómo personalizar la fragmentación de datos y el procesamiento de los metadatos con una función de Lambda, consulte Uso de una función de Lambda de transformación personalizada para definir cómo se ingieren los datos.
En la sección Configuración avanzada, si lo desea, puede configurar lo siguiente:
- Clave de KMS para el almacenamiento de datos transitorios: — Puede cifrar los datos transitorios y, al mismo tiempo, convertirlos en incrustaciones con la clave KMS predeterminada Clave administrada de AWS o con su propia clave KMS. Para obtener más información, consulte Cifrado del almacenamiento de datos transitorios durante la ingesta de datos.
- Política de eliminación de datos: puede eliminar las incrustaciones vectoriales de su origen de datos que están almacenadas en el almacén de vectores de forma predeterminada u optar por conservar los datos del almacén de vectores.
Continúe eligiendo un modelo de incrustación y un almacén de vectores. Para ver los pasos restantes, regrese a Creación de una base de conocimiento conectándola a un origen de datos de Bases de conocimiento de Amazon Bedrock y continúe desde allí después de conectar el origen de datos.

API

El siguiente es un ejemplo de una configuración para conectarse a Amazon S3 para la base de conocimientos de Amazon Bedrock. La fuente de datos se configura mediante la API con el SDK compatible AWS CLI o compatible, como Python. Después de llamar CreateKnowledgeBase, llamas CreateDataSourcepara crear tu fuente de datos con la información de conexióndataSourceConfiguration.

Para obtener información sobre las personalizaciones que puede aplicar a la ingesta mediante la inclusión del campo vectorIngestionConfiguration opcional, consulte Personalización de la ingesta de un origen de datos.

AWS Command Line Interface


aws bedrock-agent create-data-source \
 --name "S3-connector" \
 --description "S3 data source connector for Amazon Bedrock to use content in S3" \
 --knowledge-base-id "your-knowledge-base-id" \
 --data-source-configuration file://s3-bedrock-connector-configuration.json \
 --data-deletion-policy "DELETE" \
 --vector-ingestion-configuration '{"chunkingConfiguration":{"chunkingStrategy":"FIXED_SIZE","fixedSizeChunkingConfiguration":{"maxTokens":100,"overlapPercentage":10}}}'
                    
s3-bedrock-connector-configuration.json
{
    "s3Configuration": {
	    "bucketArn": "arn:aws:s3:::bucket-name",
	    "bucketOwnerAccountId": "000000000000",
	    "inclusionPrefixes": [
	        "documents/"
	    ]
    },
    "type": "S3"	
}

Aviso JavaScript está desactivado o no está disponible en su navegador.

Para utilizar la documentación de AWS, debe estar habilitado JavaScript. Para obtener más información, consulte las páginas de ayuda de su navegador.

Convenciones del documento

Conexión de un origen de datos

Confluence

Conexión a Amazon S3 para la base de conocimiento

importante

Soporte de contenido multimodal

Temas

Características admitidas

Requisitos previos

nota

Configuración de la conexión

importante

Cómo conectar un bucket de Amazon S3 a su base de conocimiento

aviso