Conexión de una base de conocimiento a un origen de datos personalizado

importante

Para una precisión de recuperación optimizada y una experiencia gestionada, recomendamos la base de conocimientos gestionada de Amazon Bedrock.

En lugar de elegir un servicio de origen de datos compatible, puede conectarse a un origen de datos personalizado para disfrutar de las siguientes ventajas:

Flexibilidad y control sobre los tipos de datos a los que desea que tenga acceso su base de conocimiento
La capacidad de utilizar las operaciones de la API KnowledgeBaseDocuments para ingerir o eliminar documentos directamente sin necesidad de sincronizar los cambios
La capacidad de ver los documentos de su origen de datos directamente a través de la consola o la API de Amazon Bedrock
La posibilidad de cargar documentos a la fuente de datos directamente en la fuente de datos Consola de administración de AWS o añadirlos en línea.
La capacidad de añadir metadatos directamente a cada documento para añadir o actualizar un documento en el origen de datos Para obtener más información sobre cómo utilizar los metadatos para filtrar al recuperar información de un origen de datos, consulte la pestaña Metadatos y filtrado en Configuración y personalización de las consultas y la generación de respuestas.

Soporte de contenido multimodal

Las fuentes de datos personalizadas admiten contenido multimodal, incluidos archivos de imágenes, audio y vídeo de hasta 10 MB codificados en base64. Para obtener una guía completa sobre cómo trabajar con contenido multimodal, consulte. Cree una base de conocimientos para contenido multimodal

Para conectar una base de conocimientos a una fuente de datos personalizada, envíe una CreateDataSourcesolicitud a un punto límite de tiempo de compilación de Agents for Amazon Bedrock. Especifique el knowledgeBaseId de la base de conocimiento a la que desea conectarse, asigne un name al origen de datos y especifique el campo type en dataSourceConfiguration como CUSTOM. A continuación, se muestra un ejemplo mínimo para crear este origen de datos:


PUT /knowledgebases/KB12345678/datasources/ HTTP/1.1
Content-type: application/json

{
    "name": "MyCustomDataSource",
    "dataSourceConfiguration": {
        "type": "CUSTOM"
    }
}

Puede incluir cualquiera de los siguientes campos opcionales para configurar el origen de datos:

Campo	Caso de uso
description	Proporcionar una descripción del origen de datos.
clientToken	Para garantizar que la solicitud de la API se complete solo una vez. Para obtener más información, consulte Ensuring idempotency.
servidor SideEncryptionConfiguration	Especificar una clave de KMS personalizada para el almacenamiento de datos transitorios y, al mismo tiempo, convertir los datos en incrustaciones. Para obtener más información, consulte Cifrado del almacenamiento de datos transitorios durante la ingesta de datos
datos DeletionPolicy	Configurar lo que se debe hacer con las incrustaciones vectoriales del origen de datos en el almacén de vectores si se elimina el origen de datos. Especifique `RETAIN` si desea conservar los datos en el almacén de vectores o la opción predeterminada `DELETE` para eliminarlos.
vector IngestionConfiguration	Configurar las opciones de ingesta del origen de datos. Para obtener más información, consulte las secciones siguientes.

El vectorIngestionConfiguration campo se asigna a un VectorIngestionConfigurationobjeto que contiene los siguientes campos:

chunkingConfiguration: para configurar la estrategia que se utilizará para fragmentar los documentos del origen de datos. Para obtener más información sobre las estrategias de fragmentación, consulte Funcionamiento de la fragmentación de contenido para las bases de conocimiento.
parsingConfiguration: para configurar la estrategia que se utilizará para analizar el origen de datos. Para obtener más información sobre las opciones de análisis, consulte Opciones de análisis del origen de datos.
customTransformationConfiguration : para personalizar la forma en que se transforman los datos y aplicar una función Lambda para una mayor personalización. Para obtener más información acerca de cómo personalizar la fragmentación de datos y el procesamiento de los metadatos con una función de Lambda, consulte Uso de una función de Lambda de transformación personalizada para definir cómo se ingieren los datos.

Tras configurar el origen de datos personalizado, puede añadirle documentos e ingerirlos directamente en la base de conocimiento. A diferencia de otros orígenes de datos, no es necesario sincronizar un origen de datos personalizado. Para obtener información sobre cómo ingerir documentos directamente, consulte Ingesta de cambios directamente en una base de conocimiento.

Aviso JavaScript está desactivado o no está disponible en su navegador.

Para utilizar la documentación de AWS, debe estar habilitado JavaScript. Para obtener más información, consulte las páginas de ayuda de su navegador.

Convenciones del documento

Web Crawler de

Personalización de la ingesta de un origen de datos