将知识库连接到自定义数据来源 - Amazon Bedrock

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

将知识库连接到自定义数据来源

您可以不必选择支持的数据来源服务,而是连接到自定义数据来源以获得以下优势:

  • 更好的灵活性,并可控制您希望知识库访问的数据类型。

  • 能够使用 KnowledgeBaseDocuments API 操作直接摄取或删除文档而无需同步更改。

  • 能够直接通过 Amazon Bedrock 控制台或 API 查看数据来源中的文档。

  • 能够直接在中将文档上传到数据源AWS 管理控制台或以内联方式添加文档。

  • 能够在数据来源中添加或更新文档时,直接向每个文档添加元数据。有关在从数据来源检索信息时如何使用元数据进行筛选的更多信息,请参阅配置和自定义查询与响应生成中的元数据和筛选标签页。

多模式内容支持

自定义数据源支持多模式内容,包括最大 10MB base64 编码的图像、音频和视频文件。有关使用多式联运内容的全面指导,请参阅为多模式内容建立知识库

要将知识库连接到自定义数据源,请使用适用于 Amazon Bedrock 构建时终端节点的代理发送CreateDataSource请求。指定知识库要连接到的 knowledgeBaseId,向数据来源提供 name,然后将 dataSourceConfiguration 中的 type 字段指定为 CUSTOM。以下是创建此数据来源的极简示例:

PUT /knowledgebases/KB12345678/datasources/ HTTP/1.1 Content-type: application/json { "name": "MyCustomDataSource", "dataSourceConfiguration": { "type": "CUSTOM" } }

您可以包括以下任一可选字段来配置数据来源:

字段 使用案例
描述 提供数据来源的描述。
clientToken 用于确保 API 请求仅完成一次。有关更多信息,请参阅确保幂等性
serverSideEncryption配置 在将数据转换为嵌入时,为临时数据存储指定自定义 KMS 密钥。有关更多信息,请参阅 加密数据提取期间的临时数据存储
dataDeletionPolicy 配置在删除数据来源后,如何处理向量存储中数据来源的向量嵌入。指定 RETAIN 以便将数据保留在向量存储中,或者使用默认选项 DELETE 来删除这些数据。
vectorIngestionConfiguration 配置数据来源摄取选项。有关更多信息,请参阅下文。

vectorIngestionConfiguration字段映射到包含以下字段的VectorIngestionConfiguration对象:

设置自定义数据来源后,您可以向其中添加文档,然后直接将其摄取到知识库中。与其他数据来源不同,您无需同步自定义数据来源。要了解如何直接摄取文档,请参阅将更改直接摄取到知识库中