添加数据源并开始摄取

创建知识库后，添加包含您的多式联运内容的数据源，然后开始采集作业以处理内容并为其编制索引。

数据源删除行为

在删除策略设置为 RETAIN 的情况下删除数据源时，提取的内容将保留在矢量数据库中，并将继续用于检索。只有在删除数据源后明确同步知识库时，才会删除内容。使用默认 DELETE 策略的数据源将在删除期间自动从矢量数据库和补充存储中删除内容。这样可以确保即使源文件被修改或删除，您的知识库也能继续运行，但您应该注意，使用 RETAIN 策略删除的数据源仍可能有助于搜索结果。

添加数据源

将包含您的多式联运内容的数据源添加到知识库中。

重要

对于 BDA 数据源：只有在 audio/video 支持启动后创建的数据源才能处理音频和视频文件。在此功能发布之前创建的现有 BDA 数据源将继续跳过音频和视频文件。要启用对现有知识库的 audio/video 处理，请创建新的数据源。

Console

从控制台添加数据源

在知识库详细信息页面中，选择添加数据源。
选择 Amazon S3 作为您的数据源类型。
为您的数据源提供名称和描述。
通过提供存储桶 URI 和任何包含前缀，配置包含您的多模式文件的 Amazon S3 位置。
在 “内容解析和分块” 下，配置您的解析和分块方法：

注意
文本嵌入模型将检索限制为纯文本内容，但您可以通过选择 Amazon Bedrock 数据自动化（用于音频、视频和图像）或基础模型作为解析器（用于图像）来启用文本多模式检索。

有三种解析策略可供选择：
- Bedrock 默认解析器：推荐用于纯文本解析。此解析器忽略多模态内容，通常用于多模嵌入模型。
- Bedrock 数据自动化作为解析器：支持将多模态内容解析和存储为文本，支持 PDF、图像、音频和视频文件。
- 基础模型作为解析器：为图像和结构化文档提供高级解析，支持 PDF、图像、表格和视觉丰富的文档。
选择添加数据源以创建数据源。

CLI

要添加数据源，请使用 AWS CLI

为您的多式联运内容创建数据源。发送CreateDataSource请求：


aws bedrock-agent create-data-source \
--knowledge-base-id <knowledge-base-id> \
--cli-input-json file://ds-multimodal.json

对于 Nova 多模态嵌入（无需特殊的解析配置），请使用以下内容：ds-multimodal.json


{
    "dataSourceConfiguration": {
        "type": "S3",
        "s3Configuration": {
            "bucketArn": "arn:aws:s3:::<data-source-bucket>",
            "inclusionPrefixes": ["<folder-path>"]
        }
    },
    "name": "multimodal_data_source",
    "description": "Data source with multimodal content",
    "dataDeletionPolicy": "RETAIN"
}

对于 BDA 解析方法，请使用以下配置：


{
    "dataSourceConfiguration": {
        "type": "S3",
        "s3Configuration": {
            "bucketArn": "arn:aws:s3:::<data-source-bucket>",
            "inclusionPrefixes": ["<folder-path>"]
        }
    },
    "name": "multimodal_data_source_bda",
    "description": "Data source with BDA multimodal parsing",
    "dataDeletionPolicy": "RETAIN",
    "vectorIngestionConfiguration": {
        "parsingConfiguration": {
            "bedrockDataAutomationConfiguration": {
                "parsingModality": "MULTIMODAL"
            }
        }
    }
}

启动提取作业

添加数据源后，启动采集任务来处理和索引您的多模式内容。

删除数据源后正在重新同步

如果您删除数据源并希望将其内容从知识库中删除，则必须明确重新同步知识库：

移除已删除的数据源内容

使用控制台或 DeleteDataSourceAPI 删除数据源。
在所有剩余的数据源上启动新的摄取作业，以更新矢量数据库并从已删除的数据源中移除内容。
确认查询不再返回已删除数据源的结果。

注意

如果不进行重新同步，即使数据源已不存在，来自已删除数据源的内容仍将继续出现在搜索结果中。

Javascript 在您的浏览器中被禁用或不可用。

要使用 Amazon Web Services 文档，必须启用 Javascript。请参阅浏览器的帮助页面以了解相关说明。

文档惯例

创建知识库

测试和查询知识库