添加数据源并开始摄取 - Amazon Bedrock

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

添加数据源并开始摄取

创建知识库后,添加包含您的多式联运内容的数据源,然后开始采集作业以处理内容并为其编制索引。

数据源删除行为

在删除策略设置为 RETAIN 的情况下删除数据源时,提取的内容将保留在矢量数据库中,并将继续用于检索。只有在删除数据源后明确同步知识库时,才会删除内容。使用默认 DELETE 策略的数据源将在删除期间自动从矢量数据库和补充存储中删除内容。这样可以确保即使源文件被修改或删除,您的知识库也能继续运行,但您应该注意,使用 RETAIN 策略删除的数据源仍可能有助于搜索结果。

添加数据源

将包含您的多式联运内容的数据源添加到知识库中。

重要

对于 BDA 数据源:只有在 audio/video 支持启动后创建的数据源才能处理音频和视频文件。在此功能发布之前创建的现有 BDA 数据源将继续跳过音频和视频文件。要启用对现有知识库的 audio/video 处理,请创建新的数据源。

Console
从控制台添加数据源
  1. 在知识库详细信息页面中,选择添加数据源

  2. 选择 Amazon S3 作为您的数据源类型。

  3. 为您的数据源提供名称和描述。

  4. 通过提供存储桶 URI 和任何包含前缀,配置包含您的多模式文件的 Amazon S3 位置。

  5. 在 “内容解析和分块” 下,配置您的解析和分块方法:

    注意

    文本嵌入模型将检索限制为纯文本内容,但您可以通过选择 Amazon Bedrock 数据自动化(用于音频、视频和图像)或基础模型作为解析器(用于图像)来启用文本多模式检索。

    有三种解析策略可供选择:

    • Bedrock 默认解析器:建议用于纯文本解析。此解析器忽略多模态内容,通常用于多模嵌入模型。

    • Bedrock 数据自动化作为解析器:支持将多模态内容解析和存储为文本、支持 PDFs、图像、音频和视频文件。

    • 基础模型作为解析器:为图像和结构化文档、支持文档、图像 PDFs、表格和视觉丰富的文档提供高级解析。

  6. 选择添加数据源以创建数据源。

CLI
要添加数据源,请使用 AWS CLI
  • 为您的多式联运内容创建数据源。发送CreateDataSource请求:

    aws bedrock-agent create-data-source \ --knowledge-base-id <knowledge-base-id> \ --cli-input-json file://ds-multimodal.json

    对于 Nova 多模态嵌入(无需特殊的解析配置),请使用以下内容:ds-multimodal.json

    { "dataSourceConfiguration": { "type": "S3", "s3Configuration": { "bucketArn": "arn:aws:s3:::<data-source-bucket>", "inclusionPrefixes": ["<folder-path>"] } }, "name": "multimodal_data_source", "description": "Data source with multimodal content", "dataDeletionPolicy": "RETAIN" }

    对于 BDA 解析方法,请使用以下配置:

    { "dataSourceConfiguration": { "type": "S3", "s3Configuration": { "bucketArn": "arn:aws:s3:::<data-source-bucket>", "inclusionPrefixes": ["<folder-path>"] } }, "name": "multimodal_data_source_bda", "description": "Data source with BDA multimodal parsing", "dataDeletionPolicy": "RETAIN", "vectorIngestionConfiguration": { "parsingConfiguration": { "bedrockDataAutomationConfiguration": { "parsingModality": "MULTIMODAL" } } } }

启动提取作业

添加数据源后,启动采集任务来处理和索引您的多模式内容。

Console
从控制台开始摄取
  1. 在您的数据源详细信息页面中,选择同步

  2. 在数据源页面上监控同步状态。摄取可能需要几分钟,具体取决于您的多模式文件的大小和数量。

  3. 同步成功完成后,您的多模式内容就可以查询了。

CLI
要开始摄取,请使用 AWS CLI
  1. 启动摄取作业。发送StartIngestionJob请求:

    aws bedrock-agent start-ingestion-job \ --knowledge-base-id <knowledge-base-id> \ --data-source-id <data-source-id>

    将占位符替换为:

    • <knowledge-base-id>-来自知识库创建的 ID

    • <data-source-id>-创建数据源时的 ID

  2. 使用监控摄取任务状态。GetIngestionJob

删除数据源后正在重新同步

如果您删除数据源并希望将其内容从知识库中删除,则必须明确重新同步知识库:

移除已删除的数据源内容
  1. 使用控制台或 DeleteDataSourceAPI 删除数据源。

  2. 在所有剩余的数据源上启动新的摄取作业,以更新矢量数据库并从已删除的数据源中移除内容。

  3. 确认查询不再返回已删除数据源的结果。

注意

如果不进行重新同步,即使数据源已不复存在,来自已删除数据源的内容仍将继续出现在搜索结果中。