数据来源的解析选项 - Amazon Bedrock

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

数据来源的解析选项

解析是指理解并提取原始数据的内容。Amazon Bedrock 知识库提供了以下选项,用于在摄取期间解析您的数据来源:

  • Amazon Bedrock 默认解析器 – 仅解析文本文件中的文本,包括 .txt、.md、.html、.doc/.docx、.xls/.xlsx 和 .pdf 文件。此解析器不会产生任何使用费。

    注意

    由于默认解析器仅输出文本,因此,如果您的文档包含数字、图表、表格或图像,我们建议使用 Amazon Bedrock 数据自动化或基础模型作为解析器,而不是默认解析器。Amazon Bedrock 数据自动化和基础模型可以从您的文档中提取这些元素,并将其作为输出返回。

  • Amazon Bedrock 知识库提供了以下解析器来解析多模态数据,包括 .pdf 文件中的数字、图表和表格,以及 .jpeg 和 .png 图像文件。这些解析器还可以提取这些数字、图表、表格和图像,并将它们作为文件存储在知识库创建期间指定的 S3 目标中。在知识库检索期间,这些文件可以在响应或来源归因中返回。

    • Amazon Bedrock 数据自动化 – 一项完全托管的服务,可有效处理多模态数据,而无需提供任何额外的提示。此解析器的成本取决于文档中的页数或要处理的图像数量。有关此服务的更多信息,请参阅 Amazon Bedrock 数据自动化

    • 基础模型 – 使用基础模型处理多模态数据。此解析器为您提供了选项,以自定义用于数据提取的默认提示。此解析器的成本取决于基础模型处理的输入和输出词元的数量。有关支持解析 Amazon Bedrock 知识库数据的模型列表,请参阅用于解析的支持的区域和模型

重要

如果您选择 Amazon Bedrock 数据自动化或基础模型作为解析器,那么即使 .pdf 文件仅包含文本,也将使用您选择的方法来解析数据来源中的所有 .pdf 文件。不会使用默认解析器来解析这些 .pdf 文件。您的账户会因使用 Amazon Bedrock 数据自动化或基础模型解析这些文件而产生费用。

在选择如何解析数据时,请考虑以下事项:

  • 无论数据是纯文本,还是包含多模态数据,如图像、图形和图表,您是否希望知识库能够查询这些数据。

  • 您是否希望可选择自定义提示,以指示模型如何解析数据。

  • 解析器的成本。Amazon Bedrock 数据自动化采用按页定价,而基础模型解析器则根据输入和输出词元收费。有关更多信息,请参阅 Amazon Bedrock 定价

  • 文件总大小限制。使用基础模型作为解析器时,所有文件的总文件大小不得超过 100 GB。

要了解如何配置知识库的解析方式,请参阅将数据来源连接到知识库中的数据来源的连接配置。