数据来源的解析选项

解析是指理解并提取原始数据的内容。Amazon Bedrock 知识库提供了以下选项，用于在摄取期间解析您的数据来源：

Amazon Bedrock 默认解析器 – 仅解析文本文件中的文本，包括 .txt、.md、.html、.doc/.docx、.xls/.xlsx 和 .pdf 文件。此解析器不会产生任何使用费。

注意
由于默认解析器仅输出文本，因此，如果您的文档包含数字、图表、表格或图像，我们建议使用 Amazon Bedrock 数据自动化或基础模型作为解析器，而不是默认解析器。Amazon Bedrock 数据自动化和基础模型可以从您的文档中提取这些元素，并将其作为输出返回。
Amazon Bedrock 知识库提供了以下解析器来解析多模态数据，包括 .pdf 文件中的数字、图表和表格，以及 .jpeg 和 .png 图像文件。这些解析器还可以提取这些数字、图表、表格和图像，并将它们作为文件存储在知识库创建期间指定的 S3 目标中。在知识库检索期间，这些文件可以在响应或来源归因中返回。
- Amazon Bedrock 数据自动化 – 一项完全托管的服务，可有效处理多模态数据，而无需提供任何额外的提示。此解析器的成本取决于文档中的页数或要处理的图像数量。有关此服务的更多信息，请参阅 Amazon Bedrock 数据自动化。
- 基础模型 – 使用基础模型处理多模态数据。此解析器为您提供了选项，以自定义用于数据提取的默认提示。此解析器的成本取决于基础模型处理的输入和输出词元的数量。有关支持解析 Amazon Bedrock 知识库数据的模型列表，请参阅用于解析的支持的区域和模型。

重要

如果您选择 Amazon Bedrock 数据自动化或基础模型作为解析器，那么即使 .pdf 文件仅包含文本，也将使用您选择的方法来解析数据来源中的所有 .pdf 文件。不会使用默认解析器来解析这些 .pdf 文件。您的账户会因使用 Amazon Bedrock 数据自动化或基础模型解析这些文件而产生费用。

在选择如何解析数据时，请考虑以下事项：

无论数据是纯文本，还是包含多模态数据，如图像、图形和图表，您是否希望知识库能够查询这些数据。
您是否希望可选择自定义提示，以指示模型如何解析数据。
解析器的成本。Amazon Bedrock 数据自动化采用按页定价，而基础模型解析器则根据输入和输出词元收费。有关更多信息，请参阅 Amazon Bedrock 定价。
文件总大小限制。使用基础模型作为解析器时，所有文件的总文件大小不得超过 100 GB。

要了解如何配置知识库的解析方式，请参阅将数据来源连接到知识库中的数据来源的连接配置。

Javascript 在您的浏览器中被禁用或不可用。

要使用 Amazon Web Services 文档，必须启用 Javascript。请参阅浏览器的帮助页面以了解相关说明。

文档惯例

内容分块

使用 Lambda 函数进行数据摄取

数据来源的解析选项

注意

重要