本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
在使用项目时拆分文档
使用 Amazon Bedrock API 时,Amazon Bedrock 数据自动化(BDA)功能支持拆分文档。启用拆分后,BDA 可以获取包含多个逻辑文档的 PDF,然后将其拆分为单独的文档以便处理。
拆分完成后,所拆分文档的每个片段将独立处理。这意味着输入文档可以包含不同的文档类型。例如,如果您有一个 PDF 文件,其中包含 3 份银行对账单和 1 份 W2,则拆分功能会尝试将文件分为 4 个单独的文档,然后分别进行处理。
BDA 自动拆分支持最多 3000 页文件,支持的单个文档最多为 20 页。
默认情况下,拆分文档的选项处于关闭状态,但在使用 API 时可以将其启用。以下示例创建启用了拆分器的项目。省略号表示为项目提供的其他蓝图。
response = client.create_data_automation_project( projectName=project_name, projectDescription="Provide a project description", projectStage='LIVE', standardOutputConfiguration=output_config, customOutputConfiguration={ 'blueprints': [ { 'blueprintArn':Blueprint ARN, 'blueprintStage': 'LIVE' }, ... ] }, overrideConfiguration={'document': {'splitter': {'state': 'ENABLED'}}} )
启用拆分过程的部分在 overrideConfiguration 行中。此行设置拆分器,让您可在同一个文件中传递多个文档。
文档按照其中的语义边界进行拆分。
文档拆分与蓝图应用独立进行,拆分后的文档将与最接近的蓝图匹配。有关 BDA 如何匹配蓝图的更多信息,请参阅了解蓝图匹配。
了解蓝图匹配
蓝图匹配基于以下要素:
-
蓝图名称
-
蓝图描述
-
蓝图字段
处理文档时,您可以提供多个蓝图来进行匹配。这样便可以使用合适的蓝图处理不同的文档类型。在调用数据自动化功能 API 时,您可以提供多个蓝图 ID,BDA 会尝试将每个文档与最合适的蓝图进行匹配。这样便能在单个批次中处理混合文档类型。当文档可能会有不同类型的文件(例如银行对账单、发票、护照)时,这很有用。
如果由于文档格式差异很大或者需要专用提示而需要单独的蓝图时,为每种文档类型创建一个蓝图有助于进行匹配。有关创建有用蓝图的更多信息,请参阅创建蓝图的最佳实践。
创建蓝图的最佳实践
要想充分发挥蓝图的作用,请遵循以下最佳实践:
-
蓝图的名称和描述要明确而详细,这样有助于进行匹配
-
提供多个相关的蓝图,以便让 BDA 选择最佳匹配。为差异很大的文档格式创建单独的蓝图
-
如果您需要尽可能提高准确性,可以考虑为每个供应商/文档来源创建专用蓝图
-
不要在一个项目中包含两个相同类型的蓝图(例如两个 W2 蓝图)。在处理文档时会使用来自文档本身和蓝图的信息,一个项目中包含多个相同类型的蓝图会导致性能下降。
利用文档拆分和多个蓝图匹配,BDA 可以更灵活地处理不同的文档集,同时对每个文档应用最合适的提取逻辑。