

本文属于机器翻译版本。若本译文内容与英语原文存在差异，则一律以英文原文为准。

# 在使用项目时拆分文档
<a name="bda-document-splitting"></a>

Amazon Bedrock 使用 Amazon Bedrock API 时，数据自动化 (BDA) 支持拆分文档。启用拆分后，BDA 可以获取包含多个逻辑文档的 PDF，然后将其拆分为单独的文档以便处理。

拆分完成后，所拆分文档的每个片段将独立处理。这意味着输入文档可以包含不同的文档类型。例如，如果您有一个 PDF 文件，其中包含 3 份银行对账单和 1 份 W2，则拆分功能会尝试将文件分为 4 个单独的文档，然后分别进行处理。

BDA 自动拆分支持最多 3000 页文件，支持的单个文档最多为 20 页。

默认情况下，拆分文档的选项处于关闭状态，但在使用 API 时可以将其启用。以下示例创建启用了拆分器的项目。省略号表示为项目提供的其他蓝图。

```
   response = client.create_data_automation_project(
    projectName=project_name,
    projectDescription="Provide a project description",
    projectStage='LIVE',
    standardOutputConfiguration=output_config,
    customOutputConfiguration={
    'blueprints': [
        {
        'blueprintArn': Blueprint ARN,
        'blueprintStage': 'LIVE'
        },
        ...
        ]
        },
         overrideConfiguration={'document': {'splitter': {'state': 'ENABLED'}}}
)
```

启用拆分过程的部分在 overrideConfiguration 行中。此行设置拆分器，让您可在同一个文件中传递多个文档。

文档按照其中的语义边界进行拆分。

文档拆分与蓝图应用独立进行，拆分后的文档将与最接近的蓝图匹配。有关 BDA 如何匹配蓝图的更多信息，请参阅[了解蓝图匹配](#bda-blueprint-matching)。

## 了解蓝图匹配
<a name="bda-blueprint-matching"></a>

蓝图匹配基于以下要素：
+  蓝图名称 
+  蓝图描述 
+  蓝图字段 

处理文档时，您可以提供多个蓝图来进行匹配。这样便可以使用合适的蓝图处理不同的文档类型。 IDs 在调用数据自动化 API 时，您可以提供多个蓝图，BDA 会尝试将每个文档与最合适的蓝图进行匹配。这样便能在单个批次中处理混合文档类型。当文档可能会有不同类型的文件（例如银行对账单、发票、护照）时，这很有用。

如果由于文档格式差异很大或者需要专用提示而需要单独的蓝图时，为每种文档类型创建一个蓝图有助于进行匹配。有关创建有用蓝图的更多信息，请参阅[创建蓝图的最佳实践](#bda-blueprint-best-practices)。

## 创建蓝图的最佳实践
<a name="bda-blueprint-best-practices"></a>

 要想充分发挥蓝图的作用，请遵循以下最佳实践：
+ 蓝图的名称和描述要明确而详细，这样有助于进行匹配 
+ 提供多个相关的蓝图，以便让 BDA 选择最佳匹配。为差异很大的文档格式创建单独的蓝图 
+ 如果你需要最高的精度，可以考虑为每个 vendor/document 来源创建专门的蓝图
+ 不要在一个项目中包含两个相同类型的蓝图（例如两个 W2 蓝图）。在处理文档时会使用来自文档本身和蓝图的信息，一个项目中包含多个相同类型的蓝图会导致性能下降。

利用文档拆分和多个蓝图匹配，BDA 可以更灵活地处理不同的文档集，同时对每个文档应用最合适的提取逻辑。