

本文為英文版的機器翻譯版本，如內容有任何歧義或不一致之處，概以英文版為準。

# 使用專案時分割文件
<a name="bda-document-splitting"></a>

Amazon Bedrock 資料自動化 (BDA) 支援在使用 Amazon Bedrock API 時分割文件。啟用分割功能後，BDA 可以將包含多個邏輯文件的 PDF 分為單獨的文件進行處理。

分割完成後，分割文件的每個段落都會獨立處理。這表示輸入文件可以包含不同的文件類型。例如，如果您有包含 3 個銀行對帳單和一個 W2 的 PDF，分割會嘗試將其分割成 4 個單獨的文件進行處理。

BDA 自動分割支援最多 3000 頁的檔案，並支援每個文件最多 20 頁。

分割文件的選項預設為關閉，但在使用 API 時可以開啟。以下是在啟用分割器的情況下建立專案的範例。省略符號代表提供給專案的其他藍圖。

```
   response = client.create_data_automation_project(
    projectName=project_name,
    projectDescription="Provide a project description",
    projectStage='LIVE',
    standardOutputConfiguration=output_config,
    customOutputConfiguration={
    'blueprints': [
        {
        'blueprintArn': Blueprint ARN,
        'blueprintStage': 'LIVE'
        },
        ...
        ]
        },
         overrideConfiguration={'document': {'splitter': {'state': 'ENABLED'}}}
)
```

啟用分割程序的部分是 overrideConfiguration 行。此行會設定分割器，並允許您在相同檔案中傳遞多個文件。

文件會依文件中的語意邊界分割。

文件分割獨立於套用藍圖之外發生，而分割的文件將與最接近的藍圖進行比對。如需 BDA 如何符合藍圖的詳細資訊，請參閱 [了解藍圖比對](#bda-blueprint-matching)。

## 了解藍圖比對
<a name="bda-blueprint-matching"></a>

藍圖比對是根據下列元素：
+  藍圖名稱 
+  藍圖描述 
+  藍圖欄位 

處理文件時，您可以提供多個要比對的藍圖。這允許使用適當的藍圖處理不同的文件類型。您可以在調用資料自動化 API 時提供多個藍圖 ID，BDA 會嘗試將每個文件與最適合的藍圖配對。這允許在單一批次中處理混合文件類型。當文件預期為不同類型 (例如銀行對帳單、發票、護照) 時，這很有用。

如果您需要單獨的藍圖，因為文件格式非常不同或需要特殊提示，則每個文件類型建立一個藍圖有助於比對。如需建立實用藍圖的詳細資訊，請參閱 [建立藍圖的最佳實務](#bda-blueprint-best-practices)。

## 建立藍圖的最佳實務
<a name="bda-blueprint-best-practices"></a>

 請遵循下列最佳實務，以充分利用您的藍圖：
+ 在藍圖名稱和描述中明確且詳細，以協助比對 
+ 提供多個相關藍圖可讓 BDA 選擇最佳相符項目。為顯著不同的文件格式建立單獨的藍圖 
+ 如果您需要最高準確性，請考慮為每個廠商/文件來源建立專用藍圖
+ 請勿在專案中包含兩個相同類型的藍圖 (例如兩個 W2 藍圖)。文件本身和藍圖的資訊將用於處理文件，在一個專案中包含多個相同類型的藍圖會導致效能變差。

透過利用文件分割和多個藍圖比對，BDA 可以更靈活地處理各種文件集，同時將最適當的擷取邏輯套用至每個文件。