プロジェクト使用中にドキュメントを分割する - Amazon Bedrock

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

プロジェクト使用中にドキュメントを分割する

Amazon Bedrock Data Automation (BDA) は、Amazon Bedrock API の使用時でのドキュメントの分割をサポートしています。分割を有効にすると、BDA は複数の論理ドキュメントを含む PDF を取得し、処理に向けて個別のドキュメントに分割して処理できます。

分割が完了すると、分割済みのドキュメントの各セグメントは個別に処理されます。つまり、入力ドキュメントにはさまざまなタイプのドキュメントを含めることができます。例えば、3 つの銀行取引明細書と 1 つの W2 を含む PDF がある場合、個別に処理するために、4 つの別々のドキュメントへの分割が試行されます。

BDA 自動分割は、最大 3,000 ページのファイル、個別のドキュメントは最長 20 ページまでサポートします。

ドキュメントを分割するオプションは、デフォルトでオフになっていますが、API の使用時にオンに切り替えることができます。分割機能を有効にしてプロジェクトを作成する例は、以下のとおりです。省略記号は、プロジェクトに提供された追加のブループリントを表します。

response = client.create_data_automation_project( projectName=project_name, projectDescription="Provide a project description", projectStage='LIVE', standardOutputConfiguration=output_config, customOutputConfiguration={ 'blueprints': [ { 'blueprintArn': Blueprint ARN, 'blueprintStage': 'LIVE' }, ... ] }, overrideConfiguration={'document': {'splitter': {'state': 'ENABLED'}}} )

分割プロセスを有効にする部分は、overrideConfiguration の行です。この行は分割機能を設定し、同じファイル内で複数のドキュメントを渡すことができるようにします。

ドキュメントは、ドキュメント内のセマンティック境界によって分割されます。

ドキュメントの分割は、ブループリントの適用には依存せずに処理され、分割されたドキュメントは、最も近いブループリントとマッチングされます。BDA がブループリントとマッチングする方法の詳細については、「ブループリントのマッチングを理解する」を参照してください。

ブループリントのマッチングを理解する

ブループリントのマッチングは、次の要素に基づいて行われます。

  • ブループリント名

  • ブループリントの説明

  • ブループリントのフィールド

ドキュメントを処理する際に、マッチング先の複数のブループリントを指定できます。これにより、適切なブループリントを使用して、さまざまなドキュメントタイプを処理できます。データオートメーション API を呼び出す際に、複数のブループリント ID を指定することができます。BDA は、各ドキュメントを最適なブループリントとマッチングしようとします。これにより、多種のドキュメントタイプを単一のバッチで処理できます。これは、ドキュメントのタイプが異なることが予想される場合 (銀行取引明細書、請求書、パスポートなど) に役に立ちます。

ドキュメント形式が非常に異なるため、または特殊なプロンプトが必要なため、個別のブループリントが必要な場合は、ドキュメントタイプごとに 1 つのブループリントを作成すると、マッチングに役立ちます。有益なブループリントを作成する方法の詳細については、「ブループリントを作成するためのベストプラクティス」を参照してください。

ブループリントを作成するためのベストプラクティス

ブループリントを最大限に活用するには、次のベストプラクティスに従ってください。

  • マッチングに役立つように、ブループリントの名前と説明を明確かつ詳細に記述します。

  • 関連するブループリントを複数提供すると、BDA は最適なものを選択できます。ドキュメントの形式が大幅に異なる場合は、それぞれ個別のブループリントを作成します。

  • 最大限の正解率が必要な場合は、ベンダーまたはドキュメントのソースごとに専用のブループリントを作成することを検討してください。

  • プロジェクトに同じタイプの 2 つのブループリント (2 つの W2 ブループリントなど) を含めないでください。ドキュメントの処理には、ドキュメント自体とブループリントの情報が使用されます。単一のプロジェクトに同じタイプの複数のブループリントを含めると、パフォーマンスが低下します。

BDA は、ドキュメント分割と複数のブループリントのマッチングを活用することで、各ドキュメントに最も適切な抽出ロジックを適用しながら、さまざまなドキュメントセットをより柔軟に処理することができます。