レスポンスの詳細度出力設定テキスト形式境界ボックスと生成フィールド追加のファイル形式のメタデータ JSON

ドキュメント

ドキュメントの標準出力では、関心のあるレスポンスの詳細度を設定し、出力に出力形式とテキスト形式を確立できます。有効にできる出力の一部を以下に示します。

注記

BDA は DOCX ファイルを処理できます。DOCX ファイルを処理するために、ファイルは PDF に変換されます。つまり、ページ番号マッピングは DOCX ファイルには機能しません。JSON+ オプションとページの詳細度が選択されている場合、変換された PDF のイメージが出力バケットにアップロードされます。

レスポンスの詳細度

レスポンスの詳細度によって、ドキュメントテキスト抽出から受け取るレスポンスの種類が決まります。詳細度の各レベルは、多くの個別のレスポンスを提供し、ページはすべてのテキストをまとめて抽出し、単語は各単語を個別のレスポンスとして提供します。使用可能な詳細度レベルは次のとおりです。

ページレベルの詳細度 – これはデフォルトで有効になっています。ページレベルの詳細度は、選択したテキスト出力形式でドキュメントの各ページを提供します。PDF を処理する場合、このレベルの詳細度を有効にすると、埋め込まれたハイパーリンクが検出されて返されます。
要素レベルの詳細度 (レイアウト) – これはデフォルトで有効になっています。ドキュメントのテキストを任意の出力形式で、さまざまな要素に分割して提供します。図、表、段落などの要素。これらは、ドキュメントの構造に基づいて論理的な読み取り順序で返されます。PDF を処理する場合、このレベルの詳細度を有効にすると、埋め込まれたハイパーリンクが検出されて返されます。
単語レベルの詳細度 – より広範なコンテキスト分析を使用せずに、個々の単語に関する情報を提供します。各単語とその場所がページに表示されます。

出力設定

出力設定により、ダウンロードした結果の構造が決まります。この設定はコンソール専用です。出力設定のオプションは次のとおりです。

JSON – ドキュメント分析のデフォルトの出力構造。設定からの情報を含む JSON 出力ファイルを提供します。
- 非同期 InvokeDataAutomationAsync API: 非同期 API の JSON 出力は S3 のみです。
- Sync InvokeDataAutomation API: JSON 出力は、を活用して S3 またはインラインに設定できますoutputconfiguration。S3 が選択されている場合、出力 JSON は S3 のみになります (インラインではありません）。S3 が指定されていない場合、Sync API 出力は JSON インラインのみをサポートします。
JSON+files – 非同期 InvokeDataAutomationAsync API でのみ使用できます。この設定を使用すると、JSON 出力と、異なる出力に対応するファイルの両方が生成されます。例えば、この設定ではテキスト抽出全体のテキストファイル、構造マークダウンを含むテキストのマークダウンファイル、およびテキストに含まれる各テーブルの CSV ファイルが提供されます。ドキュメント内の図は、図のトリミングと修正されたイメージとともに保存されます。また、DOCX ファイルを処理していて、このオプションを選択した場合、DOCX ファイルの変換された PDF が出力フォルダにあります。これらの出力は、出力フォルダの standard_output/logical_doc_id/assets/ にあります。

注記

同期 API は、JSON 以外の追加のファイルを出力しません。出力 JSON には、標準出力テキスト形式の一部として選択されたテキスト形式のみが含まれます。Sync API は Figure クロップまたは修正済みイメージを出力しません。
DocX は Sync API ではサポートされていません。

テキスト形式

テキスト形式は、さまざまな抽出オペレーションを介して提供されるさまざまな種類のテキストを特定します。テキスト形式には、次のオプションをいくつでも選択できます。

プレーンテキスト – この設定では、フォーマットやその他のマークダウン要素に留意せずに、テキストのみの出力を提供します。
マークダウン付きのテキスト – 標準出力のデフォルトの出力設定。マークダウン要素が統合されたテキストを提供します。
HTML を使用したテキスト – レスポンスに統合された HTML 要素を含むテキストを提供します。
CSV – ドキュメント内のテーブルの CSV 構造化出力を提供します。この設定では、ドキュメントの他の要素ではなく、テーブルに対してのみレスポンスが提供されます。

境界ボックスと生成フィールド

ドキュメントには、選択した詳細度に基づいて出力を変更する 2 つのレスポンスオプションがあります。「境界ボックス」と「生成フィールド」です。「境界ボックス」を選択すると、コンソールレスポンスのドロップダウンでクリックした要素または単語の視覚的な概要が表示されます。これにより、レスポンスの特定要素をより簡単に追跡できます。「境界ボックス」は、JSON でボックスの 4 つのコーナーの座標として返されます。

「生成フィールド」を選択すると、10 単語バージョンと 250 単語バージョンの両方でドキュメントの概要が生成されます。次に、要素をレスポンスの詳細度として選択すると、ドキュメント内で検出された各図のわかりやすいキャプションが生成されます。図には、チャート、グラフ、イメージなどがあります。

Async

このセクションでは、ドキュメントファイルで API オペレーション InvokeDataAutomationAsync を実行することで受け取るさまざまなレスポンスオブジェクトに焦点を当てます。以下に、レスポンスオブジェクトの各セクションを分類し、サンプルドキュメントの完全な入力済みレスポンスを示します。最初に受け取るセクションは metadata です。


"metadata":{
   "logical_subdocument_id":"XXXX-XXXX-XXXX-XXXX",
   "semantic_modality":"DOCUMENT",
   "s3_bucket":"bucket",
   "s3_prefix":"prefix"
},

上記の最初のセクションでは、ドキュメントに関連付けられたメタデータの概要を示します。このセクションでは、S3 情報に加えて、レスポンスにどのモダリティが選択されたかついても説明します。


"document":{
   "representation":{
      "text":"document text",
      "html":"document title document content",
      "markdown":"# text"
   },
   "description":"document text",
   "summary":"summary text",
   "statistics":{
      "element_count":5,
      "table_count":1,
      "figure_count":1,
      "word_count":1000,
      "line_count":32
   }
},

上記のセクションでは、ドキュメントレベルの詳細度情報を提供します。説明セクションと概要セクションは、ドキュメントに基づいて生成されたフィールドです。表現セクションは、ドキュメントの実際のコンテンツをさまざまなフォーマットスタイルで提供します。最後に、統計には、セマンティック要素の数、図、単語、行の数など、ドキュメントの実際のコンテンツに関する情報が含まれます。

これはテーブルエンティティに関する情報です。InvokeDataAutomationAsync (非同期) リクエストでは、位置情報、さまざまな形式のテキスト、テーブル、および読み取り順序に加えて、S3 バケット内のテーブルの csv 情報とトリミングされたイメージを特に返します。CSV 情報には、さまざまなヘッダー、フッター、タイトルが示されます。イメージは、InvokeDataAutomationAsync リクエストで設定されたプレフィックスの s3 バケットにルーティングされます。InvokeDataAutomation (同期) リクエストでは、S3 バケット内のテーブルの csv およびトリミングされたイメージはサポートされていません。

PDF を処理すると、レスポンスの統計セクションに、ドキュメント内に存在するハイパーリンクの数を示す hyperlinks_count も含まれます。



{
   "id":"entity_id",
   "type":"TEXT",
   "representation":{
      "text":"document text",
      "html":"document title document content",
      "markdown":"# text"
   },
   "reading_order":2,
   "page_indices":[
      0
   ],
   "locations":[
      {
         "page_index":0,
         "bounding_box":{
            "left":0.0,
            "top":0.0,
            "width":0.05,
            "height":0.5
         }
      }
   ],
   "sub_type":"TITLE/SECTION_TITLE/HEADER/FOOTER/PARAGRAPH/LIST/PAGE_NUMBER"
},

これは、レスポンスの TYPE 行で示される、ドキュメント内のテキストに使用されるエンティティです。ここでも表現は、テキストをさまざまなフォーマットで示します。reading_order は、読者がテキストを論理的に見る時期を示します。これは、関連するキーと値に基づくセマンティック順序です。例えば、段落のタイトルをそれぞれの段落に読み取り順に関連付けます。page_indices は、テキストがどのページにあるかを示します。次は位置情報です。レスポンスで有効になっていた場合は、テキスト境界ボックスが表示されます。最後に、エンティティサブタイプがあります。このサブタイプは、検出されたテキストの種類に関するより詳細な情報を提供します。サブタイプの完全な一覧については、「API リファレンス」を参照してください。


{
   "id":"entity_id",
   "type":"TABLE",
   "representation":{
      "html":"table.../table",
      "markdown":"| header | ...",
      "text":"header \t header",
      "csv":"header, header, header\n..."
   },
   "csv_s3_uri":"s3://",
   "headers":[
      "date",
      "amount",
      "description",
      "total"
   ],
   "reading_order":3,
   "title":"Title of the table",
   "footers":[
      "the footers of the table"
   ],
   "crop_images":[
      "s3://bucket/prefix.png",
      "s3://bucket/prefix.png"
   ],
   "page_indices":[
      0,
      1
   ],
   "locations":[
      {
         "page_index":0,
         "bounding_box":{
            "left":0,
            "top":0,
            "width":1,
            "height":1
         }
      },
      {
         "page_index":1,
         "bounding_box":{
            "left":0,
            "top":0,
            "width":1,
            "height":1
         }
      }
   ],
   "sub_type":"TITLE/SECTION_TITLE/HEADER/FOOTER/PARAGRAPH/LIST/PAGE_NUMBER"
},

これはテーブルエンティティに関する情報です。位置情報、テキスト、テーブル、読み取り順序のさまざまな形式に加えて、S3 バケット内のテーブルの csv 情報とトリミングされたイメージを特に返します。CSV 情報には、さまざまなヘッダー、フッター、タイトルが示されます。イメージは、InvokeDataAutomation リクエストで設定されたプレフィックスの s3 バケットにルーティングされます。


{

   "id":"entity_id",

   "type":"FIGURE",

   "summary":"",

   "representation":{

      "text":"document text",

      "html":"document title document content",

      "markdown":"# text"

   },

   "crop_images":[

      "s3://bucket/prefix.png",

      "s3://bucket/prefix.png"

   ],

   "locations":[

      {

         "page_index":0,

         "bounding_box":{

            "left":0,

            "top":0,

            "width":1,

            "height":1

         }

      }

   ],

   "sub_type":"CHART",

   "title":"figure title",

   "rai_flag":"APPROVED/REDACTED/REJECTED",

   "reading_order":1,

   "page_indices":[

      0

   ]

}
,

これは、ドキュメントのグラフやチャートなどの図に使用されるエンティティです。テーブルと同様に、これらの数値はトリミングされ、イメージはプレフィックスに設定された s3 バケットに送信されます。さらに、タイトルテキストの sub_type と図タイトルのレスポンスが返され、それがどのような図であるかを示されます。


"pages":[
   {
      "id":"page_id",
      "page_index":0,
      "detected_page_number":1,
      "representation":{
         "text":"document text",
         "html":"document title document content",
         "markdown":"# text"
      },
      "statistics":{
         "element_count":5,
         "table_count":1,
         "figure_count":1,
         "word_count":1000,
         "line_count":32
      },
      "asset_metadata":{
         "rectified_image":"s3://bucket/prefix.png",
         "rectified_image_width_pixels":1700,
         "rectified_image_height_pixels":2200
      }
   }
],

標準出力で抽出するエンティティの最後はページです。「ページ」は「テキスト」エンティティと同じですが、さらにページ番号が含まれ、検出されたページ番号がページに表示されます。


"text_lines":[
   {
      "id":"line_id",
      "text":"line text",
      "reading_order":1,
      "page_index":0,
      "locations":{
         "page_index":0,
         "bounding_box":{
            "left":0,
            "top":0,
            "width":1,
            "height":1
         }
      }
   }
],


"text_words":[
   {
      "id":"word_id",
      "text":"word text",
      "line_id":"line_id",
      "reading_order":1,
      "page_index":0,
      "locations":{
         "page_index":0,
         "bounding_box":{
            "left":0,
            "top":0,
            "width":1,
            "height":1
         }
      }
   }
]

これらの最後の 2 つの要素は、個々のテキスト部用です。単語レベルの詳細度では各単語のレスポンスが返されますが、デフォルトの出力ではテキスト行のみが報告されます。

Sync

このセクションでは、ドキュメントファイルで API オペレーション InvokeDataAutomation を実行することで受け取る、さまざまなレスポンスオブジェクトに焦点を当てます。以下に、レスポンスオブジェクトの各セクションを分類し、サンプルドキュメントの完全な入力済みレスポンスを示します。最初に受け取るセクションは metadata です。



            "metadata": {
                "logical_subdocument_id": "1",
                "semantic_modality": "DOCUMENT",
                "number_of_pages": X,
                "start_page_index": "1",
                "end_page_index": X,
                "file_type": "PDF"
            },

上記の最初のセクションでは、ドキュメントに関連付けられたメタデータの概要を示します。Synchronous InvokeDataAutomation API は現在ドキュメント分割をサポートしていないため、logical_subdocument_id は常に 1 に等しくなります。


"document":{
   "representation":{
      "text":"document text",
      "html":"document title document content",
      "markdown":"# text"
   },
   "description":"document text",
   "summary":"summary text",
   "statistics":{
      "element_count":5,
      "table_count":1,
      "figure_count":1,
      "word_count":1000,
      "line_count":32
   }
},

注: 非同期 InvokeDataAutomationAsync リクエストとは異なり、同期 InvokeDataAutomation リクエストは、S3 バケット内のテーブルの csv 情報とトリミングされたイメージの返しをサポートしていません。



{
"id":"entity_id",
   "type":"TEXT",
   "representation":{
"text":"document text",
      "html":"document title document content",
      "markdown":"# text"
   },
   "reading_order":2,
   "page_indices":[
      0
   ],
   "locations":[
      {
"page_index":0,
         "bounding_box":{
"left":0.0,
            "top":0.0,
            "width":0.05,
            "height":0.5
         }
      }
   ],
   "sub_type":"TITLE/SECTION_TITLE/HEADER/FOOTER/PARAGRAPH/LIST/PAGE_NUMBER"
},

これはドキュメント内のテキストに使用されるエンティティで、レスポンスの TYPE 行で示されます。ここでも表現はテキストをさまざまな形式で示します。 reading_order は、読者がテキストを論理的に見るタイミングを示します。これは、関連するキーと値に基づくセマンティック順序です。たとえば、段落のタイトルをそれぞれの段落に読み上げ順に関連付けます。 page_indices は、テキストがどのページにあるかを示します。次は位置情報です。レスポンスで有効になっていた場合は、テキスト境界ボックスが表示されます。最後に、エンティティサブタイプがあります。このサブタイプは、検出されたテキストの種類に関するより詳細な情報を提供します。サブタイプの完全な一覧については、「API リファレンス」を参照してください。



{
    "id": "entity_id",
    "type": "TABLE",
    "representation": {
        "html": "table.../table",
        "markdown": "| header | ...",
        "text": "header \t header",
        "csv": "header, header, header\n..."
    },
    "headers": ["date", "amount", "description", "total"],
    "reading_order": 3,
    "title": "Title of the table",
    "footers": ["the footers of the table"],
    "page_indices": [0, 1],
    "locations": [{
        "page_index": 0,
        "bounding_box": {
            "left": 0,
            "top": 0,
            "width": 1,
            "height": 1
        }
    }, {
        "page_index": 1,
        "bounding_box": {
            "left": 0,
            "top": 0,
            "width": 1,
            "height": 1
        }
    }]
},

これはテーブルエンティティに関する情報です。CSV 情報には、さまざまなヘッダー、フッター、タイトルが示されます。


{

    "id": "entity_id",
    "type": "FIGURE",
    "summary": "",
    "representation": {
        "text": "document text",
        "html": "document title document content",
        "markdown": "# text"
    },

    "locations": [

        {
            "page_index": 0,
            "bounding_box": {
                "left": 0,
                "top": 0,
                "width": 1,
                "height": 1
            }
        }
    ],

    "sub_type": "CHART",
    "title": "figure title",
    "reading_order": 1,
    "page_indices": [
        0
    ]
},

これは、ドキュメントのグラフやチャートなどの図に使用されるエンティティです。タイトルテキストの sub_typeとフィギュアタイトルレスポンスが表示され、どのようなフィギュアであるかが示されます。


"pages":[
   "pages":[
   {
"id":"page_id",
      "page_index":0,
      "detected_page_number":1,
      "representation":{
"text":"document text",
         "html":"document title document content",
         "markdown":"# text"
      },
      "statistics":{
"element_count":5,
         "table_count":1,
         "figure_count":1,
         "word_count":1000,
         "line_count":32
      },
      "asset_metadata":{
"rectified_image":"s3://bucket/prefix.png",
         "rectified_image_width_pixels":1700,
         "rectified_image_height_pixels":2200
      }
   }
],


"text_lines":[
   {
      "id":"line_id",
      "text":"line text",
      "reading_order":1,
      "page_index":0,
      "locations":{
         "page_index":0,
         "bounding_box":{
            "left":0,
            "top":0,
            "width":1,
            "height":1
         }
      }
   }
],


"text_words":[
   {
      "id":"word_id",
      "text":"word text",
      "line_id":"line_id",
      "reading_order":1,
      "page_index":0,
      "locations":{
         "page_index":0,
         "bounding_box":{
            "left":0,
            "top":0,
            "width":1,
            "height":1
         }
      }
   }
]

追加のファイル形式のメタデータ JSON

追加のファイル形式フラグから追加のファイルを受け取ると、抽出された修正済みイメージの JSON ファイルを取得します。「BDA」は、ホモグラフィを使用してイメージを 90 度の角度に回転させることで、回転されたイメージを修正します。JSON の例を以下に示します。



        "asset_metadata": {
            "rectified_image": "s3://bucket/prefix.png",
            "rectified_image_width_pixels": 1700,
            "rectified_image_height_pixels": 2200,
            "corners": [
                [
                    0.006980135689736235,
                    -0.061692718505859376
                ],
                [
                    1.10847711439684,
                    0.00673927116394043
                ],
                [
                    0.994479346419327,
                    1.050548828125
                ],
                [
                    -0.11249661383904497,
                    0.9942819010416667
                ]
            ]
        }

「コーナー」は、イメージで検出されたコーナーを表し、ドキュメントのホモグラフィを形成するために使用されます。このホモグラフィは、他のプロパティを維持しながらイメージを回転させるために使用されます。

ブラウザで JavaScript が無効になっているか、使用できません。

AWS ドキュメントを使用するには、JavaScript を有効にする必要があります。手順については、使用するブラウザのヘルプページを参照してください。

ドキュメントの表記規則

Bedrock Data Automation の標準出力

イメージ