응답 세부 수준 출력 설정 날짜 형식 경계 상자 및 생성 필드 추가 파일 형식 메타데이터 JSON

문서

문서에 대한 표준 출력을 사용하면 관심 있는 응답의 세부 수준을 설정하고 출력 형식과 출력의 텍스트 형식을 설정할 수 있습니다. 다음은 활성화할 수 있는 출력 중 일부입니다.

참고

BDA는 DOCX 파일을 처리할 수 있습니다. DOCX 파일을 처리하기 위해 PDF로 변환됩니다. 즉, DOCX 파일에는 페이지 번호 매핑이 작동하지 않습니다. JSON+ 옵션과 페이지 세부 수준을 선택하면 변환된 PDF의 이미지가 출력 버킷에 업로드됩니다.

응답 세부 수준

응답 세분화는 문서 텍스트 추출에서 수신할 응답의 종류를 결정합니다. 각 세부 수준은 점점 더 분리된 응답을 제공합니다. 페이지는 함께 추출된 모든 텍스트를 제공하고 단어는 각 단어를 별도의 응답으로 제공합니다. 사용 가능한 세부 수준은 다음과 같습니다.

페이지 수준 세부 수준 - 기본적으로 활성화됩니다. 페이지 수준 세부 수준은 문서의 각 페이지를 원하는 텍스트 출력 형식으로 제공합니다. PDF를 처리하는 경우이 수준의 세부 수준을 활성화하면 임베디드 하이퍼링크가 감지되고 반환됩니다.
요소 수준 세부 수준(레이아웃) - 기본적으로 활성화됩니다. 문서의 텍스트를 선택한 출력 형식으로 다른 요소로 구분하여 제공합니다. 이러한 요소에는 그림, 테이블 또는 단락이 있습니다. 이는 문서 구조에 따라 논리적 읽기 순서로 반환됩니다. PDF를 처리하는 경우이 수준의 세부 수준을 활성화하면 임베디드 하이퍼링크가 감지되고 반환됩니다.
단어 수준 세부 수준 - 광범위한 컨텍스트 분석을 사용하지 않고 개별 단어에 대한 정보를 제공합니다. 페이지에서 각 단어와 해당 위치를 제공합니다.

출력 설정

출력 설정은 다운로드한 결과를 구성하는 방법을 결정합니다. 이 설정은 콘솔에서만 사용할 수 있습니다. 출력 설정 옵션은 다음과 같습니다.

JSON - 문서 분석을 위한 기본 출력 구조입니다. 구성 설정의 정보가 포함된 JSON 출력 파일을 제공합니다.
- Async InvokeDataAutomationAsync API: Async API에 대한 JSON 출력은 S3 전용입니다.
- Sync InvokeDataAutomation API:를 활용하여 JSON 출력을 S3 또는 인라인으로 설정할 수 있습니다outputconfiguration. S3를 선택하면 출력 JSON이 S3로만 이동합니다(인라인 아님). S3가 제공되지 않은 경우 동기화 API 출력은 JSON 인라인만 지원합니다.
JSON+파일 - Async InvokeDataAutomationAsync API에만 사용할 수 있습니다. 이 설정을 사용하면 JSON 출력과 다른 출력에 해당하는 파일이 모두 생성됩니다. 예를 들어 이 설정은 전체 텍스트 추출을 위한 텍스트 파일, 구조적 마크다운이 있는 텍스트에 대한 마크다운 파일, 텍스트에 있는 각 테이블에 대한 CSV 파일을 제공합니다. 문서 내에 있는 그림과 그림 잘라내기 및 수정된 이미지가 저장됩니다. 또한 DOCX 파일을 처리하고 이 옵션을 선택하면 DOCX 파일의 변환된 PDF가 출력 폴더에 표시됩니다. 이러한 출력은 출력 폴더의 standard_output/logical_doc_id/assets/에 있습니다.

참고

동기화 API는 JSON 이외의 추가 파일을 출력하지 않습니다. 출력 JSON에는 표준 출력 텍스트 형식의 일부로 선택된 텍스트 형식만 포함됩니다. 동기화 API는 그림 잘라내기 또는 수정된 이미지를 출력하지 않습니다.
동기화 API에서는 DocX가 지원되지 않습니다.

날짜 형식

텍스트 형식은 다양한 추출 작업을 통해 제공되는 다양한 종류의 텍스트를 결정합니다. 텍스트 형식에 대해 다음 옵션을 원하는 수만큼 선택할 수 있습니다.

일반 텍스트 - 이 설정은 서식이나 기타 마크다운 요소가 기록되지 않은 텍스트 전용 출력을 제공합니다.
마크다운이 있는 텍스트 - 표준 출력의 기본 출력 설정입니다. 마크다운 요소가 통합된 텍스트를 제공합니다.
HTML이 포함된 텍스트 - 응답에 통합된 HTML 요소가 포함된 텍스트를 제공합니다.
CSV - 문서 내 테이블을 CSV로 구조화한 출력을 제공합니다. 이렇게 하면 문서의 다른 요소가 아니라 테이블에 대한 응답만 제공됩니다.

경계 상자 및 생성 필드

문서의 경우 선택한 세부 수준에 따라 두 가지 응답 옵션으로 출력을 변경할 수 있습니다. 옵션은 경계 상자와 생성형 필드입니다. 경계 상자를 선택하면 콘솔 응답 드롭다운에서 클릭한 요소 또는 단어의 시각적 개요가 제공됩니다. 이렇게 하면 응답의 특정 요소를 더 쉽게 추적할 수 있습니다. 경계 상자는 상자의 네 모서리에 대한 좌표로 JSON에 반환됩니다.

생성형 필드를 선택하면 10단어 및 250단어 버전의 문서 요약이 생성됩니다. 그런 다음 요소를 응답 세부 수준으로 선택하면 문서에서 감지된 각 그림에 대한 설명 캡션을 생성합니다. 그림에는 차트, 그래프, 이미지 등이 포함됩니다.

Async

이 섹션에서는 문서 파일에서 API 작업 InvokeDataAutomationAsync를 실행하여 수신하는 다양한 응답 객체에 중점을 둡니다. 아래에서는 응답 객체의 각 섹션을 분류한 다음 예제 문서에 채워진 전체 응답을 확인합니다. 첫 번째 섹션은 metadata입니다.


"metadata":{
   "logical_subdocument_id":"XXXX-XXXX-XXXX-XXXX",
   "semantic_modality":"DOCUMENT",
   "s3_bucket":"bucket",
   "s3_prefix":"prefix"
},

위의 첫 번째 섹션에서는 문서와 연결된 메타데이터의 개요를 제공합니다. 이 섹션에서는 S3 정보와 함께 응답에 어떤 양식이 선택되었는지도 알려줍니다.


"document":{
   "representation":{
      "text":"document text",
      "html":"document title document content",
      "markdown":"# text"
   },
   "description":"document text",
   "summary":"summary text",
   "statistics":{
      "element_count":5,
      "table_count":1,
      "figure_count":1,
      "word_count":1000,
      "line_count":32
   }
},

위 섹션에서는 문서 수준 세부 정보를 제공합니다. 설명 및 요약 섹션은 문서를 기반으로 생성된 필드입니다. 표현 섹션은 문서의 실제 콘텐츠를 다양한 형식 지정 스타일로 제공합니다. 마지막으로, 통계에는 존재하는 의미 체계 요소 수, 그림, 단어, 줄 수 등 문서의 실제 콘텐츠에 대한 정보가 포함됩니다.

테이블 엔터티에 대한 정보입니다. InvokeDataAutomationAsync(비동기) 요청의 경우 위치 정보, 텍스트, 테이블 및 읽기 순서의 다양한 형식 외에도 특히 S3 버킷에 테이블의 csv 정보와 잘린 이미지를 반환합니다. CSV 정보에는 다양한 헤더, 바닥글 및 제목이 표시됩니다. 이미지는 InvokeDataAutomationAsync 요청에 설정된 접두사의 s3 버킷으로 라우팅됩니다. InvokeDataAutomation(동기화) 요청의 경우 S3 버킷에 있는 테이블의 csv 및 잘린 이미지는 지원되지 않습니다.

PDF를 처리할 때 응답의 통계 섹션에는 문서에 존재하는 하이퍼링크 수를 알려주는 hyperlinks_count도 포함됩니다.



{
   "id":"entity_id",
   "type":"TEXT",
   "representation":{
      "text":"document text",
      "html":"document title document content",
      "markdown":"# text"
   },
   "reading_order":2,
   "page_indices":[
      0
   ],
   "locations":[
      {
         "page_index":0,
         "bounding_box":{
            "left":0.0,
            "top":0.0,
            "width":0.05,
            "height":0.5
         }
      }
   ],
   "sub_type":"TITLE/SECTION_TITLE/HEADER/FOOTER/PARAGRAPH/LIST/PAGE_NUMBER"
},

문서 내 텍스트에 사용되는 엔터티로, 응답의 TYPE 줄로 표시됩니다. 다시 표현하면 텍스트가 다양한 형식으로 표시됩니다. reading_order는 독자가 논리적으로 텍스트를 볼 수 있는 시기를 보여줍니다. 연결된 키와 값을 기반으로 하는 의미 체계 순서입니다. 예를 들어 단락의 제목을 해당 단락과 읽기 순서대로 연결합니다. page_indices는 텍스트가 있는 페이지를 알려줍니다. 다음은 위치 정보이며, 응답에서 활성화된 경우 제공된 텍스트 경계 상자가 있습니다. 마지막으로 엔터티 하위 유형이 있습니다. 이 하위 유형은 감지되는 텍스트 종류에 대한 자세한 정보를 제공합니다. 하위 유형의 전체 목록은 API 참조를 참조하세요.


{
   "id":"entity_id",
   "type":"TABLE",
   "representation":{
      "html":"table.../table",
      "markdown":"| header | ...",
      "text":"header \t header",
      "csv":"header, header, header\n..."
   },
   "csv_s3_uri":"s3://",
   "headers":[
      "date",
      "amount",
      "description",
      "total"
   ],
   "reading_order":3,
   "title":"Title of the table",
   "footers":[
      "the footers of the table"
   ],
   "crop_images":[
      "s3://bucket/prefix.png",
      "s3://bucket/prefix.png"
   ],
   "page_indices":[
      0,
      1
   ],
   "locations":[
      {
         "page_index":0,
         "bounding_box":{
            "left":0,
            "top":0,
            "width":1,
            "height":1
         }
      },
      {
         "page_index":1,
         "bounding_box":{
            "left":0,
            "top":0,
            "width":1,
            "height":1
         }
      }
   ],
   "sub_type":"TITLE/SECTION_TITLE/HEADER/FOOTER/PARAGRAPH/LIST/PAGE_NUMBER"
},

테이블 엔터티에 대한 정보입니다. 위치 정보, 텍스트, 테이블 및 읽기 순서의 다양한 형식 외에도 특히 S3 버킷에 있는 테이블의 csv 정보와 잘린 이미지를 반환합니다. CSV 정보에는 다양한 헤더, 바닥글 및 제목이 표시됩니다. 이미지는 InvokeDataAutomation 요청에 설정된 접두사의 S3 버킷으로 라우팅됩니다.


{

   "id":"entity_id",

   "type":"FIGURE",

   "summary":"",

   "representation":{

      "text":"document text",

      "html":"document title document content",

      "markdown":"# text"

   },

   "crop_images":[

      "s3://bucket/prefix.png",

      "s3://bucket/prefix.png"

   ],

   "locations":[

      {

         "page_index":0,

         "bounding_box":{

            "left":0,

            "top":0,

            "width":1,

            "height":1

         }

      }

   ],

   "sub_type":"CHART",

   "title":"figure title",

   "rai_flag":"APPROVED/REDACTED/REJECTED",

   "reading_order":1,

   "page_indices":[

      0

   ]

}
,

이 엔터티는 문서 그래프 및 차트와 같은 그림에 사용됩니다. 테이블과 마찬가지로 이러한 그림은 잘리고 이미지는 접두사의 S3 버킷 세트로 전송됩니다. 또한 제목 텍스트에 대한 sub_type 및 그림 제목 응답과 그림 종류에 대한 표시를 받게 됩니다.


"pages":[
   {
      "id":"page_id",
      "page_index":0,
      "detected_page_number":1,
      "representation":{
         "text":"document text",
         "html":"document title document content",
         "markdown":"# text"
      },
      "statistics":{
         "element_count":5,
         "table_count":1,
         "figure_count":1,
         "word_count":1000,
         "line_count":32
      },
      "asset_metadata":{
         "rectified_image":"s3://bucket/prefix.png",
         "rectified_image_width_pixels":1700,
         "rectified_image_height_pixels":2200
      }
   }
],

표준 출력을 통해 추출되는 마지막 엔터티는 페이지입니다. 페이지는 텍스트 엔터티와 동일하지만 감지된 페이지 번호가 페이지에 있는 페이지 번호를 추가로 포함합니다.


"text_lines":[
   {
      "id":"line_id",
      "text":"line text",
      "reading_order":1,
      "page_index":0,
      "locations":{
         "page_index":0,
         "bounding_box":{
            "left":0,
            "top":0,
            "width":1,
            "height":1
         }
      }
   }
],


"text_words":[
   {
      "id":"word_id",
      "text":"word text",
      "line_id":"line_id",
      "reading_order":1,
      "page_index":0,
      "locations":{
         "page_index":0,
         "bounding_box":{
            "left":0,
            "top":0,
            "width":1,
            "height":1
         }
      }
   }
]

이 마지막 두 요소는 개별 텍스트 부분을 위한 것입니다. 단어 수준 세분화는 각 단어에 대한 응답을 반환하는 반면, 기본 출력은 텍스트 줄만 보고합니다.

Sync

이 섹션에서는 문서 파일에서 API 작업 InvokeDataAutomation을 실행하여 수신하는 다양한 응답 객체에 중점을 둡니다. 아래에서는 응답 객체의 각 섹션을 분류한 다음 예제 문서에 채워진 전체 응답을 확인합니다. 첫 번째 섹션은 metadata입니다.



            "metadata": {
                "logical_subdocument_id": "1",
                "semantic_modality": "DOCUMENT",
                "number_of_pages": X,
                "start_page_index": "1",
                "end_page_index": X,
                "file_type": "PDF"
            },

위의 첫 번째 섹션에서는 문서와 연결된 메타데이터의 개요를 제공합니다. 동기식 InvokeDataAutomation API는 현재 문서 분할을 지원하지 않으므로 logical_subdocument_id는 항상 1과 같습니다.


"document":{
   "representation":{
      "text":"document text",
      "html":"document title document content",
      "markdown":"# text"
   },
   "description":"document text",
   "summary":"summary text",
   "statistics":{
      "element_count":5,
      "table_count":1,
      "figure_count":1,
      "word_count":1000,
      "line_count":32
   }
},

참고: 비동기식 InvokeDataAutomationAsync 요청과 달리 동기식 InvokeDataAutomation 요청은 S3 버킷에 테이블의 csv 정보 및 잘린 이미지 반환을 지원하지 않습니다.



{
"id":"entity_id",
   "type":"TEXT",
   "representation":{
"text":"document text",
      "html":"document title document content",
      "markdown":"# text"
   },
   "reading_order":2,
   "page_indices":[
      0
   ],
   "locations":[
      {
"page_index":0,
         "bounding_box":{
"left":0.0,
            "top":0.0,
            "width":0.05,
            "height":0.5
         }
      }
   ],
   "sub_type":"TITLE/SECTION_TITLE/HEADER/FOOTER/PARAGRAPH/LIST/PAGE_NUMBER"
},

이는 문서 내의 텍스트에 사용되는 엔터티로, 응답에서 TYPE 줄로 표시됩니다. 다시 표현하면 텍스트가 다양한 형식으로 표시됩니다. read_order는 독자가 논리적으로 텍스트를 볼 수 있는 시기를 보여줍니다. 연결된 키와 값을 기반으로 하는 의미 체계 순서입니다. 예를 들어, 읽기 순서로 단락의 제목을 해당 단락과 연결합니다. page_indices는 텍스트가 있는 페이지를 알려줍니다. 다음은 위치 정보이며, 응답에서 활성화된 경우 제공된 텍스트 경계 상자가 있습니다. 마지막으로 엔터티 하위 유형이 있습니다. 이 하위 유형은 감지되는 텍스트 종류에 대한 자세한 정보를 제공합니다. 하위 유형의 전체 목록은 API 참조를 참조하세요.



{
    "id": "entity_id",
    "type": "TABLE",
    "representation": {
        "html": "table.../table",
        "markdown": "| header | ...",
        "text": "header \t header",
        "csv": "header, header, header\n..."
    },
    "headers": ["date", "amount", "description", "total"],
    "reading_order": 3,
    "title": "Title of the table",
    "footers": ["the footers of the table"],
    "page_indices": [0, 1],
    "locations": [{
        "page_index": 0,
        "bounding_box": {
            "left": 0,
            "top": 0,
            "width": 1,
            "height": 1
        }
    }, {
        "page_index": 1,
        "bounding_box": {
            "left": 0,
            "top": 0,
            "width": 1,
            "height": 1
        }
    }]
},

테이블 엔터티에 대한 정보입니다. CSV 정보에는 다양한 헤더, 바닥글 및 제목이 표시됩니다.


{

    "id": "entity_id",
    "type": "FIGURE",
    "summary": "",
    "representation": {
        "text": "document text",
        "html": "document title document content",
        "markdown": "# text"
    },

    "locations": [

        {
            "page_index": 0,
            "bounding_box": {
                "left": 0,
                "top": 0,
                "width": 1,
                "height": 1
            }
        }
    ],

    "sub_type": "CHART",
    "title": "figure title",
    "reading_order": 1,
    "page_indices": [
        0
    ]
},

이 엔터티는 문서 그래프 및 차트와 같은 그림에 사용됩니다. 제목 텍스트에 대한 sub_type 및 그림 제목 응답과 그림 종류에 대한 표시를 받게 됩니다.


"pages":[
   "pages":[
   {
"id":"page_id",
      "page_index":0,
      "detected_page_number":1,
      "representation":{
"text":"document text",
         "html":"document title document content",
         "markdown":"# text"
      },
      "statistics":{
"element_count":5,
         "table_count":1,
         "figure_count":1,
         "word_count":1000,
         "line_count":32
      },
      "asset_metadata":{
"rectified_image":"s3://bucket/prefix.png",
         "rectified_image_width_pixels":1700,
         "rectified_image_height_pixels":2200
      }
   }
],


"text_lines":[
   {
      "id":"line_id",
      "text":"line text",
      "reading_order":1,
      "page_index":0,
      "locations":{
         "page_index":0,
         "bounding_box":{
            "left":0,
            "top":0,
            "width":1,
            "height":1
         }
      }
   }
],


"text_words":[
   {
      "id":"word_id",
      "text":"word text",
      "line_id":"line_id",
      "reading_order":1,
      "page_index":0,
      "locations":{
         "page_index":0,
         "bounding_box":{
            "left":0,
            "top":0,
            "width":1,
            "height":1
         }
      }
   }
]

추가 파일 형식 메타데이터 JSON

추가 파일 형식 플래그에서 추가 파일을 받으면 추출된 수정 이미지에 대한 JSON 파일을 받게 됩니다. BDA는 호모그래피를 사용해 이미지를 90도 각도로 회전하여 회전된 이미지를 수정합니다. JSON의 예는 다음과 같습니다.



        "asset_metadata": {
            "rectified_image": "s3://bucket/prefix.png",
            "rectified_image_width_pixels": 1700,
            "rectified_image_height_pixels": 2200,
            "corners": [
                [
                    0.006980135689736235,
                    -0.061692718505859376
                ],
                [
                    1.10847711439684,
                    0.00673927116394043
                ],
                [
                    0.994479346419327,
                    1.050548828125
                ],
                [
                    -0.11249661383904497,
                    0.9942819010416667
                ]
            ]
        }

모서리는 이미지에서 감지된 모서리를 나타내며, 문서의 호모그래피를 구성하는 데 사용됩니다. 이 호모그래피는 다른 속성을 유지하면서 이미지를 교체하는 데 사용됩니다.

javascript가 브라우저에서 비활성화되거나 사용이 불가합니다.

AWS 설명서를 사용하려면 Javascript가 활성화되어야 합니다. 지침을 보려면 브라우저의 도움말 페이지를 참조하십시오.

문서 규칙

Bedrock Data Automation의 표준 출력

이미지