Granularidade da resposta Configurações da saída Formato de texto Caixas delimitadoras e campos generativos Metadados adicionais de formato de arquivo JSON

Documentos do

A saída padrão para documentos permite definir a granularidade da resposta pela qual você tem interesse, bem como estabelecer o formato de saída e o formato de texto na saída. Abaixo são apresentadas algumas das saídas que você pode habilitar.

nota

A BDA pode processar arquivos DOCX. Para processar arquivos DOCX, eles são convertidos em PDFs. Isso significa que o mapeamento do número da página não funcionará para arquivos DOCX. As imagens do convertido PDFs serão enviadas para seu bucket de saída se a opção JSON+ e a granularidade da página estiverem selecionadas.

Granularidade da resposta

A granularidade da resposta determina o tipo de resposta que você deseja receber da extração do texto do documento. Cada nível de granularidade fornece respostas cada vez mais distintas. A página apresenta todo o texto extraído em conjunto e a palavra apresenta cada palavra como uma resposta separada. Os níveis de granularidade disponíveis são:

Granularidade em nível de página: está habilitado por padrão. A granularidade em nível de página apresenta cada página do documento no formato de saída de texto de sua preferência. Se você estiver processando um PDF, ao habilitar esse nível de granularidade, serão detectados e exibidos hiperlinks incorporados.
Granularidade em nível de elemento (layout): está habilitado por padrão. Apresenta o texto do documento no formato de saída de sua preferência, separado em elementos diferentes. Esses elementos são figuras, tabelas ou parágrafos. Eles são exibidos em ordem de leitura lógica com base na estrutura do documento. Se você estiver processando um PDF, ao habilitar esse nível de granularidade, serão detectados e exibidos hiperlinks incorporados.
Granularidade em nível de palavra: apresenta informações sobre palavras individuais sem usar uma análise de contexto mais ampla. Apresenta cada palavra e a respectiva localização na página.

Configurações da saída

As configurações de saída determinam a forma como os resultados baixados serão estruturados. Essa configuração é exclusiva para o console. As opções para configurações de saída são:

JSON: a estrutura de saída padrão para análise de documentos. Apresenta um arquivo de saída JSON com as informações de suas configurações.
- API assíncrona: a saída JSON para a InvokeDataAutomationAsyncAPI assíncrona é somente S3.
- InvokeDataAutomationAPI de sincronização: a saída JSON pode ser definida como S3 ou em linha por meio da alavancagem. outputconfiguration Se S3 for selecionado, o JSON de saída será direcionado somente para o S3 (não embutido). Se o S3 não for fornecido, a saída da API de sincronização suportará somente JSON embutido.
JSON+Files — Disponível somente para API assíncrona. InvokeDataAutomationAsync O uso dessa configuração gera uma saída JSON e arquivos que correspondem a saídas diferentes. Por exemplo, essa configuração fornece um arquivo de texto para a extração geral do texto, um arquivo Markdown para o texto com marcação estrutural e arquivos CSV para cada tabela encontrada no texto. As figuras localizadas dentro de um documento serão salvas, bem como recortes de figuras e imagens retificadas. Além disso, se você estiver processando um arquivo DOCX e tiver essa opção selecionada, o PDF convertido do seu arquivo DOCX estará na pasta de saída. Essas saídas estão localizadas em standard_output/logical_doc_id/assets/ na sua pasta de saída.

nota

A API de sincronização não gera nenhum arquivo adicional além do JSON. O JSON de saída contém somente o formato de texto selecionado como parte do formato de texto de saída padrão. A API de sincronização não produzirá recortes de figuras ou imagens retificadas.
DocX não é compatível com a API de sincronização.

Formato de texto

O formato do texto determina os diferentes tipos de texto que serão fornecidos por meio de várias operações de extração. Selecione qualquer uma das opções a seguir para o formato de texto.

Texto simples: essa configuração apresenta uma saída somente de texto sem formatação ou outros elementos Markdown anotados.
Texto com Markdown: a configuração de saída padrão para saída padrão. Fornece texto com elementos Markdown integrados.
Texto com HTML: fornece texto com elementos HTML integrados na resposta.
CSV: fornece uma saída estruturada em CSV para tabelas dentro do documento. Isso apresentará uma resposta apenas para tabelas e não para outros elementos do documento.

Caixas delimitadoras e campos generativos

Para documentos, há duas opções de resposta que alteram a respectiva saída com base na granularidade selecionada. As caixas delimitadoras e os campos generativos. Selecionar caixas delimitadoras fornecerá um esboço visual do elemento ou palavra em que você clica no menu suspenso de respostas do console. Isso permite que você rastreie elementos específicos da resposta com maior facilidade. As caixas delimitadoras são exibidas em JSON como as coordenadas dos quatro cantos da caixa.

Ao selecionar “Campos generativos”, é gerado um resumo do documento, que pode ser uma versão de 10 palavras ou de 250 palavras. Em seguida, se você selecionar elementos como uma granularidade de resposta, será gerada uma legenda descritiva de cada figura detectada no documento. As figuras incluem elementos como tabelas, grafos e imagens.

Async

Esta seção se concentra nos diferentes objetos de resposta que você recebe ao executar a operação da API InvokeDataAutomationAsync em um arquivo de documento. Detalharemos abaixo cada seção do objeto de resposta e, em seguida, veremos uma resposta completa e preenchida para um documento de exemplo. A primeira seção que receberemos é metadata.


"metadata":{
   "logical_subdocument_id":"XXXX-XXXX-XXXX-XXXX",
   "semantic_modality":"DOCUMENT",
   "s3_bucket":"bucket",
   "s3_prefix":"prefix"
},

A primeira seção acima fornece uma visão geral dos metadados associados ao documento. Com as informações do S3, essa seção também informa qual modalidade foi selecionada para sua resposta.


"document":{
   "representation":{
      "text":"document text",
      "html":"document title document content",
      "markdown":"# text"
   },
   "description":"document text",
   "summary":"summary text",
   "statistics":{
      "element_count":5,
      "table_count":1,
      "figure_count":1,
      "word_count":1000,
      "line_count":32
   }
},

A seção acima fornece informações de granularidade em nível de documento. As seções de descrição e resumo são os campos gerados com base no documento. A seção de representação fornece o conteúdo real do documento com vários estilos de formatação. Finalmente, as estatísticas contêm informações sobre o conteúdo real do documento, como quantos elementos semânticos existem, quantas figuras, palavras, linhas etc.

Essas são as informações de uma entidade de tabela. Para solicitações InvokeDataAutomationAsync (assíncronas), além das informações de localização, dos diferentes formatos de texto, tabelas e ordem de leitura, eles retornam especificamente informações csv e imagens recortadas da tabela nos buckets do S3. As informações de CSV mostram os diferentes cabeçalhos, rodapés e títulos. As imagens serão roteadas para o bucket s3 do prefixo definido na solicitação. InvokeDataAutomationAsync Para solicitações InvokeDataAutomation (de sincronização), csv e imagem recortada da tabela em buckets do S3 não são compatíveis.

Ao processar um PDF, a seção de estatísticas da resposta também conterá informações de hyperlinks_count, que indica quantos hiperlinks existem no documento.



{
   "id":"entity_id",
   "type":"TEXT",
   "representation":{
      "text":"document text",
      "html":"document title document content",
      "markdown":"# text"
   },
   "reading_order":2,
   "page_indices":[
      0
   ],
   "locations":[
      {
         "page_index":0,
         "bounding_box":{
            "left":0.0,
            "top":0.0,
            "width":0.05,
            "height":0.5
         }
      }
   ],
   "sub_type":"TITLE/SECTION_TITLE/HEADER/FOOTER/PARAGRAPH/LIST/PAGE_NUMBER"
},

Essa é a entidade usada para texto em um documento, indicada pela linha TYPE na resposta. Além disso, a representação mostra o texto em formatos diferentes. reading_order mostra quando um leitor veria logicamente o texto. Essa é uma ordem semântica baseada em chaves e valores associados. Por exemplo, os títulos de parágrafo são associados aos respectivos parágrafos em ordem de leitura. page_indices informa em quais páginas o texto está. Em seguida, estão as informações de localização, com uma caixa delimitadora de texto aplicada, se ela tiver sido habilitada na resposta. Finalmente, temos o subtipo de entidade. Esse subtipo fornece informações mais detalhadas sobre o tipo de texto que está sendo detectado. Para ver uma lista completa de subtipos, consulte a “Referência de API”.


{
   "id":"entity_id",
   "type":"TABLE",
   "representation":{
      "html":"table.../table",
      "markdown":"| header | ...",
      "text":"header \t header",
      "csv":"header, header, header\n..."
   },
   "csv_s3_uri":"s3://",
   "headers":[
      "date",
      "amount",
      "description",
      "total"
   ],
   "reading_order":3,
   "title":"Title of the table",
   "footers":[
      "the footers of the table"
   ],
   "crop_images":[
      "s3://bucket/prefix.png",
      "s3://bucket/prefix.png"
   ],
   "page_indices":[
      0,
      1
   ],
   "locations":[
      {
         "page_index":0,
         "bounding_box":{
            "left":0,
            "top":0,
            "width":1,
            "height":1
         }
      },
      {
         "page_index":1,
         "bounding_box":{
            "left":0,
            "top":0,
            "width":1,
            "height":1
         }
      }
   ],
   "sub_type":"TITLE/SECTION_TITLE/HEADER/FOOTER/PARAGRAPH/LIST/PAGE_NUMBER"
},

Essas são as informações de uma entidade de tabela. Além das informações de localização, dos diferentes formatos de texto, das tabelas e da ordem de leitura, são exibidas especificamente informações de CSV e imagens recortadas da tabela nos buckets do S3. As informações de CSV mostram os diferentes cabeçalhos, rodapés e títulos. As imagens serão roteadas para o bucket s3 do prefixo definido na solicitação. InvokeDataAutomation


{

   "id":"entity_id",

   "type":"FIGURE",

   "summary":"",

   "representation":{

      "text":"document text",

      "html":"document title document content",

      "markdown":"# text"

   },

   "crop_images":[

      "s3://bucket/prefix.png",

      "s3://bucket/prefix.png"

   ],

   "locations":[

      {

         "page_index":0,

         "bounding_box":{

            "left":0,

            "top":0,

            "width":1,

            "height":1

         }

      }

   ],

   "sub_type":"CHART",

   "title":"figure title",

   "rai_flag":"APPROVED/REDACTED/REJECTED",

   "reading_order":1,

   "page_indices":[

      0

   ]

}
,

Essa é a entidade usada para figuras, como em grafos e tabelas de documentos. De modo semelhante às tabelas, essas figuras serão recortadas, enquanto as imagens enviadas ao bucket do S3 serão configuradas em seu prefixo. Além disso, você receberá uma resposta sub_type e uma resposta do título da figura para o texto do título e uma indicação do tipo de figura.


"pages":[
   {
      "id":"page_id",
      "page_index":0,
      "detected_page_number":1,
      "representation":{
         "text":"document text",
         "html":"document title document content",
         "markdown":"# text"
      },
      "statistics":{
         "element_count":5,
         "table_count":1,
         "figure_count":1,
         "word_count":1000,
         "line_count":32
      },
      "asset_metadata":{
         "rectified_image":"s3://bucket/prefix.png",
         "rectified_image_width_pixels":1700,
         "rectified_image_height_pixels":2200
      }
   }
],

A última das entidades que extraímos por meio da saída padrão são páginas. As páginas são iguais às entidades de texto, mas também contêm números de página, cujos números detectados estão na página.


"text_lines":[
   {
      "id":"line_id",
      "text":"line text",
      "reading_order":1,
      "page_index":0,
      "locations":{
         "page_index":0,
         "bounding_box":{
            "left":0,
            "top":0,
            "width":1,
            "height":1
         }
      }
   }
],


"text_words":[
   {
      "id":"word_id",
      "text":"word text",
      "line_id":"line_id",
      "reading_order":1,
      "page_index":0,
      "locations":{
         "page_index":0,
         "bounding_box":{
            "left":0,
            "top":0,
            "width":1,
            "height":1
         }
      }
   }
]

Esses dois elementos finais são para partes de texto individuais. A granularidade em nível de palavra exibe uma resposta para cada palavra, enquanto a saída padrão relata somente linhas de texto.

Sync

Esta seção se concentra nos diferentes objetos de resposta que você recebe ao executar a operação da API InvokeDataAutomation em um arquivo de documento. Detalharemos abaixo cada seção do objeto de resposta e, em seguida, veremos uma resposta completa e preenchida para um documento de exemplo. A primeira seção que receberemos é metadata.



            "metadata": {
                "logical_subdocument_id": "1",
                "semantic_modality": "DOCUMENT",
                "number_of_pages": X,
                "start_page_index": "1",
                "end_page_index": X,
                "file_type": "PDF"
            },

A primeira seção acima fornece uma visão geral dos metadados associados ao documento. Como a InvokeDataAutomation API síncrona atualmente não oferece suporte à divisão de documentos, logical_subdocument_id é sempre igual a 1.


"document":{
   "representation":{
      "text":"document text",
      "html":"document title document content",
      "markdown":"# text"
   },
   "description":"document text",
   "summary":"summary text",
   "statistics":{
      "element_count":5,
      "table_count":1,
      "figure_count":1,
      "word_count":1000,
      "line_count":32
   }
},

Observação: ao contrário da solicitação assíncrona, a InvokeDataAutomationAsync InvokeDataAutomation solicitação síncrona não oferece suporte ao retorno de informações csv e imagens recortadas da tabela nos buckets do S3.



{
"id":"entity_id",
   "type":"TEXT",
   "representation":{
"text":"document text",
      "html":"document title document content",
      "markdown":"# text"
   },
   "reading_order":2,
   "page_indices":[
      0
   ],
   "locations":[
      {
"page_index":0,
         "bounding_box":{
"left":0.0,
            "top":0.0,
            "width":0.05,
            "height":0.5
         }
      }
   ],
   "sub_type":"TITLE/SECTION_TITLE/HEADER/FOOTER/PARAGRAPH/LIST/PAGE_NUMBER"
},

Essa é a entidade usada para texto em um documento, indicada pela linha TYPE na resposta. Novamente, a representação mostra o texto em formatos diferentes. reading_order mostra quando um leitor veria logicamente o texto. Essa é uma ordem semântica baseada em chaves e valores associados. Por exemplo, ele associa títulos de parágrafos aos respectivos parágrafos em ordem de leitura. page_indices informa em quais páginas o texto está. Em seguida, estão as informações de localização, com uma caixa delimitadora de texto aplicada, se ela tiver sido habilitada na resposta. Finalmente, temos o subtipo de entidade. Esse subtipo fornece informações mais detalhadas sobre o tipo de texto que está sendo detectado. Para ver uma lista completa de subtipos, consulte a “Referência de API”.



{
    "id": "entity_id",
    "type": "TABLE",
    "representation": {
        "html": "table.../table",
        "markdown": "| header | ...",
        "text": "header \t header",
        "csv": "header, header, header\n..."
    },
    "headers": ["date", "amount", "description", "total"],
    "reading_order": 3,
    "title": "Title of the table",
    "footers": ["the footers of the table"],
    "page_indices": [0, 1],
    "locations": [{
        "page_index": 0,
        "bounding_box": {
            "left": 0,
            "top": 0,
            "width": 1,
            "height": 1
        }
    }, {
        "page_index": 1,
        "bounding_box": {
            "left": 0,
            "top": 0,
            "width": 1,
            "height": 1
        }
    }]
},

Essas são as informações de uma entidade de tabela. As informações de CSV mostram os diferentes cabeçalhos, rodapés e títulos.


{

    "id": "entity_id",
    "type": "FIGURE",
    "summary": "",
    "representation": {
        "text": "document text",
        "html": "document title document content",
        "markdown": "# text"
    },

    "locations": [

        {
            "page_index": 0,
            "bounding_box": {
                "left": 0,
                "top": 0,
                "width": 1,
                "height": 1
            }
        }
    ],

    "sub_type": "CHART",
    "title": "figure title",
    "reading_order": 1,
    "page_indices": [
        0
    ]
},

Essa é a entidade usada para figuras, como em grafos e tabelas de documentos. Você receberá uma resposta do título sub_type e uma figura para o texto do título e uma indicação do tipo de figura.


"pages":[
   "pages":[
   {
"id":"page_id",
      "page_index":0,
      "detected_page_number":1,
      "representation":{
"text":"document text",
         "html":"document title document content",
         "markdown":"# text"
      },
      "statistics":{
"element_count":5,
         "table_count":1,
         "figure_count":1,
         "word_count":1000,
         "line_count":32
      },
      "asset_metadata":{
"rectified_image":"s3://bucket/prefix.png",
         "rectified_image_width_pixels":1700,
         "rectified_image_height_pixels":2200
      }
   }
],


"text_lines":[
   {
      "id":"line_id",
      "text":"line text",
      "reading_order":1,
      "page_index":0,
      "locations":{
         "page_index":0,
         "bounding_box":{
            "left":0,
            "top":0,
            "width":1,
            "height":1
         }
      }
   }
],


"text_words":[
   {
      "id":"word_id",
      "text":"word text",
      "line_id":"line_id",
      "reading_order":1,
      "page_index":0,
      "locations":{
         "page_index":0,
         "bounding_box":{
            "left":0,
            "top":0,
            "width":1,
            "height":1
         }
      }
   }
]

Esses dois elementos finais são para partes de texto individuais. A granularidade em nível de palavra exibe uma resposta para cada palavra, enquanto a saída padrão relata somente linhas de texto.

Metadados adicionais de formato de arquivo JSON

Ao receber seus arquivos adicionais do sinalizador de formatos de arquivo adicionais, você receberá um arquivo JSON para todas as imagens retificadas extraídas. A BDA retifica imagens rotacionadas usando uma homografia para girar a imagem em um ângulo de 90 graus. Veja este exemplo JSON:



        "asset_metadata": {
            "rectified_image": "s3://bucket/prefix.png",
            "rectified_image_width_pixels": 1700,
            "rectified_image_height_pixels": 2200,
            "corners": [
                [
                    0.006980135689736235,
                    -0.061692718505859376
                ],
                [
                    1.10847711439684,
                    0.00673927116394043
                ],
                [
                    0.994479346419327,
                    1.050548828125
                ],
                [
                    -0.11249661383904497,
                    0.9942819010416667
                ]
            ]
        }

Os cantos representam os cantos detectados de uma imagem, usados para formar uma homografia do documento. Essa homografia é usada para girar a imagem enquanto mantém suas outras propriedades.

Atenção O Javascript está desativado ou não está disponível no seu navegador.

Para usar a documentação da AWS, o Javascript deve estar ativado. Consulte as páginas de Ajuda do navegador para obter instruções.

Convenções do documento

Saída padrão na Automação de Dados do Bedrock

Imagens