As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.
Documentos do
A saída padrão para documentos permite definir a granularidade da resposta pela qual você tem interesse, bem como estabelecer o formato de saída e o formato de texto na saída. Abaixo são apresentadas algumas das saídas que você pode habilitar.
nota
A BDA pode processar arquivos DOCX. Para processar arquivos DOCX, eles são convertidos em PDF. Isso significa que o mapeamento do número da página não funcionará para arquivos DOCX. As imagens dos PDFs convertidos serão enviadas ao bucket de saída se a opção JSON+ e a granularidade da página forem selecionadas.
Granularidade da resposta
A granularidade da resposta determina o tipo de resposta que você deseja receber da extração de texto de documentos. Cada nível de granularidade fornece respostas cada vez mais distintas. A página apresenta todo o texto extraído em conjunto e a palavra apresenta cada palavra como uma resposta separada. Os níveis de granularidade disponíveis são:
-
Granularidade em nível de página: está habilitado por padrão. A granularidade em nível de página apresenta cada página do documento no formato de saída de texto de sua preferência. Se você estiver processando um PDF, ao habilitar esse nível de granularidade, serão detectados e exibidos hiperlinks incorporados.
-
Granularidade em nível de elemento (layout): está habilitado por padrão. Apresenta o texto do documento no formato de saída de sua preferência, separado em elementos diferentes. Esses elementos são figuras, tabelas ou parágrafos. Eles são exibidos em ordem de leitura lógica com base na estrutura do documento. Se você estiver processando um PDF, ao habilitar esse nível de granularidade, serão detectados e exibidos hiperlinks incorporados.
-
Granularidade em nível de palavra: apresenta informações sobre palavras individuais sem usar uma análise de contexto mais ampla. Apresenta cada palavra e a respectiva localização na página.
Configurações da saída
As configurações de saída determinam a forma como os resultados baixados serão estruturados. Essa configuração é exclusiva para o console. As opções para configurações de saída são:
-
JSON: a estrutura de saída padrão para análise de documentos. Apresenta um arquivo de saída JSON com as informações de suas configurações.
-
JSON+files: o uso dessa configuração gera uma saída JSON e arquivos que correspondem a saídas diferentes. Por exemplo, essa configuração fornece um arquivo de texto para a extração geral do texto, um arquivo Markdown para o texto com marcação estrutural e arquivos CSV para cada tabela encontrada no texto. As figuras localizadas dentro de um documento serão salvas, bem como recortes de figuras e imagens retificadas. Além disso, se você estiver processando um arquivo DOCX e tiver essa opção selecionada, o PDF convertido do seu arquivo DOCX estará na pasta de saída. Essas saídas estão localizadas em
standard_output/na sua pasta de saída.logical_doc_id/assets/
Formato de texto
O formato do texto determina os diferentes tipos de texto que serão fornecidos por meio de várias operações de extração. Selecione qualquer uma das opções a seguir para o formato de texto.
-
Texto simples: essa configuração apresenta uma saída somente de texto sem formatação ou outros elementos Markdown anotados.
-
Texto com Markdown: a configuração de saída padrão para saída padrão. Fornece texto com elementos Markdown integrados.
-
Texto com HTML: fornece texto com elementos HTML integrados na resposta.
-
CSV: fornece uma saída estruturada em CSV para tabelas dentro do documento. Isso apresentará uma resposta apenas para tabelas e não para outros elementos do documento.
Caixas delimitadoras e campos generativos
Para documentos, há duas opções de resposta que alteram a respectiva saída com base na granularidade selecionada. As caixas delimitadoras e os campos generativos. Selecionar caixas delimitadoras fornecerá um esboço visual do elemento ou palavra em que você clica no menu suspenso de respostas do console. Isso permite que você rastreie elementos específicos da resposta com maior facilidade. As caixas delimitadoras são exibidas em JSON como as coordenadas dos quatro cantos da caixa.
Ao selecionar “Campos generativos”, é gerado um resumo do documento, que pode ser uma versão de 10 palavras ou de 250 palavras. Em seguida, se você selecionar elementos como uma granularidade de resposta, será gerada uma legenda descritiva de cada figura detectada no documento. As figuras incluem elementos como tabelas, grafos e imagens.
Resposta de documentos da Automação de Dados do Bedrock
Esta seção se concentra nos diferentes objetos de resposta que você recebe ao executar a operação de API InvokeDataAutomation em um arquivo de documento. Detalharemos abaixo cada seção do objeto de resposta e, em seguida, veremos uma resposta completa e preenchida para um documento de exemplo. A primeira seção que receberemos é metadata.
"metadata":{ "logical_subdocument_id":"XXXX-XXXX-XXXX-XXXX", "semantic_modality":"DOCUMENT", "s3_bucket":"bucket", "s3_prefix":"prefix" },
A primeira seção acima fornece uma visão geral dos metadados associados ao documento. Com as informações do S3, essa seção também informa qual modalidade foi selecionada para sua resposta.
"document":{ "representation":{ "text":"document text", "html":"document title document content", "markdown":"# text" }, "description":"document text", "summary":"summary text", "statistics":{ "element_count":5, "table_count":1, "figure_count":1, "word_count":1000, "line_count":32 } },
A seção acima fornece informações de granularidade em nível de documento. As seções de descrição e resumo são os campos gerados com base no documento. A seção de representação fornece o conteúdo real do documento com vários estilos de formatação. Finalmente, as estatísticas contêm informações sobre o conteúdo real do documento, como quantos elementos semânticos existem, quantas figuras, palavras, linhas etc.
Essas são as informações de uma entidade de tabela. Além das informações de localização, dos diferentes formatos de texto, das tabelas e da ordem de leitura, são exibidas especificamente informações de CSV e imagens recortadas da tabela nos buckets do S3. As informações de CSV mostram os diferentes cabeçalhos, rodapés e títulos. As imagens serão roteadas para o bucket do S3 do prefixo definido na solicitação InvokeDataAutomationAsync.
Ao processar um PDF, a seção de estatísticas da resposta também conterá informações de hyperlinks_count, que indica quantos hiperlinks existem no documento.
{ "id":"entity_id", "type":"TEXT", "representation":{ "text":"document text", "html":"document title document content", "markdown":"# text" }, "reading_order":2, "page_indices":[ 0 ], "locations":[ { "page_index":0, "bounding_box":{ "left":0.0, "top":0.0, "width":0.05, "height":0.5 } } ], "sub_type":"TITLE/SECTION_TITLE/HEADER/FOOTER/PARAGRAPH/LIST/PAGE_NUMBER" },
Essa é a entidade usada para texto em um documento, indicada pela linha TYPE na resposta. Além disso, a representação mostra o texto em formatos diferentes. reading_order mostra quando um leitor veria logicamente o texto. Essa é uma ordem semântica baseada em chaves e valores associados. Por exemplo, os títulos de parágrafo são associados aos respectivos parágrafos em ordem de leitura. page_indices informa em quais páginas o texto está. Em seguida, estão as informações de localização, com uma caixa delimitadora de texto aplicada, se ela tiver sido habilitada na resposta. Finalmente, temos o subtipo de entidade. Esse subtipo fornece informações mais detalhadas sobre o tipo de texto que está sendo detectado. Para ver uma lista completa de subtipos, consulte a “Referência de API”.
{ "id":"entity_id", "type":"TABLE", "representation":{ "html":"table.../table", "markdown":"| header | ...", "text":"header \t header", "csv":"header, header, header\n..." }, "csv_s3_uri":"s3://", "headers":[ "date", "amount", "description", "total" ], "reading_order":3, "title":"Title of the table", "footers":[ "the footers of the table" ], "crop_images":[ "s3://bucket/prefix.png", "s3://bucket/prefix.png" ], "page_indices":[ 0, 1 ], "locations":[ { "page_index":0, "bounding_box":{ "left":0, "top":0, "width":1, "height":1 } }, { "page_index":1, "bounding_box":{ "left":0, "top":0, "width":1, "height":1 } } ] },
Essas são as informações de uma entidade de tabela. Além das informações de localização, dos diferentes formatos de texto, das tabelas e da ordem de leitura, são exibidas especificamente informações de CSV e imagens recortadas da tabela nos buckets do S3. As informações de CSV mostram os diferentes cabeçalhos, rodapés e títulos. As imagens serão roteadas para o bucket do S3 do prefixo definido na solicitação InvokeDataAutomation.
{ "id":"entity_id", "type":"FIGURE", "summary":"", "representation":{ "text":"document text", "html":"document title document content", "markdown":"# text" }, "crop_images":[ "s3://bucket/prefix.png", "s3://bucket/prefix.png" ], "locations":[ { "page_index":0, "bounding_box":{ "left":0, "top":0, "width":1, "height":1 } } ], "sub_type":"CHART", "title":"figure title", "rai_flag":"APPROVED/REDACTED/REJECTED", "reading_order":1, "page_indices":[ 0 ] } ,
Essa é a entidade usada para figuras, como em grafos e tabelas de documentos. De modo semelhante às tabelas, essas figuras serão recortadas, enquanto as imagens enviadas ao bucket do S3 serão configuradas em seu prefixo. Além disso, você receberá uma resposta sub_type e uma resposta do título da figura para o texto do título e uma indicação do tipo de figura.
"pages":[ { "id":"page_id", "page_index":0, "detected_page_number":1, "representation":{ "text":"document text", "html":"document title document content", "markdown":"# text" }, "statistics":{ "element_count":5, "table_count":1, "figure_count":1, "word_count":1000, "line_count":32 }, "asset_metadata":{ "rectified_image":"s3://bucket/prefix.png", "rectified_image_width_pixels":1700, "rectified_image_height_pixels":2200 } } ],
A última das entidades que extraímos por meio da saída padrão são páginas. As páginas são iguais às entidades de texto, mas também contêm números de página, cujos números detectados estão na página.
"text_lines":[ { "id":"line_id", "text":"line text", "reading_order":1, "page_index":0, "locations":{ "page_index":0, "bounding_box":{ "left":0, "top":0, "width":1, "height":1 } } } ],
"text_words":[ { "id":"word_id", "text":"word text", "line_id":"line_id", "reading_order":1, "page_index":0, "locations":{ "page_index":0, "bounding_box":{ "left":0, "top":0, "width":1, "height":1 } } } ]
Esses dois elementos finais são para partes de texto individuais. A granularidade em nível de palavra exibe uma resposta para cada palavra, enquanto a saída padrão relata somente linhas de texto.
Metadados adicionais de formato de arquivo JSON
Ao receber seus outros arquivos do sinalizador de formatos de arquivo adicionais, você receberá um arquivo JSON para todas as imagens retificadas que forem extraídas. A BDA retifica imagens rotacionadas usando uma homografia para girar a imagem em um ângulo de 90 graus. Veja este exemplo JSON:
"asset_metadata": { "rectified_image": "s3://bucket/prefix.png", "rectified_image_width_pixels": 1700, "rectified_image_height_pixels": 2200, "corners": [ [ 0.006980135689736235, -0.061692718505859376 ], [ 1.10847711439684, 0.00673927116394043 ], [ 0.994479346419327, 1.050548828125 ], [ -0.11249661383904497, 0.9942819010416667 ] ] }
Os cantos representam os cantos detectados de uma imagem, usados para formar uma homografia do documento. Essa homografia é usada para girar a imagem enquanto mantém suas outras propriedades.