As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.
Documentos do
A saída padrão para documentos permite definir a granularidade da resposta pela qual você tem interesse, bem como estabelecer o formato de saída e o formato de texto na saída. Abaixo são apresentadas algumas das saídas que você pode habilitar.
nota
A BDA pode processar arquivos DOCX. Para processar arquivos DOCX, eles são convertidos em PDFs. Isso significa que o mapeamento do número da página não funcionará para arquivos DOCX. As imagens do convertido PDFs serão enviadas para seu bucket de saída se a opção JSON+ e a granularidade da página estiverem selecionadas.
Granularidade da resposta
A granularidade da resposta determina o tipo de resposta que você deseja receber da extração do texto do documento. Cada nível de granularidade fornece respostas cada vez mais distintas. A página apresenta todo o texto extraído em conjunto e a palavra apresenta cada palavra como uma resposta separada. Os níveis de granularidade disponíveis são:
-
Granularidade em nível de página: está habilitado por padrão. A granularidade em nível de página apresenta cada página do documento no formato de saída de texto de sua preferência. Se você estiver processando um PDF, ao habilitar esse nível de granularidade, serão detectados e exibidos hiperlinks incorporados.
-
Granularidade em nível de elemento (layout): está habilitado por padrão. Apresenta o texto do documento no formato de saída de sua preferência, separado em elementos diferentes. Esses elementos são figuras, tabelas ou parágrafos. Eles são exibidos em ordem de leitura lógica com base na estrutura do documento. Se você estiver processando um PDF, ao habilitar esse nível de granularidade, serão detectados e exibidos hiperlinks incorporados.
-
Granularidade em nível de palavra: apresenta informações sobre palavras individuais sem usar uma análise de contexto mais ampla. Apresenta cada palavra e a respectiva localização na página.
Configurações da saída
As configurações de saída determinam a forma como os resultados baixados serão estruturados. Essa configuração é exclusiva para o console. As opções para configurações de saída são:
-
JSON: a estrutura de saída padrão para análise de documentos. Apresenta um arquivo de saída JSON com as informações de suas configurações.
-
API assíncrona: a saída JSON para a InvokeDataAutomationAsyncAPI assíncrona é somente S3.
-
InvokeDataAutomationAPI de sincronização: a saída JSON pode ser definida como S3 ou em linha por meio da alavancagem.
outputconfigurationSe S3 for selecionado, o JSON de saída será direcionado somente para o S3 (não embutido). Se o S3 não for fornecido, a saída da API de sincronização suportará somente JSON embutido.
-
-
JSON+Files — Disponível somente para API assíncrona. InvokeDataAutomationAsync O uso dessa configuração gera uma saída JSON e arquivos que correspondem a saídas diferentes. Por exemplo, essa configuração fornece um arquivo de texto para a extração geral do texto, um arquivo Markdown para o texto com marcação estrutural e arquivos CSV para cada tabela encontrada no texto. As figuras localizadas dentro de um documento serão salvas, bem como recortes de figuras e imagens retificadas. Além disso, se você estiver processando um arquivo DOCX e tiver essa opção selecionada, o PDF convertido do seu arquivo DOCX estará na pasta de saída. Essas saídas estão localizadas em
standard_output/na sua pasta de saída.logical_doc_id/assets/
nota
-
A API de sincronização não gera nenhum arquivo adicional além do JSON. O JSON de saída contém somente o formato de texto selecionado como parte do formato de texto de saída padrão. A API de sincronização não produzirá recortes de figuras ou imagens retificadas.
-
DocX não é compatível com a API de sincronização.
Formato de texto
O formato do texto determina os diferentes tipos de texto que serão fornecidos por meio de várias operações de extração. Selecione qualquer uma das opções a seguir para o formato de texto.
-
Texto simples: essa configuração apresenta uma saída somente de texto sem formatação ou outros elementos Markdown anotados.
-
Texto com Markdown: a configuração de saída padrão para saída padrão. Fornece texto com elementos Markdown integrados.
-
Texto com HTML: fornece texto com elementos HTML integrados na resposta.
-
CSV: fornece uma saída estruturada em CSV para tabelas dentro do documento. Isso apresentará uma resposta apenas para tabelas e não para outros elementos do documento.
Caixas delimitadoras e campos generativos
Para documentos, há duas opções de resposta que alteram a respectiva saída com base na granularidade selecionada. As caixas delimitadoras e os campos generativos. Selecionar caixas delimitadoras fornecerá um esboço visual do elemento ou palavra em que você clica no menu suspenso de respostas do console. Isso permite que você rastreie elementos específicos da resposta com maior facilidade. As caixas delimitadoras são exibidas em JSON como as coordenadas dos quatro cantos da caixa.
Ao selecionar “Campos generativos”, é gerado um resumo do documento, que pode ser uma versão de 10 palavras ou de 250 palavras. Em seguida, se você selecionar elementos como uma granularidade de resposta, será gerada uma legenda descritiva de cada figura detectada no documento. As figuras incluem elementos como tabelas, grafos e imagens.
Metadados adicionais de formato de arquivo JSON
Ao receber seus arquivos adicionais do sinalizador de formatos de arquivo adicionais, você receberá um arquivo JSON para todas as imagens retificadas extraídas. A BDA retifica imagens rotacionadas usando uma homografia para girar a imagem em um ângulo de 90 graus. Veja este exemplo JSON:
"asset_metadata": { "rectified_image": "s3://bucket/prefix.png", "rectified_image_width_pixels": 1700, "rectified_image_height_pixels": 2200, "corners": [ [ 0.006980135689736235, -0.061692718505859376 ], [ 1.10847711439684, 0.00673927116394043 ], [ 0.994479346419327, 1.050548828125 ], [ -0.11249661383904497, 0.9942819010416667 ] ] }
Os cantos representam os cantos detectados de uma imagem, usados para formar uma homografia do documento. Essa homografia é usada para girar a imagem enquanto mantém suas outras propriedades.