Documentos de texto simples Documentos do Semi-structured Arquivos de imagem e arquivos PDF digitalizados Saída do Amazon Textract Tamanhos máximos de documentos para análise em tempo real Erros em documentos semiestruturados

Entradas para análise personalizada em tempo real

Real-time a análise usando modelos personalizados usa um único documento como entrada. Os tópicos a seguir descrevem os tipos de documentos de entrada que você pode usar.

Tópicos

Documentos de texto simples
Documentos do Semi-structured
Arquivos de imagem e arquivos PDF digitalizados
Saída do Amazon Textract
Tamanhos máximos de documentos para análise em tempo real
Erros em documentos semiestruturados

Documentos de texto simples

Forneça o documento de entrada como UTF-8-formatted texto.

Documentos do Semi-structured

Semi-structured os documentos incluem documentos PDF nativos e documentos do Word.

Por padrão, a análise personalizada em tempo real usa o analisador do Amazon Comprehend para extrair o texto de arquivos Word e arquivos PDF digitais. Para arquivos PDF, você pode substituir esse padrão e usar o Amazon Textract para extrair o texto. Consulte Configurar opções de extração de texto.

Arquivos de imagem e arquivos PDF digitalizados

Os tipos de imagem compatíveis incluem JPEG, PNG e TIFF.

Por padrão, o reconhecimento personalizado de identidades usa a operação de API DetectDocumentText do Amazon Textract para extrair o texto de arquivos de imagem e arquivos PDF digitalizados. Como alternativa, você pode substituir esse padrão para usar a operação de API AnalyzeDocument. Consulte Configurar opções de extração de texto.

Saída do Amazon Textract

Você pode fornecer a saída JSON da API DetectDocumentText ou da API AnalyzeDocument do Amazon Textract como entrada para as operações de API em tempo real para classificação personalizada e reconhecimento personalizado de entidades. O Amazon Comprehend oferece suporte a esse tipo de entrada para as operações de API em tempo real, mas não para o console.

Tamanhos máximos de documentos para análise em tempo real

Para todos os tipos de documentos de entrada, o máximo do arquivo de entrada é de uma página, com no máximo 10.000 caracteres.

A tabela a seguir mostra os tamanhos máximos de arquivo dos documentos de entrada.

Tipo de arquivo	Tamanho máximo (API)	Tamanho máximo (console)
UTF-8 documentos de texto	10 KB	10 KB
Documentos em PDF	10 MB	5 MB
Documentos do Word	10 MB	1 MB
Arquivos de imagem	10 MB	5 MB
Arquivos de saída do Textract	1 MB	n/a

Erros em documentos semiestruturados

A operação ClassifyDocumentou DetectEntitiesAPI pode encontrar erros no nível do documento ou da página ao extrair texto de um documento semiestruturado ou de um arquivo de imagem.

Page-level erros

Se a operação da DetectEntitiesAPI ClassifyDocumentou encontrar erros ao processar uma página no documento de entrada, a resposta da API incluirá uma entrada na lista de erros para cada erro.

O ErrorCode na lista de erros contém um dos seguintes valores:

TEXTRACT_BAD_PAGE: o Amazon Textract não consegue ler a página. Para obter mais informações sobre limites de página no Amazon Textract, consulte Cotas de página no Amazon Textract.
TEXTRACT_PROVISIONED_THROUGHPUT_EXCEEDED: o número de solicitações excedeu seu limite de throughput. Para obter mais informações sobre cotas de throughput no Amazon Textract, consulte Cotas padrão no Amazon Textract.
PAGE_CHARACTERS_EXCEEDED: muitos caracteres de texto na página (máximo de 10.000 caracteres).
PAGE_SIZE_EXCEEDED: o tamanho máximo da página é 10 MB.
INTERNAL_SERVER_ERROR: a solicitação encontrou um problema de serviço. Tente a solicitação da API novamente.

Document-level erros

Se a operação ClassifyDocumentou DetectEntitiesAPI detectar um erro em nível de documento em seu documento de entrada, a API retornará uma InvalidRequestException resposta de erro.

Na resposta de erro, o valor no campo Reason irá conter o valor INVALID_DOCUMENT.

O campo Detail contém um dos seguintes valores:

DOCUMENT_SIZE_EXCEEDED: o tamanho do documento é muito grande. Verifique o tamanho do seu arquivo e reenvie a solicitação.
UNSUPPORTED_DOC_TYPE: o tipo de documento não é compatível. Verifique o tipo do seu arquivo e reenvie a solicitação.
PAGE_LIMIT_EXCEEDED: muitas páginas no documento. Verifique o número de páginas do seu arquivo e reenvie a solicitação.
TEXTRACT_ACCESS_DENIED_EXCEPTION: acesso negado ao Amazon Textract. Verifique se sua conta tem permissão para usar as operações do Amazon Textract DetectDocumentTexte AnalyzeDocumentda API e reenvie a solicitação.

Atenção O Javascript está desativado ou não está disponível no seu navegador.

Para usar a documentação da AWS, o Javascript deve estar ativado. Consulte as páginas de Ajuda do navegador para obter instruções.

Convenções do documento

Processamento de documentos

Entradas para análise assíncrona