View a markdown version of this page

Entradas para análise personalizada em tempo real - Amazon Comprehend

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Entradas para análise personalizada em tempo real

Real-time a análise usando modelos personalizados usa um único documento como entrada. Os tópicos a seguir descrevem os tipos de documentos de entrada que você pode usar.

Documentos de texto simples

Forneça o documento de entrada como UTF-8-formatted texto.

Documentos do Semi-structured

Semi-structured os documentos incluem documentos PDF nativos e documentos do Word.

Por padrão, a análise personalizada em tempo real usa o analisador do Amazon Comprehend para extrair o texto de arquivos Word e arquivos PDF digitais. Para arquivos PDF, você pode substituir esse padrão e usar o Amazon Textract para extrair o texto. Consulte Configurar opções de extração de texto.

Arquivos de imagem e arquivos PDF digitalizados

Os tipos de imagem compatíveis incluem JPEG, PNG e TIFF.

Por padrão, o reconhecimento personalizado de identidades usa a operação de API DetectDocumentText do Amazon Textract para extrair o texto de arquivos de imagem e arquivos PDF digitalizados. Como alternativa, você pode substituir esse padrão para usar a operação de API AnalyzeDocument. Consulte Configurar opções de extração de texto.

Saída do Amazon Textract

Você pode fornecer a saída JSON da API DetectDocumentText ou da API AnalyzeDocument do Amazon Textract como entrada para as operações de API em tempo real para classificação personalizada e reconhecimento personalizado de entidades. O Amazon Comprehend oferece suporte a esse tipo de entrada para as operações de API em tempo real, mas não para o console.

Tamanhos máximos de documentos para análise em tempo real

Para todos os tipos de documentos de entrada, o máximo do arquivo de entrada é de uma página, com no máximo 10.000 caracteres.

A tabela a seguir mostra os tamanhos máximos de arquivo dos documentos de entrada.

Tipo de arquivo Tamanho máximo (API) Tamanho máximo (console)
UTF-8 documentos de texto 10 KB 10 KB
Documentos em PDF 10 MB 5 MB
Documentos do Word 10 MB 1 MB
Arquivos de imagem 10 MB 5 MB
Arquivos de saída do Textract 1 MB n/a

Erros em documentos semiestruturados

A operação ClassifyDocumentou DetectEntitiesAPI pode encontrar erros no nível do documento ou da página ao extrair texto de um documento semiestruturado ou de um arquivo de imagem.

Page-level erros

Se a operação da DetectEntitiesAPI ClassifyDocumentou encontrar erros ao processar uma página no documento de entrada, a resposta da API incluirá uma entrada na lista de erros para cada erro.

O ErrorCode na lista de erros contém um dos seguintes valores:

  • TEXTRACT_BAD_PAGE: o Amazon Textract não consegue ler a página. Para obter mais informações sobre limites de página no Amazon Textract, consulte Cotas de página no Amazon Textract.

  • TEXTRACT_PROVISIONED_THROUGHPUT_EXCEEDED: o número de solicitações excedeu seu limite de throughput. Para obter mais informações sobre cotas de throughput no Amazon Textract, consulte Cotas padrão no Amazon Textract.

  • PAGE_CHARACTERS_EXCEEDED: muitos caracteres de texto na página (máximo de 10.000 caracteres).

  • PAGE_SIZE_EXCEEDED: o tamanho máximo da página é 10 MB.

  • INTERNAL_SERVER_ERROR: a solicitação encontrou um problema de serviço. Tente a solicitação da API novamente.

Document-level erros

Se a operação ClassifyDocumentou DetectEntitiesAPI detectar um erro em nível de documento em seu documento de entrada, a API retornará uma InvalidRequestException resposta de erro.

Na resposta de erro, o valor no campo Reason irá conter o valor INVALID_DOCUMENT.

O campo Detail contém um dos seguintes valores:

  • DOCUMENT_SIZE_EXCEEDED: o tamanho do documento é muito grande. Verifique o tamanho do seu arquivo e reenvie a solicitação.

  • UNSUPPORTED_DOC_TYPE: o tipo de documento não é compatível. Verifique o tipo do seu arquivo e reenvie a solicitação.

  • PAGE_LIMIT_EXCEEDED: muitas páginas no documento. Verifique o número de páginas do seu arquivo e reenvie a solicitação.

  • TEXTRACT_ACCESS_DENIED_EXCEPTION: acesso negado ao Amazon Textract. Verifique se sua conta tem permissão para usar as operações do Amazon Textract DetectDocumentTexte AnalyzeDocumentda API e reenvie a solicitação.