As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.
Entradas para análise personalizada em tempo real
Real-time a análise usando modelos personalizados usa um único documento como entrada. Os tópicos a seguir descrevem os tipos de documentos de entrada que você pode usar.
Tópicos
Documentos de texto simples
Forneça o documento de entrada como UTF-8-formatted texto.
Documentos do Semi-structured
Semi-structured os documentos incluem documentos PDF nativos e documentos do Word.
Por padrão, a análise personalizada em tempo real usa o analisador do Amazon Comprehend para extrair o texto de arquivos Word e arquivos PDF digitais. Para arquivos PDF, você pode substituir esse padrão e usar o Amazon Textract para extrair o texto. Consulte Configurar opções de extração de texto.
Arquivos de imagem e arquivos PDF digitalizados
Os tipos de imagem compatíveis incluem JPEG, PNG e TIFF.
Por padrão, o reconhecimento personalizado de identidades usa a operação de API DetectDocumentText do Amazon Textract para extrair o texto de arquivos de imagem e arquivos PDF digitalizados. Como alternativa, você pode substituir esse padrão para usar a operação de API AnalyzeDocument. Consulte Configurar opções de extração de texto.
Saída do Amazon Textract
Você pode fornecer a saída JSON da API DetectDocumentText ou da API AnalyzeDocument do Amazon Textract como entrada para as operações de API em tempo real para classificação personalizada e reconhecimento personalizado de entidades. O Amazon Comprehend oferece suporte a esse tipo de entrada para as operações de API em tempo real, mas não para o console.
Tamanhos máximos de documentos para análise em tempo real
Para todos os tipos de documentos de entrada, o máximo do arquivo de entrada é de uma página, com no máximo 10.000 caracteres.
A tabela a seguir mostra os tamanhos máximos de arquivo dos documentos de entrada.
| Tipo de arquivo | Tamanho máximo (API) | Tamanho máximo (console) |
|---|---|---|
| UTF-8 documentos de texto | 10 KB | 10 KB |
| Documentos em PDF | 10 MB | 5 MB |
| Documentos do Word | 10 MB | 1 MB |
| Arquivos de imagem | 10 MB | 5 MB |
| Arquivos de saída do Textract | 1 MB | n/a |
Erros em documentos semiestruturados
A operação ClassifyDocumentou DetectEntitiesAPI pode encontrar erros no nível do documento ou da página ao extrair texto de um documento semiestruturado ou de um arquivo de imagem.
Page-level erros
Se a operação da DetectEntitiesAPI ClassifyDocumentou encontrar erros ao processar uma página no documento de entrada, a resposta da API incluirá uma entrada na lista de erros para cada erro.
O ErrorCode na lista de erros contém um dos seguintes valores:
-
TEXTRACT_BAD_PAGE: o Amazon Textract não consegue ler a página. Para obter mais informações sobre limites de página no Amazon Textract, consulte Cotas de página no Amazon Textract.
-
TEXTRACT_PROVISIONED_THROUGHPUT_EXCEEDED: o número de solicitações excedeu seu limite de throughput. Para obter mais informações sobre cotas de throughput no Amazon Textract, consulte Cotas padrão no Amazon Textract.
-
PAGE_CHARACTERS_EXCEEDED: muitos caracteres de texto na página (máximo de 10.000 caracteres).
-
PAGE_SIZE_EXCEEDED: o tamanho máximo da página é 10 MB.
-
INTERNAL_SERVER_ERROR: a solicitação encontrou um problema de serviço. Tente a solicitação da API novamente.
Document-level erros
Se a operação ClassifyDocumentou DetectEntitiesAPI detectar um erro em nível de documento em seu documento de entrada, a API retornará uma InvalidRequestException resposta de erro.
Na resposta de erro, o valor no campo Reason irá conter o valor INVALID_DOCUMENT.
O campo Detail contém um dos seguintes valores:
-
DOCUMENT_SIZE_EXCEEDED: o tamanho do documento é muito grande. Verifique o tamanho do seu arquivo e reenvie a solicitação.
-
UNSUPPORTED_DOC_TYPE: o tipo de documento não é compatível. Verifique o tipo do seu arquivo e reenvie a solicitação.
-
PAGE_LIMIT_EXCEEDED: muitas páginas no documento. Verifique o número de páginas do seu arquivo e reenvie a solicitação.
-
TEXTRACT_ACCESS_DENIED_EXCEPTION: acesso negado ao Amazon Textract. Verifique se sua conta tem permissão para usar as operações do Amazon Textract DetectDocumentTexte AnalyzeDocumentda API e reenvie a solicitação.