As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.
AnalyzeDocument
Analisa um documento de entrada para os relacionamentos entre itens detectados em um documento
Os tipos de informações retornadas são os seguintes:
-
Dados do formulário (pares de chave-valor). As informações relacionadas são retornadas em doisBlockobjetos, cada um dos tipos
KEY_VALUE_SET: uma CHAVEBlockobjeto e um VALORBlockobjeto. Por exemplo,Name (Nome): Ana Silva Carolinacontém uma chave e um valor. Name (Nome):é a chave. Ana Silva CarolinaÉ o valor de. -
Dados de células de tabela e tabela. UMA TABELA
Blockobjeto contém informações sobre uma tabela detectada. UMA CÉLULABlockobjeto é retornado para cada célula em uma tabela. -
Linhas e palavras de texto. UMA LINHA
BlockO objeto contém um ou mais WORDBlockobjetos. Todas as linhas e palavras detectadas no documento são retornadas (incluindo texto que não tem relação com o valor deFeatureTypes).
Elementos de seleção, como caixas de seleção e botões de opção (botões de opção), podem ser detectados em dados de formulário e em tabelas. UM SELECTION_ELEMENTBlockobjeto contém informações sobre um elemento de seleção, incluindo o status da seleção.
Você pode escolher qual tipo de análise executar especificando oFeatureTypesLista.
A saída é retornada em uma lista deBlockobjetos.
AnalyzeDocumentÉ uma operação síncrona. Para analisar documentos de forma assíncrona, useStartDocumentAnalysis.
Para obter mais informações, consulteAnálise de texto de documentos.
Sintaxe da solicitação
{
"Document": {
"Bytes": blob,
"S3Object": {
"Bucket": "string",
"Name": "string",
"Version": "string"
}
},
"FeatureTypes": [ "string" ],
"HumanLoopConfig": {
"DataAttributes": {
"ContentClassifiers": [ "string" ]
},
"FlowDefinitionArn": "string",
"HumanLoopName": "string"
}
}
Parâmetros de solicitação
A solicitação aceita os dados a seguir no formato JSON.
- Document
-
O documento de entrada como bytes codificados em base64 ou um objeto do Amazon S3. Se você usar a AWS CLI para chamar as operações do Amazon Textract, não poderá passar bytes de imagem. O documento deve ser uma imagem no formato JPEG, PNG, PDF ou TIFF.
Se você estiver usando um AWS SDK para chamar o Amazon Textract, talvez não seja necessário codificar bytes de imagem que são passados usando o
Bytescampo.Tipo: objeto Document
: obrigatório Sim
- FeatureTypes
-
Uma lista dos tipos de análise a serem executadas. Adicione TABLES à lista para retornar informações sobre as tabelas detectadas no documento de entrada. Adicione FORMS para retornar dados de formulário detectados. Para executar os dois tipos de análise, adicione TABLES e FORMS ao
FeatureTypes. Todas as linhas e palavras detectadas no documento estão incluídas na resposta (incluindo texto que não está relacionado ao valor deFeatureTypes).Type: Matriz de strings
Valores válidos:
TABLES | FORMS: obrigatório Sim
- HumanLoopConfig
-
Define a configuração para o humano no fluxo de trabalho de loop para analisar documentos.
Tipo: objeto HumanLoopConfig
: obrigatório Não
Sintaxe da resposta
{
"AnalyzeDocumentModelVersion": "string",
"Blocks": [
{
"BlockType": "string",
"ColumnIndex": number,
"ColumnSpan": number,
"Confidence": number,
"EntityTypes": [ "string" ],
"Geometry": {
"BoundingBox": {
"Height": number,
"Left": number,
"Top": number,
"Width": number
},
"Polygon": [
{
"X": number,
"Y": number
}
]
},
"Id": "string",
"Page": number,
"Relationships": [
{
"Ids": [ "string" ],
"Type": "string"
}
],
"RowIndex": number,
"RowSpan": number,
"SelectionStatus": "string",
"Text": "string",
"TextType": "string"
}
],
"DocumentMetadata": {
"Pages": number
},
"HumanLoopActivationOutput": {
"HumanLoopActivationConditionsEvaluationResults": "string",
"HumanLoopActivationReasons": [ "string" ],
"HumanLoopArn": "string"
}
}
Elementos de resposta
Se a ação for bem-sucedida, o serviço reenviará uma resposta HTTP 200.
Os seguintes dados são retornados no formato JSON pelo serviço.
- AnalyzeDocumentModelVersion
-
A versão do modelo usado para analisar o documento.
Type: String
- Blocks
-
Os itens que são detectados e analisados por
AnalyzeDocument.Type: Matriz deBlockobjetos
- DocumentMetadata
-
Metadados sobre o documento analisado. Um exemplo é o número de páginas.
Tipo: objeto DocumentMetadata
- HumanLoopActivationOutput
-
Mostra os resultados do humano na avaliação de loop.
Tipo: objeto HumanLoopActivationOutput
Erros
- AccessDeniedException
-
Você não está autorizado a executar a ação. Use o nome de recurso da Amazon (ARN) de um usuário autorizado ou a função do IAM para executar a operação.
Código de status HTTP: 400
- BadDocumentException
-
O Amazon Textract não consegue ler o documento. Para obter mais informações sobre os limites de documentos no Amazon Textract, consulteLimites rígidos no Amazon Textract.
Código de status HTTP: 400
- DocumentTooLargeException
-
O documento não pode ser processado porque é muito grande. O tamanho máximo do documento para operações síncronas 10 MB. O tamanho máximo do documento para operações assíncronas é de 500 MB para arquivos PDF.
Código de status HTTP: 400
- HumanLoopQuotaExceededException
-
Indica que você excedeu o número máximo de humanos ativos nos fluxos de trabalho de loop disponíveis
Código de status HTTP: 400
- InternalServerError
-
O Amazon Textract teve um problema de serviço. Tente fazer a chamada novamente.
Código de status HTTP: 500
- InvalidParameterException
-
Um parâmetro de entrada violou uma restrição. Por exemplo, em operações síncronas, um
InvalidParameterExceptionexceção ocorre quando nenhum dosS3ObjectouBytesvalores são fornecidos naDocumentParâmetro de solicitação. Valide seu parâmetro antes de chamar a operação de API novamente.Código de status HTTP: 400
- InvalidS3ObjectException
-
O Amazon Textract não pode acessar o objeto do S3 especificado na solicitação. para obter mais informações,Configuração de acesso ao Amazon S3Para obter informações sobre a solução de problemas, consulteSolução de problemas do Amazon S3
Código de status HTTP: 400
- ProvisionedThroughputExceededException
-
O número de solicitações excedeu o limite da taxa de transferência. Se precisar aumentar esse limite, entre em contato com o Amazon Textract.
Código de status HTTP: 400
- ThrottlingException
-
O Amazon Textract está temporariamente indisponível para processar a solicitação. Tente fazer a chamada novamente.
Código de status HTTP: 500
- UnsupportedDocumentException
-
O formato do documento de entrada não é compatível. Os documentos para operações podem estar no formato PNG, JPEG, PDF ou TIFF.
Código de status HTTP: 400
Consulte também
Para obter mais informações sobre como usar essa API em um dos AWS SDKs específicos de linguagem, consulte o seguinte: