As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.
DetectDocumentText
Detecta texto no documento de entrada. O Amazon Textract pode detectar linhas de texto e as palavras que compõem uma linha de texto. O documento de entrada deve ser uma imagem no formato JPEG, PNG, PDF ou TIFF.DetectDocumentTextretorna o texto detectado em uma matriz deBlockobjetos.
Cada página do documento tem como associadoBlockdo tipo PAGE. Cada PÁGINABlockobject é o pai de LINEBlockobjetos que representam as linhas do texto detectado em uma página. UMA LINHABlockobject é um pai para cada palavra que compõe a linha. As palavras são representadas porBlockobjetos do tipo WORD.
DetectDocumentTextÉ uma operação síncrona. Para analisar documentos de forma assíncrona, useStartDocumentTextDetection.
Para obter mais informações, consulteDetecção de texto de documentos.
Sintaxe da solicitação
{
"Document": {
"Bytes": blob,
"S3Object": {
"Bucket": "string",
"Name": "string",
"Version": "string"
}
}
}
Parâmetros de solicitação
A solicitação aceita os dados a seguir no formato JSON.
- Document
-
O documento de entrada como bytes codificados em base64 ou um objeto do Amazon S3. Se você usar a AWS CLI para chamar as operações do Amazon Textract, não poderá passar bytes de imagem. O documento deve ser uma imagem em formato JPEG ou PNG.
Se você estiver usando um AWS SDK para chamar o Amazon Textract, talvez não seja necessário codificar bytes de imagem que são passados usando o
Bytescampo.Tipo: objeto Document
Obrigatório: Sim
Sintaxe da resposta
{
"Blocks": [
{
"BlockType": "string",
"ColumnIndex": number,
"ColumnSpan": number,
"Confidence": number,
"EntityTypes": [ "string" ],
"Geometry": {
"BoundingBox": {
"Height": number,
"Left": number,
"Top": number,
"Width": number
},
"Polygon": [
{
"X": number,
"Y": number
}
]
},
"Id": "string",
"Page": number,
"Relationships": [
{
"Ids": [ "string" ],
"Type": "string"
}
],
"RowIndex": number,
"RowSpan": number,
"SelectionStatus": "string",
"Text": "string",
"TextType": "string"
}
],
"DetectDocumentTextModelVersion": "string",
"DocumentMetadata": {
"Pages": number
}
}
Elementos de resposta
Se a ação for bem-sucedida, o serviço reenviará uma resposta HTTP 200.
Os seguintes dados são retornados no formato JSON pelo serviço.
- Blocks
-
Uma matriz de
Blockobjetos que contêm o texto detectado no documento.Type: Matriz deBlockobjetos
- DetectDocumentTextModelVersion
-
Type: String
- DocumentMetadata
-
Metadados sobre o documento. Ele contém o número de páginas detectadas no documento.
Tipo: objeto DocumentMetadata
Erros
- AccessDeniedException
-
Você não está autorizado a executar a ação. Use o nome de recurso da Amazon (ARN) de um usuário autorizado ou a função do IAM para executar a operação.
Código de status HTTP: 400
- BadDocumentException
-
O Amazon Textract não consegue ler o documento. Para obter mais informações sobre os limites de documentos no Amazon Textract, consulteLimites rígidos no Amazon Textract.
Código de status HTTP: 400
- DocumentTooLargeException
-
O documento não pode ser processado porque é muito grande. O tamanho máximo do documento para operações síncronas 10 MB. O tamanho máximo do documento para operações assíncronas é de 500 MB para arquivos PDF.
Código de status HTTP: 400
- InternalServerError
-
O Amazon Textract teve um problema de serviço. Tente fazer a chamada novamente.
Código de status HTTP: 500
- InvalidParameterException
-
Um parâmetro de entrada violou uma restrição. Por exemplo, em operações síncronas, um
InvalidParameterExceptionexceção ocorre quando nenhum dosS3ObjectouBytesvalores são fornecidos naDocumentParâmetro de solicitação. Valide seu parâmetro antes de chamar a operação de API novamente.Código de status HTTP: 400
- InvalidS3ObjectException
-
O Amazon Textract está indisponível para acessar o objeto do S3 especificado na solicitação. para obter mais informações,Configuração de acesso ao Amazon S3Para obter informações sobre a solução de problemas, consulteSolução de problemas do Amazon S3
Código de status HTTP: 400
- ProvisionedThroughputExceededException
-
O número de solicitações excedeu o limite da taxa de transferência. Se precisar aumentar esse limite, entre em contato com o Amazon Textract.
Código de status HTTP: 400
- ThrottlingException
-
O Amazon Textract está temporariamente indisponível para processar a solicitação. Tente fazer a chamada novamente.
Código de status HTTP: 500
- UnsupportedDocumentException
-
O formato do documento de entrada não tem suporte. Os documentos para operações podem estar no formato PNG, JPEG, PDF ou TIFF.
Código de status HTTP: 400
Consulte também
Para obter mais informações sobre como usar essa API em um dos AWS SDKs específicos de linguagem, consulte o seguinte: