Esquemas - Amazon Bedrock

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Esquemas

Os esquemas são artefatos que podem ser usados para configurar a lógica de negócios do processamento de arquivos. Cada esquema consiste em uma lista de nomes de campo que você pode extrair, no formato de dados no qual você deseja que a resposta do campo seja extraída, como string, número ou booliano, e no contexto de linguagem natural para cada campo que você pode usar para especificar regras de normalização e validação de dados. É possível criar um esquema para cada classe de arquivo que você deseja processar, como um W2, um contracheque ou uma carteira de identidade. Os esquemas podem ser criados no console ou usando a API. Cada blueprint que você cria é um AWS recurso com seu próprio ID de blueprint e ARN.

Ao usar um esquema para extração, é possível usar um esquema de catálogo ou um esquema personalizado já criado. Se você já sabe qual tipo de arquivo deseja extrair, os esquemas do catálogo são um ponto de partida predefinido. É possível criar esquemas personalizados para arquivos que não estão no catálogo. Ao criar um esquema, você pode usar vários métodos, como usar um esquema gerado por meio do prompt do esquema, criá-lo manualmente adicionando campos individuais ou criar o JSON de um esquema usando o editor JSON. Esses esquemas podem ser salvos em sua conta e compartilhados.

nota

Os esquemas de áudio não podem ser criados por meio de prompts do esquema.

O tamanho máximo de um esquema é 100 mil caracteres, formatado em JSON. Para blueprints que devem ser usados com a InvokeDataAutomationAsyncAPI, o máximo de campos por blueprint é 100. Para Blueprints destinados a serem usados com a InvokeDataAutomationAPI, o máximo de campos por blueprint é 15.

nota

Ao usar esquemas, é possível usar prompts, seja em campos ou para a criação de esquemas. Permita que somente fontes confiáveis controlem a entrada do prompt. Amazon Bedrocknão é responsável por validar a intenção do plano.

Demonstração de um esquema

Vamos dar um exemplo de um documento de identificação, como um passaporte, e analisar um esquema para esse documento.

Exemplo de passaporte com campos padrão, demonstrando o layout e os campos de dados que serão extraídos.

Veja aqui um exemplo de esquema para esse documento de identificação criado no console.

Layout da tabela das definições dos campos do passaporte, com várias categorias, mostrando um exemplo de esquema.

Em essência, um esquema é uma estrutura de dados que contém campos, que, por sua vez, contêm as informações extraídas pela saída personalizada da BDA. Na tabela de extração, há dois tipos de campo, explícitos e implícitos. As extrações explícitas são usadas para obter informações claramente definidas que podem ser vistas no documento. As extrações implícitas são usadas para informações que precisam ser transformadas de acordo com a forma como aparecem no documento. Por exemplo, você pode remover os traços de um número de previdência social, convertendo 111-22-3333 em 111223333. Os campos contêm determinados componentes básicos:

  • Nome do campo: um nome que você pode fornecer para cada campo que deseja extrair do documento. É possível usar o nome que você usa para o campo em seu sistema subsequente, como Place_Birth ou Place_of_birth.

  • Descrição: é uma entrada que oferece contexto em linguagem natural para cada campo no esquema para descrever as regras de normalização ou validação de dados a serem seguidas. Por exemplo, Date of birth in YYYY-MM-DD format ou Is the year of birth before 1992?. Também é possível usar o prompt como uma forma de iterar no esquema e melhorar a precisão da resposta da BDA. Fornecer um prompt detalhado que descreva o campo do que você precisa ajuda os modelos subjacentes a melhorar a respectiva precisão. Os prompts podem ter até 300 caracteres.

  • Resultados: as informações extraídas pela BDA com base no prompt e no nome do campo.

  • Tipo: o formato de dados que você deseja que a resposta do campo use. Nós permitimos string, número, booliano, matriz de string e matriz de números.

  • Pontuação de confiança: a porcentagem de certeza que a BDA tem de que sua extração é precisa. Os esquemas de áudio não exibem uma pontuação de confiança.

  • Tipos de extração: o tipo de extração, explícita ou inferida.

  • Número da página: em qual página do documento o resultado foi encontrado. Os esquemas de áudio e vídeo não exibem o número da página.

Além dos campos simples, a saída personalizada da BDA oferece várias opções para casos de uso que você pode encontrar na extração de documentos: campos de tabela, grupos e tipos personalizados.

Campos da tabela

Ao criar um campo, você pode optar por criar um campo de tabela em vez de um campo básico. Você pode nomear o campo e fornecer um prompt, como ocorre com outros campos. Também é possível fornecer campos de coluna. Esses campos têm nome, descrição e tipo de coluna. Quando mostrado na tabela de extração, um campo de tabela tem os resultados da coluna agrupados abaixo do nome da tabela. Os campos de tabela podem ter no máximo 15 subcampos.

Groups (Grupos)

Um grupo é uma estrutura usada para organizar vários resultados em um único local dentro da extração. Ao criar um grupo, você atribui um nome a ele e pode criar e colocar campos nele. Esse grupo, que está marcado na tabela de extrações, lista os respectivos campos abaixo dele.

Tipos personalizados

Você pode criar um tipo personalizado ao editar um esquema no playground de esquemas. Qualquer campo pode ser de um tipo personalizado. Esse tipo tem um nome exclusivo e solicita a criação dos campos que compõem a detecção. Um exemplo seria criar um tipo personalizado chamado “Address” e incluir nele os campos “zip_code”, “city_name”, “street_name” e “state”. Em seguida, ao processar um documento, você pode usar o tipo personalizado em um campo “company_address”. Esse campo exibe então todas as informações agrupadas em linhas abaixo do tipo personalizado. É possível ter até trinta campos de tipo personalizado por esquema.