Criar esquemas para extração - Amazon Bedrock

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Criar esquemas para extração

A BDA permite que você defina os campos de dados específicos que você deseja extrair de seus documentos ao criar um esquema. Isso funciona como um conjunto de instruções que orientam a BDA sobre quais informações procurar e como interpretá-las.

Definir campos

Para começar, você pode criar uma propriedade para cada campo que exija extração, como employee_id ou product_name. Para cada campo, você precisa fornecer descrição, tipo de dados e tipo de inferência.

Para definir um campo para extração, você precisa especificar os seguintes parâmetros:

  • Nome do campo: fornece uma explicação legível sobre o que o campo representa. Essa descrição ajuda a entender o contexto e a finalidade do campo, contribuindo para a extração precisa dos dados.

  • Instrução: oferece uma explicação em linguagem natural do que o campo representa. Essa descrição ajuda a entender o contexto e a finalidade do campo, contribuindo para a extração precisa dos dados.

  • Type: especifica o tipo de dados do valor do campo. A BDA aceita os seguintes tipos de dados:

    • string: para valores baseados em texto.

    • número: para valores numéricos.

    • boolean: Para valores true/false

    • matriz: para campos que podem ter vários valores do mesmo tipo (p. ex., uma matriz de strings ou uma matriz de números).

  • Tipo de inferência: instrui a BDA sobre como lidar com a extração do valor do campo. Os tipos de inferência aceitos são:

    • Explícito: a BDA deve extrair o valor diretamente do documento.

    • Inferido: a BDA deve inferir o valor com base nas informações presentes no documento.

Veja abaixo um exemplo de definição de campo:

Console
Console mostrando como adicionar “Nome do campo” e “Instrução”. “Type” está definido como “String” e “Extraction type” está definido como “Explicit”.
API
"product_name":{ "type":"string", "inferenceType":"Explicit", "description":"The short name of the product without any extra details" }

Neste exemplo:

  • O tipo está definido como string, indicando que o valor do campo product_name deve ser baseado em texto.

  • inferenceType está definido como Explicit, instruindo a BDA a extrair o valor diretamente do documento sem nenhuma transformação ou validação.

  • A instrução fornece contexto adicional, esclarecendo que o campo deve conter o nome curto do produto sem detalhes adicionais.

Ao especificar esses parâmetros para cada campo, você fornece à BDA as informações necessárias para extrair e interpretar com precisão os dados desejados de seus documentos.

Campo Instrução Tipo de extração Tipo

ApplicantsName

Nome completo do candidato

Explícito

string

DateOfBirth

Data de nascimento do funcionário

Explícito

string

Vendas

Receitas brutas ou vendas

Explícito

número

Statement_starting_balance

Saldo no início do período

Explícito

número

Campos de vários valores

Nos casos em que um campo pode conter vários valores, é possível definir matrizes ou tabelas.

Lista de campos

Para campos que contêm uma lista de valores, é possível definir matriz como tipo de dados.

Neste exemplo, "OtherExpenses" é definido como uma matriz de sequências de caracteres, permitindo que o BDA extraia vários itens de despesas para esse campo.

Console
Console mostrando como adicionar “Nome do campo” e “Instrução”. “Type” está definido como “String” e “Extraction type” está definido como “Explicit”.
API
"OtherExpenses":{ "type":"array", "inferenceType":"Explicit", "description":"Other business expenses not included in fields 8-26 or field 30", "items":{ "type":"string" } }
Tabelas

Se o documento contiver dados tabulares, você poderá definir uma estrutura de tabela dentro do esquema.

Neste exemplo, “SERVICES_TABLE” é definido como um tipo de tabela, com determinados campos de coluna, como nome do produto, descrição, quantidade, preço unitário e valor.

Console
Console mostrando como adicionar “Nome do campo” e “Instrução”. “Type” está definido como “Table”, “Extraction type” está definido como “Explicit” e os campos específicos da coluna que são adicionados são mostrados.
API
"definitions":{ "LINEITEM":{ "properties":{ "quantity":{ "type":"number", "inferenceType":"Explicit" }, "unit price":{ "type":"number", "inferenceType":"Explicit" }, "amount":{ "type":"number", "inferenceType":"Explicit", "description":"Unit Price * Quantity" }, "product name":{ "type":"string", "inferenceType":"Explicit", "description":"The short name of the product without any extra details" }, "product description":{ "type":"string", "inferenceType":"Explicit", "description":"The full item list description text" } } } }, "properties":{ "SERVICES_TABLE":{ "type":"array", "description":"Line items table listing all the items / services charged in the invoice including quantity, price, amount, product / service name and description.", "items":{ "$ref":"#/definitions/LINEITEM" } }, "... ..." ]

Ao definir esquemas abrangentes com descrições de campo, tipos de dados e tipos de inferência apropriados, você pode garantir que a BDA extraia com precisão as informações desejadas dos documentos, independentemente de variações na formatação ou representação.