Noções básicas sobre a correspondência de esquema Práticas recomendadas para criar esquemas

Dividir documentos ao usar projetos

Amazon Bedrock A automação de dados (BDA) suporta a divisão de documentos ao usar a API. Amazon Bedrock Quando habilitada, a divisão permite que a BDA utilize um PDF que contenha vários documentos lógicos e o divida em documentos separados para processamento.

Após a conclusão da divisão, cada segmento do documento dividido será processado de forma independente. Isso significa que um documento de entrada pode conter diferentes tipos de documento. Por exemplo, se você tivesse um PDF contendo três extratos bancários e um W2, a divisão tentaria dividi-lo em quatro documentos separados, os quais seriam processados individualmente.

A divisão automática da BDA permite arquivos com até 3 mil páginas e documentos individuais de até 20 páginas cada.

A opção de dividir documentos está desativada por padrão, mas pode ser ativada ao usar a API. Veja abaixo um exemplo de como criar um projeto com o divisor habilitado. As reticências representam esquemas adicionais fornecidas ao projeto.



   response = client.create_data_automation_project(
    projectName=project_name,
    projectDescription="Provide a project description",
    projectStage='LIVE',
    standardOutputConfiguration=output_config,
    customOutputConfiguration={
    'blueprints': [
        {
        'blueprintArn': Blueprint ARN,
        'blueprintStage': 'LIVE'
        },
        ...
        ]
        },
         overrideConfiguration={'document': {'splitter': {'state': 'ENABLED'}}}
)

A parte que permite o processo de divisão é a linha overrideConfiguration. Essa linha configura o divisor e permite que você transmita vários documentos no mesmo arquivo.

Os documentos são divididos pelos respectivos limites semânticos.

A divisão de documentos ocorre independentemente da aplicação de esquemas, e os documentos divididos serão combinados com o esquema mais próximo. Para ter mais informações sobre como a BDA combina esquemas, consulte Noções básicas sobre a correspondência de esquema.

Noções básicas sobre a correspondência de esquema

A correspondência de esquema baseia-se nos seguintes elementos:

Nome do esquema
Descrição do esquema
Campos do esquema

Ao processar documentos, você pode fornecer vários esquemas para verificar a correspondência. Isso permite processar diferentes tipos de documento com esquemas apropriados. Você pode fornecer vários planos IDs ao invocar a API de automação de dados, e o BDA tentará combinar cada documento com o esquema mais adequado. Isso permite processar tipos de documento mistos em um único lote. Isso é útil quando se espera que os documentos sejam de tipos diferentes (p. ex., extratos bancários, faturas e passaportes).

Se você precisar de esquemas separados porque os formatos dos documentos são muito diferentes ou exigem prompts especializados, criar um esquema por tipo de documento pode ajudar a compatibilizar. Para ter mais informações sobre como criar esquemas úteis, consulte Práticas recomendadas para criar esquemas.

Práticas recomendadas para criar esquemas

Siga as práticas recomendadas abaixo para aproveitar ao máximo seus esquemas:

Atribua nomes e descrições explícitos e detalhados aos projetos para ajudar na correspondência.
Forneça vários projetos relevantes para que a BDA selecione a melhor combinação. Crie esquemas separados para formatos de documento significativamente diferentes.
Considere criar esquemas especializados para cada vendor/document fonte, se você precisar de máxima precisão
Não inclua dois esquemas do mesmo tipo em um projeto (p. ex., dois esquemas de W2). Como as informações do documento em si e do esquema são usadas para processar documentos, incluir vários esquemas do mesmo tipo em um projeto prejudicará o desempenho.

Ao utilizar a divisão de documentos e a correspondência entre vários esquemas, a BDA consegue lidar com conjuntos de documentos variados de forma mais flexível, aplicando a lógica de extração mais apropriada a cada documento.

Atenção O Javascript está desativado ou não está disponível no seu navegador.

Para usar a documentação da AWS, o Javascript deve estar ativado. Consulte as páginas de Ajuda do navegador para obter instruções.

Convenções do documento

Projetos da Automação de Dados do Bedrock

Desabilitar modalidades e tipos de arquivo de roteamento