Escolher a ferramenta a ser usada para análise Escolher uma estratégia de fragmentação Usar uma função do Lambda durante a ingestão

Personalizar a ingestão para uma fonte de dados

Importante

Para uma precisão de recuperação otimizada e uma experiência gerenciada, recomendamos o Amazon Bedrock Managed Knowledge Base.

Você pode personalizar a ingestão de vetores ao conectar uma fonte de dados no Console de gerenciamento da AWS ou modificando o valor do vectorIngestionConfiguration campo ao enviar uma CreateDataSourcesolicitação.

Selecione um tópico para saber como incluir configurações para personalizar a ingestão ao se conectar a uma fonte de dados:

Tópicos

Escolher a ferramenta a ser usada para análise
Escolher uma estratégia de fragmentação
Usar uma função do Lambda durante a ingestão

Escolher a ferramenta a ser usada para análise

É possível personalizar a forma como os documentos em suas fontes de dados são analisados. Para saber mais sobre as opções de análise de dados nas Bases de Conhecimento do Amazon Bedrock, consulte Opções de análise para a fonte de dados.

Atenção

Você não pode alterar o tipo da estratégia de análise (por exemplo, de BEDROCK_FOUNDATION_MODEL paraBEDROCK_DATA_AUTOMATION) depois de se conectar à fonte de dados. Para usar um tipo de estratégia de análise diferente, você deve adicionar uma nova fonte de dados. No entanto, você pode atualizar os parâmetros de configuração dentro da mesma estratégia de análise, como modelArn in bedrockFoundationModelConfiguration ou o. parsingPrompt Ao atualizar, recupere toda a configuração existente usando GetDataSource e passe a configuração completa vectorIngestionConfiguration com apenas os valores específicos modificados.

É possível adicionar um local do S3 para armazenar dados multimodais (como imagens, figuras, gráficos e tabelas) depois de criar uma base de conhecimento. Se você quiser incluir dados multimodais e usar um analisador compatível, deverá criar outra base de conhecimento.

As etapas envolvidas na escolha de uma estratégia de análise dependem do uso Console de gerenciamento da AWS ou da API Amazon Bedrock e do método de análise escolhido. Se você escolher um método de análise que aceite dados multimodais, deverá especificar um URI do S3 no qual armazenar os dados multimodais extraídos dos documentos. Esses dados podem ser exibidos na consulta à base de conhecimento.

NoConsole de gerenciamento da AWS, faça o seguinte:
1. Selecione a estratégia de análise ao se conectar a uma fonte de dados enquanto estiver configurando uma base de conhecimento ou adicionando uma nova fonte de dados à base de conhecimento existente.
2. (Se você escolher a Automação de Dados do Amazon Bedrock ou um modelo de base como estratégia de análise) Especifique um URI do S3 no qual armazenar os dados multimodais extraídos dos documentos na seção Destino de armazenamento multimoda ao selecionar um modelo de incorporação e configurar o armazenamento de vetores. Também é possível usar uma chave gerenciada pelo cliente para criptografar dados do S3 nesta etapa.
Na API do Amazon Bedrock, faça o seguinte:
1. (Se você planeja usar o Amazon Bedrock Data Automation ou um modelo básico como sua estratégia de análise) Inclua um SupplementalDataStorageLocationna VectorKnowledgeBaseConfigurationsolicitação. CreateKnowledgeBase
2. Inclua um ParsingConfigurationno parsingConfiguration campo do VectorIngestionConfigurationna CreateDataSourcesolicitação.
  
  nota
  Se você omitir essa configuração, as Bases de Conhecimento do Amazon Bedrock usarão o analisador padrão do Amazon Bedrock.

Para obter mais detalhes sobre como especificar uma estratégia de análise na API, expanda a seção que corresponde à estratégia de análise que você deseja usar:

Para usar o analisador padrão, não inclua um campo parsingConfiguration na VectorIngestionConfiguration.

Para usar o analisador Amazon Bedrock Data Automation, especifique BEDROCK_DATA_AUTOMATION no parsingStrategy campo do ParsingConfiguration e inclua um BedrockDataAutomationConfigurationno bedrockDataAutomationConfiguration campo, conforme o seguinte formato:


{
    "parsingStrategy": "BEDROCK_DATA_AUTOMATION",
    "bedrockDataAutomationConfiguration": {
        "parsingModality": "string"
    }
}

Para usar um modelo básico como analisador, especifique o BEDROCK_FOUNDATION_MODEL no parsingStrategy campo do ParsingConfiguration e inclua um BedrockFoundationModelConfigurationno bedrockFoundationModelConfiguration campo, conforme o formato a seguir:


{
    "parsingStrategy": "BEDROCK_FOUNDATION_MODEL",
    "bedrockFoundationModelConfiguration": {
        "modelArn": "string",
        "parsingModality": "string",
        "parsingPrompt": {
            "parsingPromptText": "string"
        }
    }
}

Escolher uma estratégia de fragmentação

Você pode personalizar a forma como os documentos em sua fontes de dados são agrupados para armazenamento e recuperação. Para saber mais sobre as opções para fragmentar dados nas Bases de Conhecimento do Amazon Bedrock, consulte Como a fragmentação de conteúdo funciona para bases de conhecimento.

Atenção

Não será possível alterar a estratégia de fragmentação após a conexão da fonte de dados.

No, Console de gerenciamento da AWS você escolhe a estratégia de fragmentação ao se conectar a uma fonte de dados. Com a API Amazon Bedrock, você inclui um ChunkingConfigurationno chunkingConfiguration campo do VectorIngestionConfiguration.

nota

Se você omitir essa configuração, o Amazon Bedrock dividirá o conteúdo em fragmentos de aproximadamente 300 tokens, preservando os limites das frases.

Expanda a seção que corresponde à estratégia de análise que você deseja usar:

Para tratar cada documento em sua fonte de dados como um único fragmento de origem, especifique NONE no campo chunkingStrategy de ChunkingConfiguration, conforme o seguinte formato:


{
    "chunkingStrategy": "NONE"
}

Para dividir cada documento em sua fonte de dados em partes de aproximadamente o mesmo tamanho, especifique FIXED_SIZE no chunkingStrategy campo do ChunkingConfiguration e inclua um FixedSizeChunkingConfigurationno fixedSizeChunkingConfiguration campo, conforme o formato a seguir:


{
    "chunkingStrategy": "FIXED_SIZE",
    "fixedSizeChunkingConfiguration": {
        "maxTokens": number,
        "overlapPercentage": number
    }
}

Para dividir cada documento em sua fonte de dados em dois níveis, em que a segunda camada contém partes menores derivadas da primeira camada, especifique HIERARCHICAL no campo chunkingStrategy de ChunkingConfiguration e inclua o campo hierarchicalChunkingConfiguration, conforme o seguinte formato:


{
    "chunkingStrategy": "HIERARCHICAL",
    "hierarchicalChunkingConfiguration": {
        "levelConfigurations": [{
            "maxTokens": number
        }],
        "overlapTokens": number
    }
}

Para dividir cada documento em sua fonte de dados em partes que priorizam o significado semântico à estrutura sintática, especifique SEMANTIC no campo chunkingStrategy de ChunkingConfiguration e inclua o campo semanticChunkingConfiguration, conforme o seguinte formato:


{
    "chunkingStrategy": "SEMANTIC",
    "semanticChunkingConfiguration": {
        "breakpointPercentileThreshold": number,
        "bufferSize": number,
        "maxTokens": number
    }
}

Usar uma função do Lambda durante a ingestão

É possível pós-processar como os fragmentos de origem dos dados são gravados no armazenamento de vetores com uma função do Lambda das seguintes maneiras:

Inclua a lógica de fragmentação para fornecer uma estratégia de fragmentação personalizada.
Inclua lógica para especificar metadados em nível de fragmento.

Para saber como criar uma função do Lambda personalizada para ingestão, consulte Usar uma função do Lambda de transformação personalizada para definir como os dados são ingeridos. No, Console de gerenciamento da AWS você escolhe a função Lambda ao se conectar a uma fonte de dados. Com a API Amazon Bedrock, você inclui um CustomTransformationConfigurationno CustomTransformationConfiguration campo do VectorIngestionConfiguratione especifica o ARN do Lambda, conforme o seguinte formato:


{
    "transformations": [{
        "transformationFunction": {
            "transformationLambdaConfiguration": {
                "lambdaArn": "string"
            }
        },
        "stepToApply": "POST_CHUNKING"
    }],
    "intermediateStorage": {
        "s3Location": {
            "uri": "string"
        }
    }
}

Especifique também o local do S3 no qual armazenar a saída depois de aplicar a função do Lambda.

Você pode incluir o campo chunkingConfiguration para aplicar a função do Lambda depois de aplicar uma das opções de fragmentação que o Amazon Bedrock oferece.

Atenção O Javascript está desativado ou não está disponível no seu navegador.

Para usar a documentação da AWS, o Javascript deve estar ativado. Consulte as páginas de Ajuda do navegador para obter instruções.

Convenções do documento

Personalizada

Definir configurações de segurança para a base de conhecimento