Adicionar fontes de dados Iniciar um trabalho de ingestão Ressincronização após a exclusão da fonte de dados

Adicionar fontes de dados e iniciar a ingestão

Depois de criar sua base de conhecimento, adicione fontes de dados contendo seu conteúdo multimodal e inicie os trabalhos de ingestão para processar e indexar o conteúdo.

Comportamento de exclusão da fonte de dados

Quando você exclui uma fonte de dados com a política de exclusão definida como RETAIN, o conteúdo ingerido permanece no banco de dados vetorial e continuará sendo usado para recuperação. O conteúdo só será removido se você sincronizar explicitamente a base de conhecimento após excluir a fonte de dados. As fontes de dados com a política DELETE padrão removerão automaticamente o conteúdo do banco de dados vetorial e do armazenamento suplementar durante a exclusão. Isso garante que sua base de conhecimento continue funcionando mesmo que os arquivos de origem sejam modificados ou excluídos, mas você deve estar ciente de que fontes de dados excluídas com a política RETAIN ainda podem contribuir para os resultados da pesquisa.

Adicionar fontes de dados

Adicione fontes de dados contendo seu conteúdo multimodal à sua base de conhecimento.

Importante

Para fontes de dados BDA: somente fontes de dados criadas após o lançamento do audio/video suporte processarão arquivos de áudio e vídeo. As fontes de dados BDA existentes criadas antes do lançamento desse recurso continuarão ignorando arquivos de áudio e vídeo. Para permitir o audio/video processamento das bases de conhecimento existentes, crie novas fontes de dados.

Console

Para adicionar uma fonte de dados do console

Na página de detalhes da sua base de conhecimento, escolha Adicionar fonte de dados.
Escolha Amazon S3 como seu tipo de fonte de dados.
Forneça um nome e uma descrição para sua fonte de dados.
Configure a localização do Amazon S3 contendo seus arquivos multimodais fornecendo o URI do bucket e quaisquer prefixos de inclusão.
Em Análise e fragmentação de conteúdo, configure seus métodos de análise e fragmentação:

nota
Os modelos de incorporação de texto limitam a recuperação ao conteúdo somente de texto, mas você pode habilitar a recuperação multimodal via texto selecionando Amazon Bedrock Data Automation (para áudio, vídeo e imagens) ou Foundation Model como analisadores (para imagens).

Escolha entre três estratégias de análise:
- Analisador padrão Bedrock: recomendado para análise somente de texto. Esse analisador ignora o conteúdo multimodal e é comumente usado com modelos de incorporação multimodal.
- Automação de dados Bedrock como analisador: permite analisar e armazenar conteúdo multimodal como texto, suportando PDFs, imagens, arquivos de áudio e vídeo.
- Modelo básico como analisador: fornece análise avançada para imagens e documentos estruturados, suportando PDFs, imagens, tabelas e documentos visualmente ricos.
Escolha Adicionar fonte de dados para criar a fonte de dados.

CLI

Para adicionar uma fonte de dados usando o AWS CLI

Crie uma fonte de dados para seu conteúdo multimodal. Envie uma CreateDataSourcesolicitação:


aws bedrock-agent create-data-source \
--knowledge-base-id <knowledge-base-id> \
--cli-input-json file://ds-multimodal.json

Para Nova Multimodal Embeddings (nenhuma configuração especial de análise é necessária), use este conteúdo: ds-multimodal.json


{
    "dataSourceConfiguration": {
        "type": "S3",
        "s3Configuration": {
            "bucketArn": "arn:aws:s3:::<data-source-bucket>",
            "inclusionPrefixes": ["<folder-path>"]
        }
    },
    "name": "multimodal_data_source",
    "description": "Data source with multimodal content",
    "dataDeletionPolicy": "RETAIN"
}

Para a abordagem de análise do BDA, use esta configuração:


{
    "dataSourceConfiguration": {
        "type": "S3",
        "s3Configuration": {
            "bucketArn": "arn:aws:s3:::<data-source-bucket>",
            "inclusionPrefixes": ["<folder-path>"]
        }
    },
    "name": "multimodal_data_source_bda",
    "description": "Data source with BDA multimodal parsing",
    "dataDeletionPolicy": "RETAIN",
    "vectorIngestionConfiguration": {
        "parsingConfiguration": {
            "bedrockDataAutomationConfiguration": {
                "parsingModality": "MULTIMODAL"
            }
        }
    }
}

Iniciar um trabalho de ingestão

Depois de adicionar suas fontes de dados, inicie um trabalho de ingestão para processar e indexar seu conteúdo multimodal.

Ressincronização após a exclusão da fonte de dados

Se você excluir uma fonte de dados e quiser remover seu conteúdo da base de conhecimento, deverá ressincronizar explicitamente a base de conhecimento:

Para remover o conteúdo da fonte de dados excluída

Exclua a fonte de dados usando o console ou a DeleteDataSourceAPI.
Inicie um novo trabalho de ingestão em todas as fontes de dados restantes para atualizar o banco de dados vetoriais e remover o conteúdo da fonte de dados excluída.
Verifique se as consultas não retornam mais os resultados da fonte de dados excluída.

nota

Sem ressincronização, o conteúdo das fontes de dados excluídas continuará aparecendo nos resultados da pesquisa, mesmo que a fonte de dados não exista mais.

Atenção O Javascript está desativado ou não está disponível no seu navegador.

Para usar a documentação da AWS, o Javascript deve estar ativado. Consulte as páginas de Ajuda do navegador para obter instruções.

Convenções do documento

Criar uma base de conhecimento

Teste e consulte a base de conhecimento

Adicionar fontes de dados e iniciar a ingestão

Comportamento de exclusão da fonte de dados

Adicionar fontes de dados

Importante

Para adicionar uma fonte de dados do console

nota

Para adicionar uma fonte de dados usando o AWS CLI

Iniciar um trabalho de ingestão

Para iniciar a ingestão a partir do console

Para iniciar a ingestão usando o AWS CLI

Ressincronização após a exclusão da fonte de dados

Para remover o conteúdo da fonte de dados excluída

nota