As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.
Adicionar fontes de dados e iniciar a ingestão
Depois de criar sua base de conhecimento, adicione fontes de dados contendo seu conteúdo multimodal e inicie os trabalhos de ingestão para processar e indexar o conteúdo.
Comportamento de exclusão da fonte de dados
Quando você exclui uma fonte de dados com a política de exclusão definida como RETAIN, o conteúdo ingerido permanece no banco de dados vetorial e continuará sendo usado para recuperação. O conteúdo só será removido se você sincronizar explicitamente a base de conhecimento após excluir a fonte de dados. As fontes de dados com a política DELETE padrão removerão automaticamente o conteúdo do banco de dados vetorial e do armazenamento suplementar durante a exclusão. Isso garante que sua base de conhecimento continue funcionando mesmo que os arquivos de origem sejam modificados ou excluídos, mas você deve estar ciente de que fontes de dados excluídas com a política RETAIN ainda podem contribuir para os resultados da pesquisa.
Adicionar fontes de dados
Adicione fontes de dados contendo seu conteúdo multimodal à sua base de conhecimento.
Para fontes de dados BDA: somente fontes de dados criadas após o lançamento do audio/video suporte processarão arquivos de áudio e vídeo. As fontes de dados BDA existentes criadas antes do lançamento desse recurso continuarão ignorando arquivos de áudio e vídeo. Para permitir o audio/video processamento das bases de conhecimento existentes, crie novas fontes de dados.
- Console
-
Para adicionar uma fonte de dados do console
-
Na página de detalhes da sua base de conhecimento, escolha Adicionar fonte de dados.
-
Escolha Amazon S3 como seu tipo de fonte de dados.
-
Forneça um nome e uma descrição para sua fonte de dados.
-
Configure a localização do Amazon S3 contendo seus arquivos multimodais fornecendo o URI do bucket e quaisquer prefixos de inclusão.
-
Em Análise e fragmentação de conteúdo, configure seus métodos de análise e fragmentação:
Os modelos de incorporação de texto limitam a recuperação ao conteúdo somente de texto, mas você pode habilitar a recuperação multimodal via texto selecionando Amazon Bedrock Data Automation (para áudio, vídeo e imagens) ou Foundation Model como analisadores (para imagens).
Escolha entre três estratégias de análise:
-
Analisador padrão Bedrock: recomendado para análise somente de texto. Esse analisador ignora o conteúdo multimodal e é comumente usado com modelos de incorporação multimodal.
-
Automação de dados Bedrock como analisador: permite analisar e armazenar conteúdo multimodal como arquivos de texto, suporte, imagens PDFs, áudio e vídeo.
-
Modelo básico como analisador: fornece análise avançada para imagens e documentos estruturados, suporte PDFs, imagens, tabelas e documentos visualmente ricos.
-
Escolha Adicionar fonte de dados para criar a fonte de dados.
- CLI
-
Para adicionar uma fonte de dados usando o AWS CLI
-
Crie uma fonte de dados para seu conteúdo multimodal. Envie uma CreateDataSourcesolicitação:
aws bedrock-agent create-data-source \
--knowledge-base-id <knowledge-base-id> \
--cli-input-json file://ds-multimodal.json
Para Nova Multimodal Embeddings (nenhuma configuração especial de análise é necessária), use este conteúdo: ds-multimodal.json
{
"dataSourceConfiguration": {
"type": "S3",
"s3Configuration": {
"bucketArn": "arn:aws:s3:::<data-source-bucket>",
"inclusionPrefixes": ["<folder-path>"]
}
},
"name": "multimodal_data_source",
"description": "Data source with multimodal content",
"dataDeletionPolicy": "RETAIN"
}
Para a abordagem de análise do BDA, use esta configuração:
{
"dataSourceConfiguration": {
"type": "S3",
"s3Configuration": {
"bucketArn": "arn:aws:s3:::<data-source-bucket>",
"inclusionPrefixes": ["<folder-path>"]
}
},
"name": "multimodal_data_source_bda",
"description": "Data source with BDA multimodal parsing",
"dataDeletionPolicy": "RETAIN",
"vectorIngestionConfiguration": {
"parsingConfiguration": {
"bedrockDataAutomationConfiguration": {
"parsingModality": "MULTIMODAL"
}
}
}
}
Iniciar um trabalho de ingestão
Depois de adicionar suas fontes de dados, inicie um trabalho de ingestão para processar e indexar seu conteúdo multimodal.
- Console
-
Para iniciar a ingestão a partir do console
-
Na página de detalhes da fonte de dados, escolha Sincronizar.
-
Monitore o status da sincronização na página da fonte de dados. A ingestão pode levar vários minutos, dependendo do tamanho e do número de seus arquivos multimodais.
-
Quando a sincronização for concluída com sucesso, seu conteúdo multimodal estará pronto para consulta.
- CLI
-
Para iniciar a ingestão usando o AWS CLI
-
Inicie um trabalho de ingestão. Envie uma StartIngestionJobsolicitação:
aws bedrock-agent start-ingestion-job \
--knowledge-base-id <knowledge-base-id> \
--data-source-id <data-source-id>
Substitua os espaços reservados por:
-
Monitore o status do trabalho de ingestão usando GetIngestionJob.
Ressincronização após a exclusão da fonte de dados
Se você excluir uma fonte de dados e quiser remover seu conteúdo da base de conhecimento, deverá ressincronizar explicitamente a base de conhecimento:
Para remover o conteúdo da fonte de dados excluída
-
Exclua a fonte de dados usando o console ou a DeleteDataSourceAPI.
-
Inicie um novo trabalho de ingestão em todas as fontes de dados restantes para atualizar o banco de dados vetoriais e remover o conteúdo da fonte de dados excluída.
-
Verifique se as consultas não retornam mais os resultados da fonte de dados excluída.
Sem ressincronização, o conteúdo das fontes de dados excluídas continuará aparecendo nos resultados da pesquisa, mesmo que a fonte de dados não exista mais.