Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.
Aggiungere fonti di dati e avviare l'inserimento
Dopo aver creato la tua knowledge base, aggiungi fonti di dati contenenti i contenuti multimodali e avvia i processi di inserimento per elaborare e indicizzare i contenuti.
Comportamento di eliminazione delle fonti di dati
Quando si elimina un'origine dati con la politica di eliminazione impostata su RETAIN, il contenuto importato rimane nel database vettoriale e continuerà a essere utilizzato per il recupero. Il contenuto viene rimosso solo se si sincronizza esplicitamente la knowledge base dopo aver eliminato l'origine dati. Le fonti di dati con la politica DELETE predefinita rimuoveranno automaticamente il contenuto dal database vettoriale e dallo spazio di archiviazione supplementare durante l'eliminazione. Ciò garantisce che la tua knowledge base continui a funzionare anche se i file di origine vengono modificati o eliminati, ma tieni presente che le fonti di dati eliminate con la politica RETAIN possono comunque contribuire ai risultati della ricerca.
Aggiungi fonti di dati
Aggiungi fonti di dati contenenti i tuoi contenuti multimodali alla tua knowledge base.
Per le fonti di dati BDA: solo le fonti di dati create dopo l'avvio del audio/video supporto elaboreranno i file audio e video. Le sorgenti dati BDA esistenti create prima del lancio di questa funzionalità continueranno a ignorare i file audio e video. Per abilitare audio/video l'elaborazione per le knowledge base esistenti, crea nuove fonti di dati.
- Console
-
Per aggiungere una fonte di dati dalla console
-
Dalla pagina dei dettagli della knowledge base, scegli Aggiungi origine dati.
-
Scegli Amazon S3 come tipo di origine dati.
-
Fornisci un nome e una descrizione per la tua fonte di dati.
-
Configura la posizione Amazon S3 contenente i tuoi file multimodali fornendo l'URI del bucket e gli eventuali prefissi di inclusione.
-
In Analisi e suddivisione in blocchi dei contenuti, configura i metodi di analisi e suddivisione in blocchi:
I modelli di incorporamento del testo limitano il recupero ai contenuti di solo testo, ma puoi abilitare il recupero multimodale tramite testo selezionando Amazon Bedrock Data Automation (per audio, video e immagini) o Foundation Model come parser (per immagini).
Scegli tra tre strategie di analisi:
-
Parser predefinito Bedrock: consigliato per l'analisi di solo testo. Questo parser ignora il contenuto multimodale ed è comunemente usato con modelli di incorporamento multimodali.
-
Bedrock Data Automation come parser: consente l'analisi e l'archiviazione di contenuti multimodali come file di testo, supporto, immagini, audio e video. PDFs
-
Modello Foundation come parser: fornisce un'analisi avanzata di immagini e documenti strutturati, supporta immagini, tabelle e documenti PDFs visivamente ricchi.
-
Scegli Aggiungi origine dati per creare l'origine dati.
- CLI
-
Per aggiungere una fonte di dati utilizzando il AWS CLI
-
Crea una fonte di dati per i tuoi contenuti multimodali. Invia una CreateDataSourcerichiesta:
aws bedrock-agent create-data-source \
--knowledge-base-id <knowledge-base-id> \
--cli-input-json file://ds-multimodal.json
Per Nova Multimodal Embeddings (non è necessaria alcuna configurazione di analisi speciale), usa questo contenuto: ds-multimodal.json
{
"dataSourceConfiguration": {
"type": "S3",
"s3Configuration": {
"bucketArn": "arn:aws:s3:::<data-source-bucket>",
"inclusionPrefixes": ["<folder-path>"]
}
},
"name": "multimodal_data_source",
"description": "Data source with multimodal content",
"dataDeletionPolicy": "RETAIN"
}
Per l'approccio di analisi BDA, usa questa configurazione:
{
"dataSourceConfiguration": {
"type": "S3",
"s3Configuration": {
"bucketArn": "arn:aws:s3:::<data-source-bucket>",
"inclusionPrefixes": ["<folder-path>"]
}
},
"name": "multimodal_data_source_bda",
"description": "Data source with BDA multimodal parsing",
"dataDeletionPolicy": "RETAIN",
"vectorIngestionConfiguration": {
"parsingConfiguration": {
"bedrockDataAutomationConfiguration": {
"parsingModality": "MULTIMODAL"
}
}
}
}
Avvio di un processo di importazione
Dopo aver aggiunto le fonti di dati, avvia un processo di inserimento per elaborare e indicizzare i contenuti multimodali.
- Console
-
Per avviare l'importazione dalla console
-
Dalla pagina dei dettagli dell'origine dati, scegli Sincronizza.
-
Monitora lo stato di sincronizzazione nella pagina dell'origine dati. L'ingestione può richiedere diversi minuti a seconda delle dimensioni e del numero dei file multimodali.
-
Una volta completata correttamente la sincronizzazione, il contenuto multimodale è pronto per l'interrogazione.
- CLI
-
Per iniziare l'ingestione, utilizzare il AWS CLI
-
Avviare un processo di ingestione. Invia una StartIngestionJobrichiesta:
aws bedrock-agent start-ingestion-job \
--knowledge-base-id <knowledge-base-id> \
--data-source-id <data-source-id>
Sostituisci i segnaposto con:
-
Monitora lo stato del processo di importazione utilizzando. GetIngestionJob
Risincronizzazione dopo l'eliminazione della fonte di dati
Se elimini un'origine dati e desideri rimuoverne il contenuto dalla knowledge base, devi risincronizzare esplicitamente la knowledge base:
Per rimuovere il contenuto di una fonte di dati eliminato
-
Elimina l'origine dati utilizzando la console o l'DeleteDataSourceAPI.
-
Avvia un nuovo processo di inserimento su tutte le fonti di dati rimanenti per aggiornare il database vettoriale e rimuovere il contenuto dall'origine dati eliminata.
-
Verifica che le query non restituiscano più risultati dall'origine dati eliminata.
Senza risincronizzazione, il contenuto delle fonti di dati eliminate continuerà a essere visualizzato nei risultati di ricerca anche se l'origine dati non esiste più.