In che modo una knowledge base gestisce le risincronizzazioni

Sincronizzare i dati con Knowledge Base per Amazon Bedrock

Importante

Per una precisione di recupero ottimizzata e un'esperienza gestita, consigliamo Amazon Bedrock Managed Knowledge Base.

Dopo aver creato la knowledge base, importare o sincronizzare i dati in modo che possano essere interrogati. L’importazione converte i dati grezzi dell’origine dati in embedding vettoriali, in base al modello di embedding vettoriali e alle configurazioni specificati.

Prima di iniziare l’importazione, verificare che l’origine dati soddisfi le seguenti condizioni:

Le informazioni sulla connessione dell’origine dati sono state configurate. Per configurare un connettore di origine dati per eseguire la scansione dei dati dal repository di origini dati, consultare Connettori di origine dati supportati. La configurazione dell’origine dati viene effettuata nell’ambito della creazione della knowledge base.
Il modello di embedding vettoriali e l’archivio vettoriale scelti sono stati configurati. Consultare Modelli di embedding vettoriali supportati e Archivi vettoriali per knowledge base. La configurazione degli embedding vettoriali viene effettuata nell’ambito della creazione della knowledge base.
I file sono nei formati supportati. Per ulteriori informazioni, consulta Formati di documenti supportati.
I file non superano le dimensioni del file del processo di importazione specificate in Endpoint e quote di Amazon Bedrock nei Riferimenti generali di AWS.
Se l’origine dati contiene file di metadati, verificare le seguenti condizioni per garantire che i file di metadati non vengano ignorati:
- Ogni .metadata.json file condivide lo stesso nome e la stessa estensione del file di origine a cui è associato.
- Se l'indice vettoriale per la tua knowledge base si trova in un archivio vettoriale Amazon OpenSearch Serverless, verifica che l'indice vettoriale sia configurato con il motore. faiss Se l’indice vettoriale è configurato con il motore nmslib, eseguire una delle seguenti operazioni:
  - Crea una nuova knowledge base nella console e consenti ad Amazon Bedrock di creare automaticamente un indice vettoriale in Amazon OpenSearch Serverless per te.
  - Crea un altro indice vettoriale nell’archivio vettoriale e seleziona faiss come motore. Poi creare una nuova knowledge base e specificare il nuovo indice vettoriale.
- Se l’indice vettoriale per la knowledge base si trova in un cluster di database Amazon Aurora, consigliamo di utilizzare il campo dei metadati personalizzati per archiviare tutti i metadati in un’unica colonna e creare un indice su questa colonna. Se il campo dei metadati personalizzati non è specificato, è necessario verificare che la tabella dell’indice contenga una colonna per ogni proprietà dei metadati nei file di metadati prima di iniziare l’importazione. Per ulteriori informazioni, consulta Prerequisiti per l’utilizzo di un archivio vettoriale creato per una knowledge base.

Ogni volta che vengono aggiunti, modificati o rimossi file dall’origine dati, è necessario sincronizzare l’origine dati in modo che venga reindicizzata nella knowledge base. La sincronizzazione è incrementale, quindi Amazon Bedrock elabora solo i documenti aggiunti, modificati o eliminati dall’ultima sincronizzazione.

In che modo una knowledge base gestisce le risincronizzazioni

Ogni volta che aggiungi, modifichi o rimuovi file dall'origine dati, devi sincronizzare l'origine dati in modo che venga reindicizzata nella knowledge base. La sincronizzazione è incrementale, quindi Amazon Bedrock elabora solo i documenti che sono stati aggiunti, modificati o eliminati dopo l'ultima sincronizzazione. Quando sincronizzi un'origine dati, Amazon Bedrock reinserisce i documenti per garantire precisione e coerenza. Re-ingestion include l'analisi, la suddivisione in blocchi, la generazione di incorporamenti e l'indicizzazione nel vector store.

Sincronizza scenari
Scenario	Cosa succede
Nessuna modifica rilevata	Il documento viene ignorato.
Contenuto o metadati modificati	Il documento viene reinserito (rianalizzato, suddiviso nuovamente, incorporato e reindicizzato).
Nuovo documento aggiunto	Viene importato solo il nuovo documento.
Documento eliminato	Il documento viene rimosso dall'archivio vettoriale.

Metadata-only ottimizzazione

In alcuni casi, Amazon Bedrock può aggiornare i metadati senza reinserire il documento associato a quel file di metadati. Questa ottimizzazione recupera gli incorporamenti vettoriali esistenti dal vector store, unisce i nuovi metadati e riscrive gli incorporamenti aggiornati, evitando così chiamate al modello di incorporamento.

Questa ottimizzazione si applica solo quando sono soddisfatte tutte le seguenti condizioni:

Vengono modificati solo metadata.json i file. Nessun file di contenuto viene modificato.
I file di contenuto associati non sono file CSV.
L'origine dati non utilizza una funzione Lambda di trasformazione personalizzata.

Re-ingestion comportamento per i file CSV

I file CSV utilizzano il documentStructureConfiguration campo nei metadati per controllare quali colonne vengono indicizzate. Poiché Amazon Bedrock non è in grado di determinare se questa configurazione strutturale è stata modificata senza rielaborare il file, i file CSV vengono sempre reinseriti quando i relativi file di metadati vengono aggiornati.

Per sapere come inserire i dati nella tua knowledge base e sincronizzarli con i dati più recenti, scegliere la scheda corrispondente al metodo preferito, poi seguire la procedura:

Console

Come importare i dati nella knowledge base e sincronizzarli con i dati più recenti

Apri la console Amazon Bedrock all'indirizzo https://console.aws.amazon.com/bedrock/.
Dal riquadro di navigazione a sinistra, seleziona la tua knowledge base da Knowledge base.
Nella sezione Origine dati, seleziona Sincronizza per iniziare l’importazione dei dati o la sincronizzazione dei dati più recenti. Per interrompere la sincronizzazione di un’origine dati attualmente in corso, seleziona Interrompi. Un'origine dati deve essere attualmente sincronizzata per interrompere la sincronizzazione dell'origine dati. Puoi selezionare nuovamente Sincronizza per importare il resto dei tuoi dati.
Al termine dell’importazione dei dati, se l’operazione è riuscita, viene visualizzato un banner verde.

Nota
Una volta completata la sincronizzazione dei dati, potrebbero essere necessari alcuni minuti prima che gli embedding vettoriali dei dati appena sincronizzati si riflettano nella knowledge base e siano disponibili per essere interrogati se viene utilizzato un archivio vettoriale diverso da Amazon Aurora (RDS).
Puoi scegliere un’origine dati per visualizzarne la cronologia di sincronizzazione. Seleziona Visualizza avvisi per scoprire perché un processo di importazione dei dati non è riuscito.

API

Per inserire i tuoi dati nella tua knowledge base e sincronizzarli con i dati più recenti, invia una StartIngestionJobrichiesta a un endpoint in fase di costruzione di Agents for Amazon Bedrock. Specifica knowledgeBaseId e dataSourceId. Puoi anche interrompere un processo di inserimento dati attualmente in esecuzione inviando una richiesta. StopIngestionJob Specifica il dataSourceId, il ingestionJobId e il knowledgeBaseId. Per interrompere l’importazione dei dati, il processo deve essere attualmente in esecuzione. Puoi inviare nuovamente una richiesta StartIngestionJob per importare il resto dei tuoi dati quando è tutto pronto.

Utilizza il valore ingestionJobId restituito nella risposta a una GetIngestionJobrichiesta con un endpoint di compilazione Agents for Amazon Bedrock per monitorare lo stato del processo di inserimento. Inoltre, specifica il knowledgeBaseId e il dataSourceId.

Al termine del processo di importazione, lo status della risposta è COMPLETE.

Nota
Una volta completata l’importazione dei dati, potrebbero essere necessari alcuni minuti prima che gli embedding vettoriali dei dati appena importati siano disponibili nell’archivio vettoriale per essere interrogati se viene utilizzato un archivio vettoriale diverso da Amazon Aurora (RDS).
L’oggetto statistics nella risposta restituisce informazioni sull’esito, positivo o negativo, dell’importazione dei documenti nell’origine dati.

Puoi anche visualizzare le informazioni per tutti i lavori di inserimento per un'origine dati inviando una ListIngestionJobsrichiesta a un endpoint di build Agents for Amazon Bedrock. Specifica il dataSourceId e il knowledgeBaseId della knowledge base in cui vengono importati i dati.

Filtra i risultati specificando lo stato da cercare nell’oggetto filters.
Ordina in base all’ora di avvio del processo o allo stato di un processo specificando l’oggetto sortBy. Puoi scegliere l’ordinamento crescente o decrescente.
Puoi impostare il numero massimo di risultati che dovranno essere restituiti nella risposta nel campo maxResults. Se i risultati sono superiori al numero impostato, la risposta restituisce un nextToken che puoi inviare in un'altra richiesta ListIngestionJobs per visualizzare il successivo batch di processi.

Avvertimento JavaScript è disabilitato o non è disponibile nel tuo browser.

Per usare la documentazione AWS, JavaScript deve essere abilitato. Consulta le pagine della guida del browser per le istruzioni.

Convenzioni dei documenti

Definire le configurazioni di sicurezza per una knowledge base

Importare le modifiche direttamente in una knowledge base

Sincronizzare i dati con Knowledge Base per Amazon Bedrock

Importante

In che modo una knowledge base gestisce le risincronizzazioni

Metadata-only ottimizzazione

Re-ingestion comportamento per i file CSV

Come importare i dati nella knowledge base e sincronizzarli con i dati più recenti

Nota

Nota