Trasformazione di dati in una knowledge base

La creazione di una knowledge base richiede la connessione a un’origine dati a cui la knowledge base deve poter accedere. La knowledge base sarà in grado di rispondere alle domande degli utenti o generare risposte in base ai dati recuperati.

Knowledge Base per Amazon Bedrock supporta una varietà di documenti, tra cui testo, immagini o documenti multimodali che contengono tabelle, grafici, diagrammi e altre immagini. I dati multimodali si riferiscono a una combinazione di dati di testo e visivi. Esempi di tipi di file che contengono dati non strutturati sono testo, markdown, HTML e PDF.

Le seguenti sezioni descrivono i tipi di dati supportati da Knowledge Base per Amazon Bedrock e i servizi a cui è possibile connettere la knowledge base per ogni tipo di dati:

Dati non strutturati

Per dati non strutturati si intendono dati che non sono vincolati a una struttura predefinita. Knowledge Base per Amazon Bedrock supporta la connessione ai seguenti servizi per aggiungere dati non strutturati alla knowledge base:

Simple Storage Service (Amazon S3)
Confluence (anteprima)
Microsoft SharePoint (anteprima)
Salesforce (anteprima)
Web Crawler (anteprima)
Origine dati personalizzata (consente l’importazione diretta dei dati nelle knowledge base senza bisogno di sincronizzazione)

Un’origine dati contiene la forma grezza dei documenti. Per ottimizzare il processo di query, una knowledge base converte i dati grezzi in embedding vettoriali, una rappresentazione numerica dei dati, per quantificare la somiglianza con le query anch’esse convertite in embedding vettoriali. Knowledge Base per Amazon Bedrock utilizza le seguenti risorse nel processo di conversione dell’origine dati:

Modello di embedding: un modello di fondazione che converte i dati in embedding vettoriali. Per i dati multimodali contenenti sia testo che immagini, puoi utilizzare modelli di incorporamento multimodali come Amazon Titan Multimodal Embeddings G1 o Cohere Embed v3.
Archivio vettoriale: servizio che archivia la rappresentazione vettoriale dei dati. Sono supportati i seguenti archivi vettoriali:
- Amazon OpenSearch Serverless
- Cluster gestiti da Amazon OpenSearch Service
- Amazon Neptune
- Amazon Aurora (RDS)
- Pinecone
- Redis Enterprise Cloud
- Atlante MongoDB
- Amazon S3 Vectors

Il processo di conversione dei dati in embedding vettoriali si chiama importazione. Il processo di importazione che trasforma i dati in una knowledge base prevede le seguenti fasi::

Importazione

I dati vengono analizzati dal parser scelto. Per ulteriori informazioni sull’analisi dei dati, consultare Opzioni di analisi per l’origine dati.
Ogni documento nell’origine dati viene suddiviso in blocchi, suddivisioni dei dati che possono essere definite in base al numero di token e ad altri parametri. Per ulteriori informazioni sul chunking, consultare Come funziona il chunking dei contenuti per le knowledge base.
Il modello di embedding scelto converte i dati in embedding vettoriali. Per i contenuti multimodali, le immagini sono incorporate come vettori visivi mentre il testo è incorporato come vettori di testo, consentendo la ricerca in entrambe le modalità.
Gli embedding vettoriali vengono scritti in un indice vettoriale nell’archivio vettoriale scelto.

Una volta completato il processo di importazione, la knowledge base è pronta per essere interrogata. Per informazioni su come interrogare e recuperare informazioni dalla knowledge base, consultare Recupero di informazioni da origini dati utilizzando Knowledge Base per Amazon Bedrock.

Se si apportano modifiche a un’origine dati, è necessario sincronizzare le modifiche per importare nella knowledge base aggiunte, modifiche ed eliminazioni. Alcune origini dati supportano l’importazione o l’eliminazione diretta di file nella knowledge base, quindi non è più necessario gestire la modifica e l’importazione dell’origine dati come fasi separate ed eseguire sempre sincronizzazioni complete. Per informazioni su come importare i documenti direttamente nella knowledge base e le origini dati che la supportano, consultare Importare le modifiche direttamente in una knowledge base.

Knowledge Base per Amazon Bedrock offre diverse opzioni per personalizzare l’importazione dei dati. Per ulteriori informazioni sulla personalizzazione di questo processo, consultare Personalizzazione di una knowledge base.

Dati strutturati

Per dati strutturati si intendono i dati tabulari in un formato predefinito dall’archivio dati in cui si trovano. Knowledge Base per Amazon Bedrock si connette agli archivi dati strutturati supportati tramite il motore di query Amazon Redshift. Knowledge Base per Amazon Bedrock fornisce un meccanismo completamente gestito che analizza i modelli di query, la cronologia delle query e i metadati dello schema per convertire le query in linguaggio naturale in query SQL. Le query convertite vengono quindi utilizzate per recuperare informazioni pertinenti dalle origini dati supportate.

Knowledge Base per Amazon Bedrock supporta la connessione ai seguenti servizi per aggiungere archivi dati strutturati alla knowledge base:

Amazon Redshift
AWS Glue Data Catalog (AWS Lake Formation)

Se la knowledge base è connessa un archivio dati strutturato, non è necessario convertire i dati in embedding vettoriali. Knowledge Base per Amazon Bedrock può interrogare direttamente l’archivio dati strutturato. Durante la procedura, Knowledge Base per Amazon Bedrock può convertire le query degli utenti in query SQL per recuperare dati pertinenti alla richiesta dell’utente e generare risposte più accurate. È anche possibile generare query SQL senza recuperare dati e utilizzarle in altri flussi di lavoro.

Ad esempio, un repository di database contiene la seguente tabella con informazioni sui clienti e i loro acquisti:

ID cliente	Importo acquisti nel 2020	Importo acquisti nel 2021	Importo acquisti nel 2022	Importo totale acquisti fino ad oggi
1	200	300	500	1000
2	150	100	120	370
3	300	300	300	900
4	720	180	100	900
5	500	400	100	1000
6	900	800	1000	2700
7	470	420	400	1290
8	250	280	250	780
9	620	830	740	2190
10	300	200	300	800

Se una query dell’utente dice “genera un riepilogo dei 5 clienti che hanno speso di più”, la knowledge base può fare quanto segue:

Converte la query in una query SQL.
Restituisce un estratto dalla tabella che contiene quanto segue:
- Colonne pertinenti della tabella “ID cliente” e “Importo totale acquistati fino ad oggi”
- Righe della tabella contenenti l’importo totale degli acquisti per i 10 clienti che hanno speso di più
Genera una risposta che indica quali sono stati i 5 clienti che hanno speso di più e quanto hanno acquistato.

Altri esempi di query per cui una knowledge base può generare un estratto di tabella includono:

“5 migliori clienti per spesa nel 2020”
“miglior cliente per importo acquisti nel 2020"
“5 migliori clienti per importo acquisti in 2020-2022"
“5 migliori clienti per spesa in 2020-2022”
“clienti con importo totale acquisti inferiore a 10 $”
“5 clienti che spendono meno”

Più una query è specifica o dettagliata, più la knowledge base può restringere le informazioni esatte da restituire. Ad esempio, anziché la query “10 migliori clienti per spesa nel 2020", una query più specifica è “trova i 10 importo totale acquisti fino ad oggi più alto per i clienti nel 2020". La query specifica si riferisce al nome della colonna “Importo totale acquisti ad oggi” nella tabella del database delle spese dei clienti e indica inoltre che i dati devono essere ordinati per “più alto”.

Avvertimento JavaScript è disabilitato o non è disponibile nel tuo browser.

Per usare la documentazione AWS, JavaScript deve essere abilitato. Consulta le pagine della guida del browser per le istruzioni.

Convenzioni dei documenti

Come funzionano le knowledge base

Recupero di informazioni da origini dati