Utilizzo di S3 Vectors con Knowledge Base per Amazon Bedrock - Amazon Simple Storage Service

Utilizzo di S3 Vectors con Knowledge Base per Amazon Bedrock

Nota

Amazon S3 Vectors è disponibile in versione di anteprima per Amazon Simple Storage Service ed è soggetto a modifiche.

S3 Vectors si integra con Knowledge Base per Amazon Bedrock e con Amazon SageMaker AI Unified Studio per semplificare l’archiviazione vettoriale e ridurne il costo per le applicazioni di generazione potenziata da recupero dati (RAG).

Per ulteriori informazioni sui comandi CLI di alto livello che integrano i modelli di embedding di Amazon Bedrock con le operazioni di S3 Vectors, consulta .

Panoramica dell’integrazione

Quando crei una knowledge base in Amazon Bedrock, puoi selezionare S3 Vectors come archivio vettoriale. Questa integrazione offre i seguenti vantaggi:

  • Risparmio sui costi per le applicazioni RAG con set di dati vettoriali di grandi dimensioni.

  • Perfetta integrazione con il flusso di lavoro RAG completamente gestito di Amazon Bedrock.

  • Gestione vettoriale automatica tramite il servizio Amazon Bedrock.

  • Latenza delle query inferiore al secondo per le operazioni di recupero della knowledge base.

Knowledge Base per Amazon Bedrock fornisce un flusso di lavoro RAG end-to-end completamente gestito. Quando crei una knowledge base con S3 Vectors, Amazon Bedrock recupera automaticamente i dati dall’origine dati S3, converte i contenuti in blocchi di testo, genera gli embedding e li archivia nell’indice vettoriale. È quindi possibile eseguire query sulla knowledge base e ottenere risposte basate sui blocchi recuperati dai dati di origine.

Quando utilizzare questa integrazione

Valuta di utilizzare S3 Vectors con Knowledge Base per Amazon Bedrock quando hai bisogno di quanto segue:

  • Archiviazione vettoriale conveniente per set di dati di grandi dimensioni in cui una latenza di query inferiore al secondo soddisfa i requisiti dell’applicazione.

  • Recupero di documenti in base a testo e immagini per casi d’uso come la ricerca tra manuali, policy e contenuti visivi.

  • Applicazioni RAG che danno priorità all’ottimizzazione dei costi di archiviazione rispetto alle risposte a latenza ultrabassa.

  • Operazioni vettoriali gestite senza la necessità di imparare direttamente le operazioni API di S3 Vectors (puoi continuare a utilizzare le interfacce di Amazon Bedrock che già conosci).

  • Archiviazione vettoriale a lungo termine con la durabilità e la scalabilità di Amazon S3.

Questa integrazione è ideale per le organizzazioni che sviluppano applicazioni RAG e che devono cercare ed estrarre informazioni da contenuti di testo e immagini, laddove i vantaggi in termini di costo offerti da S3 Vectors siano in linea con requisiti di prestazioni delle query considerati accettabili.

Modelli di embedding supportati

L’integrazione di S3 Vectors con Knowledge Base per Amazon Bedrock supporta i seguenti modelli di embedding:

  • amazon.titan-embed-text-v2:0 - Per embedding basati su testo

  • amazon.titan-embed-image-v1 - Per embedding di immagini e multimodali

  • cohere.embed-english-v3 - Per embedding di testo specifici e multilingue

Prerequisiti e autorizzazioni

Prima di creare una knowledge base con S3 Vectors, assicurati di disporre di quanto segue:

  • Autorizzazioni IAM appropriate per entrambi i servizi S3 Vectors e Amazon Bedrock. Per ulteriori informazioni sulle autorizzazioni IAM per S3 Vectors, consulta Identity and Access Management in S3 Vectors. Per ulteriori informazioni sulle autorizzazioni IAM relative al tuo ruolo di servizio per Knowledge Base per Amazon Bedrock per accedere a S3 Vectors, consulta Autorizzazioni per accedere all’archivio vettoriale in Amazon S3 Vectors nella Guida per l’utente di Amazon Bedrock.

  • Documenti di origine pronti per essere importati nella knowledge base.

  • Conoscenza dei requisiti del modello di embedding.

Quando configuri le impostazioni di sicurezza, puoi scegliere un ruolo IAM che fornisca ad Amazon Bedrock l’autorizzazione per accedere ai servizi AWS richiesti. Puoi lasciare che Amazon Bedrock crei il ruolo di servizio o utilizzi un ruolo personalizzato. Se utilizzi un ruolo personalizzato, configura una policy di bucket vettoriale che limiti l’accesso al bucket vettoriale e all’indice vettoriale al solo ruolo personalizzato.

Per informazioni dettagliate sulle autorizzazioni richieste e sui ruoli IAM, consulta Creazione di un ruolo di servizio per Knowledge Base per Amazon Bedrock nella Guida per l’utente di Amazon Bedrock. Il ruolo di servizio deve inoltre disporre delle autorizzazioni per S3 Vectors e le operazioni API di AWS KMS.

Creazione di una knowledge base con S3 Vectors

Esistono due metodi per creare una knowledge base che utilizza S3 Vectors.

Metodo 1: utilizzando la console Amazon Bedrock

Quando crei una knowledge base nella console Amazon Bedrock, puoi selezionare “Bucket vettoriale S3” come opzione di archiviazione vettoriale. Sono disponibili due opzioni di configurazione:

  • Creazione rapida di un nuovo archivio vettoriale: Amazon Bedrock crea un bucket vettoriale S3 e un indice vettoriale, configurandoli con le impostazioni richieste. Per impostazione predefinita, il bucket vettoriale è crittografato tramite crittografia lato server utilizzando chiavi gestite di Amazon S3 (SSE-S3). Puoi facoltativamente crittografare il bucket utilizzando AWS KMS. Per ulteriori informazioni sulla creazione rapida di un nuovo archivio vettoriale nella console, consulta Creazione di una knowledge base collegandosi a un’origine dati in Knowledge Base per Amazon Bedrock nella Guida per l’utente di Amazon Bedrock.

  • Selezione di un archivio vettoriale già creato: seleziona un bucket vettoriale S3 e un indice vettoriale esistenti dall’account che hai creato in precedenza. Per ulteriori informazioni sulla creazione di un bucket vettoriale S3 e di un indice vettoriale nella console di Knowledge Base per Amazon Bedrock, vedi la scheda S3 Vectors in Prerequisiti per l’utilizzo di un archivio vettoriale creato per una knowledge base nella Guida per l’utente di Amazon Bedrock.

Per istruzioni dettagliate, consulta Creazione di una knowledge base collegandosi a un’origine dati in Knowledge Base per Amazon Bedrock nella Guida per l’utente di Amazon Bedrock.

Metodo 2: utilizzando Amazon SageMaker Unified Studio

Puoi anche creare e gestire le knowledge base con S3 Vectors tramite Amazon Bedrock in Amazon SageMaker AI Unified Studio, che consiste in un ambiente di sviluppo unificato per creare e testare applicazioni di intelligenza artificiale che utilizzano basi di conoscenza.

Amazon Bedrock in SageMaker AI Unified Studio è progettato per gli utenti che necessitano di funzionalità notebook integrate e che lavorano su più servizi ML e di analisi di AWS. Puoi creare rapidamente un bucket vettoriale S3 e configurarlo come archivio vettoriale per le tue knowledge base quando crei applicazioni di IA generativa.

Per informazioni sull’utilizzo di S3 Vectors con Amazon Bedrock in SageMaker AI Unified Studio, consulta Aggiunta di un’origine dati all’app Amazon Bedrock nella Guida per l’utente di SageMaker AI Unified Studio.

Gestione e interrogazione della knowledge base

Sincronizzazione e gestione dei dati

Knowledge Base per Amazon Bedrock offre operazioni basate su processi di acquisizione per garantire la sincronizzazione tra l’origine dati e gli embedding vettoriali. Quando sincronizzi l’origine dati, Amazon Bedrock scansiona ogni documento e verifica se è stato indicizzato nell’archivio vettoriale. Puoi anche indicizzare direttamente i documenti nell’archivio vettoriale utilizzando l’operazione IngestKnowledgeBaseDocuments. Al fine di garantire la sincronizzazione dei dati, è buona prassi creare un archivio vettoriale separato per ogni knowledge base.

Quando elimini una knowledge base o una risorsa di origine dati, Amazon Bedrock offre due policy di eliminazione dei dati: Delete (predefinita) e Retain. Se scegli la policy Delete, i vettori nell’indice vettoriale e nel bucket vettoriale vengono eliminati automaticamente.

Interrogazione e recupero

Dopo aver configurato la knowledge base, è possibile:

  • Recuperare i blocchi dai dati di origine utilizzando l’operazione Retrieve dell’API.

  • Generare risposte basate sui blocchi recuperati utilizzando l’operazione RetrieveAndGenerate dell’API.

  • Provare le query direttamente nella console Amazon Bedrock.

Le risposte vengono restituite con citazioni che rimandano ai dati di origine.

Limitazioni

Quando usi S3 Vectors con Knowledge Base per Amazon Bedrock, è importante conoscere le seguenti limitazioni:

  • Solo ricerca semantica: S3 Vectors supporta la ricerca semantica, ma non le funzionalità di ricerca ibrida.

  • Limiti delle dimensioni in S3 Vectors: ogni vettore presenta sia un limite sulle dimensioni totali dei metadati sia un limite sulle dimensioni dei metadati filtrabili. Ciò potrebbe ridurre la quantità di metadati personalizzati e le opzioni di filtraggio disponibili. Per ulteriori informazioni sui metadati e sui limiti delle dimensioni dei metadati filtrabili per vettore, consulta Limitazioni e restrizioni.

  • Vincoli della strategia di suddivisione in blocchi: limitatamente ai modelli che suddividono il contenuto in blocchi di massimo 500 token a causa delle restrizioni sulle dimensioni dei metadati.

  • Solo vettori a virgola mobile: gli embedding vettoriali binari non sono supportati.

Per una guida completa su come lavorare con Knowledge Base per Amazon Bedrock, consulta Recupero dei dati e generazione di risposte basate su IA con Knowledge Base per Amazon Bedrock nella Guida per l’utente di Amazon Bedrock.