Connettersi ad Amazon S3 per una knowledge base
Amazon S3 è un servizio che consente di archiviare dati come oggetti nei bucket. Per connetterti al bucket Amazon S3 per Knowledge Base per Amazon Bedrock, utilizza la Console di gestione AWS per Amazon Bedrock
Puoi caricare un batch ridotto di file in un bucket Amazon S3 utilizzando la console Amazon S3 o l’API. In alternativa, puoi utilizzare AWS DataSync per caricare più file su S3 in modo continuo e trasferire i file in base a una pianificazione da un ambiente on-premises, edge, un altro cloud o un’archiviazione AWS.
Attualmente sono supportati solo i bucket S3 per uso generico.
Il numero di file e le dimensioni in MB per file che è possibile sottoporre a crawling sono limitati. Consulta Quote per le knowledge base.
Funzionalità supportate
-
Campi di metadati dei documenti
-
Prefissi di inclusione
-
Sincronizzazione incrementale dei contenuti per aggiunte, aggiornamenti ed eliminazioni
Prerequisiti
In Amazon S3, verifica quanto segue:
-
Annota l’URI del bucket Amazon S3, il nome della risorsa Amazon (ARN) e l’ID dell’account AWS per il proprietario del bucket. Puoi trovare l’URI e l’ARN nella sezione delle proprietà della console Amazon S3. Il bucket deve trovarsi nella stessa Regione di Knowledge Base per Amazon Bedrock. È necessario disporre dell’autorizzazione per accedere al bucket.
Nell’account AWS, verifica quanto segue:
-
Includi le autorizzazioni necessarie per la connessione all’origine dati nella policy di ruolo/autorizzazioni di AWS Identity and Access Management (IAM) per la knowledge base corrente. Per informazioni sulle autorizzazioni necessarie per aggiungere l’origine dati al ruolo IAM della knowledge base, consulta Autorizzazioni per accedere alle origini dati.
Nota
Se utilizzi la console, il ruolo IAM e tutte le autorizzazioni richieste possono essere creati automaticamente durante le fasi di creazione di una knowledge base. Dopo la configurazione dell’origine dati e delle altre impostazioni, il ruolo IAM e tutte le autorizzazioni vengono applicati alla knowledge base specifica.
Configurazione della connessione
Per connetterti al bucket Amazon S3, devi fornire le informazioni di configurazione necessarie per consentire ad Amazon Bedrock di accedere ai dati e di sottoporli a crawling, nonché rispettare le indicazioni presenti nella sezione Prerequisiti.
Un esempio di configurazione per l’origine dati è incluso in questa sezione.
Per ulteriori informazioni sui filtri di inclusione/esclusione, sui campi di metadati dei documenti, sulla sincronizzazione incrementale e sul relativo funzionamento, consulta le sezioni seguenti:
Puoi includere un file distinto che specifichi i campi/attributi dei metadati dei documenti per ogni file nella tua origine dati Amazon S3 e decidere se includerli negli embedding durante l’indicizzazione dell’origine dati nell’archivio vettoriale. Ad esempio, puoi creare un file nel seguente formato, denominarlo fileName.extension.metadata.json e caricarlo nel tuo bucket S3.
{ "metadataAttributes": { "company": { "value": { "type": "STRING", "stringValue": "BioPharm Innovations" }, "includeForEmbedding": true }, "created_date": { "value": { "type": "NUMBER", "numberValue": 20221205 }, "includeForEmbedding": true }, "author": { "value": { "type": "STRING", "stringValue": "Lisa Thompson" }, "includeForEmbedding": true }, "origin": { "value": { "type": "STRING", "stringValue": "Overview" }, "includeForEmbedding": true } } }
Il file di metadati deve utilizzare lo stesso nome del file del documento di origine associato, con la dicitura .metadata.json aggiunta alla fine del nome del file. Il file di metadati deve essere archiviato nella stessa cartella o nello stesso percorso del file di origine nel bucket Amazon S3. Il file non deve superare il limite di 10 KB. Per informazioni sui tipi di dati dei campi o degli attributi supportati oppure sugli operatori di filtro che è possibile applicare ai campi di metadati, consulta Metadati e filtri.
Puoi specificare un prefisso di inclusione, ovvero un prefisso di percorso Amazon S3, in cui utilizzare un file o una cartella S3 anziché l’intero bucket per creare il connettore delle origini dati S3.
Il connettore delle origini dati sottopone a crawling il contenuto nuovo, modificato ed eliminato ogni volta che l’origine dati si sincronizza con la knowledge base. Amazon Bedrock può utilizzare il meccanismo dell’origine dati per tenere traccia delle modifiche al contenuto e sottoporre a crawling il contenuto modificato dall’ultima sincronizzazione. Quando sincronizzi per la prima volta l’origine dati con la knowledge base, per impostazione predefinita tutti i contenuti vengono sottoposti a crawling.
Per sincronizzare l’origine dati con la knowledge base, utilizza l’API StartIngestionJob o seleziona la knowledge base nella console, quindi scegli Sincronizza nella sezione di panoramica dell’origine dati.
Importante
Tutti i dati sincronizzati dall’origine dati diventano disponibili per chiunque disponga delle autorizzazioni bedrock:Retrieve per recuperarli. Ciò può includere anche tutti i dati con autorizzazioni per l’origine dati controllate. Per ulteriori informazioni, consulta Autorizzazioni della knowledge base.