Prerequisiti per l’utilizzo di un archivio vettoriale creato per una knowledge base

Per archiviare gli embedding vettoriali in cui i tuoi documenti vengono convertiti, utilizzi un archivio vettoriale. Knowledge Base per Amazon Bedrock supporta un flusso di creazione rapida per alcuni archivi vettoriali; quindi, se preferisci che Amazon Bedrock crei automaticamente un indice vettoriale in uno di questi archivi, puoi saltare questo prerequisito e procedere con Creazione di una knowledge base mediante connessione a un’origine dati in Knowledge Base per Amazon Bedrock.

Se desideri archiviare embedding vettoriali in formato binario invece dei tradizionali embedding vettoriali in virgola mobile (float32), devi utilizzare un archivio vettoriale che supporti i vettori binari.

Nota

I cluster Amazon OpenSearch Serverless e Amazon OpenSearch Managed sono gli unici archivi vettoriali che supportano l'archiviazione di vettori binari.

Puoi configurare l’archivio vettoriale supportato per indicizzare la rappresentazione degli embedding vettoriali dei tuoi dati. Puoi creare campi per i seguenti dati:

Un campo per i vettori generati dal testo nella tua origine dati dal modello di embedding che scegli.
Un campo per i blocchi di testo estratti dai file nell’origine dati.
Campi per i metadati dei file di origine gestiti da Amazon Bedrock.
(Se utilizzi un database Amazon Aurora e desideri configurare il filtro sui metadati) Campi per i metadati che associ ai tuoi file di origine. Se prevedi di configurare il filtro in altri archivi vettoriali, non devi configurare questi campi per il filtraggio.

Puoi crittografare gli archivi vettoriali di terze parti con una chiave KMS. Per ulteriori informazioni, consulta Crittografia delle risorse della knowledge base.

Seleziona la scheda corrispondente al servizio di archivio vettoriale che utilizzerai per creare il tuo indice vettoriale.

Nota

La scelta del modello di embedding e delle dimensioni vettoriali può influire sulle scelte disponibili negli archivi vettoriali. Se non riesci a utilizzare il tuo archivio vettoriale preferito, scegli le opzioni compatibili: il modello di embedding e le dimensioni vettoriali.

Amazon OpenSearch Serverless

Per configurare le autorizzazioni e creare una raccolta di ricerca vettoriale in Amazon OpenSearch Serverless in Console di gestione AWS, segui i passaggi 1 e 2 in Lavorare con le raccolte di ricerca vettoriale nella Amazon OpenSearch Service Developer Guide. Tieni presenti le seguenti considerazioni durante la configurazione della raccolta:
1. Assegna alla raccolta un nome e una descrizione a tua scelta.
2. Per rendere privata la tua raccolta, seleziona Creazione standard nella sezione Sicurezza. Quindi, nella sezione Impostazioni di accesso alla rete, seleziona VPC come Tipo di accesso e scegli un endpoint VPC. Per ulteriori informazioni sulla configurazione di un endpoint VPC per una raccolta Amazon Serverless, consulta Access Amazon OpenSearch OpenSearch Serverless using an interface endpoint ()AWS PrivateLink nella Amazon Service Developer Guide. OpenSearch
Una volta creata la raccolta, prendi nota dell’ARN raccolta quando crei la knowledge base.
Nel riquadro di navigazione a sinistra, seleziona Raccolte in Serverless. Quindi seleziona la tua raccolta di ricerca vettoriale.
Seleziona la scheda Indici. Quindi, scegli Crea indice di vettore.
Nella sezione Dettagli dell’indice vettoriale, inserisci un nome per l’indice nel campo Nome dell’indice vettoriale.

Nella sezione Campi vettoriali, scegli Aggiungi campo vettoriale. Amazon Bedrock archivia gli embedding vettoriali per l’origine dati in questo campo. Specifica le configurazioni seguenti:

Nome campo vettoriale: fornisci un nome per il campo vettoriale (ad esempio, embeddings).
Motore: il motore vettoriale utilizzato per la ricerca. Seleziona faiss.

Dimensioni: il numero di dimensioni nel vettore. Fai riferimento alla tabella seguente per stabilire quante dimensioni deve contenere il vettore:

Modello	Dimensioni
Embedding Titan G1 - Testo	1.536
Embedding Titan V2 - Testo	1.024, 512 e 256
Cohere Embed inglese	1,024
Cohere Embed multilingue	1,024

Metrica di distanza: la metrica utilizzata per misurare la similarità tra i vettori. Ti consigliamo di utilizzare Euclidei per gli embedding vettoriali in virgola mobile.

Espandi la sezione Gestione dei metadati e aggiungi due campi per configurare l’indice vettoriale per archiviare altri metadati che una knowledge base può recuperare con i vettori. La tabella seguente descrive i campi e i valori da specificare per ogni campo.

Descrizione del campo	Mappatura dei campi	Tipo di dati	Filtrabile
Amazon Bedrock suddivide in blocchi il testo non elaborato proveniente dai tuoi dati e memorizza i segmenti in questo campo.	Nome a tua scelta (ad esempio, `text`)	Stringa	True
Amazon Bedrock memorizza i metadati relativi alla tua knowledge base in questo campo.	Nome a tua scelta (ad esempio, `bedrock-metadata`)	Stringa	False

Prendi nota dei nomi scelti per il nome dell’indice vettoriale, il nome del campo vettoriale e i nomi dei campi di mappatura della gestione dei metadati per la creazione della knowledge base. Quindi, scegli Crea.

Dopo aver creato l’indice vettoriale, puoi procedere con la creazione della tua knowledge base. La tabella seguente sintetizza i punti in cui devono essere inserite le informazioni annotate.

Campo	Campo corrispondente nella configurazione della knowledge base (Console)	Campo corrispondente nella configurazione della knowledge base (API)	Description
ARN raccolta	ARN raccolta	collectionARN	Il nome della risorsa Amazon (ARN) della raccolta ricerca vettoriale.
Nome indice vettoriale	Nome indice vettoriale	vettore IndexName	Il nome dell’indice vettoriale.
Nome campo vettoriale	Campo vettoriale	vectorField	Il nome del campo in cui memorizzare gli embedding vettoriali per le origini dati.
Gestione dei metadati (primo campo di mappatura)	Campo di testo	textField	Il nome del campo in cui archiviare il testo non elaborato proveniente dalle origini dati.
Gestione dei metadati (secondo campo di mappatura)	Bedrock-managed campo di metadati	metadataField	Il nome del campo in cui archiviare i metadati gestiti da Amazon Bedrock.

Per una documentazione più dettagliata sulla configurazione di un archivio vettoriale in Amazon OpenSearch Serverless, consulta Working with vector search collections nella Amazon OpenSearch Service Developer Guide.

Amazon OpenSearch Service Managed Clusters

Importante

Prima di utilizzare qualsiasi risorsa di dominio nei cluster OpenSearch gestiti, devi configurare determinate autorizzazioni e politiche di accesso IAM. Per ulteriori informazioni, consulta Prerequisiti e autorizzazioni necessari per l'utilizzo di OpenSearch Managed Clusters con Amazon Bedrock Knowledge Bases.
Se si verificano errori di inserimento dei dati, è possibile che la capacità del dominio sia insufficiente. OpenSearch Per risolvere questo problema, aumenta la capacità del dominio allocando IOPS più elevati e aumentando le impostazioni di throughput. Per ulteriori informazioni, consulta Best practice operative per Amazon OpenSearch Service.

Per creare un dominio e un indice vettoriale in OpenSearch Cluster in the Console di gestione AWS, segui i passaggi descritti in Creazione e gestione dei domini di OpenSearch servizio nella Amazon OpenSearch Service Developer Guide.

Tieni presenti le seguenti considerazioni durante la configurazione del tuo dominio:
1. Un nome di dominio di tua scelta.
2. Ti consigliamo di utilizzare l’opzione Creazione semplice per iniziare rapidamente a creare il tuo dominio.
  
  Nota
  Questa opzione ti offre un dominio con un throughput ridotto. Se hai carichi di lavoro più grandi che richiedono un throughput più elevato, scegli l’opzione Creazione standard. Puoi regolare la capacità in un secondo momento, se necessario. Con questa opzione, puoi iniziare con la capacità più bassa, modificabile successivamente, se necessario.
3. Per Rete, devi scegliere Accesso pubblico. OpenSearch i domini che si trovano dietro un VPC non sono supportati per la tua Knowledge Base.
4. Per la versione, se utilizzi embedding vettoriali binari, Knowledge Base per Amazon Bedrock richiede una versione del motore 2.16 o successiva. Inoltre, è necessaria una versione 2.13 o successiva per creare un indice k-nn. Per ulteriori informazioni, consulta K-NN Search in the Amazon OpenSearch Service Developer Guide.
5. Ti consigliamo di utilizzare la Dual-stackmodalità.
6. Ti consigliamo di abilitare il controllo degli Fine-grained accessi per proteggere i dati del tuo dominio e di controllare ulteriormente le autorizzazioni che consentono al ruolo del servizio della Knowledge Base di accedere al OpenSearch dominio ed effettuare richieste.
7. Lascia i valori predefiniti in tutte le altre impostazioni, quindi seleziona Crea spazio per creare il dominio.
Una volta creato il dominio, sceglilo per prendere nota dell'ARN del dominio e dell'endpoint del dominio per quando crei la knowledge base.

Dopo aver creato il dominio, puoi creare un indice vettoriale eseguendo i seguenti comandi su una OpenSearch dashboard o utilizzando i comandi curl. Per ulteriori informazioni, consulta la documentazione relativa ad OpenSearch .

Quando esegui il comando:

Fornisci un nome per il campo vettoriale (ad esempio, embeddings).
Assicurati che il vettore utilizzato per la ricerca sia faiss. nmslib non è supportato.

Per il numero di dimensioni del vettore, fai riferimento alla tabella seguente per determinare quante dimensioni deve contenere il vettore:

Nota

Il modello Embeddings Titan V2 - Il modello di testo supporta più dimensioni. Può anche essere 256 o 512.

Modello	Dimensioni
Embedding Titan G1 - Testo	1.536
Embedding Titan V2 - Testo	1.024, 512 e 256
Cohere Embed inglese	1,024
Cohere Embed multilingue	1,024

Puoi aggiungere due campi per configurare l’indice vettoriale per archiviare metadati aggiuntivi che una knowledge base può recuperare con i vettori. La tabella seguente descrive i campi e i valori da specificare per ciascuno di essi.

Descrizione del campo	Mappatura dei campi
Amazon Bedrock suddivide in blocchi il testo non elaborato proveniente dai tuoi dati e memorizza i segmenti in questo campo.	Specificato come oggetto, ad esempio `AMAZON_BEDROCK_TEXT_CHUNK`.
Amazon Bedrock memorizza i metadati relativi alla tua knowledge base in questo campo.	Specificato come oggetto, ad esempio `AMAZON_BEDROCK_METADATA`.


PUT /<index-name>
{
    "settings": {
        "index": {
            "knn": true
        }
    },
    "mappings": {
        "properties": {
            "<vector-name>": {
                "type": "knn_vector",
                "dimension": <embedding-dimension>,
                "data_type": "binary",          # Only needed for binary embeddings
                "space_type": "l2" | "hamming", # Use l2 for float embeddings and hamming for binary embeddings
                "method": {
                    "name": "hnsw",
                    "engine": "faiss",
                    "parameters": {
                        "ef_construction": 128,
                        "m": 24
                    }
                }
            },

            "AMAZON_BEDROCK_METADATA": {
                "type": "text",
                "index": "false"
            },
            "AMAZON_BEDROCK_TEXT_CHUNK": {
                "type": "text",
                "index": "true"            
            }
        }
    }
}

Campi di metadati personalizzati per il filtraggio

Se prevedi di utilizzare il filtraggio dei metadati con campi di metadati personalizzati, devi definire tali campi con un keyword tipo o come tipo con un sottocampo. text keyword Esempio:


"my_custom_field": {
    "type": "text",
    "fields": {
        "keyword": {
            "type": "keyword"
        }
    }
}

Senza questa struttura, il filtraggio delle interrogazioni sui campi di metadati personalizzati avrà esito negativo e verrà visualizzato l'errore «Riscrivi prima».

Prendi nota dell’ARN e dell’endpoint del dominio, nonché dei nomi scelti per il nome dell’indice vettoriale, il nome del campo vettoriale e i nomi dei campi di mappatura per la gestione dei metadati, da utilizzare quando crei la tua knowledge base.

Dopo aver creato l’indice vettoriale, puoi procedere con la creazione della tua knowledge base. La tabella seguente sintetizza i punti in cui devono essere inserite le informazioni annotate.

Campo	Campo corrispondente nella configurazione della knowledge base (Console)	Campo corrispondente nella configurazione della knowledge base (API)	Description
ARN di dominio	ARN di dominio	domainARN	L'Amazon Resource Name (ARN) del OpenSearch dominio.
Endpoint di dominio	Endpoint di dominio	domainEndpoint	L'endpoint per la connessione al OpenSearch dominio.
Nome indice vettoriale	Nome indice vettoriale	vettore IndexName	Il nome dell’indice vettoriale.
Nome campo vettoriale	Campo vettoriale	vectorField	Il nome del campo in cui memorizzare gli embedding vettoriali per le origini dati.
Gestione dei metadati (primo campo di mappatura)	Campo di testo	textField	Il nome del campo in cui archiviare il testo non elaborato proveniente dalle origini dati.
Gestione dei metadati (secondo campo di mappatura)	Bedrock-managed campo di metadati	metadataField	Il nome del campo in cui archiviare i metadati gestiti da Amazon Bedrock.

Amazon S3 Vectors

Amazon S3 Vectors offre un archivio vettoriale conveniente in Amazon S3 che può essere utilizzato per archiviare e interrogare dati vettoriali. Fornisce un archivio durevole ed elastico di set di dati vettoriali di grandi dimensioni con prestazioni di query inferiori al secondo. Amazon S3 Vectors è ideale per carichi di lavoro di query poco frequenti e può aiutare a ridurre i costi se utilizzato in applicazioni di generazione potenziata da recupero dati (RAG) e di ricerca semantica.

Amazon S3 Vectors introduce i bucket vettoriali S3, che contengono indici vettoriali su cui è possibile eseguire query in base al significato semantico e alla somiglianza. Può essere utilizzato per fornire tempi di risposta alle query inferiori al secondo e ridurre i costi mentre si archiviano i dati vettoriali, si accede a essi e li si interroga su larga scala, senza dover allocare alcuna infrastruttura. In un bucket vettoriale, puoi organizzare i dati vettoriali all’interno di indici vettoriali. Il tuo bucket vettoriale può avere più indici vettoriali. Per maggiori informazioni, consulta Amazon S3 Vectors nella Guida per l’utente di Amazon S3.

Nota

Puoi creare una knowledge base per Amazon S3 Vectors in tutti gli Regione AWS ambienti in cui sono disponibili sia Amazon Bedrock che Amazon S3 Vectors. Per informazioni sulla disponibilità regionale di Amazon S3 Vectors, consulta Amazon S3 Vectors nella Guida per l’utente di Amazon S3.
Quando utilizzi un numero di token molto elevato con suddivisione in blocchi gerarchici nelle Knowledge Base di Amazon Bedrock, puoi superare i limiti massimi di dimensione dei metadati poiché le relazioni tra blocchi padre-figlio e il contesto gerarchico vengono archiviati come metadati non filtrabili in Amazon S3 Vectors. Per ulteriori informazioni sui limiti di dimensione dei metadati per vettore, consulta Limitazioni e restrizioni nella Guida per l'utente di Amazon S3. Per ulteriori informazioni sulle strategie di chunking, consulta Come funziona il chunking dei contenuti per le knowledge base.

Supporto per metadati

Puoi allegare i metadati come coppie chiave-valore a ciascun vettore. Per impostazione predefinita, i metadati sono filtrabili e possono essere utilizzati nelle query di ricerca per analogia per filtrare in base a condizioni quali date, categorie o preferenze dell'utente.

Puoi anche configurare i metadati in modo che non siano filtrabili durante la creazione dell'indice vettoriale. Gli indici vettoriali di Amazon S3 supportano i tipi stringa, booleano e numero.

Quando usi Amazon S3 Vectors con Amazon Bedrock Knowledge Bases, puoi allegare fino a 1 KB di metadati personalizzati (inclusi metadati filtrabili e non filtrabili) e 35 chiavi di metadati per vettore. Per ulteriori informazioni sui limiti di dimensione dei metadati per vettore, consulta Limitazioni e restrizioni nella Guida per l'utente di Amazon S3.

Se i metadati superano questi limiti, il processo di importazione genererà un'eccezione durante la compilazione dell'indice vettoriale. Per maggiori informazioni, consulta Amazon S3 Vectors nella Guida per l’utente di Amazon S3.

Autorizzazioni richieste

Assicurati che la policy IAM consenta ad Amazon Bedrock di accedere all’indice vettoriale nel bucket vettoriale S3. Per ulteriori informazioni sulle autorizzazioni richieste, consulta Creare un ruolo di servizio per Knowledge Base per Amazon Bedrock.

Crea un bucket e un indice vettoriali S3

Per utilizzare Amazon S3 Vectors con la tua knowledge base, devi creare un bucket e un indice vettoriali S3. Puoi creare un bucket vettoriale e un indice utilizzando la console AWS CLI Amazon S3 o l'SDK. AWS Per istruzioni dettagliate, consulta Creazione di un indice vettoriale nella Guida per l’utente di Amazon S3.

Tieni presenti le seguenti considerazioni quando crei il bucket vettoriale e l’indice nella console Amazon S3.

Durante la creazione del bucket vettoriale S3, considera quanto segue.
- Fornisci un nome univoco per il bucket vettoriale.
- (Facoltativo) Amazon S3 crittograferà automaticamente i dati utilizzando la Server-side crittografia predefinita con le chiavi gestite di Amazon S3 (). SSE-S3 Puoi scegliere se utilizzare questa crittografia predefinita o invece la Server-side crittografia con le chiavi del AWS Key Management Service () SSE-KMS.
  
  Nota
  Il tipo di crittografia non può essere cambiato dopo la creazione del bucket vettoriale.
  
  Per istruzioni dettagliate, consulta Crittografia con AWS chiavi KMS.
Dopo aver creato il bucket vettoriale S3, prendi nota del nome della risorsa Amazon (ARN) del bucket vettoriale da utilizzare quando crei la knowledge base.

Scegli il bucket vettoriale che hai creato, quindi crea un indice vettoriale. Durante la creazione dell’indice vettoriale, tieni presente le considerazioni seguenti.

Nome indice vettoriale: fornisci un nome per il campo vettoriale (ad esempio, embeddings).

Dimensioni: il numero di dimensioni nel vettore. Le dimensioni devono avere un valore compreso tra 1 e 4.096. Fai riferimento alla tabella seguente per stabilire quante dimensioni deve contenere il vettore in base alla selezione del modello di embedding:

Modello	Dimensioni
Embedding Titan G1 - Testo	1.536
Embedding Titan V2 - Testo	1.024, 512 e 256
Cohere Embed inglese	1,024
Cohere Embed multilingue	1,024

Nota
Amazon S3 Vectors supporta solo gli embedding a virgola mobile. Gli embedding binari non sono supportati.

Metrica di distanza: la metrica utilizzata per misurare la similarità tra i vettori. Puoi utilizzare Coseno o Euclideo.

Espandi le impostazioni aggiuntive e fornisci tutti i metadati non filtrabili nel campo dei metadati. Non-filterable

Puoi configurare fino a un massimo di 10 chiavi di metadati non filtrabili. Scegli Aggiungi chiave, quindi aggiungi AMAZON_BEDROCK_TEXT e AMAZON_BEDROCK_METADATA come chiavi.
In Crittografia scegli Specifica il tipo di crittografia. Hai la possibilità di utilizzare le impostazioni del bucket per la crittografia o sovrascrivere le impostazioni di crittografia per l'indice vettoriale. Se sovrascrivi le impostazioni a livello di bucket, hai la possibilità di specificare il tipo di crittografia per l'indice vettoriale come Server-side crittografia con AWS chiavi del Key Management Service (SSE-KMS) o crittografia predefinita con chiavi gestite di Server-side Amazon S3 (). SSE-S3 Per ulteriori informazioni sull'impostazione della configurazione di crittografia per gli indici vettoriali, consulta Protezione e crittografia dei dati in Amazon S3 Vectors.
In Tag (facoltativo), puoi aggiungere tag come coppie chiave-valore per monitorare e organizzare i costi degli indici vettoriali utilizzando AWS Billing and Cost Management. Immettere una chiave e un valore. Per aggiungere un altro tag, scegliere Add Tag (Aggiungi tag). Puoi inserire fino a 50 tag per un indice vettoriale. Per ulteriori informazioni, consulta Usare i tag con gli indici vettoriali di Amazon S3.
Dopo aver creato il bucket vettoriale, prendi nota del nome della risorsa Amazon (ARN) dell’indice vettoriale da utilizzare quando crei la knowledge base.

Creazione di una knowledge base per il bucket vettoriale S3

Dopo aver raccolto queste informazioni, puoi procedere con la creazione della tua knowledge base. Quando crei la tua knowledge base con il bucket vettoriale S3, dovrai fornire l’ARN del bucket vettoriale e l’indice vettoriale. L’indice vettoriale memorizzerà gli embedding generati dalle tue origini dati. La tabella seguente sintetizza i punti in cui devono essere inserite le informazioni:

Campo	Campo corrispondente nella configurazione della knowledge base (Console)	Campo corrispondente nella configurazione della knowledge base (API)	Description
ARN del bucket vettoriale	ARN del bucket vettoriale S3	vettore BucketArn	Il nome della risorsa Amazon (ARN) del bucket vettoriale S3.
ARN dell’indice vettoriale	ARN dell’indice vettoriale S3	vectorIndexARN	Il nome della risorsa Amazon (ARN) dell’indice vettoriale del bucket vettoriale S3.

Amazon Aurora (RDS)

Crea un cluster di database (DB) Amazon Aurora, uno schema e una tabella seguendo i passaggi indicati in Utilizzo di Aurora PostgreSQL come knowledge base. Quando crei la tabella, configurala con le seguenti colonne e tipi di dati. Puoi utilizzare i nomi delle colonne che preferisci anziché quelli elencati nella tabella seguente. Prendi nota dei nomi delle colonne che scegli in modo da poterli fornire durante la configurazione della knowledge base.

È necessario fornire questi campi prima di creare la knowledge base. Non è possibile aggiornarli una volta creata la knowledge base.

Importante

Il cluster Aurora deve risiedere nello stesso in cui viene Account AWS creata la knowledge base per Amazon Bedrock.

Nome della colonna	Tipo di dati	Campo corrispondente nella configurazione della knowledge base (Console)	Campo corrispondente nella configurazione della knowledge base (API)	Description
id	Chiave primaria UUID	Chiave primaria	`primaryKeyField`	Contiene identificatori univoci per ogni record.
incorporamento	Vettore	Campo vettoriale	`vectorField`	Contiene gli embedding vettoriali delle origini dati.
blocchi	Testo	Campo di testo	`textField`	Contiene i blocchi di testo non elaborato provenienti dalle origini dati.
metadati	JSON	Bedrock-managed campo di metadati	`metadataField`	Contiene i metadati necessari per eseguire l'attribuzione dell'origine e per consentire l'importazione dei dati e l'interrogazione
metadati_personalizzati	JSONB	Campo di metadati personalizzati	`customMetadataField`	Campo opzionale che indica la colonna in cui Amazon Bedrock scriverà tutte le informazioni di qualsiasi file di metadati dalle origini dati.

È necessario creare un indice sulle colonne vector e text per i campi di testo e di embedding. Se utilizzi il campo di metadati personalizzato, devi anche creare un indice GIN su questa colonna. Gli indici GIN possono essere utilizzati per cercare in modo efficiente coppie chiave-valore nei documenti jsonb per il filtraggio dei metadati. Per ulteriori informazioni, consulta Indicizzazione jsonb nella Documentazione PostgreSQL.

nome della colonna	Crea un indice su	Obbligatorio?
embedding	`CREATE INDEX ON bedrock_integration.bedrock_kb USING hnsw (embedding vector_cosine_ops);`	Sì
blocchi	`CREATE INDEX ON bedrock_integration.bedrock_kb USING gin (to_tsvector('simple', chunks));`	Sì
metadati personalizzati	`CREATE INDEX ON bedrock_integration.bedrock_kb USING gin (custom_metadata);`	Solo se hai creato la colonna di metadati personalizzata.

Nota

Per migliorare la precisione e la latenza della ricerca ibrida con contenuti in inglese, prendi in considerazione l'utilizzo del dizionario «inglese» anziché «semplice»:


CREATE INDEX ON bedrock_integration.bedrock_kb USING gin (to_tsvector('english', chunks));

Nota

Se utilizzi il filtraggio dei metadati con la tua knowledge base, ti consigliamo di abilitare le scansioni iterative degli indici HNSW (richiede pgvector 0.8.0 o versione successiva). Senza scansioni iterative, i filtri selettivi dei metadati possono restituire meno risultati del previsto perché il filtro viene applicato dopo la scansione dell'indice HNSW. Le scansioni iterative analizzano automaticamente una parte maggiore dell'indice fino a trovare un numero sufficiente di risultati filtrati.


ALTER DATABASE your_database SET hnsw.iterative_scan = 'relaxed_order';
ALTER DATABASE your_database SET hnsw.max_scan_tuples = 20000;

Queste impostazioni persistono a livello di database ma hanno effetto solo per le nuove sessioni. Se utilizzi l'API RDS Data, attendi alcuni minuti per il riciclaggio delle sessioni del pool di connessioni prima che le impostazioni abbiano effetto.

(Opzionale) Se hai aggiunto metadati ai tuoi file per filtrarli, ti consigliamo di fornire il nome della colonna nel campo dei metadati personalizzato per archiviare tutti i metadati in un’unica colonna. Durante l’importazione dei dati, questa colonna verrà popolata con tutte le informazioni contenute nei file di metadati delle origini dati. Se scegli di fornire questo campo, devi creare un indice GIN su questa colonna.
Nota
Se utilizzi spesso filtri di intervallo sui metadati numerici, per ottimizzare le prestazioni, crea un indice per la chiave specifica. Ad esempio, se utilizzi filtri come "lessThan": { "key": "year", "value": 1989 }, crea un indice di espressione sulla chiave year. Per ulteriori informazioni, consulta Indici sulle espressioni nella Documentazione PostgreSQL.
```
CREATE INDEX ON your_table ((custom_metadata->>'year')::double precision
```
In alternativa, se non fornisci questo nome campo, puoi creare una colonna per ogni attributo di metadati nei tuoi file e specificare il tipo di dati (testo, numero o booleano). Ad esempio, se l’attributo genre esiste nell’origine dati, è necessario aggiungere una colonna denominata genre e specificare text come tipo di dati. Durante l’importazione dei dati, queste colonne separate vengono popolate con i valori degli attributi corrispondenti.
Configura un AWS Secrets Manager segreto per il tuo cluster Aurora DB seguendo i passaggi descritti in Gestione delle password con Amazon Aurora e. AWS Secrets Manager

Prendi nota delle seguenti informazioni dopo aver creato il cluster di database e impostato il segreto.

Campo corrispondente nella configurazione della knowledge base (Console)	Campo corrispondente nella configurazione della knowledge base (API)	Description
Cluster di database Amazon Aurora	resourceArn	L'ARN del cluster di database.
Nome del database	databaseName	Il nome del tuo database
Nome tabella	tableName	Il nome della tabella nel cluster di database
ARN del segreto	credenziali SecretArn	L'ARN della AWS Secrets Manager chiave per il tuo cluster DB

Neptune Analytics graphs (GraphRAG)

Per creare un grafo e un archivio vettoriale in Analisi Neptune in Console di gestione AWS, segui i passaggi descritti in Indicizzazione vettoriale in Analisi Neptune nella Guida per l’utente di Analisi Neptune.

Nota

Per utilizzare Neptune GraphRAG, crea un grafo di Analisi Neptune vuoto con un indice di ricerca vettoriale. L’indice di ricerca vettoriale può essere creato solo quando viene creato il grafo. Quando crei un grafo di Analisi Neptune nella console, specifichi la dimensione dell’indice in Impostazioni di ricerca vettoriale verso la fine del processo.

Durante la creazione del grafo, tieni presenti le considerazioni seguenti:

Un nome del grafo di tua scelta.
In Origine dati, scegli Crea grafo vuoto e specifica il numero di m-NCU da allocare. Ogni m-NCU dispone di circa un GiB di capacità di memoria e di elaborazione e rete corrispondenti.

Nota
La capacità del grafo può essere modificata in un secondo momento. Ti consigliamo di iniziare con l’istanza più piccola e successivamente di sceglierne un’altra, se necessario.
Puoi lasciare le impostazioni di connettività di rete predefinite. Amazon Bedrock crea una connessione di rete al grafo di Analisi Neptune a cui associ la knowledge base. Non è necessario configurare la connettività pubblica o gli endpoint privati per il tuo grafo.

In Impostazioni di ricerca vettoriale, scegli Usa dimensione vettoriale e specifica il numero di dimensioni in ogni vettore.

Nota

Il numero di dimensioni in ogni vettore deve corrispondere alle dimensioni vettoriali nel modello di embedding. Fai riferimento alla tabella seguente per stabilire quante dimensioni deve contenere il vettore:

Modello	Dimensioni
Embedding Titan G1 - Testo	1.536
Embedding Titan V2 - Testo	1.024, 512 e 256
Cohere Embed inglese	1,024
Cohere Embed multilingue	1,024

Lascia tutte le altre impostazioni ai valori predefiniti e crea il grafo.

Una volta creato il grafico, sceglilo per prendere nota delle dimensioni Resource ARN e Vector per quando crei la knowledge base. Quando scegli il modello di embedding in Amazon Bedrock, assicurati di scegliere un modello con le stesse dimensioni delle dimensioni vettoriali che hai configurato sul grafo di Analisi Neptune.

Dopo aver creato l’indice vettoriale, puoi procedere con la creazione della tua knowledge base. La tabella seguente sintetizza i punti in cui devono essere inserite le informazioni annotate.

Campo	Campo corrispondente nella configurazione della knowledge base (Console)	Campo corrispondente nella configurazione della knowledge base (API)	Description
ARN del grafo	ARN del grafo di Analisi Neptune	graphARN	Il nome della risorsa Amazon (ARN) del grafo di Analisi Neptune.
Gestione dei metadati (primo campo di mappatura)	Nome del campo di testo	textField	Il nome del campo in cui archiviare il testo non elaborato proveniente dalle origini dati. Puoi fornire qualsiasi valore per questo campo, ad esempio metadati.
Gestione dei metadati (secondo campo di mappatura)	Bedrock-managed campo di metadati	metadataField	Il nome del campo in cui archiviare i metadati gestiti da Amazon Bedrock. Puoi fornire qualsiasi valore per questo campo, ad esempio metadati.

Pigna

Nota

Se utilizziPinecone, accetti di autorizzare l'accesso AWS alla fonte di terze parti designata per tuo conto per fornirti servizi di vector store. Sei responsabile di rispettare tutti i termini di terze parti applicabili all'uso e al trasferimento dei dati dal servizio di terze parti.

Per una documentazione dettagliata su come configurare un archivio vettoriale in Pinecone, consulta Pinecone come Knowledge Base per Amazon Bedrock.

Mentre configuri l'archivio vettoriale, prendi nota delle informazioni seguenti, da inserire al momento della creazione di una knowledge base:

URL dell’endpoint: l’URL dell’endpoint per la pagina di gestione dell’indice.
ARN segreto delle credenziali: l'Amazon Resource Name (ARN) del segreto che hai creato AWS Secrets Manager e che contiene il nome utente e la password per un utente del database.
(Facoltativo) Chiave Customer-managed KMS per l'ARN segreto delle credenziali: se hai crittografato l'ARN segreto delle credenziali, fornisci la chiave KMS in modo che Amazon Bedrock possa decrittografarla.
Namespace: (Opzionale) il namespace da utilizzare per scrivere nuovi dati nel database. Per ulteriori informazioni, consulta Utilizzo dei namespace.

Esistono altre configurazioni che devi fornire durante la creazione di un indice Pinecone:

Percorso del campo di testo: il nome del campo in cui Amazon Bedrock deve archiviare il testo grezzo in blocco.
Nome del campo dei metadati: il nome del campo in cui Amazon Bedrock deve archiviare i metadati di attribuzione dell’origine.

Per accedere all’indice Pinecone, devi fornire la chiave API Pinecone ad Amazon Bedrock tramite AWS Secrets Manager.

Per impostare un segreto per il tuo Pigna configurazione

Segui la procedura descritta in Crea un AWS Secrets Manager segreto, impostando la chiave come chiave apiKey e il valore come chiave API per accedere al tuo Pinecone indice.
Per trovare la chiave API, apri la console Pinecone e seleziona Chiavi API.
Dopo aver creato il segreto, prendi nota dell'ARN della chiave KMS.
Allega le autorizzazioni al tuo ruolo di servizio per decrittare l'ARN della chiave KMS seguendo la procedura riportata in Autorizzazioni per decrittografare un AWS Secrets Manager segreto per il vector store contenente la tua knowledge base.
Successivamente, quando crei la knowledge base, inserisci l'ARN nel campo ARN del segreto delle credenziali.

Redis Enterprise Cloud

Nota

Se utilizziRedis Enterprise Cloud, accetti di autorizzare l'accesso AWS alla fonte di terze parti designata per tuo conto per fornirti servizi di archiviazione vettoriale. Sei responsabile di rispettare tutti i termini di terze parti applicabili all’uso e al trasferimento dei dati dal servizio di terze parti.

Per una documentazione dettagliata su come configurare un archivio vettoriale in Redis Enterprise Cloud, consulta Integrazione di Redis Enterprise Cloud in Amazon Bedrock.

Mentre configuri l'archivio vettoriale, prendi nota delle informazioni seguenti, da inserire al momento della creazione di una knowledge base:

URL dell’endpoint: URL dell’endpoint pubblico per il database.
Nome dell’indice vettoriale: il nome dell’indice vettoriale per il database.

Campo vettoriale: il campo in cui verranno archiviati gli embedding vettoriali. Fai riferimento alla tabella seguente per stabilire quante dimensioni deve contenere il vettore:

Modello	Dimensioni
Embedding Titan G1 - Testo	1.536
Embedding Titan V2 - Testo	1.024, 512 e 256
Cohere Embed inglese	1,024
Cohere Embed multilingue	1,024

Campo di testo: il nome del campo in cui Amazon Bedrock archivia il blocco di testo grezzo.
Bedrock-managed campo di metadati: il nome del campo in cui Amazon Bedrock archivia i metadati relativi alla tua knowledge base.

Per accedere al cluster Redis Enterprise Cloud, devi fornire la configurazione di sicurezza Redis Enterprise Cloud ad Amazon Bedrock tramite AWS Secrets Manager.

Per creare un segreto per il tuo Redis Enterprise Cloud configurazione

Consenti al protocollo TLS di utilizzare il tuo database con Amazon Bedrock seguendo i passaggi descritti in Transport Layer Security (TLS).
Segui la procedura descritta in Creare un AWS Secrets Manager segreto. Imposta le seguenti chiavi con i valori appropriati della configurazione di Redis Enterprise Cloud nel segreto:
- username: il nome utente per accedere al database Redis Enterprise Cloud. Per trovare il nome utente, consulta la sezione Security del tuo database nella console Redis.
- password: la password per accedere al database Redis Enterprise Cloud. Per trovare la password, consulta la sezione Security del tuo database nella console Redis.
- serverCertificate: i contenuti del certificato rilasciato dall'autorità di certificazione Redis Cloud. Scarica il certificato del server dalla console di amministrazione Redis seguendo i passaggi in Download dei certificati.
- clientPrivateKey: la chiave privata del certificato rilasciato dall'autorità di certificazione Redis Cloud. Scarica il certificato del server dalla console di amministrazione Redis seguendo i passaggi in Download dei certificati.
- clientCertificate: la chiave pubblica del certificato rilasciato dall'autorità di certificazione Redis Cloud. Scarica il certificato del server dalla console di amministrazione Redis seguendo i passaggi in Download dei certificati.
Dopo aver creato il segreto, prendi nota del relativo ARN. Successivamente, quando crei la knowledge base, inserisci l'ARN nel campo ARN del segreto delle credenziali.

MongoDB Atlas

Nota

Se utilizzi MongoDB Atlas, accetti di AWS autorizzare l'accesso alla fonte di terze parti designata per tuo conto per fornirti servizi di archiviazione vettoriale. Sei responsabile di rispettare tutti i termini di terze parti applicabili all'uso e al trasferimento dei dati dal servizio di terze parti.

Per una documentazione dettagliata su come configurare un archivio vettoriale in MongoDB Atlas, consulta Avvio di un flusso di lavoro RAG completamente gestito con MongoDB Atlas e Amazon Bedrock.

Mentre configuri l’archivio vettoriale, prendi nota delle informazioni seguenti, da inserire al momento della creazione di una knowledge base:

Endpoint: dell’URL: l’URL dell’endpoint del cluster MongoDB Atlas.
Nome del database: il nome del database nel cluster MongoDB Atlas.
Nome raccolta: il nome della raccolta nel database.
ARN segreto delle credenziali: l'Amazon Resource Name (ARN) del segreto che hai creato AWS Secrets Manager e che contiene il nome utente e la password per un utente del database nel tuo cluster MongoDB Atlas. Il segreto deve contenere chiavi denominate username e password.
(Facoltativo) Chiave Customer-managed KMS per l'ARN segreto delle credenziali: se hai crittografato l'ARN segreto delle credenziali, fornisci la chiave KMS in modo che Amazon Bedrock possa decrittografarla.

Esistono altre configurazioni per Mappatura dei campi che devi fornire durante la creazione di un indice MongoDB Atlas:

Nome dell’indice vettoriale: il nome dell’indice di ricerca vettoriale MongoDB Atlas nella tua raccolta.
Nome del campo vettoriale: il nome del campo in cui Amazon Bedrock deve archiviare gli embedding vettoriali.
Percorso del campo di testo: il nome del campo in cui Amazon Bedrock deve archiviare il testo grezzo in blocco.
Nome del campo dei metadati: il nome del campo in cui Amazon Bedrock deve archiviare i metadati di attribuzione dell’origine.
(Opzionale) Nome dell’indice di ricerca testo: il nome dell’indice di ricerca MongoDB Atlas nella tua raccolta.

Importante

Se prevedi di utilizzare il filtro dei metadati con la knowledge base MongoDB Atlas, devi configurare manualmente i filtri nell’indice vettoriale. Il filtraggio dei metadati non funziona per impostazione predefinita e richiede una configurazione aggiuntiva nella configurazione dell’indice vettoriale MongoDB Atlas.

(Facoltativo) Per connettere Amazon Bedrock al tuo cluster MongoDB Atlas, consulta il flusso di lavoro RAG AWS PrivateLink con MongoDB Atlas utilizzando Amazon Bedrock.

Avvertimento JavaScript è disabilitato o non è disponibile nel tuo browser.

Per usare la documentazione AWS, JavaScript deve essere abilitato. Consulta le pagine della guida del browser per le istruzioni.

Convenzioni dei documenti

Prerequisiti per i dati della knowledge base

Prerequisiti per i cluster gestiti OpenSearch