Utilizzo di S3 Vectors e bucket vettoriali - Amazon Simple Storage Service

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Utilizzo di S3 Vectors e bucket vettoriali

Che cos’è Amazon S3 Vectors?

Amazon S3 Vectors offre storage vettoriale personalizzato e ottimizzato in termini di costi per agenti AI, inferenza, RAG e ricerca semantica. S3 Vectors è progettato per fornire la stessa elasticità, durata e disponibilità di Amazon S3 e offre una latenza inferiore al secondo per le query poco frequenti e fino a 100 millisecondi per le query più frequenti. Avrai a disposizione un set dedicato di operazioni API per archiviare, accedere e interrogare dati vettoriali senza dover fornire alcuna infrastruttura. S3 Vectors è composto da diversi componenti chiave che funzionano insieme:

  • Bucket di vettori: un nuovo tipo di bucket creato appositamente per archiviare e sottoporre a query i vettori.

  • Indici vettoriali: in un bucket vettoriale, puoi organizzare i dati vettoriali all’interno di indici vettoriali. Esegui query di somiglianza sui dati vettoriali all’interno di indici vettoriali.

  • Vettori: archivi i vettori nell’indice vettoriale. Per le applicazioni di ricerca per similarità e di intelligenza artificiale, i vettori vengono creati come embedding vettoriali, ossia rappresentazioni numeriche che preservano le relazioni semantiche tra i contenuti (come testo, immagini o audio) in modo che elementi simili siano posizionati vicini tra loro. S3 Vectors può eseguire ricerche per similarità basate sul significato semantico anziché sulla corrispondenza esatta confrontando matematicamente quanto i vettori sono vicini tra loro. Quando si aggiungono dati vettoriali a un indice vettoriale, è anche possibile collegare i metadati per future query di filtro basate su una serie di condizioni (ad esempio timestamp, categorie e preferenze dell’utente).

Le scritture su S3 Vectors sono fortemente coerenti, il che significa che è possibile immediatamente accedere ai dati aggiunti più di recente. Man mano che si scrivono, aggiornano ed eliminano i vettori nel tempo, S3 Vectors ottimizza automaticamente i dati vettoriali per ottenere il miglior rapporto prezzo/prestazioni possibile per l’archiviazione vettoriale, anche se i set di dati scalano e si evolvono. È possibile controllare l’accesso ai dati vettoriali con i meccanismi di controllo degli accessi esistenti di Amazon S3, incluse le policy di bucket e IAM. Per ulteriori informazioni sui limiti degli indici vettoriali per bucket e sui limiti degli indici vettoriali per indice, consulta Limitazioni e restrizioni.

Casi d’uso: ricerche per similarità su set di dati di grandi dimensioni

Le ricerche per similarità consentono di trovare elementi concettualmente correlati tra loro in base alle rispettive rappresentazioni vettoriali, anziché alla corrispondenza esatta delle parole chiave. Queste ricerche individuano contenuti con significati o caratteristiche simili, anche quando le parole o gli elementi visivi esatti sono diversi.

I casi d’uso più comuni della ricerca per similarità con S3 Vectors sono:

  • Diagnostica per immagini: individua similarità tra milioni di immagini mediche per facilitare la diagnosi e la scelta del trattamento

  • Violazione del copyright: individua contenuti potenzialmente derivati in grandi librerie multimediali

  • Deduplicazione delle immagini: rileva e rimuovi immagini duplicate o pressoché duplicate da raccolte di immagini di grandi dimensioni

  • Comprensione dei video: cerca scene o contenuti specifici all’interno di risorse video

  • Ricerca di documenti aziendali: abilita la ricerca semantica dei documenti aziendali per trovare informazioni pertinenti in base al significato

  • Personalizzazione: fornisci consigli personalizzati individuando articoli simili

È consigliabile utilizzare S3 Vectors per creare applicazioni di ricerca vettoriale e di IA agentica convenienti con tempi di ricerca inferiori al secondo. Con i bucket vettoriali, paghi solo per ciò che usi e puoi risparmiare sui costi di caricamento, archiviazione e query degli embedding vettoriali. Per ulteriori informazioni sui prezzi, consulta Prezzi di Amazon S3.

Funzionalità di S3 Vectors

Archiviazione appositamente progettata per vettori

S3 Vectors è la prima archiviazione di oggetti creata appositamente nel cloud per archiviare e sottoporre a query i vettori. I bucket vettoriali sono progettati per fornire un’archiviazione conveniente, elastica e durevole per i dati vettoriali.

Gli embedding vettoriali trasformano il modo in cui i clienti utilizzano e recuperano i dati non strutturati, rilevando similarità tra immagini mediche, individuando anomalie in migliaia di ore di riprese video, navigando attraverso ampie codebase e identificando la giurisprudenza più rilevante per una determinata questione legale. Queste applicazioni emergenti si combinano con modelli di embedding per codificare il significato semantico dei dati (ad esempio testo, immagini, video, codice) come embedding vettoriali numerici.

In un bucket vettoriale, è possibile organizzare i dati vettoriali all’interno di indici vettoriali, senza dover predisporre l’infrastruttura. Man mano che si scrivono, aggiornano ed eliminano i vettori nel tempo, S3 Vectors ottimizza automaticamente i dati vettoriali per ottenere il miglior rapporto prezzo/prestazioni possibile per l’archiviazione vettoriale, anche se i set di dati scalano e si evolvono. Per ulteriori informazioni sui limiti degli indici vettoriali per bucket e sui limiti degli indici vettoriali per indice, consulta Limitazioni e restrizioni.

Esecuzione di query di somiglianza

Con S3 Vectors, puoi eseguire query per trovare i vettori più simili a un vettore di query, con tempi di risposta inferiori al secondo per le query poco frequenti e fino a 100 millisecondi per le query più frequenti. S3 Vectors è ideale per carichi di lavoro in cui le query sono meno frequenti.

Filtro dei metadati

È possibile collegare i metadati (ad esempio anno, autore, genere e posizione) come coppie chiave-valore ai vettori. Per impostazione predefinita, tutti i metadati sono filtrabili a meno che non vengano esplicitamente specificati come non filtrabili. È possibile utilizzare metadati filtrabili per filtrare i risultati delle query in base a attributi specifici, migliorando la pertinenza delle query. Gli indici vettoriali supportano i metadati di tipo stringa, numerico, booleano ed elenco. Per ulteriori informazioni sui limiti di dimensione dei metadati per vettore e sui limiti di dimensione dei metadati filtrabili per vettore, consulta Limitazioni e restrizioni.

Gestione degli accessi e sicurezza

Puoi gestire l'accesso alle risorse in bucket vettoriali con IAM e Service Control Policies in Organizations AWS . S3 Vectors utilizza un namespace di servizio diverso dal namespace s3vectors di Amazon S3. Pertanto, è possibile progettare policy appositamente per il servizio S3 Vectors e le relative risorse. È possibile progettare policy per fornire l’accesso a singoli indici vettoriali, a tutti gli indici vettoriali all’interno di un bucket vettoriale o a tutti i bucket vettoriali in un account. Tutte le impostazioni di Blocco dell’accesso pubblico Amazon S3 sono sempre abilitate per i bucket vettoriali e non possono essere disabilitate.

Integrazione con i servizi AWS

S3 Vectors si integra con altri AWS servizi per migliorare le capacità di elaborazione vettoriale:

  • Amazon OpenSearch Service: ottimizza i costi di storage vettoriale continuando a utilizzare le operazioni OpenSearch API. È ideale per carichi di lavoro che richiedono funzionalità di ricerca avanzata come ricerca ibrida, aggregazioni, filtri avanzati e ricerca con facet. Puoi anche esportare uno snapshot di un indice vettoriale S3 in Amazon OpenSearch Serverless per una ricerca vettoriale con QPS elevato e bassa latenza.

  • Knowledge Base per Amazon Bedrock: seleziona un indice vettoriale in S3 Vectors come archivio vettoriale per risparmiare sui costi di archiviazione per le applicazioni di generazione potenziata da recupero dati (RAG).

  • Amazon Bedrock in SageMaker Unified Studio: sviluppa e testa basi di conoscenza utilizzando S3 Vectors come archivio vettoriale.