Utilisation de vecteurs S3 et de buckets vectoriels - Amazon Simple Storage Service

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Utilisation de vecteurs S3 et de buckets vectoriels

Note

Amazon S3 Vectors est en version préliminaire pour Amazon Simple Storage Service et est sujet à modification.

Qu'est-ce qu'Amazon S3 Vectors ?

Amazon S3 Vectors fournit un stockage vectoriel spécialement conçu et optimisé en termes de coûts pour vos applications de recherche sémantique et d'intelligence artificielle. Grâce à l'élasticité et à la durabilité d'Amazon S3 permettant de stocker des ensembles de données vectorielles avec des performances de requête inférieures à une seconde, S3 Vectors est idéal pour les applications qui ont besoin de créer et de développer des index vectoriels. Vous bénéficiez d'un ensemble dédié d'opérations d'API pour stocker, accéder et exécuter des requêtes de similarité sur des données vectorielles sans provisionner d'infrastructure. S3 Vectors se compose de plusieurs composants clés qui fonctionnent ensemble :

  • Buckets vectoriels : nouveau type de compartiment spécialement conçu pour stocker et interroger des vecteurs.

  • Index vectoriels : dans un compartiment vectoriel, vous pouvez organiser vos données vectorielles dans des index vectoriels. Vous effectuez des requêtes de similarité sur vos données vectorielles au sein d'index vectoriels.

  • Vecteurs — Vous stockez des vecteurs dans votre index vectoriel. Pour les applications de recherche de similarité et d'intelligence artificielle, les vecteurs sont créés sous forme d'intégrations vectorielles, qui sont des représentations numériques qui préservent les relations sémantiques entre les contenus (tels que le texte, les images ou le son) afin que les éléments similaires soient placés plus près les uns des autres. Les vecteurs S3 peuvent effectuer des recherches de similarité basées sur le sens sémantique plutôt que sur une correspondance exacte en comparant mathématiquement la proximité des vecteurs les uns aux autres. Lorsque vous ajoutez des données vectorielles à un index vectoriel, vous pouvez également joindre des métadonnées pour les futures requêtes de filtrage en fonction d'un ensemble de conditions (par exemple, les horodatages, les catégories et les préférences de l'utilisateur).

Les écritures dans les vecteurs S3 sont très cohérentes, ce qui signifie que vous pouvez accéder immédiatement aux dernières données ajoutées. Au fur et à mesure que vous écrivez, mettez à jour et supprimez des vecteurs, S3 Vectors optimise automatiquement les données vectorielles afin d'obtenir le meilleur rapport qualité-prix possible pour le stockage vectoriel, même lorsque les ensembles de données sont mis à l'échelle et évoluent. Vous pouvez contrôler l'accès à vos données vectorielles à l'aide des mécanismes de contrôle d'accès existants d'Amazon S3, notamment les politiques relatives aux compartiments et à l'IAM. Pour plus d'informations sur les limites d'index vectoriel par compartiment et les limites vectorielles par indice, consultezLimites et restrictions.

Cas d'utilisation : recherches de similarité dans de grands ensembles de données

Les recherches de similarité vous permettent de trouver des éléments conceptuellement liés les uns aux autres en fonction de leurs représentations vectorielles, plutôt que de leurs correspondances exactes par mots clés. Ces recherches permettent d'identifier des contenus ayant des significations ou des caractéristiques similaires, même lorsque les mots exacts ou les éléments visuels diffèrent.

Les cas d'utilisation courants de la recherche de similarité avec les vecteurs S3 incluent :

  • Imagerie médicale - Trouvez des similitudes entre des millions d'images médicales pour faciliter le diagnostic et la planification du traitement

  • Violation du droit d'auteur - Identifiez le contenu potentiellement dérivé dans les grandes médiathèques

  • Déduplication d'images : détectez et supprimez les images dupliquées ou quasi-dupliquées dans de grandes collections d'images

  • Compréhension vidéo : recherchez des scènes ou du contenu spécifiques dans des ressources vidéo

  • Recherche de documents d'entreprise - Activez la recherche sémantique dans les documents d'entreprise pour trouver des informations pertinentes en fonction du sens

  • Personnalisation - Fournissez des recommandations personnalisées en recherchant des articles similaires

Vous devez utiliser S3 Vectors si vous souhaitez créer des applications rentables de recherche vectorielle et d'intelligence artificielle avec des temps de recherche inférieurs à la seconde. Avec les compartiments vectoriels, vous ne payez que pour ce que vous utilisez et vous pouvez réduire les coûts liés au téléchargement, au stockage et à l'interrogation des intégrations vectorielles. Pour plus d’informations sur la tarification, consultez Tarification Amazon S3.

Caractéristiques des vecteurs S3

Stockage spécialement conçu pour les vecteurs

S3 Vectors est le premier système de stockage d'objets spécialement conçu dans le cloud pour stocker et interroger des vecteurs. Les compartiments vectoriels sont conçus pour fournir un stockage rentable, élastique et durable pour les données vectorielles.

Les intégrations vectorielles transforment la façon dont les clients utilisent et extraient leurs données non structurées, qu'il s'agisse de détecter des similitudes entre des images médicales, de détecter des anomalies dans des milliers d'heures de séquences vidéo, de naviguer dans de grandes bases de code ou d'identifier la jurisprudence la plus pertinente pour une question juridique donnée. Ces applications émergentes se combinent à des modèles d'intégration pour encoder la signification sémantique des données (par exemple, texte, images, vidéo, code) sous forme d'intégrations vectorielles numériques.

Dans un bucket vectoriel, vous organisez vos données vectorielles au sein d'index vectoriels, sans infrastructure de provisionnement. Au fur et à mesure que vous écrivez, mettez à jour et supprimez des vecteurs, les vecteurs S3 optimisent automatiquement les données vectorielles afin d'obtenir le meilleur rapport qualité-prix possible pour le stockage vectoriel, même lorsque les ensembles de données sont mis à l'échelle et évoluent. Pour plus d'informations sur les limites d'index vectoriel par compartiment et les limites vectorielles par indice, consultezLimites et restrictions.

Réaliser des requêtes de similarité

Avec S3 Vectors, vous pouvez effectuer des requêtes de similarité efficaces pour trouver les vecteurs les plus similaires à un vecteur de requête, avec des temps de réponse inférieurs à la seconde. S3 Vectors est idéal pour les charges de travail où les requêtes sont moins fréquentes.

Filtrage des métadonnées

Vous pouvez joindre des métadonnées (par exemple, année, auteur, genre et lieu) sous forme de paires clé-valeur à vos vecteurs. Par défaut, toutes les métadonnées sont filtrables, sauf si vous les spécifiez explicitement comme non filtrables. Vous pouvez utiliser des métadonnées filtrables pour filtrer les résultats de vos requêtes en fonction d'attributs spécifiques, afin d'améliorer la pertinence de vos requêtes. Les index vectoriels prennent en charge les types de métadonnées de type chaîne, numérique, booléen et liste. Pour plus d'informations sur les limites de taille des métadonnées par vecteur et les limites de taille des métadonnées filtrables par vecteur, consultezLimites et restrictions.

Gestion des accès et sécurité

Vous pouvez gérer l'accès aux ressources dans des compartiments vectoriels à l'aide des politiques IAM et de contrôle des services dans AWS Organizations. S3 Vectors utilise un espace de noms de service différent de celui d'Amazon S3 : l'espace de s3vectors noms. Par conséquent, vous pouvez concevoir des politiques spécifiques pour le service S3 Vectors et ses ressources. Vous pouvez concevoir des politiques pour autoriser l'accès à des index vectoriels individuels, à tous les index vectoriels d'un compartiment vectoriel ou à tous les compartiments vectoriels d'un compte. Tous les paramètres d'accès public par blocs d'Amazon S3 sont toujours activés pour les compartiments vectoriels et ne peuvent pas être désactivés.

Intégration aux AWS services

S3 Vectors s'intègre à d'autres AWS services pour améliorer vos capacités de traitement vectoriel :

  • Amazon OpenSearch Service - Optimisez les coûts de stockage vectoriel tout en continuant à utiliser les opérations OpenSearch d'API. C'est la solution idéale pour les charges de travail qui nécessitent des fonctionnalités de recherche avancées telles que la recherche hybride, les agrégations, le filtrage avancé et la recherche à facettes. Vous pouvez également exporter un instantané d'un index vectoriel S3 vers Amazon OpenSearch Serverless pour une recherche vectorielle à QPS élevé et à faible latence.

  • Bases de connaissances Amazon Bedrock - Sélectionnez un index vectoriel dans S3 Vectors comme magasin de vecteurs afin d'économiser sur les coûts de stockage pour les applications de génération augmentée (RAG) par extraction.

  • Amazon Bedrock dans SageMaker Unified Studio - Développez et testez des bases de connaissances en utilisant S3 Vectors comme magasin de vecteurs.