Utilisation de S3 Vectors et de compartiments de vecteur - Amazon Simple Storage Service

Utilisation de S3 Vectors et de compartiments de vecteur

Note

Amazon S3 Vectors est en version préliminaire pour Amazon Simple Storage Service et sujet à modification.

Qu’est-ce qu’Amazon S3 Vectors ?

Amazon S3 Vectors fournit un stockage vectoriel spécialement conçu et optimisé en matière de coûts pour vos applications de recherche sémantique et d’intelligence artificielle. Avec une élasticité et une durabilité de niveau Amazon S3 pour le stockage de jeux de données vectorielles avec des performances de requête inférieures à la seconde, S3 Vectors est idéal pour les applications qui doivent créer et développer des index vectoriels. Vous bénéficiez d’un ensemble dédié d’opérations d’API pour stocker, accéder et exécuter des requêtes de similarité sur des données vectorielles sans provisionner d’infrastructure. S3 Vectors se compose de plusieurs composants clés qui fonctionnent ensemble :

  • Compartiments de vecteur : un nouveau type de compartiment conçu spécialement pour stocker et interroger les vecteurs.

  • Index vectoriels : dans un compartiment de vecteur, vous pouvez organiser vos données vectorielles au sein d’index vectoriels. Vous effectuez des requêtes de similarité sur les données vectorielles au sein d’index vectoriels.

  • Vecteurs : vous stockez des vecteurs dans votre index vectoriel. Pour les applications de recherche de similarité et d’intelligence artificielle, les vecteurs sont créés sous forme de vectorisation, qui sont des représentations numériques qui préservent les relations sémantiques entre les contenus (tels que le texte, les images ou le son) afin que les éléments similaires soient placés plus près les uns des autres. S3 Vectors peut effectuer des recherches de similarité basées sur le sens sémantique plutôt que sur une correspondance exacte en comparant mathématiquement la proximité des vecteurs les uns par rapport aux autres. Lorsque vous ajoutez des données vectorielles à un index vectoriel, vous pouvez également joindre des métadonnées pour les futures requêtes de filtrage en fonction d’un ensemble de conditions (par exemple, les horodatages, les catégories et les préférences de l’utilisateur).

Les écritures dans S3 Vectors sont très cohérentes, ce qui signifie que vous pouvez accéder immédiatement aux données les plus récentes. À mesure que vous écrivez, mettez à jour et supprimez des vecteurs, S3 Vectors optimise automatiquement les données vectorielles afin d’obtenir le meilleur rapport qualité-prix possible pour le stockage vectoriel, même lorsque les jeux de données sont mis à l’échelle et évoluent. Vous pouvez contrôler l’accès à vos données vectorielles à l’aide des mécanismes de contrôle d’accès existants d’Amazon S3, notamment les politiques IAM et de compartiment. Pour plus d’informations sur les limites d’index vectoriel par compartiment et les limites vectorielles par index, consultez Limites et restrictions.

Cas d’utilisation : recherches de similarité dans de grands jeux de données

Les recherches de similarité vous permettent de trouver des éléments conceptuellement liés les uns aux autres en fonction de leurs représentations vectorielles, plutôt que de leurs correspondances exactes par mots clés. Ces recherches permettent d’identifier des contenus ayant des significations ou des caractéristiques similaires, même lorsque les mots exacts ou les éléments visuels diffèrent.

Les cas d’utilisation courants de la recherche de similarité avec S3 Vectors incluent :

  • Imagerie médicale : rechercher des similitudes entre des millions d’images médicales pour faciliter le diagnostic et la planification du traitement

  • Violation du droit d’auteur : identifier le contenu potentiellement dérivé dans les grandes médiathèques

  • Déduplication d’images : détecter et supprimer les images dupliquées ou quasi-dupliquées dans de grandes collections d’images

  • Compréhension vidéo : rechercher des scènes ou du contenu spécifiques dans des ressources vidéo

  • Recherche de documents d’entreprise : activer la recherche sémantique dans les documents d’entreprise pour trouver des informations pertinentes en fonction du sens

  • Personnalisation : fournir des recommandations personnalisées en recherchant des articles similaires

Vous devez utiliser S3 Vectors si vous souhaitez créer des applications rentables de recherche vectorielle et d’IA agentique avec des temps de recherche inférieurs à la seconde. Avec les compartiments de vecteur, vous ne payez que pour ce que vous utilisez et vous pouvez réduire les coûts liés au téléchargement, au stockage et à l’interrogation des vectorisations. Pour plus d’informations sur la tarification, consultez Tarification Amazon S3.

Fonctionnalités de S3 Vectors

Stockage spécialement conçu pour les vecteurs

S3 Vectors est le premier système de stockage d’objets spécialement conçu dans le cloud pour stocker et interroger des vecteurs. Les compartiments de vecteur sont conçus pour fournir un stockage rentable, élastique et durable pour les données vectorielles.

Les vectorisations transforment la façon dont les clients utilisent et récupèrent leurs données non structurées, qu’il s’agisse de détecter des similitudes entre des images médicales, de détecter des anomalies dans des milliers d’heures de séquences vidéo, de naviguer dans de grandes bases de code ou d’identifier la jurisprudence la plus pertinente pour une question juridique donnée. Ces applications émergentes se combinent à des modèles de vectorisation pour encoder la signification sémantique des données (par exemple, texte, images, vidéo, code) sous forme de vectorisations numériques.

Dans un compartiment de vecteur, vous organisez vos données vectorielles au sein d’index vectoriels, sans infrastructure de provisionnement. À mesure que vous écrivez, mettez à jour et supprimez des vecteurs, S3 Vectors optimise automatiquement les données vectorielles afin d’obtenir le meilleur rapport qualité-prix possible pour le stockage vectoriel, même lorsque les jeux de données sont mis à l’échelle et évoluent. Pour plus d’informations sur les limites d’index vectoriel par compartiment et les limites vectorielles par index, consultez Limites et restrictions.

Exécution de requêtes de similarité

Avec S3 Vectors, vous pouvez effectuer des requêtes de similarité efficaces pour trouver les vecteurs les plus similaires à un vecteur de requête, avec des temps de réponse inférieurs à la seconde. S3 Vectors est idéal pour les charges de travail où les requêtes sont moins fréquentes.

Filtrage de métadonnées

Vous pouvez attacher des métadonnées (par exemple, année, auteur, genre et lieu) sous forme de paires clé-valeur à vos vecteurs. Par défaut, toutes les métadonnées sont filtrables, sauf si vous les spécifiez explicitement comme non filtrables. Vous pouvez utiliser des métadonnées filtrables pour filtrer les résultats de vos requêtes en fonction d’attributs spécifiques, afin d’améliorer la pertinence de vos requêtes. Les index vectoriels prennent en charge les types de métadonnées de type chaîne, numérique, booléen et liste. Pour plus d’informations sur la limite de taille des métadonnées par vecteur et la limite de taille des métadonnées filtrables par vecteur, consultez Limites et restrictions.

Gestion des accès et sécurité

Vous pouvez gérer l’accès aux ressources dans des compartiments de vecteur à l’aide des stratégies IAM et des Politiques de contrôle de service dans AWS Organizations. S3 Vectors utilise un espace de noms de service différent de celui d’Amazon S3 : l’espace de noms s3vectors. Par conséquent, vous pouvez concevoir des politiques spécifiques pour le service S3 Vectors et ses ressources. Vous pouvez concevoir des politiques pour autoriser l’accès à des index vectoriels individuels, à tous les index vectoriels d’un compartiment de vecteur ou à tous les compartiments de vecteur d’un compte. Tous les paramètres de blocage de l’accès public Amazon S3 sont toujours activés pour les compartiments de vecteur et ne peuvent pas être désactivés.

Intégration aux services AWS

S3 Vectors s’intègre à d’autres services AWS pour améliorer vos capacités de traitement vectoriel :

  • Amazon OpenSearch Service : optimisez les coûts de stockage vectoriel tout en continuant à utiliser les opérations de l’API OpenSearch. C’est la solution idéale pour les charges de travail qui nécessitent des fonctionnalités de recherche avancées telles que la recherche hybride, les agrégations, le filtrage avancé et la recherche à facettes. Vous pouvez exporter un instantané d’un index vectoriel S3 vers Amazon OpenSearch sans serveur pour les requêtes par seconde élevées et les recherches vectorielles à faible latence.

  • Bases de connaissances d’Amazon Bedrock : sélectionnez un index vectoriel dans S3 Vectors comme magasin de vecteurs afin d’économiser sur les coûts de stockage pour les applications de génération à enrichissement contextuel (RAG).

  • Amazon Bedrock dans SageMaker Unified Studio : développez et testez des bases de connaissances en utilisant S3 Vectors comme magasin de vecteurs.