Amazon S3 - Amazon Kendra

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Amazon S3

Amazon S3 est un service de stockage d'objets qui stocke les données sous forme d'objets dans des compartiments. Vous pouvez l'utiliser Amazon Kendra pour indexer le référentiel de documents de votre Amazon S3 bucket.

Avertissement

Amazon Kendra n'utilise pas de politique de compartiment qui autorise un Amazon Kendra mandant à interagir avec un compartiment S3. Au lieu de cela, il utilise IAM des rôles. Assurez-vous qu'il Amazon Kendra n'est pas inclus en tant que membre de confiance dans votre politique de compartiment afin d'éviter tout problème de sécurité des données lié à l'octroi accidentel d'autorisations à des principaux arbitraires. Vous pouvez toutefois ajouter une politique de compartiment pour utiliser un Amazon S3 compartiment sur différents comptes. Pour plus d'informations, consultez la section Politiques à Amazon S3 utiliser entre les comptes (dans l'onglet IAM Rôles S3, sous IAM Rôles pour les sources de données). Pour plus d'informations sur IAM les rôles pour les sources de données S3, consultez la section IAM rôles.

Note

Amazon Kendra prend désormais en charge un Amazon S3 connecteur amélioré.

La console a été automatiquement mise à niveau pour vous. Tous les nouveaux connecteurs que vous créez dans la console utiliseront l'architecture mise à niveau. Si vous utilisez l'API, vous devez désormais utiliser l'TemplateConfigurationobjet au lieu de l'S3DataSourceConfigurationobjet pour configurer votre connecteur.

Les connecteurs configurés à l'aide de l'ancienne console et de l'ancienne architecture d'API continueront de fonctionner tels qu'ils ont été configurés. Toutefois, vous ne pourrez ni les modifier ni les mettre à jour. Si vous souhaitez modifier ou mettre à jour la configuration de votre connecteur, vous devez créer un nouveau connecteur.

Nous vous recommandons de migrer le flux de travail de votre connecteur vers la version mise à niveau. Support pour les connecteurs configurés à l'aide de l'ancienne architecture devrait prendre fin en juin 2024.

Vous pouvez vous connecter à votre source de Amazon S3 données à l'aide de la Amazon Kendra console ou de l'TemplateConfigurationAPI.

Note

Pour générer un rapport d'état de synchronisation pour votre source de Amazon S3 données, consultez la section Résolution des problèmes liés aux sources de données.

Pour résoudre les problèmes liés à votre connecteur de source de données Amazon Kendra S3, consultezDépannage des sources de données.

Fonctionnalités prises en charge

  • Mappages de champs

  • Contrôle d'accès utilisateur

  • Filtres d'inclusion/exclusion

  • Synchronisation complète et incrémentielle du contenu

  • Cloud privé virtuel (VPC)

Prérequis

Avant de pouvoir l'utiliser Amazon Kendra pour indexer votre source de données S3, apportez ces modifications à votre S3 et à vos AWS comptes.

Dans S3, assurez-vous d'avoir :

  • Vous avez copié le nom de votre Amazon S3 compartiment.

    Note

    Votre compartiment doit se trouver dans la même région que votre Amazon Kendra index et celui-ci doit être autorisé à accéder au compartiment contenant vos documents.

  • Il est vérifié que chaque document est unique dans S3 et dans les autres sources de données que vous prévoyez d'utiliser pour le même index. Chaque source de données que vous souhaitez utiliser pour un index ne doit pas contenir le même document dans toutes les sources de données. IDs Les documents sont globaux par rapport à un index et doivent être uniques par index.

Dans votre AWS compte, assurez-vous d'avoir :

Si vous n'avez pas de IAM rôle existant, vous pouvez utiliser la console pour créer un nouveau IAM rôle lorsque vous connectez votre source de données S3 à Amazon Kendra. Si vous utilisez l'API, vous devez fournir l'ARN d'un IAM rôle existant et un identifiant d'index.

Instructions de connexion

Pour vous connecter Amazon Kendra à votre source de données S3, vous devez fournir les informations nécessaires sur votre source de données S3 afin de Amazon Kendra pouvoir accéder à vos données. Si vous n'avez pas encore configuré S3 pour Amazon Kendra, consultezPrérequis.

Console

Pour vous connecter Amazon Kendra à Amazon S3

  1. Connectez-vous à la Amazon Kendra console AWS Management Console et ouvrez-la.

  2. Dans le volet de navigation de gauche, choisissez Index, puis choisissez l'index que vous souhaitez utiliser dans la liste des index.

    Note

    Vous pouvez choisir de configurer ou de modifier vos paramètres de contrôle d'accès utilisateur dans les paramètres de l'index.

  3. Sur la page de démarrage, choisissez Ajouter une source de données.

  4. Sur la page Ajouter une source de données, choisissez le connecteur S3, puis choisissez Ajouter un connecteur. Si vous utilisez la version 2 (le cas échéant), choisissez le connecteur S3 avec la balise « V2.0 ».

  5. Sur la page Spécifier les détails de la source de données, entrez les informations suivantes :

    1. Dans Nom et description, pour Nom de la source de données : entrez le nom de votre source de données. Vous pouvez inclure des traits d'union, mais pas des espaces.

    2. (Facultatif) Description : entrez une description facultative pour votre source de données.

    3. Dans la langue par défaut : choisissez une langue pour filtrer vos documents pour l'index. Sauf indication contraire, la langue par défaut est l'anglais. La langue spécifiée dans les métadonnées du document remplace la langue sélectionnée.

    4. Dans Balises, pour Ajouter une nouvelle balise : incluez des balises facultatives pour rechercher et filtrer vos ressources ou suivre vos AWS coûts.

    5. Choisissez Suivant.

  6. Sur la page Définir l'accès et la sécurité, entrez les informations facultatives suivantes :

    1. IAM rôle —Choisissez un IAM rôle existant ou créez-en un nouveau IAM pour accéder aux informations d'identification de votre référentiel et indexer le contenu.

      Note

      IAM les rôles utilisés pour les index ne peuvent pas être utilisés pour les sources de données. Si vous ne savez pas si un rôle existant est utilisé pour un index ou une FAQ, choisissez Créer un nouveau rôle pour éviter les erreurs.

    2. Virtual Private Cloud (VPC) —Vous pouvez choisir d'utiliser un VPC. Dans ce cas, vous devez ajouter des sous-réseaux et des groupes de sécurité VPC.

    3. Choisissez Suivant.

  7. Sur la page Configurer les paramètres de synchronisation, entrez les informations suivantes :

    1. Pour l'emplacement de la source de données : spécifiez le chemin d'accès au Amazon S3 compartiment dans lequel vos données sont stockées. Sélectionnez Parcourir S3 pour choisir votre compartiment S3.

    2. Pour la taille de fichier maximale : spécifiez une limite en Mo pour analyser uniquement les fichiers inférieurs à cette limite. La taille de fichier maximale Amazon Kendra autorisée est de 50 Mo.

    3. Pour les fichiers de métadonnées (facultatif), préfixez l'emplacement du dossier : spécifiez le chemin d'accès au dossier dans lequel vos métadonnées fields/attributes et celles des autres documents sont stockées. Sélectionnez Parcourir S3 pour localiser votre dossier de métadonnées.

    4. Pour l'emplacement du fichier de configuration de la liste de contrôle d'accès (facultatif) : spécifiez le chemin d'accès au fichier contenant une structure JSON de vos utilisateurs et de leur accès aux documents. Sélectionnez Parcourir S3 pour localiser votre fichier ACL.

    5. (Facultatif) Sélectionnez la clé de déchiffrement : sélectionnez cette option pour utiliser une clé de déchiffrement. Vous pouvez choisir d'utiliser une AWS KMS clé existante.

    6. Pour une configuration supplémentaire (facultative) : ajoutez des modèles pour inclure ou exclure certains fichiers. Tous les chemins sont relatifs au compartiment S3 de l'emplacement de la source de données.

    7. Mode de synchronisation : choisissez la manière dont vous souhaitez mettre à jour votre index lorsque le contenu de votre source de données change. Lorsque vous synchronisez votre source de données Amazon Kendra pour la première fois, tout le contenu est analysé et indexé par défaut. Vous devez exécuter une synchronisation complète de vos données en cas d'échec de la synchronisation initiale, même si vous ne choisissez pas l'option de synchronisation complète comme mode de synchronisation.

      • Synchronisation complète : Indexez tout le contenu fraîchement, en remplaçant le contenu existant chaque fois que votre source de données se synchronise avec votre index.

      • Synchronisation nouvelle, modifiée ou supprimée : Indexez uniquement le contenu nouveau, modifié et supprimé chaque fois que votre source de données se synchronise avec votre index. Amazon Kendra peut utiliser le mécanisme de votre source de données pour suivre les modifications de contenu et indexer le contenu modifié depuis la dernière synchronisation.

    8. Dans Calendrier d'exécution de la synchronisation, pour Fréquence : choisissez la fréquence à laquelle vous souhaitez synchroniser le contenu de votre source de données et mettre à jour votre index.

    9. Choisissez Suivant.

  8. Sur la page Définir les mappages de champs, entrez les informations facultatives suivantes :

    1. Mappages de champs par défaut : sélectionnez parmi les champs de source de données par défaut Amazon Kendra générés que vous souhaitez mapper à votre index.

    2. Ajouter un champ : choisissez d'ajouter des champs de source de données personnalisés pour créer un nom de champ d'index à mapper et le type de données du champ.

    3. Choisissez Suivant.

  9. Sur la page Réviser et créer, vérifiez que les informations saisies sont correctes, puis sélectionnez Ajouter une source de données. Vous pouvez également choisir de modifier vos informations depuis cette page. Votre source de données apparaîtra sur la page Sources de données une fois que la source de données aura été ajoutée avec succès.

API

Pour vous connecter Amazon Kendra à Amazon S3

Vous devez spécifier un JSON du schéma de source de données à l'aide de l'TemplateConfigurationAPI. Vous devez fournir les informations suivantes :

  • Source de données —Spécifiez le type de source de données tel que S3 lorsque vous utilisez le schéma TemplateConfigurationJSON. Spécifiez également la source de données TEMPLATE lorsque vous appelez l'CreateDataSourceAPI.

  • BucketName: le nom du compartiment contenant les documents.

  • Mode de synchronisation : spécifiez comment Amazon Kendra mettre à jour votre index lorsque le contenu de votre source de données change. Lorsque vous synchronisez votre source de données Amazon Kendra pour la première fois, tout le contenu est analysé et indexé par défaut. Vous devez exécuter une synchronisation complète de vos données en cas d'échec de la synchronisation initiale, même si vous ne choisissez pas l'option de synchronisation complète comme mode de synchronisation. Vous pouvez choisir entre :

    • FORCED_FULL_CRAWLpour indexer à nouveau tout le contenu, en remplaçant le contenu existant chaque fois que votre source de données se synchronise avec votre index.

    • FULL_CRAWLpour indexer uniquement le contenu nouveau, modifié et supprimé chaque fois que votre source de données se synchronise avec votre index. Amazon Kendra peut utiliser le mécanisme de votre source de données pour suivre les modifications de contenu et indexer le contenu modifié depuis la dernière synchronisation.

  • IAM role —Spécifiez à quel RoleArn moment vous appelez CreateDataSource pour fournir à un IAM rôle les autorisations d'accéder à votre Secrets Manager secret et d'appeler le public requis APIs pour le connecteur S3 et Amazon Kendra. Pour plus d'informations, consultez la section IAM Rôles des sources de données S3.

Vous pouvez également ajouter les fonctionnalités optionnelles suivantes :

  • Virtual Private Cloud (VPC) VpcConfiguration —Spécifiez le moment de votre appel. CreateDataSource Pour de plus amples informations, veuillez consulter Configuration Amazon Kendra pour utiliser un Amazon VPC.

  • Filtres d'inclusion et d'exclusion : spécifiez s'il faut inclure ou exclure certains noms de fichiers, types de fichiers et chemins de fichiers. Vous utilisez des modèles globulaires (modèles qui peuvent transformer un motif générique en une liste de noms de chemins correspondant au modèle donné). Pour des exemples, consultez la section Utilisation des filtres d'exclusion et d'inclusion dans la référence des commandes de la AWS CLI.

  • Configuration des métadonnées et du contrôle d'accès aux documents : ajoutez des métadonnées de document et des fichiers de contrôle d'accès contenant des informations telles que l'URI source, l'auteur du document ou les attributs/champs personnalisés du document, ainsi que vos utilisateurs et les documents auxquels ils peuvent accéder. Chaque fichier de métadonnées contient des métadonnées relatives à un seul document.

  • Mappages de champs : choisissez de mapper les champs de votre source de données S3 à vos champs d' Amazon Kendra index. Pour plus d'informations, veuillez consulter la rubrique Mappage des champs de source de données.

    Note

    Le champ du corps du document ou l'équivalent du corps du document pour vos documents est requis pour Amazon Kendra effectuer une recherche dans vos documents. Vous devez associer le nom du champ du corps du document dans votre source de données au nom du champ d'index_document_body. Tous les autres champs sont facultatifs.

Pour obtenir la liste des autres clés JSON importantes à configurer, consultez le schéma du S3 modèle.

En savoir plus

Pour en savoir plus sur l'intégration Amazon Kendra à votre source de données S3, consultez :