Connexion à Confluence pour votre base de connaissances - Amazon Bedrock

Connexion à Confluence pour votre base de connaissances

Atlassian Confluence est un outil de gestion du travail collaboratif conçu pour partager, stocker et travailler sur la planification de projets, le développement de logiciels et la gestion de produits. Vous pouvez vous connecter à votre instance Confluence pour votre base de connaissances Amazon Bedrock à l’aide de la console de gestion AWS pour Amazon Bedrock ou de l’API CreateDataSource (consultez les commandes de l’AWS CLI et les kits SDK pris en charge par Amazon Bedrock).

Note

Le connecteur de source de données Confluence est proposé en version préliminaire et peut faire l’objet de modifications.

Les sources de données Confluence ne prennent pas en charge les données multimodales, telles que les tableaux, les graphiques, les diagrammes ou autres images.

Amazon Bedrock prend en charge la connexion aux instances Confluence Cloud. Actuellement, seul le magasin de vecteurs Amazon OpenSearch sans serveur peut être utilisé avec cette source de données.

Il existe des limites au nombre de fichiers et de Mo par fichier pouvant être indexés. Consultez Quotas pour les bases de connaissances.

Fonctionnalités prises en charge

  • Détection automatique des principaux champs d’un document

  • Filtres de contenu d’inclusion/exclusion

  • Synchronisation incrémentielle du contenu ajouté, mis à jour et supprimé

  • Authentification OAuth 2.0, authentification avec le jeton d’API Confluence

Conditions préalables

Dans Confluence :

  • Assurez-vous de notez l’URL de votre instance Confluence. Par exemple, pour Confluence Cloud, https://example.atlassian.net. L’URL de Confluence Cloud doit être l’URL de base se terminant par .atlassian.net.

  • Configurez les informations d’identification pour l’authentification de base : un nom d’utilisateur (e-mail du compte administrateur) et un mot de passe (jeton d’API Confluence) pour permettre à Amazon Bedrock de se connecter à votre instance Confluence Cloud. Pour en savoir plus sur la création d’un jeton d’API Confluence, consultez Manage API tokens for your Atlassian account sur le site web Atlassian.

  • (Facultatif) Configurez une application OAuth 2.0 avec des informations d’identification comprenant une clé d’application, un secret d’application, un jeton d’accès et un jeton d’actualisation. Pour plus d’informations, consultez OAuth 2.0 apps sur le site web Atlassian.

  • Certaines autorisations ou portées de lecture doivent être activées pour que votre application OAuth 2.0 puisse se connecter à Confluence.

    API Confluence :

    • offline_access

    • read:content:confluence : afficher les contenus détaillés

    • read:content-details:confluence : afficher les informations sur le contenu

    • read:space-details:confluence : afficher les informations sur l’espace

    • read:audit-log:confluence : afficher les enregistrements d’audits

    • read:page:confluence : afficher les pages

    • read:attachment:confluence : afficher et télécharger les pièces jointes au contenu

    • read:blogpost:confluence : afficher les articles de blog

    • read:custom-content:confluence : afficher le contenu personnalisé

    • read:comment:confluence : afficher les commentaires

    • read:template:confluence : afficher les modèles de contenu

    • read:label:confluence : afficher les étiquettes

    • read:watcher:confluence : afficher les observateurs de contenu

    • read:relation:confluence : afficher les relations des entités

    • read:user:confluence : afficher les informations sur l’utilisateur

    • read:configuration:confluence : afficher les paramètres Confluence

    • read:space:confluence : afficher les informations sur l’espace

    • read:space.property:confluence : afficher les propriétés de l’espace

    • read:user.property:confluence : afficher les propriétés utilisateur

    • read:space.setting:confluence : afficher les paramètres de l’espace

    • read:analytics.content:confluence : afficher l’analytique du contenu

    • read:content.property:confluence : afficher les propriétés du contenu

    • read:content.metadata:confluence : afficher les récapitulatifs de contenu

    • read:inlinetask:confluence : afficher les tâches

    • read:task:confluence : afficher les tâches

    • read:whiteboard:confluence : afficher les tableaux blancs

    • read:app-data:confluence : lire les données d’application

    • read:folder:confluence : afficher les dossiers

    • read:embed:confluence : afficher les données Smart Link

Dans votre compte AWS :

  • Pour l’authentification, assurez-vous de stocker vos informations d’identification dans un secret AWS Secrets Manager et notez l’Amazon Resource Name (ARN) du secret. Suivez les instructions de la section Configuration de la connexion sur cette page pour inclure les paires clé-valeur qui doivent être incluses dans votre secret.

  • Incluez dans votre politique de rôle/d’autorisations AWS Identity and Access Management (IAM) les autorisations nécessaires afin de vous connecter à votre source de données pour votre base de connaissances. Pour en savoir plus sur les autorisations requises afin d’ajouter cette source de données à votre rôle IAM dans la base de connaissances, consultez Autorisations d’accès aux sources de données.

Note

Si vous utilisez la console, vous pouvez accéder à AWS Secrets Manager pour ajouter votre secret ou utiliser un secret existant dans le cadre de l’étape de configuration de la source de données. Le rôle IAM possédant toutes les autorisations requises peut être créé pour vous dans le cadre des étapes de la console pour créer une base de connaissances. Une fois votre source de données configurée et les autres configurations effectuées, le rôle IAM possédant toutes les autorisations requises est appliqué à votre base de connaissances spécifique.

Nous vous recommandons d’actualiser ou de modifier régulièrement vos informations d’identification et votre secret. Pour votre propre sécurité, fournissez uniquement le niveau d’accès nécessaire. Nous vous recommandons de ne pas réutiliser vos informations d’identification et vos secrets d’une source de données à l’autre.

Configuration de la connexion

Afin de vous connecter à votre instance Confluence, vous devez fournir les informations de configuration nécessaires pour qu’Amazon Bedrock puisse accéder à vos données et les indexer. Vous devez également respecter les Conditions préalables.

Un exemple de configuration pour cette source de données est inclus dans cette section.

Pour plus d’informations sur la détection automatique des champs d’un document, les filtres d’inclusion/exclusion, la synchronisation incrémentielle, les informations d’identification secrètes et leur fonctionnement, développez les sections suivantes :

Le connecteur de source de données détecte et indexe automatiquement les principaux champs de métadonnées de vos documents ou contenus. Par exemple, le connecteur de source de données peut indexer le contenu principal (ou son équivalent), le titre et la date de création ou de modification de vos documents, ou d’autres champs de base susceptibles de s’appliquer à ceux-ci.

Important

Si votre contenu contient des informations sensibles, Amazon Bedrock peut répondre en utilisant des informations sensibles.

Vous pouvez appliquer des opérateurs de filtrage aux champs de métadonnées afin d’améliorer davantage la pertinence des réponses. Par exemple, « epoch_modification_time » pour connaître le nombre de secondes écoulées depuis le 1er janvier 1970 jusqu’au moment de la dernière mise à jour du document. Vous pouvez filtrer les données en fonction des plus récentes, pour lesquelles « epoch_modification_time » est supérieur à un certain nombre. Pour plus d’informations sur les opérateurs de filtrage que vous pouvez appliquer à vos champs de métadonnées, consultez Métadonnées et filtrage.

Vous pouvez inclure ou exclure l’indexation de certains contenus. Par exemple, vous pouvez spécifier un préfixe d’exclusion/un modèle d’expression régulière pour éviter d’indexer tout fichier dont le nom contient le mot « privé ». Vous pouvez également spécifier un préfixe d’inclusion/un modèle d’expression régulière pour inclure certaines entités ou certains types de contenu. Si vous spécifiez un filtre d’inclusion et un filtre d’exclusion et que les deux correspondent à un document, le filtre d’exclusion est prioritaire et le document n’est pas indexé.

Exemple de modèle d’expression régulière permettant d’exclure ou de filtrer les fichiers PDF dont le nom contient « privé » : ".*privé.*\\.pdf"

Vous pouvez appliquer des filtres d’inclusion/exclusion aux types de contenus suivants :

  • Space : touche d’espace unique

  • Page : titre de la page principale

  • Blog : titre du blog principal

  • Comment : commentaires qui appartiennent à une page ou à un blog en particulier Spécifiez Re: titre de la page/du blog

  • Attachment : nom de fichier joint avec son extension

Le connecteur de source de données indexe le contenu nouveau, modifié et supprimé chaque fois que votre source de données se synchronise avec votre base de connaissances. Amazon Bedrock peut utiliser le mécanisme de votre source de données pour suivre les modifications et indexer le contenu modifié depuis la dernière synchronisation. Lorsque vous synchronisez votre source de données avec votre base de connaissances pour la première fois, l’ensemble du contenu est indexé par défaut.

Pour synchroniser votre source de données avec votre base de connaissances, utilisez l’API StartIngestionJob ou sélectionnez votre base de connaissances dans la console, puis sélectionnez Synchroniser dans la section Vue d’ensemble des sources de données.

Important

Toutes les données que vous synchronisez à partir de votre source de données sont accessibles à toute personne disposant des autorisations bedrock:Retrieve pour récupérer les données. Cela peut également inclure toutes les données dont les autorisations de source de données sont contrôlées. Pour plus d’informations, consultez Autorisations de la base de connaissances.

(Si vous utilisez l’authentification de base) Vos informations d’identification secrètes dans AWS Secrets Manager doivent inclure les paires clé-valeur suivantes :

  • username : adresse e-mail de l’utilisateur administrateur du compte Atlassian

  • password : jeton d’API Confluence

(Si vous utilisez l’authentification OAuth 2.0) Vos informations d’identification dans AWS Secrets Manager doivent inclure les paires clé-valeur suivantes :

  • confluenceAppKey : clé d’application

  • confluenceAppSecret : secret de l’application

  • confluenceAccessToken : jeton d’accès à l’application

  • confluenceRefreshToken : jeton d’actualisation de l’application

Note

Le jeton d’accès Confluence OAuth 2.0 a un délai d’expiration par défaut de 60 minutes. S’il expire alors que votre source de données est en cours de synchronisation (tâche de synchronisation), Amazon Bedrock utilise le jeton d’actualisation fourni pour le régénérer. Cette régénération actualise à la fois les jetons d’accès et ceux d’actualisation. Afin de conserver les jetons à jour entre la tâche de synchronisation actuelle et la suivante, Amazon Bedrock a besoin d’autorisations d’écriture (write/put) pour vos informations d’identification secrètes dans le cadre du rôle IAM de la base de connaissances.

Note

Votre secret dans AWS Secrets Manager doit utiliser la même région que celle de votre base de connaissances.

Console
Connexion d’une instance Confluence à votre base de connaissances
  1. Suivez les étapes décrites dans Création d’une base de connaissances en se connectant à une source de données dans Amazon Bedrock Knowledge Bases et choisissez Confluence comme source de données.

  2. Indiquez un nom et une description facultative de la source de données.

  3. Indiquez l’URL de votre instance Confluence. Par exemple, pour Confluence Cloud, https://example.atlassian.net. L’URL de Confluence Cloud doit être l’URL de base se terminant par .atlassian.net.

  4. Dans la section Paramètres avancés, vous pouvez éventuellement configurer les éléments suivants :

    • Clé KMS pour le stockage de données transitoires  : vous pouvez chiffrer les données transitoires lors de la conversion de vos données en vectorisations à l’aide de la Clé gérée par AWS par défaut ou de votre propre clé KMS. Pour plus d’informations, consultez Chiffrement du stockage des données transitoires lors de l’ingestion de données.

    • Politique de suppression des données : vous pouvez supprimer les vectorisations de votre source de données qui sont stockées dans le magasin de vecteurs par défaut, ou choisir de conserver les données du magasin de vecteurs.

  5. Fournissez les informations d’authentification pour vous connecter à votre instance Confluence :

    • Pour l’authentification de base, rendez-vous sur AWS Secrets Manager pour ajouter vos informations d’identification secrètes ou utilisez un Amazon Resource Name (ARN) existant pour le secret que vous avez créé. Votre secret doit contenir l’adresse e-mail de l’administrateur du compte Atlassian comme nom d’utilisateur et un jeton d’API Confluence à la place d’un mot de passe. Pour en savoir plus sur la création d’un jeton d’API Confluence, consultez Manage API tokens for your Atlassian account sur le site web Atlassian.

    • Pour l’authentification OAuth 2.0, rendez-vous sur AWS Secrets Manager pour ajouter vos informations d’identification secrètes ou utilisez un Amazon Resource Name (ARN) existant pour le secret que vous avez créé. Votre secret doit contenir la clé d’application, le secret d’application, le jeton d’accès et le jeton d’actualisation Confluence. Pour plus d’informations, consultez OAuth 2.0 apps sur le site web Atlassian.

  6. (Facultatif) Dans la section Analyse et découpage du contenu, vous pouvez personnaliser le mode d’analyse et de découpage de vos données. Consultez les ressources suivantes pour en savoir plus sur ces personnalisations :

  7. Utilisez des filtres/modèles d’expressions régulières pour inclure ou exclure certains contenus. Autrement, l’ensemble du contenu standard est indexé.

  8. Continuez en choisissant un modèle de vectorisation et un magasin de vecteurs. Pour voir les étapes restantes, revenez à Création d’une base de connaissances en se connectant à une source de données dans Amazon Bedrock Knowledge Bases et poursuivez après avoir connecté votre source de données.

API

Voici un exemple de configuration pour se connecter à Confluence Cloud pour votre base de connaissances Amazon Bedrock. Vous configurez votre source de données à l’aide de l’API avec l’AWS CLI ou d’un kit SDK compatible, tel que Python. Après avoir appelé CreateKnowledgeBase, vous appelez CreateDataSource pour créer votre source de données contenant vos informations de connexion dans dataSourceConfiguration.

Pour en savoir plus sur les personnalisations que vous pouvez appliquer à l’ingestion en incluant le champ facultatif vectorIngestionConfiguration, consultez Personnalisation de l’ingestion pour une source de données.

AWS Command Line Interface

aws bedrock create-data-source \ --name "Confluence Cloud/SaaS connector" \ --description "Confluence Cloud/SaaS data source connector for Amazon Bedrock to use content in Confluence" \ --knowledge-base-id "your-knowledge-base-id" \ --data-source-configuration file://confluence-bedrock-connector-configuration.json \ --data-deletion-policy "DELETE" \ --vector-ingestion-configuration '{"chunkingConfiguration":[{"chunkingStrategy":"FIXED_SIZE","fixedSizeChunkingConfiguration":[{"maxTokens":"100","overlapPercentage":"10"}]}]}' confluence-bedrock-connector-configuration.json { "confluenceConfiguration": { "sourceConfiguration": { "hostUrl": "https://example.atlassian.net", "hostType": "SAAS", "authType": "OAUTH2_CLIENT_CREDENTIALS", "credentialsSecretArn": "arn:aws::secretsmanager:your-region:secret:AmazonBedrock-Confluence" }, "crawlerConfiguration": { "filterConfiguration": { "type": "PATTERN", "patternObjectFilter": { "filters": [ { "objectType": "Attachment", "inclusionFilters": [ ".*\\.pdf" ], "exclusionFilters": [ ".*private.*\\.pdf" ] } ] } } } }, "type": "CONFLUENCE" }