Ajouter des sources de données et démarrer l'ingestion - Amazon Bedrock

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Ajouter des sources de données et démarrer l'ingestion

Après avoir créé votre base de connaissances, ajoutez des sources de données contenant votre contenu multimodal et lancez des tâches d'ingestion pour traiter et indexer le contenu.

Comportement de suppression des sources de données

Lorsque vous supprimez une source de données avec la politique de suppression définie sur RETAIN, le contenu ingéré reste dans la base de données vectorielle et continuera d'être utilisé pour la récupération. Le contenu n'est supprimé que si vous synchronisez explicitement la base de connaissances après avoir supprimé la source de données. Les sources de données dotées de la politique DELETE par défaut supprimeront automatiquement le contenu de la base de données vectorielle et le stockage supplémentaire lors de la suppression. Cela garantit que votre base de connaissances continue de fonctionner même si les fichiers source sont modifiés ou supprimés, mais vous devez savoir que les sources de données supprimées conformément à la politique RETAIN peuvent toujours contribuer aux résultats de recherche.

Ajouter des sources de données

Ajoutez des sources de données contenant votre contenu multimodal à votre base de connaissances.

Important

Pour les sources de données BDA : seules les sources de données créées après le lancement du audio/video support traiteront les fichiers audio et vidéo. Les sources de données BDA existantes créées avant le lancement de cette fonctionnalité continueront d'ignorer les fichiers audio et vidéo. Pour permettre audio/video le traitement des bases de connaissances existantes, créez de nouvelles sources de données.

Console
Pour ajouter une source de données depuis la console
  1. Sur la page de détails de votre base de connaissances, sélectionnez Ajouter une source de données.

  2. Choisissez Amazon S3 comme type de source de données.

  3. Donnez un nom et une description à votre source de données.

  4. Configurez l'emplacement Amazon S3 contenant vos fichiers multimodaux en fournissant l'URI du compartiment et les éventuels préfixes d'inclusion.

  5. Sous Analyse et segmentation du contenu, configurez vos méthodes d'analyse et de segmentation :

    Note

    Les modèles d'intégration de texte limitent l'extraction au contenu uniquement textuel, mais vous pouvez activer la récupération multimodale via du texte en sélectionnant Amazon Bedrock Data Automation (pour l'audio, la vidéo et les images) ou Foundation Model comme analyseurs (pour les images).

    Choisissez l'une des trois stratégies d'analyse syntaxique suivantes :

    • Analyseur par défaut Bedrock : recommandé pour l'analyse du texte uniquement. Cet analyseur ignore le contenu multimodal et est couramment utilisé avec les modèles d'intégration multimodaux.

    • Bedrock Data Automation en tant qu'analyseur : permet d'analyser et de stocker du contenu multimodal sous forme de texte, de support, d'images PDFs, de fichiers audio et vidéo.

    • Modèle de base en tant qu'analyseur : fournit une analyse avancée pour les images et les documents structurés, les supports PDFs, les images, les tableaux et les documents visuellement riches.

  6. Choisissez Ajouter une source de données pour créer la source de données.

CLI
Pour ajouter une source de données à l'aide du AWS CLI
  • Créez une source de données pour votre contenu multimodal. Envoyez une CreateDataSourcedemande :

    aws bedrock-agent create-data-source \ --knowledge-base-id <knowledge-base-id> \ --cli-input-json file://ds-multimodal.json

    Pour les intégrations multimodales Nova (aucune configuration d'analyse spéciale n'est requise), utilisez ce contenu : ds-multimodal.json

    { "dataSourceConfiguration": { "type": "S3", "s3Configuration": { "bucketArn": "arn:aws:s3:::<data-source-bucket>", "inclusionPrefixes": ["<folder-path>"] } }, "name": "multimodal_data_source", "description": "Data source with multimodal content", "dataDeletionPolicy": "RETAIN" }

    Pour l'approche d'analyse BDA, utilisez cette configuration :

    { "dataSourceConfiguration": { "type": "S3", "s3Configuration": { "bucketArn": "arn:aws:s3:::<data-source-bucket>", "inclusionPrefixes": ["<folder-path>"] } }, "name": "multimodal_data_source_bda", "description": "Data source with BDA multimodal parsing", "dataDeletionPolicy": "RETAIN", "vectorIngestionConfiguration": { "parsingConfiguration": { "bedrockDataAutomationConfiguration": { "parsingModality": "MULTIMODAL" } } } }

Lancement d’une tâche d’ingestion

Après avoir ajouté vos sources de données, lancez une tâche d'ingestion pour traiter et indexer votre contenu multimodal.

Console
Pour démarrer l'ingestion depuis la console
  1. Sur la page de détails de votre source de données, choisissez Sync.

  2. Surveillez l'état de synchronisation sur la page de la source de données. L'ingestion peut prendre plusieurs minutes en fonction de la taille et du nombre de vos fichiers multimodaux.

  3. Une fois la synchronisation terminée, votre contenu multimodal est prêt à être interrogé.

CLI
Pour commencer l'ingestion à l'aide du AWS CLI
  1. Commencez une opération d'ingestion. Envoyez une StartIngestionJobdemande :

    aws bedrock-agent start-ingestion-job \ --knowledge-base-id <knowledge-base-id> \ --data-source-id <data-source-id>

    Remplacez les espaces réservés par :

    • <knowledge-base-id>- Identifiant issu de la création de la base de connaissances

    • <data-source-id>- ID issu de la création de la source de données

  2. Surveillez l'état de la tâche d'ingestion à l'aide de GetIngestionJob.

Resynchronisation après suppression de la source de données

Si vous supprimez une source de données et souhaitez supprimer son contenu de la base de connaissances, vous devez resynchroniser explicitement la base de connaissances :

Pour supprimer le contenu d'une source de données supprimée
  1. Supprimez la source de données à l'aide de la console ou de DeleteDataSourcel'API.

  2. Lancez une nouvelle tâche d'ingestion sur toutes les sources de données restantes pour mettre à jour la base de données vectorielle et supprimer le contenu de la source de données supprimée.

  3. Vérifiez que les requêtes ne renvoient plus de résultats à partir de la source de données supprimée.

Note

Sans resynchronisation, le contenu des sources de données supprimées continuera d'apparaître dans les résultats de recherche même si la source de données n'existe plus.