Ajouter des sources de données Lancement d’une tâche d’ingestion Resynchronisation après suppression de la source de données

Ajouter des sources de données et démarrer l'ingestion

Après avoir créé votre base de connaissances, ajoutez des sources de données contenant votre contenu multimodal et lancez des tâches d'ingestion pour traiter et indexer le contenu.

Comportement de suppression des sources de données

Lorsque vous supprimez une source de données avec la politique de suppression définie sur RETAIN, le contenu ingéré reste dans la base de données vectorielle et continuera d'être utilisé pour la récupération. Le contenu n'est supprimé que si vous synchronisez explicitement la base de connaissances après avoir supprimé la source de données. Les sources de données dotées de la politique DELETE par défaut supprimeront automatiquement le contenu de la base de données vectorielle et le stockage supplémentaire lors de la suppression. Cela garantit que votre base de connaissances continue de fonctionner même si les fichiers source sont modifiés ou supprimés, mais vous devez savoir que les sources de données supprimées conformément à la politique RETAIN peuvent toujours contribuer aux résultats de recherche.

Ajouter des sources de données

Ajoutez des sources de données contenant votre contenu multimodal à votre base de connaissances.

Important

Pour les sources de données BDA : seules les sources de données créées après le lancement du audio/video support traiteront les fichiers audio et vidéo. Les sources de données BDA existantes créées avant le lancement de cette fonctionnalité continueront d'ignorer les fichiers audio et vidéo. Pour permettre audio/video le traitement des bases de connaissances existantes, créez de nouvelles sources de données.

Console

Pour ajouter une source de données depuis la console

Sur la page de détails de votre base de connaissances, sélectionnez Ajouter une source de données.
Choisissez Amazon S3 comme type de source de données.
Donnez un nom et une description à votre source de données.
Configurez l'emplacement Amazon S3 contenant vos fichiers multimodaux en fournissant l'URI du compartiment et les éventuels préfixes d'inclusion.
Sous Analyse et segmentation du contenu, configurez vos méthodes d'analyse et de segmentation :

Note
Les modèles d'intégration de texte limitent l'extraction au contenu uniquement textuel, mais vous pouvez activer la récupération multimodale via du texte en sélectionnant Amazon Bedrock Data Automation (pour l'audio, la vidéo et les images) ou Foundation Model comme analyseurs (pour les images).

Choisissez l'une des trois stratégies d'analyse syntaxique suivantes :
- Analyseur par défaut Bedrock : recommandé pour l'analyse du texte uniquement. Cet analyseur ignore le contenu multimodal et est couramment utilisé avec les modèles d'intégration multimodaux.
- Bedrock Data Automation en tant qu'analyseur : permet d'analyser et de stocker du contenu multimodal sous forme de texte, prenant en charge les PDF, les images, les fichiers audio et vidéo.
- Modèle de base en tant qu'analyseur : fournit une analyse avancée pour les images et les documents structurés, prenant en charge les PDF, les images, les tableaux et les documents visuellement riches.
Choisissez Ajouter une source de données pour créer la source de données.

CLI

Pour ajouter une source de données à l'aide du AWS CLI

Créez une source de données pour votre contenu multimodal. Envoyez une CreateDataSourcedemande :


aws bedrock-agent create-data-source \
--knowledge-base-id <knowledge-base-id> \
--cli-input-json file://ds-multimodal.json

Pour les intégrations multimodales Nova (aucune configuration d'analyse spéciale n'est requise), utilisez ce contenu : ds-multimodal.json


{
    "dataSourceConfiguration": {
        "type": "S3",
        "s3Configuration": {
            "bucketArn": "arn:aws:s3:::<data-source-bucket>",
            "inclusionPrefixes": ["<folder-path>"]
        }
    },
    "name": "multimodal_data_source",
    "description": "Data source with multimodal content",
    "dataDeletionPolicy": "RETAIN"
}

Pour l'approche d'analyse BDA, utilisez cette configuration :


{
    "dataSourceConfiguration": {
        "type": "S3",
        "s3Configuration": {
            "bucketArn": "arn:aws:s3:::<data-source-bucket>",
            "inclusionPrefixes": ["<folder-path>"]
        }
    },
    "name": "multimodal_data_source_bda",
    "description": "Data source with BDA multimodal parsing",
    "dataDeletionPolicy": "RETAIN",
    "vectorIngestionConfiguration": {
        "parsingConfiguration": {
            "bedrockDataAutomationConfiguration": {
                "parsingModality": "MULTIMODAL"
            }
        }
    }
}

Lancement d’une tâche d’ingestion

Après avoir ajouté vos sources de données, lancez une tâche d'ingestion pour traiter et indexer votre contenu multimodal.

Resynchronisation après suppression de la source de données

Si vous supprimez une source de données et souhaitez supprimer son contenu de la base de connaissances, vous devez resynchroniser explicitement la base de connaissances :

Pour supprimer le contenu d'une source de données supprimée

Supprimez la source de données à l'aide de la console ou de DeleteDataSourcel'API.
Lancez une nouvelle tâche d'ingestion sur toutes les sources de données restantes pour mettre à jour la base de données vectorielle et supprimer le contenu de la source de données supprimée.
Vérifiez que les requêtes ne renvoient plus de résultats à partir de la source de données supprimée.

Note

Sans resynchronisation, le contenu des sources de données supprimées continuera d'apparaître dans les résultats de recherche même si la source de données n'existe plus.

Avertissement JavaScript est désactivé ou n'est pas disponible dans votre navigateur.

Pour que vous puissiez utiliser la documentation AWS, Javascript doit être activé. Vous trouverez des instructions sur les pages d'aide de votre navigateur.

Conventions de rédaction

Création d’une base de connaissances

Base de connaissances sur les tests et les requêtes

Ajouter des sources de données et démarrer l'ingestion

Comportement de suppression des sources de données

Ajouter des sources de données

Important

Pour ajouter une source de données depuis la console

Note

Pour ajouter une source de données à l'aide du AWS CLI

Lancement d’une tâche d’ingestion

Pour démarrer l'ingestion depuis la console

Pour commencer l'ingestion à l'aide du AWS CLI

Resynchronisation après suppression de la source de données

Pour supprimer le contenu d'une source de données supprimée

Note