View a markdown version of this page

Ajouter de nouvelles entités de vocabulaire - Amazon Bedrock

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Ajouter de nouvelles entités de vocabulaire

Vous pouvez ajouter du vocabulaire à votre bibliothèque à l'aide de l'InvokeDataAutomationLibraryIngestionJobAPI. Vous pouvez fournir du vocabulaire par le biais d'un fichier manifeste S3 ou d'une charge utile intégrée.

Important

Les opérations UPSERT utilisent un remplacement de type clobber au niveau de l'entité, ce qui signifie que l'entité entière est remplacée plutôt que fusionnée avec le contenu existant.

Option 1 : utilisation du fichier manifeste S3

Étape 1 : créer un fichier manifeste JSONL

Exemple : vocabulary-manifest.json

{"entityId":"medical-en","description":"Medication terms in English language","phrases":[{"text":"paracetamol"},{"text":"ibuprofen"},{"text":"acetaminophen","displayAsText":"acetaminophen"}],"language":"EN"} {"entityId":"medical-es","description":"Medication terms in Spanish language","phrases":[{"text":"paracetamol"},{"text":"ibuprofen"},{"text":"acetaminophen","displayAsText":"acetaminophen"}],"language":"ES"}

Exigences relatives aux fichiers manifestes :

  • Format de fichier : JSONL (lignes JSON)

  • Entité JSON :

    • EntityId (obligatoire) : identifiant unique (128 caractères maximum)

    • description (facultatif) : Description de l'EntityId

    • langue (obligatoire) : code de langue ISO (langues prises en charge)

    • phrases (obligatoire) : tableau d'objets texte. Chaque objet contient :

      • texte (obligatoire) : mot ou phrase individuel

      • displayAsText(facultatif) : Utilisez-le pour remplacer le mot réel dans la transcription (REMARQUE : distinction majuscules et minuscules)

Étape 2 : télécharger le manifeste sur S3

aws s3 cp vocabulary-manifest.json s3://my-bucket/manifests/

Étape 3 : démarrer la tâche d'ingestion

Utilisez le InvokeDataAutomationLibraryIngestionJobpour démarrer une tâche d'ingestion de vocabulaire.

Exemple de CLI AWS :

Demande

aws bedrock-data-automation-data-automation invoke-data-automation-library-ingestion-job \ --library-arn "arn:aws:bedrock:us-east-1:123456789012:data-automation-library/healthcare-vocabulary" \ --entity-type "VOCABULARY" \ --operation-type "UPSERT" \ --input-configuration '{"s3Object":{"s3Uri":"s3://my-bucket/manifests/vocabulary-manifest.json"}}' \ --output-configuration '{"s3Uri":"s3://my-bucket/outputs/"}'

Réponse :

{ "jobArn": "arn:aws:bedrock:us-east-1:123456789012:data-automation-library-ingestion-job/job-12345" }

Exemple de console AWS :

  1. Accédez à la page « Détails de la bibliothèque »

  2. Choisissez « Ajouter une liste de vocabulaire personnalisée »

  3. Choisissez « Télécharger/sélectionner le manifeste »

  4. Choisissez de télécharger le fichier manifeste directement ou depuis un emplacement S3

Option 2 : utilisation de la charge utile intégrée

Cette option peut être utilisée pour des mises à jour rapides contenant jusqu'à 100 phrases.

Utilisez le InvokeDataAutomationLibraryIngestionJobpour démarrer une tâche d'ingestion de vocabulaire.

Exemple de CLI AWS :

Demande

aws bedrock-data-automation-data-automation invoke-data-automation-library-ingestion-job \ --library-arn "arn:aws:bedrock:us-east-1:123456789012:data-automation-library/healthcare-vocabulary" \ --entity-type "VOCABULARY" \ --operation-type "UPSERT" \ --input-configuration '{"inlinePayload":{"upsertEntitiesInfo":[{"vocabulary":{"entityId":"medical-en","language":"EN","phrases":[{"text":"paracetamol"},{"text":"ibuprofen"}]}}]}}' \ --output-configuration '{"s3Uri":"s3://bda-data-bucket/output/"}'

Réponse :

{ "jobArn": "arn:aws:bedrock:us-east-1:123456789012:data-automation-library-ingestion-job/job-12345" }

Exemple de console AWS :

  1. Accédez à la page « Détails de la bibliothèque »

  2. Choisissez « Ajouter une liste de vocabulaire personnalisée »

  3. Choisissez « Ajouter manuellement »