Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.
Ajouter de nouvelles entités de vocabulaire
Vous pouvez ajouter du vocabulaire à votre bibliothèque à l'aide de l'InvokeDataAutomationLibraryIngestionJobAPI. Vous pouvez fournir du vocabulaire par le biais d'un fichier manifeste S3 ou d'une charge utile intégrée.
Important
Les opérations UPSERT utilisent un remplacement de type clobber au niveau de l'entité, ce qui signifie que l'entité entière est remplacée plutôt que fusionnée avec le contenu existant.
Option 1 : utilisation du fichier manifeste S3
Étape 1 : créer un fichier manifeste JSONL
Exemple : vocabulary-manifest.json
{"entityId":"medical-en","description":"Medication terms in English language","phrases":[{"text":"paracetamol"},{"text":"ibuprofen"},{"text":"acetaminophen","displayAsText":"acetaminophen"}],"language":"EN"} {"entityId":"medical-es","description":"Medication terms in Spanish language","phrases":[{"text":"paracetamol"},{"text":"ibuprofen"},{"text":"acetaminophen","displayAsText":"acetaminophen"}],"language":"ES"}
Exigences relatives aux fichiers manifestes :
Format de fichier : JSONL (lignes JSON)
-
Entité JSON :
EntityId (obligatoire) : identifiant unique (128 caractères maximum)
description (facultatif) : Description de l'EntityId
langue (obligatoire) : code de langue ISO (langues prises en charge)
-
phrases (obligatoire) : tableau d'objets texte. Chaque objet contient :
texte (obligatoire) : mot ou phrase individuel
displayAsText(facultatif) : Utilisez-le pour remplacer le mot réel dans la transcription (REMARQUE : distinction majuscules et minuscules)
Étape 2 : télécharger le manifeste sur S3
aws s3 cp vocabulary-manifest.json s3://my-bucket/manifests/
Étape 3 : démarrer la tâche d'ingestion
Utilisez le InvokeDataAutomationLibraryIngestionJobpour démarrer une tâche d'ingestion de vocabulaire.
Exemple de CLI AWS :
Demande
aws bedrock-data-automation-data-automation invoke-data-automation-library-ingestion-job \ --library-arn "arn:aws:bedrock:us-east-1:123456789012:data-automation-library/healthcare-vocabulary" \ --entity-type "VOCABULARY" \ --operation-type "UPSERT" \ --input-configuration '{"s3Object":{"s3Uri":"s3://my-bucket/manifests/vocabulary-manifest.json"}}' \ --output-configuration '{"s3Uri":"s3://my-bucket/outputs/"}'
Réponse :
{ "jobArn": "arn:aws:bedrock:us-east-1:123456789012:data-automation-library-ingestion-job/job-12345" }
Exemple de console AWS :
Accédez à la page « Détails de la bibliothèque »
Choisissez « Ajouter une liste de vocabulaire personnalisée »
Choisissez « Télécharger/sélectionner le manifeste »
Choisissez de télécharger le fichier manifeste directement ou depuis un emplacement S3
Option 2 : utilisation de la charge utile intégrée
Cette option peut être utilisée pour des mises à jour rapides contenant jusqu'à 100 phrases.
Utilisez le InvokeDataAutomationLibraryIngestionJobpour démarrer une tâche d'ingestion de vocabulaire.
Exemple de CLI AWS :
Demande
aws bedrock-data-automation-data-automation invoke-data-automation-library-ingestion-job \ --library-arn "arn:aws:bedrock:us-east-1:123456789012:data-automation-library/healthcare-vocabulary" \ --entity-type "VOCABULARY" \ --operation-type "UPSERT" \ --input-configuration '{"inlinePayload":{"upsertEntitiesInfo":[{"vocabulary":{"entityId":"medical-en","language":"EN","phrases":[{"text":"paracetamol"},{"text":"ibuprofen"}]}}]}}' \ --output-configuration '{"s3Uri":"s3://bda-data-bucket/output/"}'
Réponse :
{ "jobArn": "arn:aws:bedrock:us-east-1:123456789012:data-automation-library-ingestion-job/job-12345" }
Exemple de console AWS :
Accédez à la page « Détails de la bibliothèque »
Choisissez « Ajouter une liste de vocabulaire personnalisée »
Choisissez « Ajouter manuellement »