Option 1 : utilisation du fichier manifeste S3 Option 2 : utilisation de la charge utile intégrée

Ajouter de nouvelles entités de vocabulaire

Vous pouvez ajouter du vocabulaire à votre bibliothèque à l'aide de l'InvokeDataAutomationLibraryIngestionJobAPI. Vous pouvez fournir du vocabulaire par le biais d'un fichier manifeste S3 ou d'une charge utile intégrée.

Important

Les opérations UPSERT utilisent un remplacement de type clobber au niveau de l'entité, ce qui signifie que l'entité entière est remplacée plutôt que fusionnée avec le contenu existant.

Option 1 : utilisation du fichier manifeste S3

Étape 1 : créer un fichier manifeste JSONL

Exemple : vocabulary-manifest.json


{"entityId":"medical-en","description":"Medication terms in English language","phrases":[{"text":"paracetamol"},{"text":"ibuprofen"},{"text":"acetaminophen","displayAsText":"acetaminophen"}],"language":"EN"}
{"entityId":"medical-es","description":"Medication terms in Spanish language","phrases":[{"text":"paracetamol"},{"text":"ibuprofen"},{"text":"acetaminophen","displayAsText":"acetaminophen"}],"language":"ES"}

Exigences relatives aux fichiers manifestes :

Format de fichier : JSONL (lignes JSON)
Entité JSON :
- EntityId (obligatoire) : identifiant unique (128 caractères maximum)
- description (facultatif) : Description de l'EntityId
- langue (obligatoire) : code de langue ISO (langues prises en charge)
- phrases (obligatoire) : tableau d'objets texte. Chaque objet contient :
  - texte (obligatoire) : mot ou phrase individuel
  - displayAsText(facultatif) : Utilisez-le pour remplacer le mot réel dans la transcription (REMARQUE : distinction majuscules et minuscules)

Étape 2 : télécharger le manifeste sur S3


aws s3 cp vocabulary-manifest.json s3://my-bucket/manifests/

Étape 3 : démarrer la tâche d'ingestion

Utilisez le InvokeDataAutomationLibraryIngestionJobpour démarrer une tâche d'ingestion de vocabulaire.

Exemple de CLI AWS :

Demande


aws bedrock-data-automation-data-automation invoke-data-automation-library-ingestion-job \
    --library-arn "arn:aws:bedrock:us-east-1:123456789012:data-automation-library/healthcare-vocabulary" \
    --entity-type "VOCABULARY" \
    --operation-type "UPSERT" \
    --input-configuration '{"s3Object":{"s3Uri":"s3://my-bucket/manifests/vocabulary-manifest.json"}}' \
    --output-configuration '{"s3Uri":"s3://my-bucket/outputs/"}'

Réponse :


{
  "jobArn": "arn:aws:bedrock:us-east-1:123456789012:data-automation-library-ingestion-job/job-12345"
}

Exemple de console AWS :

Accédez à la page « Détails de la bibliothèque »
Choisissez « Ajouter une liste de vocabulaire personnalisée »
Choisissez « Télécharger/sélectionner le manifeste »
Choisissez de télécharger le fichier manifeste directement ou depuis un emplacement S3

Option 2 : utilisation de la charge utile intégrée

Cette option peut être utilisée pour des mises à jour rapides contenant jusqu'à 100 phrases.

Utilisez le InvokeDataAutomationLibraryIngestionJobpour démarrer une tâche d'ingestion de vocabulaire.

Exemple de CLI AWS :

Demande


aws bedrock-data-automation-data-automation invoke-data-automation-library-ingestion-job \
    --library-arn "arn:aws:bedrock:us-east-1:123456789012:data-automation-library/healthcare-vocabulary" \
    --entity-type "VOCABULARY" \
    --operation-type "UPSERT" \
    --input-configuration '{"inlinePayload":{"upsertEntitiesInfo":[{"vocabulary":{"entityId":"medical-en","language":"EN","phrases":[{"text":"paracetamol"},{"text":"ibuprofen"}]}}]}}' \
    --output-configuration '{"s3Uri":"s3://bda-data-bucket/output/"}'

Réponse :


{
  "jobArn": "arn:aws:bedrock:us-east-1:123456789012:data-automation-library-ingestion-job/job-12345"
}

Exemple de console AWS :

Accédez à la page « Détails de la bibliothèque »
Choisissez « Ajouter une liste de vocabulaire personnalisée »
Choisissez « Ajouter manuellement »

Avertissement JavaScript est désactivé ou n'est pas disponible dans votre navigateur.

Pour que vous puissiez utiliser la documentation AWS, Javascript doit être activé. Vous trouverez des instructions sur les pages d'aide de votre navigateur.

Conventions de rédaction

Gestion des entités de vocabulaire personnalisées

Mise à jour des entités de vocabulaire