本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
添加新的词汇实体
您可以使用 InvokeDataAutomationLibraryIngestionJobAPI 向库中添加词汇。您可以通过 S3 清单文件或内联负载提供词汇。
重要
UPSERT 操作在实体级别使用 clobber 式替换,这意味着整个实体将被替换,而不是与现有内容合并。
选项 1:使用 S3 清单文件
步骤 1:创建 JSONL 清单文件
示例:vocabulary-manifest.json
{"entityId":"medical-en","description":"Medication terms in English language","phrases":[{"text":"paracetamol"},{"text":"ibuprofen"},{"text":"acetaminophen","displayAsText":"acetaminophen"}],"language":"EN"} {"entityId":"medical-es","description":"Medication terms in Spanish language","phrases":[{"text":"paracetamol"},{"text":"ibuprofen"},{"text":"acetaminophen","displayAsText":"acetaminophen"}],"language":"ES"}
清单文件要求:
文件格式:JSONL(JSON 行)
-
实体 JSON:
entityID(必填):唯一标识符(最多 128 个字符)
描述(可选):entityId 的描述
语言(必填):ISO 语言代码(支持的语言)
-
短语(必填):文本对象数组。每个对象都包含:
文本(必填):单个单词或短语
displayAsText(可选):使用它来替换笔录中的实际单词(注意:区分大小写)
步骤 2:将清单上传到 S3
aws s3 cp vocabulary-manifest.json s3://my-bucket/manifests/
步骤 3:启动摄取作业
使用InvokeDataAutomationLibraryIngestionJob开始词汇提取工作。
AWS CLI 示例:
请求
aws bedrock-data-automation-data-automation invoke-data-automation-library-ingestion-job \ --library-arn "arn:aws:bedrock:us-east-1:123456789012:data-automation-library/healthcare-vocabulary" \ --entity-type "VOCABULARY" \ --operation-type "UPSERT" \ --input-configuration '{"s3Object":{"s3Uri":"s3://my-bucket/manifests/vocabulary-manifest.json"}}' \ --output-configuration '{"s3Uri":"s3://my-bucket/outputs/"}'
响应:
{ "jobArn": "arn:aws:bedrock:us-east-1:123456789012:data-automation-library-ingestion-job/job-12345" }
AWS 控制台示例:
导航到 “图书馆详情” 页面
选择 “添加自定义词汇表”
选择 “上传/选择清单”
选择是直接上传清单文件还是从 S3 位置上传清单文件
选项 2:使用内联负载
此选项可用于快速更新,最多可包含 100 个短语。
使用InvokeDataAutomationLibraryIngestionJob开始词汇提取工作。
AWS CLI 示例:
请求
aws bedrock-data-automation-data-automation invoke-data-automation-library-ingestion-job \ --library-arn "arn:aws:bedrock:us-east-1:123456789012:data-automation-library/healthcare-vocabulary" \ --entity-type "VOCABULARY" \ --operation-type "UPSERT" \ --input-configuration '{"inlinePayload":{"upsertEntitiesInfo":[{"vocabulary":{"entityId":"medical-en","language":"EN","phrases":[{"text":"paracetamol"},{"text":"ibuprofen"}]}}]}}' \ --output-configuration '{"s3Uri":"s3://bda-data-bucket/output/"}'
响应:
{ "jobArn": "arn:aws:bedrock:us-east-1:123456789012:data-automation-library-ingestion-job/job-12345" }
AWS 控制台示例:
导航到 “图书馆详情” 页面
选择 “添加自定义词汇表”
选择 “手动添加”