View a markdown version of this page

添加新的词汇实体 - Amazon Bedrock

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

添加新的词汇实体

您可以使用 InvokeDataAutomationLibraryIngestionJobAPI 向库中添加词汇。您可以通过 S3 清单文件或内联负载提供词汇。

重要

UPSERT 操作在实体级别使用 clobber 式替换,这意味着整个实体将被替换,而不是与现有内容合并。

选项 1:使用 S3 清单文件

步骤 1:创建 JSONL 清单文件

示例:vocabulary-manifest.json

{"entityId":"medical-en","description":"Medication terms in English language","phrases":[{"text":"paracetamol"},{"text":"ibuprofen"},{"text":"acetaminophen","displayAsText":"acetaminophen"}],"language":"EN"} {"entityId":"medical-es","description":"Medication terms in Spanish language","phrases":[{"text":"paracetamol"},{"text":"ibuprofen"},{"text":"acetaminophen","displayAsText":"acetaminophen"}],"language":"ES"}

清单文件要求:

  • 文件格式:JSONL(JSON 行)

  • 实体 JSON:

    • entityID(必填):唯一标识符(最多 128 个字符)

    • 描述(可选):entityId 的描述

    • 语言(必填):ISO 语言代码(支持的语言

    • 短语(必填):文本对象数组。每个对象都包含:

      • 文本(必填):单个单词或短语

      • displayAsText(可选):使用它来替换笔录中的实际单词(注意:区分大小写)

步骤 2:将清单上传到 S3

aws s3 cp vocabulary-manifest.json s3://my-bucket/manifests/

步骤 3:启动摄取作业

使用InvokeDataAutomationLibraryIngestionJob开始词汇提取工作。

AWS CLI 示例:

请求

aws bedrock-data-automation-data-automation invoke-data-automation-library-ingestion-job \ --library-arn "arn:aws:bedrock:us-east-1:123456789012:data-automation-library/healthcare-vocabulary" \ --entity-type "VOCABULARY" \ --operation-type "UPSERT" \ --input-configuration '{"s3Object":{"s3Uri":"s3://my-bucket/manifests/vocabulary-manifest.json"}}' \ --output-configuration '{"s3Uri":"s3://my-bucket/outputs/"}'

响应:

{ "jobArn": "arn:aws:bedrock:us-east-1:123456789012:data-automation-library-ingestion-job/job-12345" }

AWS 控制台示例:

  1. 导航到 “图书馆详情” 页面

  2. 选择 “添加自定义词汇表”

  3. 选择 “上传/选择清单”

  4. 选择是直接上传清单文件还是从 S3 位置上传清单文件

选项 2:使用内联负载

此选项可用于快速更新,最多可包含 100 个短语。

使用InvokeDataAutomationLibraryIngestionJob开始词汇提取工作。

AWS CLI 示例:

请求

aws bedrock-data-automation-data-automation invoke-data-automation-library-ingestion-job \ --library-arn "arn:aws:bedrock:us-east-1:123456789012:data-automation-library/healthcare-vocabulary" \ --entity-type "VOCABULARY" \ --operation-type "UPSERT" \ --input-configuration '{"inlinePayload":{"upsertEntitiesInfo":[{"vocabulary":{"entityId":"medical-en","language":"EN","phrases":[{"text":"paracetamol"},{"text":"ibuprofen"}]}}]}}' \ --output-configuration '{"s3Uri":"s3://bda-data-bucket/output/"}'

响应:

{ "jobArn": "arn:aws:bedrock:us-east-1:123456789012:data-automation-library-ingestion-job/job-12345" }

AWS 控制台示例:

  1. 导航到 “图书馆详情” 页面

  2. 选择 “添加自定义词汇表”

  3. 选择 “手动添加”