添加新的词汇实体

您可以使用 InvokeDataAutomationLibraryIngestionJobAPI 向库中添加词汇。您可以通过 S3 清单文件或内联负载提供词汇。

重要

UPSERT 操作在实体级别使用 clobber 式替换，这意味着整个实体将被替换，而不是与现有内容合并。

选项 1：使用 S3 清单文件

步骤 1：创建 JSONL 清单文件

示例：vocabulary-manifest.json


{"entityId":"medical-en","description":"Medication terms in English language","phrases":[{"text":"paracetamol"},{"text":"ibuprofen"},{"text":"acetaminophen","displayAsText":"acetaminophen"}],"language":"EN"}
{"entityId":"medical-es","description":"Medication terms in Spanish language","phrases":[{"text":"paracetamol"},{"text":"ibuprofen"},{"text":"acetaminophen","displayAsText":"acetaminophen"}],"language":"ES"}

清单文件要求：

文件格式：JSONL（JSON 行）
实体 JSON：
- entityID（必填）：唯一标识符（最多 128 个字符）
- 描述（可选）：entityId 的描述
- 语言（必填）：ISO 语言代码（支持的语言）
- 短语（必填）：文本对象数组。每个对象都包含：
  - 文本（必填）：单个单词或短语
  - displayAsText（可选）：使用它来替换笔录中的实际单词（注意：区分大小写）

步骤 2：将清单上传到 S3


aws s3 cp vocabulary-manifest.json s3://my-bucket/manifests/

步骤 3：启动摄取作业

使用InvokeDataAutomationLibraryIngestionJob开始词汇提取工作。

AWS CLI 示例：

请求


aws bedrock-data-automation-data-automation invoke-data-automation-library-ingestion-job \
    --library-arn "arn:aws:bedrock:us-east-1:123456789012:data-automation-library/healthcare-vocabulary" \
    --entity-type "VOCABULARY" \
    --operation-type "UPSERT" \
    --input-configuration '{"s3Object":{"s3Uri":"s3://my-bucket/manifests/vocabulary-manifest.json"}}' \
    --output-configuration '{"s3Uri":"s3://my-bucket/outputs/"}'

响应：


{
  "jobArn": "arn:aws:bedrock:us-east-1:123456789012:data-automation-library-ingestion-job/job-12345"
}

AWS 控制台示例：

导航到 “图书馆详情” 页面
选择 “添加自定义词汇表”
选择 “上传/选择清单”
选择是直接上传清单文件还是从 S3 位置上传清单文件

选项 2：使用内联负载

此选项可用于快速更新，最多可包含 100 个短语。

使用InvokeDataAutomationLibraryIngestionJob开始词汇提取工作。

AWS CLI 示例：

请求


aws bedrock-data-automation-data-automation invoke-data-automation-library-ingestion-job \
    --library-arn "arn:aws:bedrock:us-east-1:123456789012:data-automation-library/healthcare-vocabulary" \
    --entity-type "VOCABULARY" \
    --operation-type "UPSERT" \
    --input-configuration '{"inlinePayload":{"upsertEntitiesInfo":[{"vocabulary":{"entityId":"medical-en","language":"EN","phrases":[{"text":"paracetamol"},{"text":"ibuprofen"}]}}]}}' \
    --output-configuration '{"s3Uri":"s3://bda-data-bucket/output/"}'

响应：


{
  "jobArn": "arn:aws:bedrock:us-east-1:123456789012:data-automation-library-ingestion-job/job-12345"
}

AWS 控制台示例：

导航到 “图书馆详情” 页面
选择 “添加自定义词汇表”
选择 “手动添加”

Javascript 在您的浏览器中被禁用或不可用。

要使用 Amazon Web Services 文档，必须启用 Javascript。请参阅浏览器的帮助页面以了解相关说明。

文档惯例

管理自定义词汇实体

更新词汇实体