

本文属于机器翻译版本。若本译文内容与英语原文存在差异，则一律以英文原文为准。

# 添加新的词汇实体
<a name="bda-library-adding-cv"></a>

您可以使用 [InvokeDataAutomationLibraryIngestionJob](https://docs.aws.amazon.com/bedrock/latest/APIReference/API_data-automation_InvokeDataAutomationLibraryIngestionJob.html)API 向库中添加词汇。您可以通过 S3 清单文件或内联负载提供词汇。

**重要**  
UPSERT 操作在实体级别使用 clobber 式替换，这意味着整个实体将被替换，而不是与现有内容合并。

## 选项 1：使用 S3 清单文件
<a name="bda-library-adding-cv-manifest"></a>

### 步骤 1：创建 JSONL 清单文件
<a name="bda-library-adding-cv-manifest-step1"></a>

示例：`vocabulary-manifest.json`

```
{"entityId":"medical-en","description":"Medication terms in English language","phrases":[{"text":"paracetamol"},{"text":"ibuprofen"},{"text":"acetaminophen","displayAsText":"acetaminophen"}],"language":"EN"}
{"entityId":"medical-es","description":"Medication terms in Spanish language","phrases":[{"text":"paracetamol"},{"text":"ibuprofen"},{"text":"acetaminophen","displayAsText":"acetaminophen"}],"language":"ES"}
```

**清单文件要求：**
+ **文件格式：**JSONL（JSON 行）
+ **实体 JSON：**
  + **entityID**（必填）：唯一标识符（最多 128 个字符）
  + **描述**（可选）：entityId 的描述
  + **语言**（必填）：ISO 语言代码（[支持的语言](bda-library-character-sets.md)）
  + **短语**（必填）：文本对象数组。每个对象都包含：
    + **文本**（必填）：单个单词或短语
    + **displayAsText**（可选）：使用它来替换笔录中的实际单词（注意：区分大小写）

### 步骤 2：将清单上传到 S3
<a name="bda-library-adding-cv-manifest-step2"></a>

```
aws s3 cp vocabulary-manifest.json s3://my-bucket/manifests/
```

### 步骤 3：启动摄取作业
<a name="bda-library-adding-cv-manifest-step3"></a>

使用[InvokeDataAutomationLibraryIngestionJob](https://docs.aws.amazon.com/bedrock/latest/APIReference/API_data-automation_InvokeDataAutomationLibraryIngestionJob.html)开始词汇提取工作。

**AWS CLI 示例：**

**请求**

```
aws bedrock-data-automation-data-automation invoke-data-automation-library-ingestion-job \
    --library-arn "arn:aws:bedrock:us-east-1:123456789012:data-automation-library/healthcare-vocabulary" \
    --entity-type "VOCABULARY" \
    --operation-type "UPSERT" \
    --input-configuration '{"s3Object":{"s3Uri":"s3://my-bucket/manifests/vocabulary-manifest.json"}}' \
    --output-configuration '{"s3Uri":"s3://my-bucket/outputs/"}'
```

**响应：**

```
{
  "jobArn": "arn:aws:bedrock:us-east-1:123456789012:data-automation-library-ingestion-job/job-12345"
}
```

**AWS 控制台示例：**

1. 导航到 “图书馆详情” 页面

1. 选择 “添加自定义词汇表”

1. 选择 “上传/选择清单”

1. 选择是直接上传清单文件还是从 S3 位置上传清单文件

![\[alt text not found\]](http://docs.aws.amazon.com/zh_cn/bedrock/latest/userguide/images/bda/library-add-cv-manifest-console.png)


## 选项 2：使用内联负载
<a name="bda-library-adding-cv-inline"></a>

此选项可用于快速更新，最多可包含 100 个短语。

使用[InvokeDataAutomationLibraryIngestionJob](https://docs.aws.amazon.com/bedrock/latest/APIReference/API_data-automation_InvokeDataAutomationLibraryIngestionJob.html)开始词汇提取工作。

**AWS CLI 示例：**

**请求**

```
aws bedrock-data-automation-data-automation invoke-data-automation-library-ingestion-job \
    --library-arn "arn:aws:bedrock:us-east-1:123456789012:data-automation-library/healthcare-vocabulary" \
    --entity-type "VOCABULARY" \
    --operation-type "UPSERT" \
    --input-configuration '{"inlinePayload":{"upsertEntitiesInfo":[{"vocabulary":{"entityId":"medical-en","language":"EN","phrases":[{"text":"paracetamol"},{"text":"ibuprofen"}]}}]}}' \
    --output-configuration '{"s3Uri":"s3://bda-data-bucket/output/"}'
```

**响应：**

```
{
  "jobArn": "arn:aws:bedrock:us-east-1:123456789012:data-automation-library-ingestion-job/job-12345"
}
```

**AWS 控制台示例：**

1. 导航到 “图书馆详情” 页面

1. 选择 “添加自定义词汇表”

1. 选择 “手动添加”

![\[alt text not found\]](http://docs.aws.amazon.com/zh_cn/bedrock/latest/userguide/images/bda/library-add-cv-inline-console.png)
