本文属于机器翻译版本。若本译文内容与英语原文存在差异，则一律以英文原文为准。

# Amazon Titan 文本嵌入模型
<a name="titan-embedding-models"></a>

Amazon Titan 嵌入模型包括 Amazon Titan 文本嵌入 V2 和 Titan 文本嵌入 G1 模型。

文本嵌入表示非结构化文本（例如文档、段落和句子）的有意义的向量表示形式。您可以输入文本正文，输出为 (1 x n) 向量。嵌入向量适用于各种应用程序。

Amazon Titan 文本嵌入 v2 模型（`amazon.titan-embed-text-v2:0`）最多可以接收 8192 个词元或 50000 个字符，输出 1024 个维度的向量。该模型针对文本检索任务进行了优化，但也可用于执行语义相似性和聚类等其他任务。

Amazon Titan 嵌入模型为文档、段落和句子生成有意义的语义表示。Amazon Titan 文本嵌入接收文本正文作为输入并生成（1 x n）向量。Amazon Titan 文本嵌入通过延迟优化的端点调用提供，以加快搜索速度（建议在检索步骤中使用）；还可通过吞吐量优化的批处理作业提供，以加快索引速度。Amazon Titan 文本嵌入 v2 支持长文档，但对于检索任务，建议将文档拆分成逻辑段，例如段落或小节。

**注意**  
Amazon Titan 文本嵌入 v2 模型和 Titan 文本嵌入 v1 模型不支持推理参数，例如 `maxTokenCount` 或 `topP`。

**Amazon Titan 文本嵌入 V2 模型**
+ **模型 ID** – `amazon.titan-embed-text-v2:0`
+ **最大输入文本词元数** – 8192
+ **最大输入文本字符数** – 50000
+ **语言** – 英语（预览版支持 100 多种语言）
+ **输出向量大小** — 1,024（默认）、512、256
+ **推理类型** – 按需吞吐量、预调配吞吐量
+ **支持的使用案例** – RAG、文档搜索、重新排名、分类等

**注意**  
Titan 文本嵌入 V2 接收非空字符串作为输入，且最多可包含 8192 个词元或 50000 个字符。平均而言，英语中的字符与词元的比率为每个词元 4.7 个字符。虽然 Titan 文本嵌入 V1 和 Titan 文本嵌入 V2 最多可以容纳 8192 个词元，但建议将文档拆分成逻辑段（例如段落或小节）。

Amazon Titan 文本嵌入 v2 模型针对英语进行了优化，对以下语言提供多语言支持。跨语言查询（例如用韩语提供知识库，使用德语进行查询）将返回次优结果。
+ 南非荷兰语
+ 阿尔巴尼亚语
+ 阿姆哈拉语
+ 阿拉伯语
+ 亚美尼亚料理
+ 阿萨姆语
+ 阿塞拜疆料理
+ 巴什基尔语
+ 巴斯克语
+ 白俄罗斯语
+ 孟加拉语
+ 波斯尼亚语
+ 布列塔尼语
+ 保加利亚语
+ 缅甸料理
+ 加泰罗尼亚语
+ 宿雾语
+ 中餐
+ 科西嘉语
+ 克罗地亚语
+ 捷克语
+ 丹麦料理
+ 迪维希语
+ 荷兰料理
+ English
+ 世界语
+ 爱沙尼亚语
+ 法罗语
+ 芬兰料理
+ 法式料理
+ 加利西亚语
+ 格鲁吉亚语
+ 德国料理
+ 古吉拉特语
+ 海地语
+ 豪萨语
+ 希伯来语
+ 印地语
+ 匈牙利料理
+ 冰岛语
+ 印度尼西亚料理
+ 爱尔兰语
+ 意大利料理
+ 日式料理
+ 爪哇语
+ 卡纳达语
+ 哈萨克语
+ 高棉语
+ 卢旺达语
+ 吉尔吉斯语
+ 韩式料理
+ 库尔德语
+ 老挝语
+ 拉丁语
+ 拉脱维亚语
+ 立陶宛语
+ 卢森堡语
+ 马其顿语
+ 马达加斯加语
+ 马来语
+ 马来亚拉姆语
+ 马耳他语
+ Maori
+ 马拉地语
+ 现代希腊语
+ 蒙古语
+ 尼泊尔语
+ 挪威料理
+ 挪威尼诺斯克语
+ 奥西坦语
+ 奥里亚语
+ 旁遮普语
+ 波斯语
+ 波兰料理
+ 葡萄牙料理
+ 普什图语
+ 罗马尼亚料理
+ 罗曼什语
+ 俄罗斯料理
+ 梵语
+ 苏格兰盖尔语
+ 塞尔维亚语
+ 信德语
+ 僧伽罗语
+ 斯洛伐克语
+ 斯洛文尼亚语
+ 索马里语
+ 西班牙料理
+ 巽他语
+ 斯瓦西里语
+ 瑞典料理
+ 塔加洛语
+ 塔吉克语
+ 泰米尔语
+ 鞑靼语
+ 泰卢固语
+ 泰式料理
+ 藏语
+ 土耳其料理
+ 土库曼语
+ 维吾尔族语
+ 乌克兰料理
+ 乌尔都语
+ 乌兹别克斯坦语
+ 越南料理
+ 瓦雷语
+ 威尔士语
+ 西弗里斯兰语
+ 科萨语
+ 意第绪语
+ 约鲁巴语
+ 祖鲁语