本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
Amazon Titan 文本嵌入模型
Amazon Titan 嵌入模型包括 Amazon Titan 文本嵌入 V2 和 Titan 文本嵌入 G1 模型。
文本嵌入表示非结构化文本(例如文档、段落和句子)的有意义的向量表示形式。您可以输入文本正文,输出为 (1 x n) 向量。嵌入向量适用于各种应用程序。
Amazon Titan 文本嵌入 v2 模型(amazon.titan-embed-text-v2:0)最多可以接收 8192 个词元或 50000 个字符,输出 1024 个维度的向量。该模型针对文本检索任务进行了优化,但也可用于执行语义相似性和聚类等其他任务。
Amazon Titan 嵌入模型为文档、段落和句子生成有意义的语义表示。Amazon Titan 文本嵌入接收文本正文作为输入并生成(1 x n)向量。Amazon Titan 文本嵌入通过延迟优化的端点调用提供,以加快搜索速度(建议在检索步骤中使用);还可通过吞吐量优化的批处理作业提供,以加快索引速度。Amazon Titan 文本嵌入 v2 支持长文档,但对于检索任务,建议将文档拆分成逻辑段,例如段落或小节。
注意
Amazon Titan 文本嵌入 v2 模型和 Titan 文本嵌入 v1 模型不支持推理参数,例如 maxTokenCount 或 topP。
Amazon Titan 文本嵌入 V2 模型
模型 ID –
amazon.titan-embed-text-v2:0最大输入文本词元数 – 8192
最大输入文本字符数 – 50000
语言 – 英语(预览版支持 100 多种语言)
输出向量大小 — 1,024(默认)、512、256
推理类型 – 按需吞吐量、预调配吞吐量
支持的使用案例 – RAG、文档搜索、重新排名、分类等
注意
Titan 文本嵌入 V2 接收非空字符串作为输入,且最多可包含 8192 个词元或 50000 个字符。平均而言,英语中的字符与词元的比率为每个词元 4.7 个字符。虽然 Titan 文本嵌入 V1 和 Titan 文本嵌入 V2 最多可以容纳 8192 个词元,但建议将文档拆分成逻辑段(例如段落或小节)。
Amazon Titan 文本嵌入 v2 模型针对英语进行了优化,对以下语言提供多语言支持。跨语言查询(例如用韩语提供知识库,使用德语进行查询)将返回次优结果。
南非荷兰语
阿尔巴尼亚语
阿姆哈拉语
阿拉伯语
亚美尼亚料理
阿萨姆语
阿塞拜疆料理
巴什基尔语
巴斯克语
白俄罗斯语
孟加拉语
波斯尼亚语
布列塔尼语
保加利亚语
缅甸料理
加泰罗尼亚语
宿雾语
中餐
科西嘉语
克罗地亚语
捷克语
丹麦料理
迪维希语
荷兰料理
English
世界语
爱沙尼亚语
法罗语
芬兰料理
法式料理
加利西亚语
格鲁吉亚语
德国料理
古吉拉特语
海地语
豪萨语
希伯来语
印地语
匈牙利料理
冰岛语
印度尼西亚料理
爱尔兰语
意大利料理
日式料理
爪哇语
卡纳达语
哈萨克语
高棉语
卢旺达语
吉尔吉斯语
韩式料理
库尔德语
老挝语
拉丁语
拉脱维亚语
立陶宛语
卢森堡语
马其顿语
马达加斯加语
马来语
马来亚拉姆语
马耳他语
Maori
马拉地语
现代希腊语
蒙古语
尼泊尔语
挪威料理
挪威尼诺斯克语
奥西坦语
奥里亚语
旁遮普语
波斯语
波兰料理
葡萄牙料理
普什图语
罗马尼亚料理
罗曼什语
俄罗斯料理
梵语
苏格兰盖尔语
塞尔维亚语
信德语
僧伽罗语
斯洛伐克语
斯洛文尼亚语
索马里语
西班牙料理
巽他语
斯瓦西里语
瑞典料理
塔加洛语
塔吉克语
泰米尔语
鞑靼语
泰卢固语
泰式料理
藏语
土耳其料理
土库曼语
维吾尔族语
乌克兰料理
乌尔都语
乌兹别克斯坦语
越南料理
瓦雷语
威尔士语
西弗里斯兰语
科萨语
意第绪语
约鲁巴语
祖鲁语