本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
Amazon Titan 文本嵌入模型
Amazon Titan 嵌入模型包括 Amazon Titan 文本嵌入 V2 和 Titan 文本嵌入 G1 模型。
文本嵌入項目代表非結構化文字 (例如文件、段落和句子) 的有意義向量表示法。您輸入文字內文,輸出為 (1 x n) 向量。您可以針對多種應用程式使用嵌入項目向量。
Amazon Titan 文本嵌入 v2 模型 (amazon.titan-embed-text-v2:0) 最多可擷取 8,192 個字符或 50,000 個字元,並輸出 1,024 個維度的向量。該模型針對文字檢索任務進行最佳化,但也可以用於其他任務,例如語意相似性和叢集。
Amazon Titan 嵌入模型會產生文件、段落和句子的有意義語意表示。Amazon Titan 文本嵌入採用文字內文做為輸入,並產生 (1 x n) 向量。Amazon Titan 文本嵌入是透過延遲最佳化端點調用所提供的,可加快搜尋速度 (建議在擷取步驟期間使用),並透過輸送量最佳化批次任務提供,可加速編製索引。Amazon Titan 文本嵌入 v2 支援長文件,但針對擷取任務,則建議將文件分割為邏輯區段 (例如段落或區段)。
注意
Amazon Titan 文本嵌入 v2 模型和 Titan 文本嵌入 v1 模型不支援推論參數,例如 maxTokenCount 或 topP。
Amazon Titan 文本嵌入 V2 模型
模型 ID –
amazon.titan-embed-text-v2:0最大輸入文字字符 – 8,192
輸入字元數上限 - 50,000
語言 – 英文 (100 種以上語言預覽)
輸出向量大小 – 1,024 (預設)、512、256
推論類型 — 隨需、佈建的輸送量
支援的使用案例 – RAG、文件搜尋、重新排名、分類等
注意
Titan 文本嵌入 V2 採用非空白字串做為輸入,最多 8,192 個字符或 50,000 個字元。英文的字元對字符比率為平均每個字符 4.7 個字元。雖然 Titan 文本嵌入 V1 和 Titan 文本嵌入 V2 最多可容納 8,192 個字符,但建議將文件分割為邏輯區段 (例如段落或區段)。
Amazon Titan 文本嵌入 v2 模型已針對英文最佳化,並針對下列語言提供多語支援。跨語言查詢 (例如提供韓文知識庫,並以德文查詢) 將傳回次佳的結果。
南非荷蘭文
阿爾巴尼亞文
阿姆哈拉文
Arabic
亞美尼亞文
阿薩姆文
亞塞拜然文
巴什基爾文
巴斯克文
白俄羅斯文
孟加拉文
波士尼亞文
布里敦文
保加利亞文
緬甸文
加泰隆尼亞文
宿霧文
中文
科西嘉文
克羅埃西亞文
捷克文
丹麥文
迪維西文
荷蘭文
英文
世界文
Estonian
法羅文
芬蘭文
法文
加利西亞文
喬治亞文
德文
古吉拉特文
海地文
豪沙文
Hebrew
北印度文
匈牙利文
冰島文
印尼文
愛爾蘭文
義大利文
日文
爪哇文
坎那達文
哈薩克文
高棉文
盧安達文
吉爾吉斯文
韓文
庫德文
寮文
拉丁文
拉脫維亞文
立陶宛文
盧森堡文
馬其頓文
馬拉加斯文
馬來文
馬來亞拉姆文
馬爾他文
毛利文
馬拉地文
現代希臘文
Mongolian
尼泊爾文
挪威文
挪威奈諾斯克文
奧西坦文
奧裡雅文
旁遮普文
波斯文
Polish
葡萄牙文
普什圖文
羅馬尼亞文
羅曼什文
俄文
梵文
蘇格蘭蓋爾文
塞爾維亞文
信德文
僧伽羅文
斯洛伐克文
斯洛維尼亞文
索馬利亞文
西班牙文
巽他文
史瓦西里文
瑞典文
他加祿文
塔吉克文
坦米爾文
韃靼語
特拉古
Thai
藏文
Turkish
土庫曼文
維吾爾文
烏克蘭文
烏都文
烏茲別克文
越南文
瓦瑞文
威爾斯文
西弗里西文
廓薩文
意第緒文
優魯巴文
祖魯文