本文為英文版的機器翻譯版本，如內容有任何歧義或不一致之處，概以英文版為準。

# Amazon Titan 文本嵌入模型
<a name="titan-embedding-models"></a>

Amazon Titan 嵌入模型包括 Amazon Titan 文本嵌入 V2 和 Titan 文本嵌入 G1 模型。

文本嵌入項目代表非結構化文字 (例如文件、段落和句子) 的有意義向量表示法。您輸入文字內文，輸出為 (1 x n) 向量。您可以針對多種應用程式使用嵌入項目向量。

Amazon Titan 文本嵌入 v2 模型 (`amazon.titan-embed-text-v2:0`) 最多可擷取 8,192 個字符或 50,000 個字元，並輸出 1,024 個維度的向量。該模型針對文字檢索任務進行最佳化，但也可以用於其他任務，例如語意相似性和叢集。

Amazon Titan 嵌入模型會產生文件、段落和句子的有意義語意表示。Amazon Titan 文本嵌入採用文字內文做為輸入，並產生 (1 x n) 向量。Amazon Titan 文本嵌入是透過延遲最佳化端點調用所提供的，可加快搜尋速度 (建議在擷取步驟期間使用)，並透過輸送量最佳化批次任務提供，可加速編製索引。Amazon Titan 文本嵌入 v2 支援長文件，但針對擷取任務，則建議將文件分割為邏輯區段 (例如段落或區段)。

**注意**  
Amazon Titan 文本嵌入 v2 模型和 Titan 文本嵌入 v1 模型不支援推論參數，例如 `maxTokenCount` 或 `topP`。

**Amazon Titan 文本嵌入 V2 模型**
+ **模型 ID** – `amazon.titan-embed-text-v2:0`
+ **最大輸入文字字符** – 8，192
+ **輸入字元數上限** - 50,000
+ **語言** – 英文 (100 種以上語言預覽)
+ **輸出向量大小** – 1，024 （預設）、512、256
+ **推論類型** — 隨需、佈建的輸送量
+ **支援的使用案例** – RAG、文件搜尋、重新排名、分類等

**注意**  
Titan 文本嵌入 V2 採用非空白字串做為輸入，最多 8,192 個字符或 50,000 個字元。英文的字元對字符比率為平均每個字符 4.7 個字元。雖然 Titan 文本嵌入 V1 和 Titan 文本嵌入 V2 最多可容納 8,192 個字符，但建議將文件分割為邏輯區段 (例如段落或區段)。

Amazon Titan 文本嵌入 v2 模型已針對英文最佳化，並針對下列語言提供多語支援。跨語言查詢 (例如提供韓文知識庫，並以德文查詢) 將傳回次佳的結果。
+ 南非荷蘭文
+ 阿爾巴尼亞文
+ 阿姆哈拉文
+ Arabic
+ 亞美尼亞文
+ 阿薩姆文
+ 亞塞拜然文
+ 巴什基爾文
+ 巴斯克文
+ 白俄羅斯文
+ 孟加拉文
+ 波士尼亞文
+ 布里敦文
+ 保加利亞文
+ 緬甸文
+ 加泰隆尼亞文
+ 宿霧文
+ 中文
+ 科西嘉文
+ 克羅埃西亞文
+ 捷克文
+ 丹麥文
+ 迪維西文
+ 荷蘭文
+ 英文
+ 世界文
+ Estonian
+ 法羅文
+ 芬蘭文
+ 法文
+ 加利西亞文
+ 喬治亞文
+ 德文
+ 古吉拉特文
+ 海地文
+ 豪沙文
+ Hebrew
+ 北印度文
+ 匈牙利文
+ 冰島文
+ 印尼文
+ 愛爾蘭文
+ 義大利文
+ 日文
+ 爪哇文
+ 坎那達文
+ 哈薩克文
+ 高棉文
+ 盧安達文
+ 吉爾吉斯文
+ 韓文
+ 庫德文
+ 寮文
+ 拉丁文
+ 拉脫維亞文
+ 立陶宛文
+ 盧森堡文
+ 馬其頓文
+ 馬拉加斯文
+ 馬來文
+ 馬來亞拉姆文
+ 馬爾他文
+ 毛利文
+ 馬拉地文
+ 現代希臘文
+ Mongolian
+ 尼泊爾文
+ 挪威文
+ 挪威奈諾斯克文
+ 奧西坦文
+ 奧裡雅文
+ 旁遮普文
+ 波斯文
+ Polish
+ 葡萄牙文
+ 普什圖文
+ 羅馬尼亞文
+ 羅曼什文
+ 俄文
+ 梵文
+ 蘇格蘭蓋爾文
+ 塞爾維亞文
+ 信德文
+ 僧伽羅文
+ 斯洛伐克文
+ 斯洛維尼亞文
+ 索馬利亞文
+ 西班牙文
+ 巽他文
+ 史瓦西里文
+ 瑞典文
+ 他加祿文
+ 塔吉克文
+ 坦米爾文
+ 韃靼語
+ 特拉古
+ Thai
+ 藏文
+ Turkish
+ 土庫曼文
+ 維吾爾文
+ 烏克蘭文
+ 烏都文
+ 烏茲別克文
+ 越南文
+ 瓦瑞文
+ 威爾斯文
+ 西弗里西文
+ 廓薩文
+ 意第緒文
+ 優魯巴文
+ 祖魯文