本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
主要語言
您可以使用 Amazon Comprehend 來檢查文字,以判斷慣用語言。Amazon Comprehend 使用 RFC 5646 的識別符來識別語言,如果有 2 個字母的 ISO 639-1 識別符,並在必要時使用區域子標籤,則會使用該識別符。否則,它會使用 ISO 639-2 3 字母代碼。
如需 RFC 5646 的詳細資訊,請參閱 IETF 工具網站上的識別語言的標籤
回應包含分數,指出 Amazon Comprehend 擁有的可信度等級,即特定語言是文件中的主要語言。每個分數與其他分數無關。分數不表示語言佔文件的特定百分比。
如果長文件 (例如書籍) 包含多種語言,您可以將長文件分成較小的部分,並在個別部分上執行 DetectDominantLanguage操作。然後,您可以彙總結果,以判斷較長文件中每種語言的百分比。
Amazon Comprehend 語言偵測有下列限制:
-
它不支援語音語言偵測。例如,它不會將 "arigato" 偵測為日文,或將 "nihao" 偵測為中文。
-
它可能有區分近語配對的困難,例如印尼文和馬來文;或波斯尼亞文、克羅埃西亞文和塞爾維亞文。
-
為了獲得最佳結果,請提供至少 20 個字元的輸入文字。
Amazon Comprehend 會偵測下列語言。
| 代碼 | 語言 |
|---|---|
| af | 南非荷蘭文 |
| am | 阿姆哈拉文 |
| ar | Arabic |
| as | 刺客文 |
| az | 亞塞拜然文 |
| ba | 巴什基爾文 |
| be | 白俄羅斯文 |
| bn | 孟加拉文 |
| bs | 波士尼亞文 |
| bg | 保加利亞文 |
| ca | 加泰隆尼亞文 |
| ceb | 塞布亞諾文 |
| cs | 捷克文 |
| cv | Chuvash |
| cy | 威爾斯文 |
| da | 丹麥文 |
| de | 德文 |
| el | Greek |
| en | 英文 |
| eo | 埃斯巴蘭托 |
| et | Estonian |
| eu | 巴斯克文 |
| fa | 波斯文 |
| fi | 芬蘭文 |
| fr | 法文 |
| gd | 蘇格蘭蓋爾文 |
| ga | 愛爾蘭文 |
| gl | 加利西亞文 |
| gu | 古吉拉特文 |
| ht | 海地文 |
| he | Hebrew |
| ha | 豪沙文 |
| hi | 北印度文 |
| hr | 克羅埃西亞文 |
| hu | 匈牙利文 |
| hy | 亞美尼亞文 |
| ilo | Iloko |
| id | 印尼文 |
| is | 冰島文 |
| it | 義大利文 |
| jv | Javanese |
| ja | 日文 |
| kn | 坎那達文 |
| ka | 喬治亞文 |
| kk | 哈薩克文 |
| km | 中高棉 |
| ky | Kirghiz |
| ko | 韓文 |
| ku | 庫德文 |
| lo | 寮國 |
| la | 拉丁文 |
| lv | 拉脫維亞文 |
| lt | 立陶宛文 |
| lb | 盧森堡文 |
| ml | 馬來亞拉姆文 |
| mt | 馬爾他文 |
| mr | 馬拉地文 |
| mk | 馬其頓文 |
| mg | 惡意 |
| mn | Mongolian |
| ms | 馬來文 |
| my | 緬甸文 |
| ne | 尼泊利 |
| new | Newari |
| nl | 荷蘭文 |
| no | 挪威文 |
| or | Oriya |
| om | Oromo |
| pa | 旁遮普文 |
| pl | Polish |
| pt | 葡萄牙文 |
| ps | Pushto |
| qu | 基楓 |
| ro | 羅馬尼亞文 |
| ru | 俄文 |
| sa | 梵文 |
| si | 僧伽羅文 |
| sk | 斯洛伐克文 |
| sl | 斯洛維尼亞文 |
| sd | 信代 |
| so | 索馬利亞文 |
| es | 西班牙文 |
| sq | 阿爾巴尼亞文 |
| sr | 塞爾維亞文 |
| su | 巽他文 |
| sw | 史瓦西里文 |
| sv | 瑞典文 |
| ta | 坦米爾文 |
| tt | 韃靼語 |
| te | 特拉古 |
| tg | Tajik |
| tl | 他加祿文 |
| th | Thai |
| tk | 土庫門 |
| tr | Turkish |
| ug | 優勝爾 |
| uk | 烏克蘭文 |
| ur | 烏都文 |
| uz | 烏茲別克文 |
| vi | 越南文 |
| yi | 意地緒語 |
| yo | 約魯巴 |
| zh | 簡體中文 |
| zh-TW | 繁體中文 |
您可以使用下列任何操作來偵測文件或一組文件中的主要語言。
DetectDominantLanguage 操作會傳回 DominantLanguage 物件。BatchDetectDominantLanguage 操作會傳回DominantLanguage物件清單,一個用於批次中的每個文件。StartDominantLanguageDetectionJob 操作會啟動非同步任務,該任務會產生包含DominantLanguage物件清單的檔案,每個文件各一個。
下列範例是 DetectDominantLanguage操作的回應。
{
"Languages": [
{
"LanguageCode": "en",
"Score": 0.9793661236763
}
]
}