主要語言 - Amazon Comprehend

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

主要語言

您可以使用 Amazon Comprehend 來檢查文字,以判斷慣用語言。Amazon Comprehend 使用 RFC 5646 的識別符來識別語言,如果有 2 個字母的 ISO 639-1 識別符,並在必要時使用區域子標籤。否則,它會使用 ISO 639-2 3 字母代碼。

如需 RFC 5646 的詳細資訊,請參閱 IETF 工具網站上的識別語言的標籤

回應包含分數,指出 Amazon Comprehend 對特定語言是文件中主要語言的可信度等級。每個分數與其他分數無關。分數不表示語言構成文件的特定百分比。

如果長文件 (例如書籍) 包含多種語言,您可以將長文件分成較小的部分,並在個別部分上執行 DetectDominantLanguage操作。然後,您可以彙總結果,以判斷較長文件中每種語言的百分比。

Amazon Comprehend 語言偵測具有下列限制:

  • 它不支援音標語言偵測。例如,它不會將 "a Pumpto" 偵測為日文,也不會將 "nihao" 偵測為中文。

  • 它可能有區分近語配對的差異,例如印尼文和馬來文;或波士尼亞文、克羅埃西亞文和塞爾維亞文。

  • 為了獲得最佳結果,請提供至少 20 個字元的輸入文字。

Amazon Comprehend 會偵測下列語言。

Code Language
af 南非荷蘭文
am 阿姆哈拉文
ar Arabic
as 阿薩姆文
az 亞塞拜然文
ba 巴什基爾文
be 白俄羅斯文
bn 孟加拉文
bs 波士尼亞文
bg 保加利亞文
ca 加泰隆尼亞文
ceb 宿霧文
cs 捷克文
cv Chuvash
cy 威爾斯文
da 丹麥文
de 德文
el Greek
en 英文
eo 世界文
et Estonian
eu 巴斯克文
fa 波斯文
fi 芬蘭文
fr 法文
gd 蘇格蘭蓋爾文
ga 愛爾蘭文
gl 加利西亞文
gu 古吉拉特文
ht 海地文
he Hebrew
ha 豪沙文
hi 北印度文
hr 克羅埃西亞文
hu 匈牙利文
hy 亞美尼亞文
ilo Iloko
id 印尼文
is 冰島文
it 義大利文
jv 爪哇文
ja 日文
kn 坎那達文
ka 喬治亞文
kk 哈薩克文
km 中高棉
ky 吉爾吉斯文
ko 韓文
ku 庫德文
lo 寮文
la 拉丁文
lv 拉脫維亞文
lt 立陶宛文
lb 盧森堡文
ml 馬來亞拉姆文
mt 馬爾他文
mr 馬拉地文
mk 馬其頓文
mg 馬拉加斯文
mn Mongolian
ms 馬來文
my 緬甸文
ne 尼泊爾文
new Newari
nl 荷蘭文
no 挪威文
or 奧裡雅文
om Oromo
pa 旁遮普文
pl Polish
pt 葡萄牙文
ps 普什圖文
qu 魁北亞
ro 羅馬尼亞文
ru 俄文
sa 梵文
si 僧伽羅文
sk 斯洛伐克文
sl 斯洛維尼亞文
sd 信德文
so 索馬利亞文
es 西班牙文
sq 阿爾巴尼亞文
sr 塞爾維亞文
su 巽他文
sw 史瓦西里文
sv 瑞典文
ta 坦米爾文
tt 韃靼語
te 特拉古
tg 塔吉克文
tl 他加祿文
th Thai
tk 土庫曼文
tr Turkish
ug 維吾爾文
uk 烏克蘭文
ur 烏都文
uz 烏茲別克文
vi 越南文
yi 意第緒文
yo 優魯巴文
zh 簡體中文
zh-TW 繁體中文

您可以使用下列任何操作來偵測文件或一組文件中的主要語言。

DetectDominantLanguage 操作會傳回 DominantLanguage 物件。BatchDetectDominantLanguage 操作會傳回DominantLanguage物件清單,一個用於批次中的每個文件。StartDominantLanguageDetectionJob 操作會啟動非同步任務,該任務會產生包含DominantLanguage物件清單的檔案,每個文件各一個。

下列範例是來自 DetectDominantLanguage操作的回應。

{ "Languages": [ { "LanguageCode": "en", "Score": 0.9793661236763 } ] }