主要言語 - Amazon Comprehend

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

主要言語

Amazon Comprehend を使用してテキストを調べ、主要言語を判断できます。Amazon Comprehend は、RFC 5646 の識別子を使用して言語を識別します。2 文字の ISO 639-1 識別子があり、必要に応じて地域のサブタグがある場合は、それを使用します。それ以外の場合は ISO 639-2 の 3 文字コードを使用します。

RFC 5646 の詳細は、IETF ツールウェブサイトの「言語識別用タグ」を参照してください。

応答には、特定の言語がドキュメント内の主要な言語であるという Amazon Comprehend の信頼レベルを示すスコアが含まれます。各スコアは他のスコアとは無関係です。スコアは、ある言語が文書の特定の割合を占めていることを示すものではありません。

長い文書 (本など) に複数の言語が含まれている場合は、長い文書を小さく分割して、個々の部分に対して DetectDominantLanguage 演算を実行できます。その結果を集計して、長い文書に含まれる各言語の割合を判断できます。

Amazon Comprehend の言語検出には次の制約があります。

  • 音声言語検出には対応していません。たとえば、「arigato」を日本語として、「nihao」を中国語として検出しません。

  • インドネシア語とマレー語、ボスニア語、クロアチア語、セルビア語など、近い言語ペアを区別するのが難しい場合があります。

  • 最良の結果を得るには、20 文字以上のテキストを入力してください。

Amazon Comprehend は次の言語を検出します。

[コード] Language
af アフリカーンス語
am アムハラ語
ar アラビア語
as アッサム語
az Azerbaijani
ba バシキール語
be ベラルーシ語
bn ベンガル語
bs ボスニア語
bg ブルガリア語
ca カタロニア語
ceb セブアノ語
cs チェコ語
cv チュヴァシュ語
cy ウェールズ語
da Danish
de German
el Greek
en 英語
eo エスペラント語
et エストニア語
eu バスク語
fa ペルシャ語
fi Finnish
fr French
gd スコティッシュゲール語
ga Irish
gl ガリシア語
gu グジャラート語
ht ハイチ語
he ヘブライ語
ha ハウサ語
hi ヒンディー語
hr クロアチア語
hu Hungarian
hy Armenian
ilo イロコ語
id Indonesian
is アイスランド語
it Italian
jv ジャワ語
ja Japanese
kn カンナダ語
ka グルジア語
kk カザフ語
km 中部クメール語
ky キルギス語
ko Korean
ku クルド語
lo ラオス語
la ラテン語
lv ラトビア語
lt リトアニア語
lb ルクセンブルク語
ml マラヤーラム語
mt Maltese
mr マラーティー語
mk マケドニア語
mg マダガスカル語
mn モンゴル語
ms マレー語
my ビルマ語
ne ネパール語
new ネワール語
nl Dutch
no Norwegian
or オリヤー語
om オロモ語
pa パンジャブ語
pl Polish
pt Portuguese
ps プシュトン語
qu ケチュア語
ro Romanian
ru Russian
sa サンスクリット語
si シンハラ語
sk スロバキア語
sl スロベニア語
sd シンディー
so ソマリ語
es Spanish
sq アルバニア語
sr セルビア語
su スンダ語
sw スワヒリ語
sv Swedish
ta タミル語
tt タタール語
te テルグ語
tg タジク語
tl タガログ語
th Thai
tk トルクメン語
tr Turkish
ug ウイグル語
uk Ukrainian
ur ウルドゥー語
uz ウズベク語
vi Vietnamese
yi イディッシュ語
yo ヨルバ語
zh 簡体字中国語
zh-TW 繁体字中国語

次の API 演算機能のいずれかを使用して、1 つまたは複数のドキュメントの主要言語を検出できます。

DetectDominantLanguage の演算では DominantLanguage オブジェクトを返します。BatchDetectDominantLanguage の演算では、バッチ内のドキュメントごとに 1 つずつ、DominantLanguage オブジェクトのリストを返します。StartDominantLanguageDetectionJob の演算では、非同期ジョブが開始され、ジョブ内のドキュメントごとに 1 つずつ、DominantLanguage オブジェクトのリストが入ったファイルが作成されます。

次の例は、DetectDominantLanguage の演算からの応答です。

{ "Languages": [ { "LanguageCode": "en", "Score": 0.9793661236763 } ] }