翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。
主要言語
Amazon Comprehend を使用してテキストを調べ、主要言語を判断できます。Amazon Comprehend は、RFC 5646 の識別子を使用して言語を識別します。2 文字の ISO 639-1 識別子があり、必要に応じて地域のサブタグがある場合は、それを使用します。それ以外の場合は ISO 639-2 の 3 文字コードを使用します。
RFC 5646 の詳細は、IETF ツールウェブサイトの「言語識別用タグ
応答には、特定の言語がドキュメント内の主要な言語であるという Amazon Comprehend の信頼レベルを示すスコアが含まれます。各スコアは他のスコアとは無関係です。スコアは、ある言語が文書の特定の割合を占めていることを示すものではありません。
長い文書 (本など) に複数の言語が含まれている場合は、長い文書を小さく分割して、個々の部分に対して DetectDominantLanguage 演算を実行できます。その結果を集計して、長い文書に含まれる各言語の割合を判断できます。
Amazon Comprehend の言語検出には次の制約があります。
-
音声言語検出には対応していません。たとえば、「arigato」を日本語として、「nihao」を中国語として検出しません。
-
インドネシア語とマレー語、ボスニア語、クロアチア語、セルビア語など、近い言語ペアを区別するのが難しい場合があります。
-
最良の結果を得るには、20 文字以上のテキストを入力してください。
Amazon Comprehend は次の言語を検出します。
| コード | 言語 |
|---|---|
| af | アフリカーンス語 |
| am | アムハラ語 |
| ar | アラビア語 |
| as | アッサム語 |
| az | アゼルバイジャン語 |
| ba | バシキール語 |
| be | ベラルーシ語 |
| bn | ベンガル語 |
| bs | ボスニア語 |
| bg | ブルガリア語 |
| ca | カタロニア語 |
| ceb | セブアノ語 |
| cs | チェコ語 |
| cv | チュヴァシュ語 |
| cy | ウェールズ語 |
| da | デンマーク語 |
| de | ドイツ語 |
| el | ギリシャ語 |
| en | 英語 |
| eo | エスペラント語 |
| et | エストニア語 |
| eu | バスク語 |
| fa | ペルシャ語 |
| fi | フィンランド語 |
| fr | フランス語 |
| gd | スコティッシュゲール語 |
| ga | アイルランド語 |
| gl | ガリシア語 |
| gu | グジャラート語 |
| ht | ハイチ語 |
| he | ヘブライ語 |
| ha | ハウサ語 |
| hi | ヒンディー語 |
| hr | クロアチア語 |
| hu | ハンガリー語 |
| hy | アルメニア語 |
| ilo | イロコ語 |
| id | インドネシア語 |
| is | アイスランド語 |
| it | イタリア語 |
| jv | ジャワ語 |
| ja | 日本語 |
| kn | カンナダ語 |
| ka | グルジア語 |
| kk | カザフ語 |
| km | 中部クメール語 |
| ky | キルギス語 |
| ko | 韓国語 |
| ku | クルド語 |
| lo | ラオス語 |
| la | ラテン語 |
| lv | ラトビア語 |
| lt | リトアニア語 |
| lb | ルクセンブルク語 |
| ml | マラヤーラム語 |
| mt | マルタ語 |
| mr | マラーティー語 |
| mk | マケドニア語 |
| mg | マダガスカル語 |
| mn | モンゴル語 |
| ms | マレー語 |
| my | ビルマ語 |
| ne | ネパール語 |
| new | ネワール語 |
| nl | オランダ語 |
| no | ノルウェー語 |
| or | オリヤー語 |
| om | オロモ語 |
| pa | パンジャブ語 |
| pl | ポーランド語 |
| pt | ポルトガル語 |
| ps | プシュトン語 |
| qu | ケチュア語 |
| ro | ルーマニア語 |
| ru | ロシア語 |
| sa | サンスクリット語 |
| si | シンハラ語 |
| sk | スロバキア語 |
| sl | スロベニア語 |
| sd | シンディー |
| so | ソマリ語 |
| es | スペイン語 |
| sq | アルバニア語 |
| sr | セルビア語 |
| su | スンダ語 |
| sw | スワヒリ語 |
| sv | スウェーデン語 |
| ta | タミル語 |
| tt | タタール語 |
| te | テルグ語 |
| tg | タジク語 |
| tl | タガログ語 |
| th | タイ語 |
| tk | トルクメン語 |
| tr | トルコ語 |
| ug | ウイグル語 |
| uk | ウクライナ語 |
| ur | ウルドゥー語 |
| uz | ウズベク語 |
| vi | ベトナム語 |
| yi | イディッシュ語 |
| yo | ヨルバ語 |
| zh | 簡体字中国語 |
| zh-TW | 繁体字中国語 |
次の API 演算機能のいずれかを使用して、1 つまたは複数のドキュメントの主要言語を検出できます。
DetectDominantLanguage の演算では DominantLanguage オブジェクトを返します。BatchDetectDominantLanguage の演算では、バッチ内のドキュメントごとに 1 つずつ、DominantLanguage オブジェクトのリストを返します。StartDominantLanguageDetectionJob の演算では、非同期ジョブが開始され、ジョブ内のドキュメントごとに 1 つずつ、DominantLanguage オブジェクトのリストが入ったファイルが作成されます。
次の例は、DetectDominantLanguage の演算からの応答です。
{
"Languages": [
{
"LanguageCode": "en",
"Score": 0.9793661236763
}
]
}