英語以外の言語でドキュメントを追加する
ドキュメントは、複数の言語でインデックス作成できます。言語を指定しない場合、Amazon Kendra はデフォルトで英語でドキュメントをインデックス作成します。ドキュメントの言語コードをドキュメントメタデータにフィールドとして含めます。ドキュメントの _language_code フィールドの詳細については、「フィールドマッピング」と「カスタム属性」を参照してください。
CreateDataSource を呼び出すときに、データソース内のすべてのドキュメントの言語コードを指定できます。ドキュメントにメタデータフィールドで指定された言語コードがない場合、データソースレベルですべてのドキュメントに指定された言語コードを使用して、ドキュメントのインデックスが作成されます。コンソールでは、データソースレベルでのみ、サポートされている言語でドキュメントのインデックス作成ができます。[Data sources] (データソース) へ移動し、[Specify data source details] (データソースの詳細を指定) ページで、[Language] (言語) のドロップダウンから言語を選択します。
サポートされている言語でドキュメントを検索またはクエリできます。詳細については、「各言語での検索」を参照してください。
以下の言語とそのコードがサポートされています (言語を指定しない場合、英語または en はデフォルトでサポートされています。) この表には、Amazon Kendra が完全なセマンティック検索でサポートする言語と、単純なキーワードマッチングのみをサポートする言語が含まれています。次の表では、完全なセマンティック検索をサポートする言語にはアスタリスクが付いており、太字で示されています。英語 (デフォルト言語) は完全セマンティック検索でもサポートされています。
| 言語名 | 言語コード |
|---|---|
| アラビア語 | ar |
| アルメニア語 | hy |
| バスク語 | eu |
| ベンガル語 | bn |
| ブルガリア語 | bg |
| カタロニア語 | ca |
| 中国語 - 簡体字と繁体字* | zh |
| チェコ語 | cs |
| デンマーク語 | da |
| オランダ語 | nl |
| フィンランド語 | fi |
| フランス語 - フランス語 (カナダ) を含む* | fr |
| ガリシア語 | gl |
| ドイツ語* | de |
| ギリシャ語 | el |
| ヒンディー語 | hi |
| ハンガリー語 | hu |
| インドネシア語 | id |
| アイルランド語 | ga |
| イタリア語 | it |
| 日本語* | ja |
| 韓国語* | ko |
| ラトビア語 | lv |
| リトアニア語 | lt |
| ノルウェー語 | no |
| ペルシャ語 | fa |
| ポルトガル語 | pt |
| ポルトガル語 (ブラジル)* | pt-BR |
| ルーマニア語 | ro |
| ロシア語 | ru |
| ソラニ語 | ckb |
| スペイン語 - スペイン語 (メキシコ) を含む* | es |
| スウェーデン語 | sv |
| トルコ語 | tr |
*その言語ではセマンティック検索がサポートされています。
セマンティック検索をサポートする言語では、以下の機能がサポートされます。
-
単純なキーワードマッチングを超えるドキュメントの関連性。
-
単純なキーワードマッチング以外のよくある質問。
-
Amazon Kendra の読解力に基づいてドキュメントから回答を抽出する。
-
検索結果の信頼バケット (非常に高い、高い、中程度、低いなど) です。
セマンティック検索をサポートしていない言語では、ドキュメントの関連性やよくある質問に関する単純なキーワードマッチングがサポートされています。
シノニム (カスタムシノニムを含む)、増分学習とフィードバック、およびクエリの提案は、英語 (デフォルト言語) でのみサポートされています。