

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

# インデックスへのカスタムシノニムの追加
<a name="index-synonyms"></a>

カスタムシノニムをインデックスに追加するには、シソーラスファイルでシノニムを指定します。シノニム Amazon Kendra を使用して、ビジネス固有または特殊な用語を に含めることができます。などの一般的な英語シノニムは `leader, head`に組み込まれ Amazon Kendra ており、ハイフンを使用する一般的なシノニムを含むシソーラスファイルに含めることはできません。 Amazon Kendra は、レスポンスタイプや `QUESTION_ANSWER`または `DOCUMENT`レスポンスタイプを含むすべての`ANSWER`レスポンスタイプのシノニムをサポートしています。 Amazon Kendra は現在、ストップワードとしてフラグ付けされたシノニムの追加をサポートしていません。これは、将来のリリースに組み込まれます。

Amazon Kendra はシノニム間の相関を行います。たとえば、シノニムペア を使用すると`Dynamo, Amazon DynamoDB`、 は Dynamo を と Amazon Kendra 関連付けます Amazon DynamoDB。「What is dynamo?」というクエリは、次に、「What is Amazon DynamoDB?」などのドキュメントを返します。シノニムを使用すると、 は相関をより簡単に取得 Amazon Kendra できます。

シソーラスファイルは、 Amazon S3 バケットに保存されているテキストファイルです。「[シソーラスをインデックスに追加する](index-synonyms-adding-thesaurus-file.md)」を参照してください。

シソーラスファイルは [Solr シノニム形式](https://lucene.apache.org/solr/guide/6_6/filter-descriptions.html#FilterDescriptions-SynonymGraphFilter)を使用します。インデックスあたりのシソーラスの数には制限 Amazon Kendra があります。[クォータ](https://docs.aws.amazon.com/kendra/latest/dg/quotas.html)を参照してください。

シノニムは、次のシナリオで役立ちます。
+ 例えば、`NLP, Natural Language Processing` など、従来の英語のシノニムではない専門用語。
+ 複雑な意味的関連を持つ固有名詞。例えば、機械学習では、`cost, loss, model performance` など、これらは一般の人が理解しにくい名詞です。
+ 例えば、`Elastic Compute Cloud, EC2` などの異なる形式の製品名。
+ 製品名など、ドメイン固有またはビジネス固有の用語。例えば、`Route53, DNS`。

次のシナリオではシノニムを使用しないでください。
+ `leader, head` など、一般的な英語のシノニム。これらのシノニムはドメイン固有ではなく、これらのシナリオでシノニムを使用すると、意図しない効果が生じる可能性があります。
+ `teh => the` などの誤字。
+ 名詞の複数形や所有格、形容詞の比較形および最上級形、動詞の過去形、過去分詞形、進行形のような形態学的変種。比較形容詞と最上級形容詞の一例は、`good, better, best` です。
+ `WHO` などのユニグラム (1 単語) ストップワード。ユニグラムストップワードはシソーラスでは許可されず、検索から除外されます。例えば、`WHO => World Health Organization` は拒否されます。`W.H.O.` をシノニム用語として使用できますが、ストップワードをマルチワードシノニムの一部として使うことができます。例えば、`of` は許可されますが、`United States of America` は許可されません。

カスタムシノニムを使用すると、ビジネス固有のシノニムをカバーするようにクエリを拡張することで、ビジネス固有の用語 Amazon Kendraの理解を簡単に向上させることができます。シノニムは検索の精度を向上させることができますが、シノニムがレイテンシーにどのように影響するかを理解して最適化することが重要です。

シノニムの一般的なルールは、クエリ内のシノニムと一致して拡張される用語が多いほど、レイテンシーへの影響が大きくなります。レイテンシーに影響するその他の要因には、インデックス化されたドキュメントの平均サイズ、インデックスのサイズ、検索結果のフィルタリング、 Amazon Kendra インデックスの全体的な負荷などがあります。シノニムと一致しないクエリは影響を受けません。

シノニムがレイテンシーにどのように影響するかに関する一般的なガイドライン:


<table>
<thead>
  <tr><th>ユースケース</th><th>レイテンシーの増加\*</th></tr>
</thead>
<tbody>
  <tr><td>一般的な自然言語またはキーワードクエリ (それぞれ 3～5 語)</td><td rowspan="3">15% 未満</td></tr>
  <tr><td>1 つのクエリ用語が 3 つのシノニムに展開されます</td></tr>
  <tr><td>約 50 万件のドキュメント (ドキュメントごとに抽出されたテキストの平均は 10.48 KB) または 30,000 のよくある質問/質問ペアのインデックス</td></tr>
</tbody>
</table>


\**パフォーマンスは、インデックスでのシノニムと構成の特定の使用方法によって異なります。検索のパフォーマンスをテストして、特定のユースケースに対してより正確なベンチマークを取得することをお勧めします。*

シソーラスが大きく、用語の拡張率が高く、レイテンシーの増加が許容範囲内にない場合は、次のいずれかまたは両方を試してください。
+ シソーラスをトリミングして、拡張率 (用語ごとのシノニム数) を減らします。
+ 用語の全体的な範囲 (シソーラスの行数) をトリミングします。

または、プロビジョニングキャパシティ (仮想ストレージユニット) を増やして、レイテンシーの増加を相殺することもできます。

**Topics**
+ [シソーラスファイルの作成](index-synonyms-creating-thesaurus-file.md)
+ [シソーラスをインデックスに追加する](index-synonyms-adding-thesaurus-file.md)
+ [シソーラスを更新する](index-synonyms-update.md)
+ [シソーラスを削除する](index-synonyms-delete.md)
+ [検索結果の強調表示](index-synonyms-enabling-synonyms-in-results.md)