

本文為英文版的機器翻譯版本，如內容有任何歧義或不一致之處，概以英文版為準。

# 將自訂同義詞新增至索引
<a name="index-synonyms"></a>

若要將自訂同義詞新增至索引，請在saurus 檔案中指定它們。您可以使用同義詞在 Amazon Kendra 中包含業務特定或專業術語。一般英文同義詞，例如 `leader, head`，是內建在 中 Amazon Kendra ，不應包含在 saurus 檔案中，包括使用連字號的一般同義詞。 Amazon Kendra 支援所有回應類型的同義詞，包括 `DOCUMENT`回應類型和 `QUESTION_ANSWER`或 `ANSWER`回應類型。 Amazon Kendra 目前不支援新增標記為停止詞的同義詞。這是包含在未來的版本中。

Amazon Kendra 會建立同義詞之間的相互關聯。例如，使用同義詞對 `Dynamo, Amazon DynamoDB`，將 Dynamo 與 相互 Amazon Kendra 關聯 Amazon DynamoDB。查詢「什麼是 dynamo？」 然後傳回像是「什麼是 Amazon DynamoDB？」的文件。使用同義詞， Amazon Kendra 可以更輕鬆地取得相互關聯性。

儲存貯體檔案是存放在 Amazon S3 儲存貯體中的文字檔案。請參閱 [將儲存庫新增至索引](index-synonyms-adding-thesaurus-file.md)。

saurus 檔案使用 [Solr 同義詞格式](https://lucene.apache.org/solr/guide/6_6/filter-descriptions.html#FilterDescriptions-SynonymGraphFilter)。對於每個索引的 sauri 數量 Amazon Kendra 有限制。請參閱[配額](https://docs.aws.amazon.com/kendra/latest/dg/quotas.html)。

同義詞在下列案例中很有用：
+ 非傳統英文同義詞的特殊術語，例如 `NLP, Natural Language Processing`。
+ 具有複雜語意關聯的適當名詞。這些是一般大眾不太可能理解的名詞，例如機器學習 `cost, loss, model performance`。
+ 不同形式的產品名稱，例如 `Elastic Compute Cloud, EC2`。
+ 網域特定或業務特定術語，例如產品名稱。例如 `Route53, DNS`。

請勿在下列案例中使用同義詞：
+ 一般英文同義詞，例如 `leader, head`。這些同義詞並非特定於網域，在這些案例中使用同義詞可能會有非預期的效果。
+ 排版錯誤，例如 `teh => the`。
+ 形態變體，例如名詞的複數和擁有權、形容詞的比較和超級形式，以及過去張量、過去部分和漸進形式的動詞。比較和超級形容詞的一個範例是 `good, better, best`。
+ Unigram （單字） 停止單字，例如 `WHO`。Unigram 停止文字不允許在 saurus 中，且會從搜尋中排除。例如， `WHO => World Health Organization`會遭到拒絕。不過，您可以使用 `W.H.O.`做為同義詞，也可以使用停止單字做為多字同義詞的一部分。例如，`of`不允許 ，但`United States of America`接受 。

自訂同義詞可透過擴展您的查詢以涵蓋您的業務特定同義詞，輕鬆提升對業務特定術語的 Amazon Kendra了解。雖然同義詞可以提高搜尋準確性，但請務必了解同義詞如何影響延遲，以便對此進行最佳化。

同義詞的一般規則是：查詢中與同義詞相符和擴展的詞彙越多，對延遲的潛在影響就越大。影響延遲的其他因素包括編製索引的文件平均大小、索引大小、搜尋結果的任何篩選，以及 Amazon Kendra 索引的整體負載。不符合任何同義詞的查詢不會受到影響。

同義詞如何影響延遲的一般準則：


<table>
<thead>
  <tr><th>使用案例</th><th>延遲增加\*</th></tr>
</thead>
<tbody>
  <tr><td>一般自然語言或關鍵字查詢，每個 3 到 5 個單字</td><td rowspan="3">低於 15%</td></tr>
  <tr><td>1 個查詢詞彙擴展至 3 個同義詞</td></tr>
  <tr><td>約 500，000 個文件的索引 （每份文件平均 10.48 KB 的擷取文字） 或 30，000 個常見問答集/問題對</td></tr>
</tbody>
</table>


\**效能會根據您在索引上使用的特定同義詞和組態而有所不同。最好測試搜尋效能，以針對特定使用案例取得更準確的基準。*

如果您的儲存庫很大、具有長期擴展率，而且您的延遲增加不在可接受的界限內，您可以嘗試下列其中一項或兩項：
+ 修剪儲存庫以降低擴展比率 （每個詞彙的同義詞數）。
+ 裁剪術語的整體涵蓋範圍 （您儲存庫中的行數）。

或者，您可以增加佈建容量 （虛擬儲存單位） 來抵銷延遲增加。

**Topics**
+ [建立saurus 檔案](index-synonyms-creating-thesaurus-file.md)
+ [將儲存庫新增至索引](index-synonyms-adding-thesaurus-file.md)
+ [更新儲存庫](index-synonyms-update.md)
+ [刪除儲存庫](index-synonyms-delete.md)
+ [搜尋結果中的醒目提示](index-synonyms-enabling-synonyms-in-results.md)