語意相似性配方 - Amazon Personalize

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

語意相似性配方

語意-同義性配方 (aws-semantic-similarity) 會根據文字內容,為語意上類似於指定項目的項目產生建議。與依賴使用者項目互動的傳統相似性配方不同,此配方會分析項目的文字描述和屬性,以產生內嵌並識別語意相似的項目

此配方非常適合您希望根據內容相似性建議項目的情況,例如推薦具有類似主題的書籍、有關相關主題的文章,或具有類似描述的產品。它特別適用於互動歷史記錄有限的新項目 (冷啟動案例),以及語意關係比並發模式更重要的目錄。

使用語意相似性,您可以在 GetRecommendations 操作 (或 Amazon Personalize 主控台) 中提供項目 ID,Amazon Personalize 會傳回類似項目的清單。或者,您可以使用批次工作流程來取得清查中所有項目的類似項目 (請參閱取得批次項目建議)。

配方功能

語意同義性在產生項目建議時使用下列 Amazon Personalize 配方功能:

  • 即時個人化 – 使用語意相似性配方,Amazon Personalize 會自動將您的項目目錄保持在最新狀態。當您將新項目新增至項目資料集或更新現有項目中繼資料時,這些變更會在使用增量訓練時約 30 分鐘內反映在您的建議中。這可確保您的客戶始終查看目錄中可用的最新項目,而無需手動介入或等待完整的重新訓練週期。這對於經常變更的目錄特別有用,例如新聞文章、部落格文章或季節性產品產品。若要啟用增量更新,客戶必須:

    • true 將 API 中解決方案的 performIncrementalUpdate設定為

    • 在 UI 中的訓練方法下選擇「完整和增量訓練」或「增量訓練」選項

    請注意,每當執行更新時,啟用增量更新都會產生額外費用。

  • 中繼資料與建議 – 使用語意同質配方,行銷活動會自動選擇將項目中繼資料與建議結果包含在內。您沒有手動啟用行銷活動的中繼資料。您可以使用中繼資料來豐富使用者介面中的建議,例如將電影的類型新增至輪跳功能。如需詳細資訊,請參閱建議中的項目中繼資料

必要和選用的資料集

若要使用語意相似性配方,您必須建立項目資料集。Amazon Personalize 會根據項目中繼資料的語意意義產生建議。如需詳細資訊,請參閱項目中繼資料。語意同義性最多可以在您的項目資料集內訓練 1,000 萬個項目。

使用語意相似性,Amazon Personalize 需要包含下列項目的項目資料

  • itemName 欄位 – itemName一個字串欄位,設定為 true。此欄位應包含項目的標題或名稱。

  • 文字描述欄位 – 至少一個標記為 的字串欄位textual,其中包含項目的描述。這應該是最能描述和代表項目的欄位。

Amazon Personalize 使用此欄位來產生語意內嵌,以擷取項目的意義和內容。

此外,如果您想要使用以新鮮度為基礎的排名,則應設定預留 CREATION_TIMESTAMP 欄位。如需詳細資訊,請參閱屬性和超參數

下列資料集是選用的,可以改善建議:

  • 互動資料集 – Amazon Personalize 可以使用互動資料集中的資料,根據使用者對項目的參與來計算熱門分數。您可以使用熱門分數,根據使用者之間的熱門程度來排名類似的項目。如果您想要使用熱門排名,您必須提供互動資料集。您也可以使用互動資料集中的資料來篩選建議。如需有關您可以匯入之互動資料的資訊,請參閱項目互動資料

屬性和超參數

語意相似性配方具有下列屬性:

  • 名稱aws-semantic-similarity

  • 配方 Amazon Resource Name (ARN)arn:aws:personalize:::recipe/aws-semantic-similarity

  • 演算法 ARNarn:aws:personalize:::algorithm/aws-semantic-similarity

  • 功能轉換 ARNarn:aws:personalize:::feature-transformation/aws-semantic-similarity

  • 配方類型RELATED_ITEMS

如需詳細資訊,請參閱選擇配方

語意相似性配方沒有公開的超參數,但您可以在建立行銷活動時設定熱門度和新鮮度因素,以影響類似項目的排名。

資料表提供每個因素的下列資訊:

  • 範圍:[下限、上限]

  • 值類型:整數、連續 (浮點數)、分類 (布林值、清單、字串)

名稱 描述
新鮮度

新鮮度係數代表項目的最近程度。新鮮度是根據項目的 CREATION_TIMESTAMP 標準化項目的存留期來計算。若要使用新鮮度因素,您必須在項目資料集結構描述中包含 CREATION_TIMESTAMP 欄位。較高的新鮮度因素值將在語意相似的建議中優先考慮較新的項目

預設值:0.0

範圍: [0.0, 1.0]

值類型:Double

熱門度

熱門因素代表項目根據使用者互動的熱門程度。透過標準化每個項目接收的互動次數來計算熱門度。若要使用熱門因素,您必須在建立資料集群組時包含互動資料集。較高的熱門因素值會優先考慮語意相似建議之間具有更多客戶互動的項目。

預設值:0.0

範圍: [0.0, 1.0]

值類型:Double

請注意,新鮮度和熱門度分數是在訓練時計算的,增量更新不會更新熱門度和新鮮度分數。如需影響建議項目排名的最新熱門度和新鮮度因素,請使用自動重新訓練或手動重新訓練解決方案,並使用新的解決方案版本更新行銷活動。