

本文為英文版的機器翻譯版本，如內容有任何歧義或不一致之處，概以英文版為準。

# IP Insights 超參數
<a name="ip-insights-hyperparameters"></a>

在 [https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_CreateTransformJob.html](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_CreateTransformJob.html) 請求中，請指定訓練演算法。您也可以指定演算法特定的超參數做為字串對字串的對應。下表列出 Amazon SageMaker AI IP Insights 演算法的超參數。


| 參數名稱 | Description | 
| --- | --- | 
| num\_entity\_vectors | 要訓練的實體向量表示數量 (實體內嵌向量)。訓練集中的每個實體都會使用雜湊函式，隨機指派給其中一個向量。因為雜湊衝突的關係，可能會有多個實體指派給相同的向量。這會造成相同的向量代表多個實體。這對模型效能所產生的影響通常可以忽略不計，只要衝突率不要過於嚴重即可。若要將衝突率維持在較低的水平，請盡量將此值調高。但是，訓練和推論的模型大小及其所需要的記憶體，會根據此超參數呈線性擴展。我們建議您將此值設為唯一實體識別符數量的兩倍。<br />**必要**<br />有效值：1 ≤ 正整數 ≤ 250,000,000 | 
| vector\_dim | 代表實體和 IP 地址的內嵌向量大小。此值越大，可使用這些表示編碼的資訊越多。實務上，模型大小會根據此參數呈線性擴展，並限制維度的大小。此外，使用過大的向量表示可能會造成模型過大，尤其是在針對小型的訓練資料集時。當模型並未在資料中學習到任何模式，卻記下整個訓練資料時，便會發生過大的情況。在此情況下，模型便無法良好地一般化，且在推論期間的執行效能也會低落。建議的值為 128。<br />**必要**<br />有效值：4 ≤ 正整數 ≤ 4096 | 
| batch\_metrics\_publish\_interval | Apache MXNet Speedometer 函式印出網路訓練速度的間隔 (每 X 個批次) (樣本數/秒)。<br />**選用**<br />有效值：正整數 ≥ 1<br />預設值：1,000 | 
| epochs | 通過訓練資料的通過次數。最佳值取決於您的資料大小和學習速率。典型值介於 5 到 100 之間。<br />**選用**<br />有效值：正整數 ≥ 1<br />預設值：10 | 
| learning\_rate | 最佳化工具的學習率。IP Insights 使用以梯度下降法為基礎的 Adam 最佳化工具。學習率可有效控制在每一次反覆運算中，更新模型參數的步驟大小。學習率過大，可能會導致模型分歧，因為訓練可能會超過最小值。另一方面，學習率過小則可能會使聚合變慢。典型值介於 1e-4 到 1e-1 之間。<br />**選用**<br />有效值：1e-6 ≤ 浮點數 ≤ 10.0<br />預設值：0.001 | 
| mini\_batch\_size | 每一個迷你批次中的範例數。訓練程序會以迷你批次的形式處理資料。最佳值取決於資料集中唯一帳戶識別符的數量。一般而言，`mini_batch_size` 越大，訓練速度越快，可能抽換的負面樣本組合數越高。但是，使用較大的 `mini_batch_size` 時，訓練可能會聚合到較差的局部最小值，針對推論的執行效能也相對較差。<br />**選用**<br />有效值：1 ≤ 正整數 ≤ 500000<br />預設值：10,000 | 
| num\_ip\_encoder\_layers | 用來編碼 IP 地址內嵌的完整連線層數。層數越多，模型擷取 IP 地址中模式的容量越大。但是，使用較大數量的層，可能會增加過大的機率。<br />**選用**<br />有效值：0 ≤ 正整數 ≤ 100<br />預設值：1 | 
| random\_negative\_sampling\_rate | 要為每一個輸入範例產生的隨機負面樣本數 (R)。訓練程序依賴負面樣本，以防止模型的向量表示摺疊至單一點。隨機負面抽樣會為迷你批次中的每個輸入帳戶產生 R 個隨機 IP 地址。`random_negative_sampling_rate` (R) 和 `shuffled_negative_sampling_rate` (S) 的總和必須介於間隔：1 ≤ R \+ S ≤ 500。<br />**選用**<br />有效值：0 ≤ 正整數 ≤ 500<br />預設值：1 | 
| shuffled\_negative\_sampling\_rate | 要為每一個輸入範例產生的抽換負面樣本數 (S)。在某些情況下，使用從訓練資料本身隨機挑選的更真實負面樣本可能會有所幫助。這種類型的負面抽樣是透過在迷你批次內抽換資料達成。抽換負面抽樣會透過在迷你批次內抽換 IP 地址和帳戶配對，產生 S 個負面 IP 地址。`random_negative_sampling_rate` (R) 和 `shuffled_negative_sampling_rate` (S) 的總和必須介於間隔：1 ≤ R \+ S ≤ 500。<br />**選用**<br />有效值：0 ≤ 正整數 ≤ 500<br />預設值：1 | 
| weight\_decay | 權重衰減係數。此參數會新增一個 L2 正規化因素，該因素是防止模型對訓練資料過大的必要項目。<br />**選用**<br />有效值：0.0 ≤ 浮點數 ≤ 10.0<br />預設值：0.00001 | 