

本文為英文版的機器翻譯版本，如內容有任何歧義或不一致之處，概以英文版為準。

# BlazingText 超參數
<a name="blazingtext_hyperparameters"></a>

開始以 `CreateTrainingJob` 請求進行訓練工作時，會指定訓練演算法。您也可以指定演算法特定的超參數做為字串對字串的對應。BlazingText 演算法的超參數取決於您使用的模式：Word2Vec (無監督) 及文字分類 (監督式)。

## Word2Vec 超參數
<a name="blazingtext_hyperparameters_word2vec"></a>

下表為列出 Amazon SageMaker AI 所提供 BlazingText Word2Vec 訓練演算法的超參數。


| 參數名稱 | Description | 
| --- | --- | 
| mode | 用於訓練的 Word2vec 架構。<br />**必要**<br />有效值：`batch_skipgram`、`skipgram` 或 `cbow` | 
| batch\_size | 當 `mode` 設為 `batch_skipgram` 時，每批次的量。請設定為介於 10 至 20 之間的數字。<br />**選用**<br />有效值：正整數<br />預設值：11 | 
| buckets | 針對部分字組使用的雜湊儲存貯體數。<br />**選用**<br />有效值：正整數<br />預設值：2000000 | 
| epochs | 完整通過訓練資料傳遞的次數。<br />**選用**<br />有效值：正整數<br />預設值：5 | 
| evaluation | 訓練模型是否使用 [WordSimilarity-353 Test](http://www.gabrilovich.com/resources/data/wordsim353/wordsim353.html) 來評估。<br />**選用**<br />有效值：(布林值) `True` 或 `False`<br />預設值：`True` | 
| learning\_rate | 用於參數更新的步驟大小。<br />**選用**<br />有效值：正浮點<br />預設值：0.05 | 
| min\_char | 用於部分字組/字元 n-grams 的最小字元數。<br />**選用**<br />有效值：正整數<br />預設值：3 | 
| min\_count | 出現次數小於 `min_count` 的文字會遭到捨棄。<br />**選用**<br />有效值：非負整數<br />預設值：5 | 
| max\_char | 用於部分字組/字元 n-grams 的最大字元數。<br />**選用**<br />有效值：正整數<br />預設值：6 | 
| negative\_samples | 負面樣本共享策略的負面樣本數。<br />**選用**<br />有效值：正整數<br />預設值：5 | 
| sampling\_threshold | 文字出現次數的閾值。訓練資料中出現頻率較高的文字會隨機縮小抽樣。<br />**選用**<br />有效值：正分數。建議範圍是 (0, 1e-3]<br />預設值：0.0001 | 
| subwords | 是否要學習部分字組內嵌。<br />**選用**<br />有效值：(布林值) `True` 或 `False`<br />預設值：`False` | 
| vector\_dim | 演算法所學習的詞向量的維度。<br />**選用**<br />有效值：正整數<br />預設值：100 | 
| window\_size | 上下文範圍的大小。內容範圍是指訓練所用目標文字前後的文字數量。<br />**選用**<br />有效值：正整數<br />預設值：5 | 

## 文字分類超參數
<a name="blazingtext_hyperparameters_text_class"></a>

下表列出 Amazon SageMaker AI 所提供文字分類訓練演算法的超參數。

**注意**  
雖然有些參數在文字分類和 Word2Vec 模式中都有出現，但根據內容，可能會有不同的意義。


| 參數名稱 | Description | 
| --- | --- | 
| mode | 訓練模式。<br />**必要**<br />有效值：`supervised` | 
| buckets | 針對文字 n-grams 使用的雜湊儲存貯體數。<br />**選用**<br />有效值：正整數<br />預設值：2000000 | 
| early\_stopping | 若驗證準確度並未在 `patience` 個 epoch 數之後改善，是否要停止訓練。請注意，如果使用提前停止，則需要驗證通道。<br />**選用**<br />有效值：(布林值) `True` 或 `False`<br />預設值：`False` | 
| epochs | 通過訓練資料的完成次數。<br />**選用**<br />有效值：正整數<br />預設值：5 | 
| learning\_rate | 用於參數更新的步驟大小。<br />**選用**<br />有效值：正浮點<br />預設值：0.05 | 
| min\_count | 出現次數小於 `min_count` 的文字會遭到捨棄。<br />**選用**<br />有效值：非負整數<br />預設值：5 | 
| min\_epochs | 調用提前停止邏輯前要訓練的最小 epoch 數。<br />**選用**<br />有效值：正整數<br />預設值：5 | 
| patience | 驗證組上沒有任何進展時，在套用提前停止前應等待的 epoch 數。只有在 `early_stopping` 為 `True` 時才會使用。<br />**選用**<br />有效值：正整數<br />預設值：4 | 
| vector\_dim | 內嵌層的維度。<br />**選用**<br />有效值：正整數<br />預設值：100 | 
| word\_ngrams | 要使用的文字 n-gram 特徵數。<br />**選用**<br />有效值：正整數<br />預設值：2 | 