

本文属于机器翻译版本。若本译文内容与英语原文存在差异，则一律以英文原文为准。

# BlazingText 超参数
<a name="blazingtext_hyperparameters"></a>

在使用 `CreateTrainingJob` 请求开始训练作业时，可指定训练算法。您也可以将特定于算法的超参数指定为地图。 string-to-string BlazingText 算法的超参数取决于您使用的模式：Word2Vec（无监督）和文本分类（监督）。

## Word2Vec 超参数
<a name="blazingtext_hyperparameters_word2vec"></a>

下表列出了 Amazon AI 提供的 BlazingText Word2Vec 训练算法的超参数。 SageMaker 


| 参数名称 | 说明 | 
| --- | --- | 
| mode | 用于训练的 Word2vec 架构。<br />**必填**<br />有效值：`batch_skipgram`、`skipgram` 或 `cbow` | 
| batch\_size | 在 `mode` 设置为 `batch_skipgram` 时的每个批处理的大小。设置为一个介于 10 和 20 之间的数字。<br />**可选**<br />有效值：正整数<br />默认值：11 | 
| buckets | 要用于子词的哈希存储桶的数量。<br />**可选**<br />有效值：正整数<br />默认值：2000000 | 
| epochs | 传递训练数据的次数。<br />**可选**<br />有效值：正整数<br />默认值：5 | 
| evaluation | 是否使用 [WordSimilarity-353](http://www.gabrilovich.com/resources/data/wordsim353/wordsim353.html) 检验对训练后的模型进行评估。<br />**可选**<br />有效值：（布尔值）`True` 或 `False`<br />默认值：`True` | 
| learning\_rate | 用于参数更新的步长大小。<br />**可选**<br />有效值：正浮点数<br />默认值：0.05 | 
| min\_char | 要用于子词/支付 n-grams 的字符的最小数目。<br />**可选**<br />有效值：正整数<br />默认值：3 | 
| min\_count | 出现少于 `min_count` 次的单词将被丢弃。<br />**可选**<br />有效值：非负整数<br />默认值：5 | 
| max\_char | 要用于子词/支付 n-grams 的字符的最大数目<br />**可选**<br />有效值：正整数<br />默认值：6 | 
| negative\_samples | 负采样共享策略的负采样数。<br />**可选**<br />有效值：正整数<br />默认值：5 | 
| sampling\_threshold | 单词出现次数的阈值。对训练数据中出现频率较高的单词进行随机下采样。<br />**可选**<br />有效值：正分数。建议的范围为 (0, 1e-3]<br />默认值：0.0001 | 
| subwords | 是否学习子词嵌入。<br />**可选**<br />有效值：（布尔值）`True` 或 `False`<br />默认值：`False` | 
| vector\_dim | 该算法学习的单词向量的维度。<br />**可选**<br />有效值：正整数<br />默认值：100 | 
| window\_size | 上下文窗口的大小。上下文窗口是用于训练的目标单词周围的单词数。<br />**可选**<br />有效值：正整数<br />默认值：5 | 

## 文本分类超参数
<a name="blazingtext_hyperparameters_text_class"></a>

下表列出了 Amazon A SageMaker I 提供的文本分类训练算法的超参数。

**注意**  
虽然文本分类模式和 Word2Vec 模式之间的某些参数很常见，但根据上下文的不同，它们可能有不同的含义。


| 参数名称 | 说明 | 
| --- | --- | 
| mode | 训练模式。<br />**必填**<br />有效值：`supervised` | 
| buckets | 要用于单词 n-grams 的哈希存储桶的数量。<br />**可选**<br />有效值：正整数<br />默认值：2000000 | 
| early\_stopping | 是否在验证准确率在 `patience` 个纪元后未提高的情况下时停止训练。请注意，如果使用提前停止，则需要验证通道。<br />**可选**<br />有效值：（布尔值）`True` 或 `False`<br />默认值：`False` | 
| epochs | 完成传递训练数据的最大次数。<br />**可选**<br />有效值：正整数<br />默认值：5 | 
| learning\_rate | 用于参数更新的步长大小。<br />**可选**<br />有效值：正浮点数<br />默认值：0.05 | 
| min\_count | 出现少于 `min_count` 次的单词将被丢弃。<br />**可选**<br />有效值：非负整数<br />默认值：5 | 
| min\_epochs | 调用提前停止逻辑之前训练的最小纪元数。<br />**可选**<br />有效值：正整数<br />默认值：5 | 
| patience | 当验证集没有任何进展时，在应用提前停止之前等待的纪元数。仅当 `early_stopping` 为 `True` 时使用。<br />**可选**<br />有效值：正整数<br />默认值：4 | 
| vector\_dim | 嵌入层的维度。<br />**可选**<br />有效值：正整数<br />默认值：100 | 
| word\_ngrams | 要使用的单词 n-gram 特征的数量。<br />**可选**<br />有效值：正整数<br />默认值：2 | 