本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
Sequence-to-Sequence 超参数
下表列出了在使用 Amazon A SageMaker I Sequence-to-Sequence (seq2seq) 算法进行训练时可以设置的超参数。
| 参数名称 | 描述 | 
|---|---|
| batch_size | 用于梯度下降的小批次大小。 可选 有效值:正整数 默认值:64 | 
| beam_size | 光束搜索的光束的长度。在训练期间用于计算  可选 有效值:正整数 默认值:5 | 
| bleu_sample_size | 在训练过程中从验证数据集中选取以解码并计算  可选 有效值:整数 默认值:0 | 
| bucket_width | 返回最多 ( 可选 有效值:正整数 默认值:10 | 
| bucketing_enabled | 设置为  可选 有效值: 默认值: | 
| checkpoint_frequency_num_batches | 检查点并评估每个 x 批处理。这个检查点超参数被传递给 SageMaker AI 的 seq2seq 算法,用于提早停止和检索最佳模型。该算法的检查点操作在算法的训练容器中本地运行,与 SageMaker AI 检查点不兼容。该算法暂时将检查点保存到本地路径,并在训练作业停止后将最佳模型构件存储到 S3 中的模型输出路径中。 可选 有效值:正整数 默认值:1000 | 
| checkpoint_threshold | 在停止训练之前,允许在验证数据集上的  可选 有效值:正整数 默认值:3 | 
| clip_gradient | 大于此的剪辑绝对梯度值。设置为负表示禁用。 可选 有效值:浮点值 默认值:1 | 
| cnn_activation_type | 要使用的  可选 有效值:字符串。以下值之一: 默认值: | 
| cnn_hidden_dropout | 卷积层之间的退出的丢弃概率。 可选 有效值:浮点值。范围为 [0,1]。 默认值:0 | 
| cnn_kernel_width_decoder | 
 可选 有效值:正整数 默认值:5 | 
| cnn_kernel_width_encoder | 
 可选 有效值:正整数 默认值:3 | 
| cnn_num_hidden | 编码器和解码器的  可选 有效值:正整数 默认值:512 | 
| decoder_type | 解码器类型。 可选 有效值:字符串。 默认值:rnn | 
| embed_dropout_source | 源端嵌入的丢弃概率。 可选 有效值:浮点值。范围为 [0,1]。 默认值:0 | 
| embed_dropout_target | 目标端嵌入的丢弃概率。 可选 有效值:浮点值。范围为 [0,1]。 默认值:0 | 
| encoder_type | 编码器类型。 可选 有效值:字符串。 默认值: | 
| fixed_rate_lr_half_life | 就  可选 有效值:正整数 默认值:10 | 
| learning_rate | 初始学习率。 可选 有效值:浮点值 默认值:0.0003 | 
| loss_type | 训练的损失函数。 可选 有效值:字符串。 默认值: | 
| lr_scheduler_type | 学习率计划程序类型。 可选 有效值:字符串。 默认值: | 
| max_num_batches | 要处理的更新/批处理的最大数量。-1 表示不限次数。 可选 有效值:整数 默认值:-1 | 
| max_num_epochs | 在停止调整之前通过训练数据传递的最大纪元数。如果传递此参数,则即使验证准确性没有提高,训练仍将持续到此数量纪元。如果不传递,则会忽略。 可选 有效值:小于或等于 max_num_epochs 的正整数。 默认值:无 | 
| max_seq_len_source | 源序列长度的最大长度。比此长度长的序列被截断为此长度。 可选 有效值:正整数 默认值:100 | 
| max_seq_len_target | 目标序列长度的最大长度。比此长度长的序列被截断为此长度。 可选 有效值:正整数 默认值:100 | 
| min_num_epochs | 在通过  可选 有效值:正整数 默认值:0 | 
| momentum | 用于  可选 有效值:浮点值 默认值:无 | 
| num_embed_source | 源标记的嵌入大小。 可选 有效值:正整数 默认值:512 | 
| num_embed_target | 目标标记的嵌入大小。 可选 有效值:正整数 默认值:512 | 
| num_layers_decoder | 解码器 rnn 或 cnn 的层数。 可选 有效值:正整数 默认值:1 | 
| num_layers_encoder | 编码器  可选 有效值:正整数 默认值:1 | 
| optimized_metric | 用于使用早期停止进行优化的指标。 可选 有效值:字符串。 默认值: | 
| optimizer_type | 可供从中选择的优化程序。 可选 有效值:字符串。 默认值: | 
| plateau_reduce_lr_factor | 与学习率相乘的系数 (对于  可选 有效值:浮点值 默认值:0.5 | 
| plateau_reduce_lr_threshold | 对于  可选 有效值:正整数 默认值:3 | 
| rnn_attention_in_upper_layers | 将关注传递到 rnn 的上层,如 Google NMT 文章中所述。仅在使用多个层时才适用。 可选 有效值:布尔值( 默认值: | 
| rnn_attention_num_hidden | 关注层的隐藏单元数量。默认值为  可选 有效值:正整数 默认值: | 
| rnn_attention_type | 编码器的关注模型。 可选 有效值:字符串。以下值之一: 默认值: | 
| rnn_cell_type | 特定类型的  可选 有效值:字符串。 默认值: | 
| rnn_decoder_state_init | 如何从编码器初始化  可选 有效值:字符串。 默认值: | 
| rnn_first_residual_layer | 第一个具有剩余连接的 rnn 层,只有在编码器或解码器中的层数超过 1 时才适用。 可选 有效值:正整数 默认值:2 | 
| rnn_num_hidden | 编码器和解码器的 rnn 隐藏单元的数量。这必须是 2 的倍数,因为默认情况下该算法使用双向长短期记忆 (LSTM)。 可选 有效值:正偶数 默认值:1024 | 
| rnn_residual_connections | 将剩余连接添加到堆叠的 rnn。层数应超过 1。 可选 有效值:布尔值( 默认值: | 
| rnn_decoder_hidden_dropout | 将上下文与解码器中的 rnn 隐藏状态结合的隐藏状态的丢弃概率。 可选 有效值:浮点值。范围为 [0,1]。 默认值:0 | 
| training_metric | 用于跟踪验证数据训练的指标。 可选 有效值:字符串。 默认值: | 
| weight_decay | 权重衰减常量。 可选 有效值:浮点值 默认值:0 | 
| weight_init_scale | 权重初始化规模(对于  可选 有效值:浮点值 默认值:2.34 | 
| weight_init_type | 权重初始化的类型。 可选 有效值:字符串。 默认值: | 
| xavier_factor_type | Xavier 系数类型。 可选 有效值:字符串。 默认值: |