As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.
Ajustar um modelo Sequence-to-Sequence
O ajuste automático de modelos, também conhecido como ajuste de hiperparâmetros, localiza a melhor versão de um modelo executando vários trabalhos que testam uma série de hiperparâmetros no seu conjunto de dados. Você escolhe os hiperparâmetros ajustáveis, um intervalo de valores para cada um e uma métrica objetiva. Você escolhe a métrica objetiva entre as métricas que o algoritmo calcula. O ajuste de modelo automático pesquisa os hiperparâmetros escolhidos para encontrar a combinação de valores que resultam no modelo que otimiza a métrica objetiva.
Para mais informações sobre o ajuste de modelos, consulte Ajuste automático do modelo com SageMaker IA.
Métricas calculadas pelo algoritmo Sequence-to-Sequence
O algoritmo sequence to sequence relata três métricas que são calculadas durante o treinamento. Escolha um deles como um objetivo para otimizar ao ajustar os valores dos hiperparâmetros.
| Nome da métrica | Descrição | Direção de otimização |
|---|---|---|
validation:accuracy |
Precisão calculada no conjunto de dados de validação. |
Maximizar |
validation:bleu |
Pontuação Bleu |
Maximizar |
validation:perplexity |
Perplexidade |
Minimizar |
Hiperparâmetros Sequence-to-Sequence ajustáveis
É possível ajustar os hiperparâmetros a seguir para o algoritmo de sequência para sequência do SageMaker AI. Os hiperparâmetros que têm o maior impacto nas métricas objetivas de sequence to sequence são: batch_size, optimizer_type, learning_rate, num_layers_encoder e num_layers_decoder.
| Nome do parâmetro | Tipo de parâmetro | Intervalos recomendados |
|---|---|---|
num_layers_encoder |
IntegerParameterRange |
[1-10] |
num_layers_decoder |
IntegerParameterRange |
[1-10] |
batch_size |
CategoricalParameterRange |
[16,32,64,128,256,512,1024,2048] |
optimizer_type |
CategoricalParameterRange |
['adam', 'sgd', 'rmsprop'] |
weight_init_type |
CategoricalParameterRange |
['xavier', 'uniform'] |
weight_init_scale |
ContinuousParameterRange |
Para o tipo xavier: MinValue: 2.0, MaxValue: 3.0 Para o tipo uniform: MinValue: -1.0, MaxValue: 1.0 |
learning_rate |
ContinuousParameterRange |
MinValue: 0.00005, MaxValue: 0.2 |
weight_decay |
ContinuousParameterRange |
MinValue: 0.0, MaxValue: 0.1 |
momentum |
ContinuousParameterRange |
MinValue: 0.5, MaxValue: 0.9 |
clip_gradient |
ContinuousParameterRange |
MinValue: 1.0, MaxValue: 5.0 |
rnn_num_hidden |
CategoricalParameterRange |
Aplicável apenas a redes neurais recorrentes (RNNs). [128,256,512,1024,2048] |
cnn_num_hidden |
CategoricalParameterRange |
Aplicável apenas a redes neurais convolucionais (CNNs). [128,256,512,1024,2048] |
num_embed_source |
IntegerParameterRange |
[256-512] |
num_embed_target |
IntegerParameterRange |
[256-512] |
embed_dropout_source |
ContinuousParameterRange |
MinValue: 0.0, MaxValue: 0.5 |
embed_dropout_target |
ContinuousParameterRange |
MinValue: 0.0, MaxValue: 0.5 |
rnn_decoder_hidden_dropout |
ContinuousParameterRange |
MinValue: 0.0, MaxValue: 0.5 |
cnn_hidden_dropout |
ContinuousParameterRange |
MinValue: 0.0, MaxValue: 0.5 |
lr_scheduler_type |
CategoricalParameterRange |
['plateau_reduce', 'fixed_rate_inv_t', 'fixed_rate_inv_sqrt_t'] |
plateau_reduce_lr_factor |
ContinuousParameterRange |
MinValue: 0.1, MaxValue: 0.5 |
plateau_reduce_lr_threshold |
IntegerParameterRange |
[1-5] |
fixed_rate_lr_half_life |
IntegerParameterRange |
[10-30] |