

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

# Sequence-to-Sequence 하이퍼파라미터
<a name="seq-2-seq-hyperparameters"></a>

다음 표에는 Amazon SageMaker AI Sequence-Sequence(seq2seq) 알고리즘으로 훈련할 때 설정할 수 있는 하이퍼파라미터가 나열되어 있습니다.


| 파라미터 이름 | 설명 | 
| --- | --- | 
| batch\$1size | 경사 하강에 대한 미니 배치 크기. **선택 사항** 유효한 값: 양수 기본값: 64 | 
| beam\$1size | 빔 검색에 대한 빔의 길이. 컴퓨팅 `bleu`에 대한 훈련 중 사용되고, 추론 중 사용됩니다. **선택 사항** 유효한 값: 양수 기본값: 5 | 
| bleu\$1sample\$1size | 검증 데이터세트에서 선택하여 훈련 도중 `bleu` 점수를 디코딩 및 컴퓨팅하는 인스턴스의 수. -1로 설정하면 전체 검증 세트를 사용합니다(`bleu`가 `optimized_metric`으로 선택된 경우). **선택 사항** 유효한 값: 정수 기본값: 0 | 
| bucket\$1width | 최대 (`max_seq_len_source`, `max_seq_len_target`)개의 (소스,대상) 버킷을 반환합니다. 데이터에서 길이가 긴 측은 `bucket_width` 단계를 사용하는 반면 짧은 측은 평균 대상/소스 길이 비율로 축소된 단계를 사용합니다. 한 측에서 다른 측보다 먼저 최대 길이에 도달한 경우 해당 측의 추가 버킷 너비는 `max_len`으로 고정됩니다. **선택 사항** 유효한 값: 양수 기본값: 10 | 
| bucketing\$1enabled | `false`로 설정되면 버킷을 비활성화하고 최대 길이로 펼쳐집니다. **선택 사항** 유효한 값: `true` 또는 `false` 기본값: `true` | 
| checkpoint\$1frequency\$1num\$1batches | x회의 배치마다 체크포인트 및 검증. 이 체크포인트 하이퍼파라미터는 SageMaker AI의 seq2seq 알고리즘으로 전달되어 최적의 모델을 초기에 중지하고 검색할 수 있습니다. 알고리즘의 체크포인트는 알고리즘의 훈련 컨테이너에서 로컬로 실행되며 SageMaker AI 체크포인트와 호환되지 않습니다. 알고리즘은 체크포인트를 로컬 경로에 일시적으로 저장하고 훈련 작업이 중지된 후 최상의 모델 아티팩트를 S3의 모델 출력 경로에 저장합니다. **선택 사항** 유효한 값: 양수 기본값: 1000 | 
| checkpoint\$1threshold | 훈련 중지 전에 검증 데이터세트의 `optimized_metric`이 개선되지 않도록 하는 체크포인트 모델의 최대 수. 이 체크포인트 하이퍼파라미터는 SageMaker AI의 seq2seq 알고리즘으로 전달되어 최적의 모델을 초기에 중지하고 검색할 수 있습니다. 알고리즘의 체크포인트는 알고리즘의 훈련 컨테이너에서 로컬로 실행되며 SageMaker AI 체크포인트와 호환되지 않습니다. 알고리즘은 체크포인트를 로컬 경로에 일시적으로 저장하고 훈련 작업이 중지된 후 최상의 모델 아티팩트를 S3의 모델 출력 경로에 저장합니다. **선택 사항** 유효한 값: 양수 기본값: 3 | 
| clip\$1gradient | 이보다 더 큰 절대 하강 값을 고정합니다. 음수로 설정하면 비활성화합니다. **선택 사항** 유효한 값: 부동 소수점 기본값: 1 | 
| cnn\$1activation\$1type | 사용할 `cnn` 활성화 유형. **선택 사항** 유효한 값: 문자열. `glu`, `relu`, `softrelu`, `sigmoid` 또는 `tanh` 중 하나입니다. 기본값: `glu` | 
| cnn\$1hidden\$1dropout | 컨볼루션 계층 사이 드롭아웃에 대한 드롭아웃 가능성. **선택 사항** 유효한 값: 부동 소수점. 범위: [0,1]. 기본값: 0 | 
| cnn\$1kernel\$1width\$1decoder | `cnn` 디코더에 대한 커널 너비. **선택 사항** 유효한 값: 양수 기본값: 5 | 
| cnn\$1kernel\$1width\$1encoder | `cnn` 인코더에 대한 커널 너비. **선택 사항** 유효한 값: 양수 기본값: 3 | 
| cnn\$1num\$1hidden | 인코더 및 디코더에 대한 `cnn` 숨겨진 유닛 수. **선택 사항** 유효한 값: 양수 기본값: 512 | 
| decoder\$1type | 디코더 유형. **선택 사항** 유효한 값: 문자열. `rnn` 또는 `cnn`입니다. 기본값: *rnn* | 
| embed\$1dropout\$1source | 소스 측 임베딩에 대한 드롭아웃 가능성. **선택 사항** 유효한 값: 부동 소수점. 범위: [0,1]. 기본값: 0 | 
| embed\$1dropout\$1target | 대상 측 임베딩에 대한 드롭아웃 가능성. **선택 사항** 유효한 값: 부동 소수점. 범위: [0,1]. 기본값: 0 | 
| encoder\$1type | 인코더 유형. `rnn` 아키텍처는 Bahdanau 등의 어텐션 메커니즘을 기반으로 하며, *cnn* 아키텍처는 Gehring 등의 메커니즘을 기반으로 합니다. **선택 사항** 유효한 값: 문자열. `rnn` 또는 `cnn`입니다. 기본값: `rnn` | 
| fixed\$1rate\$1lr\$1half\$1life | `fixed_rate_`\$1 스케줄러에 대한 체크포인트 수의 측면에서 학습률의 반주기. **선택 사항** 유효한 값: 양수 기본값: 10 | 
| learning\$1rate | 초기 학습률. **선택 사항** 유효한 값: 부동 소수점 기본값: 0.0003 | 
| loss\$1type | 훈련에 대한 손실 함수. **선택 사항** 유효한 값: 문자열. `cross-entropy`  기본값: `cross-entropy` | 
| lr\$1scheduler\$1type | 학습률 스케줄러 유형. `plateau_reduce`는 `validation_accuracy`에 대한 `optimized_metric`이 변화가 없을 때마다 학습률일 감소함을 의미합니다. `inv_t`는 반한시 감소입니다. `learning_rate`/(1\$1`decay_rate`\$1t) **선택 사항** 유효한 값: 문자열. `plateau_reduce`, `fixed_rate_inv_t` 또는 `fixed_rate_inv_sqrt_t`. 기본값: `plateau_reduce` | 
| max\$1num\$1batches | 처리할 업데이트/배치의 최대 수. 무제한은 -1로 설정합니다. **선택 사항** 유효한 값: 정수 기본값: -1 | 
| max\$1num\$1epochs | 적합이 중지되기 전에 훈련 데이터를 통해 전달할 epoch의 최대 수. 검증 정확도가 개선되지 않고 이 파라미터가 통과된 경우에도 epoch의 수까지 훈련은 계속됩니다. 통과되지 않은 경우 무시됩니다. **선택 사항** 유효한 값: max\$1num\$1epochs보다 작거나 같은 양의 정수 기본값: none | 
| max\$1seq\$1len\$1source | 소스 시퀀스의 최대 길이. 이 길이보다 더 긴 시퀀스의 경우 이 길이로 잘립니다. **선택 사항** 유효한 값: 양수 기본 값: 100  | 
| max\$1seq\$1len\$1target | 대상 시퀀스의 최대 길이. 이 길이보다 더 긴 시퀀스의 경우 이 길이로 잘립니다. **선택 사항** 유효한 값: 양수 기본 값: 100 | 
| min\$1num\$1epochs | `early_stopping` 조건을 통해 중지되기 전 훈련에서 실행해야 할 최소 epoch 수. **선택 사항** 유효한 값: 양수 기본값: 0 | 
| momentum | `sgd`에 대해 사용되는 모멘텀 상수. `adam` 또는 `rmsprop`를 사용하는 경우 이 파라미터를 전달하지 마세요. **선택 사항** 유효한 값: 부동 소수점 기본값: none | 
| num\$1embed\$1source | 소스 토큰에 대한 임베딩 크기. **선택 사항** 유효한 값: 양수 기본값: 512 | 
| num\$1embed\$1target | 대상 토큰에 대한 임베딩 크기. **선택 사항** 유효한 값: 양수 기본값: 512 | 
| num\$1layers\$1decoder | 디코더 *rnn* 또는 *cnn*에 대한 계층 수. **선택 사항** 유효한 값: 양수 기본값: 1 | 
| num\$1layers\$1encoder | 인코더 `rnn` 또는 `cnn`에 대한 계층 수. **선택 사항** 유효한 값: 양수 기본값: 1 | 
| optimized\$1metric | 조기 중지에 최적화된 지표. **선택 사항** 유효한 값: 문자열. `perplexity`, `accuracy` 또는 `bleu`. 기본값: `perplexity` | 
| optimizer\$1type | 옵티마이저 선택. **선택 사항** 유효한 값: 문자열. `adam`, `sgd` 또는 `rmsprop`. 기본값: `adam` | 
| plateau\$1reduce\$1lr\$1factor | 학습률을 곱하는 팩터(`plateau_reduce`의 경우). **선택 사항** 유효한 값: 부동 소수점 기본 값: 0.5 | 
| plateau\$1reduce\$1lr\$1threshold | `plateau_reduce` 스케줄러의 경우 `optimized_metric`이 체크포인트에 대해 개선되지 않은 경우 감소 팩터로 학습률을 곱합니다. **선택 사항** 유효한 값: 양수 기본값: 3 | 
| rnn\$1attention\$1in\$1upper\$1layers | 어텐션을  Google NMT paper와 같은 *rnn*의 상위 계층으로 전달합니다. 2개 이상의 계층이 사용되는 경우에만 해당됩니다. **선택 사항** 유효한 값: 부울(`true` 또는 `false`) 기본값: `true` | 
| rnn\$1attention\$1num\$1hidden | 어텐션 계층에 대한 숨겨진 유닛 수(기본값: `rnn_num_hidden`) **선택 사항** 유효한 값: 양수 기본값: `rnn_num_hidden` | 
| rnn\$1attention\$1type | 인코더의 어텐션 모델. Luong et al. 백서에 따르면 `mlp`는 concat를, bilinear는 general을 가리킵니다. **선택 사항** 유효한 값: 문자열. `dot`, `fixed`, `mlp` 또는 `bilinear` 중 하나 기본값: `mlp` | 
| rnn\$1cell\$1type | 특정 유형의 `rnn` 아키텍처 **선택 사항** 유효한 값: 문자열. `lstm` 또는 `gru`입니다. 기본값: `lstm` | 
| rnn\$1decoder\$1state\$1init | 인코더로부터 `rnn` 디코더 상태를 초기화하는 방법 **선택 사항** 유효한 값: 문자열. `last`, `avg` 또는 `zero`. 기본값: `last` | 
| rnn\$1first\$1residual\$1layer | 잔류 연결을 보유하는 첫 번째 *rnn* 계층으로, 인코더 또는 디코더의 계층 수가 2개 이상인 경우에만 해당됩니다. **선택 사항** 유효한 값: 양수 기본값: 2 | 
| rnn\$1num\$1hidden | 인코더 및 디코더에 대한 *rnn* 숨겨진 유닛 수. 이는 2의 배수여야 합니다. 알고리즘이 기본적으로 양방향 Long Term Short Term Memory(LSTM)를 사용하기 때문입니다. **선택 사항** 유효한 값: 양의 짝수. 기본값: 1024 | 
| rnn\$1residual\$1connections | 누적된 *rnn*에 잔류 연결을 추가합니다. 계층의 수는 2개 이상이어야 합니다. **선택 사항** 유효한 값: 부울(`true` 또는 `false`) 기본값: `false` | 
| rnn\$1decoder\$1hidden\$1dropout | 컨텍스트를 디코더의 *rnn* 숨겨진 상태와 결합한 숨겨진 상태에 대한 드롭아웃 가능성. **선택 사항** 유효한 값: 부동 소수점. 범위: [0,1]. 기본값: 0 | 
| training\$1metric | 평가 데이터에 대한 훈련 추적 지표. **선택 사항** 유효한 값: 문자열. `perplexity` 또는 `accuracy`입니다. 기본값: `perplexity` | 
| weight\$1decay | 가중치 감퇴 상수. **선택 사항** 유효한 값: 부동 소수점 기본값: 0 | 
| weight\$1init\$1scale | 가중치 초기화 규모(`uniform` 및 `xavier` 초기화의 경우). **선택 사항** 유효한 값: 부동 소수점 기본값: 2.34 | 
| weight\$1init\$1type | 가중치 초기화 유형. **선택 사항** 유효한 값: 문자열. `uniform` 또는 `xavier`입니다. 기본값: `xavier` | 
| xavier\$1factor\$1type | Xavier 팩터 유형. **선택 사항** 유효한 값: 문자열. `in`, `out` 또는 `avg`. 기본값: `in` | 