

 Amazon Redshift는 패치 198부터 새 Python UDF 생성을 더 이상 지원하지 않습니다. 기존 Python UDF는 2026년 6월 30일까지 계속 작동합니다. 자세한 내용은 [블로그 게시물](https://aws.amazon.com/blogs/big-data/amazon-redshift-python-user-defined-functions-will-reach-end-of-support-after-june-30-2026/)을 참조하세요.

# CREATE MODEL
<a name="r_CREATE_MODEL"></a>

**Topics**
+ [사전 조건](#r_create_model_prereqs)
+ [필수 권한](#r_simple_create_model-privileges)
+ [비용 관리](#r_create_model_cost)
+ [전체 CREATE MODEL](#r_full_create_model)
+ [파라미터](#r_create_model_parameters)
+ [사용 노트](r_create_model_usage_notes.md)
+ [사용 사례](r_create_model_use_cases.md)

## 사전 조건
<a name="r_create_model_prereqs"></a>

CREATE MODEL 문을 사용하기 전에 [Amazon Redshift 기계 학습 사용을 위한 클러스터 설정](getting-started-machine-learning.md#cluster-setup)의 사전 조건을 충족해야 합니다. 다음은 사전 조건을 개괄적으로 요약한 것입니다.
+ AWS 관리 콘솔 또는 AWS 명령줄 인터페이스(AWS CLI)를 사용하여 Amazon Redshift 클러스터를 생성합니다.
+ 클러스터를 생성하는 동안 AWS Identity and Access Management(IAM) 정책을 연결합니다.
+ Amazon Redshift와 SageMaker AI가 다른 서비스와 상호 작용하는 역할을 맡도록 허용하려면 IAM 역할에 적절한 신뢰 정책을 추가합니다.

IAM 역할, 신뢰 정책 및 기타 사전 조건에 대한 자세한 내용은 [Amazon Redshift 기계 학습 사용을 위한 클러스터 설정](getting-started-machine-learning.md#cluster-setup) 섹션을 참조하세요.

다음으로 CREATE MODEL 문에 대한 여러 사용 사례를 찾아볼 수 있습니다.
+ [단순 CREATE MODEL](r_create_model_use_cases.md#r_simple_create_model)
+ [사용자 안내에 따라 CREATE MODEL](r_create_model_use_cases.md#r_user_guidance_create_model)
+ [AUTO OFF로 CREATE XGBoost 모델](r_create_model_use_cases.md#r_auto_off_create_model)
+ [기존 보유 모델 사용(BYOM) - 로컬 추론](r_create_model_use_cases.md#r_byom_create_model)
+ [기존 보유 모델 사용(BYOM) - 원격 추론](r_create_model_use_cases.md#r_byom_create_model_remote)
+ [K-MEANS를 사용한 CREATE MODEL](r_create_model_use_cases.md#r_k-means_create_model)
+ [전체 CREATE MODEL](#r_full_create_model)

## 필수 권한
<a name="r_simple_create_model-privileges"></a>

CREATE MODEL에 필요한 권한은 다음과 같습니다.
+ 수퍼유저
+ CREATE MODEL 권한이 있는 사용자
+ GRANT CREATE MODEL 권한이 있는 역할

## 비용 관리
<a name="r_create_model_cost"></a>

 Amazon Redshift ML은 기존 클러스터 리소스를 사용하여 예측 모델을 생성하므로 추가 비용을 지불하지 않아도 됩니다. 그러나 클러스터 크기를 조정해야 하거나 모델을 훈련하려는 경우 추가 비용이 발생할 수 있습니다. Amazon Redshift AI 기계 학습은 모델 훈련에 Amazon SageMaker를 사용하며, 이 경우 추가 관련 비용이 발생합니다. 훈련에 소요되는 최대 시간을 제한하거나 모델 훈련에 사용되는 훈련 예제의 수를 제한하는 등 추가 비용을 관리하는 방법이 있습니다. 자세한 내용은 [Amazon Redshift 기계 학습 사용 비용](https://docs.aws.amazon.com/redshift/latest/dg/cost.html)을 참조하세요.

## 전체 CREATE MODEL
<a name="r_full_create_model"></a>

다음은 전체 CREATE MODEL 구문의 기본 옵션을 요약한 것입니다.

### 전체 CREATE MODEL 구문
<a name="r_auto_off-create-model-synposis"></a>

다음은 CREATE MODEL 문의 전체 구문입니다.

**중요**  
CREATE MODEL 문을 사용하여 모델을 생성할 때 다음 구문의 키워드 순서를 따릅니다.

```
CREATE MODEL model_name
FROM { table_name | ( select_statement )  | 'job_name' }
[ TARGET column_name ]
FUNCTION function_name [ ( data_type [, ...] ) ] 
[ RETURNS data_type ] 
  -- supported only for BYOM
[ SAGEMAKER 'endpoint_name'[:'model_name']] 
  -- supported only for BYOM remote inference
IAM_ROLE { default | 'arn:aws:iam::<account-id>:role/<role-name>' }
[ AUTO ON / OFF ]
  -- default is AUTO ON
[ MODEL_TYPE { XGBOOST | MLP | LINEAR_LEARNER | KMEANS | FORECAST } ]
  -- not required for non AUTO OFF case, default is the list of all supported types
  -- required for AUTO OFF
[ PROBLEM_TYPE ( REGRESSION | BINARY_CLASSIFICATION | MULTICLASS_CLASSIFICATION ) ]
  -- not supported when AUTO OFF
[ OBJECTIVE ( 'MSE' | 'Accuracy' | 'F1' | 'F1_Macro' | 'AUC' |
             'reg:squarederror' | 'reg:squaredlogerror'| 'reg:logistic'|
             'reg:pseudohubererror' | 'reg:tweedie' | 'binary:logistic' | 'binary:hinge',
             'multi:softmax' | 'RMSE' | 'WAPE' | 'MAPE' | 'MASE' | 'AverageWeightedQuantileLoss' ) ]
  -- for AUTO ON: first 5 are valid
  -- for AUTO OFF: 6-13 are valid
  -- for FORECAST: 14-18 are valid
[ PREPROCESSORS 'string' ]
  -- required for AUTO OFF, when it has to be 'none'
  -- optional for AUTO ON
[ HYPERPARAMETERS { DEFAULT | DEFAULT EXCEPT ( Key 'value' (,...) ) } ]
  -- support XGBoost hyperparameters, except OBJECTIVE
  -- required and only allowed for AUTO OFF
  -- default NUM_ROUND is 100
  -- NUM_CLASS is required if objective is multi:softmax (only possible for AUTO OFF)
 [ SETTINGS (
   S3_BUCKET 'amzn-s3-demo-bucket',  |
    -- required
  TAGS 'string', |
    -- optional
  KMS_KEY_ID 'kms_string', |
    -- optional
  S3_GARBAGE_COLLECT on / off, |
    -- optional, defualt is on.
  MAX_CELLS integer, |
    -- optional, default is 1,000,000
  MAX_RUNTIME integer (, ...) |
    -- optional, default is 5400 (1.5 hours)
  HORIZON integer, |
    -- required if creating a forecast model
  FREQUENCY integer, |
    -- required if creating a forecast model
  PERCENTILES string, |
    -- optional if creating a forecast model
  MAX_BATCH_ROWS integer -- optional for BYOM remote inference
    ) ]
```

## 파라미터
<a name="r_create_model_parameters"></a>

model\$1name  
모델의 이름입니다. 스키마의 모델 이름은 고유해야 합니다.

FROM \$1 *table\$1name* \$1 ( *select\$1query* ) \$1 *'job\$1name'*\$1  
table\$1name 또는 훈련 데이터를 지정하는 쿼리입니다. 시스템의 기존 테이블이거나 괄호로 묶인 Amazon Redshift 호환 SELECT 쿼리, 즉 ()일 수 있습니다. 쿼리 결과에는 2개 이상의 열이 있어야 합니다.

TARGET *column\$1name*  
예측 대상이 되는 열의 이름입니다. FROM 절에 열이 있어야 합니다.

FUNCTION *function\$1name* ( *data\$1type* [, ...] )  
생성할 함수의 이름과 입력 인수의 데이터 형식입니다. 데이터베이스에 있는 스키마의 스키마 이름을 함수 이름 대신 입력할 수 있습니다.

RETURNS *data\$1type*  
모델의 함수에서 반환할 데이터 형식입니다. 반환된 `SUPER` 데이터 형식은 원격 추론이 있는 BYOM에만 적용됩니다.

SAGEMAKER *'endpoint\$1name'*[:*'model\$1name'*]  
Amazon SageMaker AI 엔드포인트의 이름입니다. 엔드포인트 이름이 다중 모델 엔드포인트를 가리키는 경우 사용할 모델의 이름을 추가합니다. 엔드포인트는 Amazon Redshift 클러스터와 동일한 AWS 리전에서 호스팅되어야 합니다.

IAM\$1ROLE \$1 default \$1 'arn:aws:iam::<account-id>:role/<role-name>'\$1  
 기본 키워드를 사용하여 CREATE MODEL 명령이 실행될 때 Amazon Redshift에서 기본값으로 설정되고 클러스터와 연결된 IAM 역할을 사용하도록 합니다. 또는 IAM 역할의 ARN을 지정하여 해당 역할을 사용할 수도 있습니다.

[ AUTO ON / OFF ]  
 전처리기, 알고리즘 및 하이퍼파라미터 선택의 CREATE MODEL 자동 검색을 켜거나 끕니다. 예측 모델을 생성할 때 on을 지정하면 Amazon Forecast가 데이터 세트의 각 시계열에 최적의 알고리즘 조합을 적용하는 AutoPredictor를 사용한다는 뜻입니다.

 *MODEL\$1TYPE \$1 XGBOOST \$1 MLP \$1 LINEAR\$1LEARNER \$1 KMEANS \$1 FORECAST \$1*   
(옵션) 모델 유형을 지정합니다. XGBoost, 다층 퍼셉트론(MLP), KMEANS 또는 Linear Learner와 같은 특정 모델 유형의 모델을 훈련할지 여부를 지정할 수 있습니다. 이 모델은 모두 Amazon SageMaker AI Autopilot에서 지원하는 알고리즘입니다. 파라미터를 지정하지 않으면 지원되는 모든 모델 유형이 훈련 중 최상의 모델을 찾기 위해 검색됩니다. 또한 Redshift ML에서 예측 모델을 생성하여 정확한 시계열 예측을 생성할 수도 있습니다.

 *PROBLEM\$1TYPE ( REGRESSION \$1 BINARY\$1CLASSIFICATION \$1 MULTICLASS\$1CLASSIFICATION )*   
(옵션) 문제 유형을 지정합니다. 문제 유형을 알고 있는 경우 해당 특정 모델 유형의 최상의 모델만 검색하도록 Amazon Redshift를 제한할 수 있습니다. 이 파라미터를 지정하지 않으면 데이터를 기반으로 훈련 중 문제 유형이 검색됩니다.

OBJECTIVE ( 'MSE' \$1 'Accuracy' \$1 'F1' \$1 'F1Macro' \$1 'AUC' \$1 'reg:squarederror' \$1 'reg:squaredlogerror' \$1 'reg:logistic' \$1 'reg:pseudohubererror' \$1 'reg:tweedie' \$1 'binary:logistic' \$1 'binary:hinge' \$1 'multi:softmax' \$1 'RMSE' \$1 'WAPE' \$1 'MAPE' \$1 'MASE' \$1 'AverageWeightedQuantileLoss' )  
(옵션) 기계 학습 시스템의 예측 품질을 측정하는 데 사용되는 목표 지표의 이름을 지정합니다. 이 지표는 데이터의 모델 파라미터 값에 대한 최상의 추정치를 제공하기 위해 훈련 중에 최적화됩니다. 지표를 명시적으로 지정하지 않은 경우 기본 동작은 MSE(회귀 분석의 경우), F1(이진 분류의 경우), 정확도(다중 클래스 분류의 경우)를 자동으로 사용하는 것입니다. 목표에 대한 자세한 내용은 *Amazon SageMaker AI API Reference*의 [AutoMLJobObjective](https://docs.aws.amazon.com//sagemaker/latest/APIReference/API_AutoMLJobObjective.html) 및 XGBOOST 설명서의 [Learning task parameters](https://xgboost.readthedocs.io/en/latest/parameter.html#learning-task-parameters)를 참조하세요 RMSE, WAPE, MAPE, MASE 및 AverageWeightedQuantileLoss 값은 예측 모델에만 적용할 수 있습니다. 자세한 내용은 [CreateAutoPredictor](https://docs.aws.amazon.com/forecast/latest/dg/API_CreateAutoPredictor.html#forecast-CreateAutoPredictor-request-OptimizationMetric) API 작업을 참조하세요.

 *PREPROCESSORS 'string' *   
(옵션) 특정 열 집합에 대한 전처리기의 특정 조합을 지정합니다. 형식은 columnSet의 목록과 각 열 집합에 적용할 적절한 변환입니다. Amazon Redshift는 특정 변환기 목록의 모든 변환기를 해당 ColumnSet의 모든 열에 적용합니다. 예를 들어 Imputer가 있는 OneHotEncoder를 열 t1 및 t2에 적용하려면 다음 샘플 명령을 사용합니다.  

```
CREATE MODEL customer_churn
FROM customer_data
TARGET 'Churn'
FUNCTION predict_churn
IAM_ROLE { default | 'arn:aws:iam::<account-id>:role/<role-name>' }
PROBLEM_TYPE BINARY_CLASSIFICATION
OBJECTIVE 'F1'
PREPROCESSORS '[
...
  {"ColumnSet": [
      "t1",
      "t2"
    ],
    "Transformers": [
      "OneHotEncoder",
      "Imputer"
    ]
  },
  {"ColumnSet": [
      "t3"
    ],
    "Transformers": [
      "OneHotEncoder"
    ]
  },
  {"ColumnSet": [
      "temp"
    ],
    "Transformers": [
      "Imputer",
      "NumericPassthrough"
    ]
  }
]'
SETTINGS (
  S3_BUCKET 'amzn-s3-demo-bucket'
)
```

HYPERPARAMETERS \$1 DEFAULT \$1 DEFAULT EXCEPT ( key ‘value’ (,..) ) \$1  
기본 XGBoost 파라미터가 사용되는지 아니면 사용자 지정 값으로 재정의되는지를 지정합니다. 작은따옴표로 값을 묶여야 합니다. 다음은 XGBoost에 대한 파라미터와 해당 기본값의 예입니다.      
[\[See the AWS documentation website for more details\]](http://docs.aws.amazon.com/ko_kr/redshift/latest/dg/r_CREATE_MODEL.html)

SETTINGS ( S3\$1BUCKET *'amzn-s3-demo-bucket'*, \$1 TAGS 'string', \$1 KMS\$1KEY\$1ID *'kms\$1string' *, \$1 S3\$1GARBAGE\$1COLLECT on / off, \$1 MAX\$1CELLS integer , \$1 MAX\$1RUNTIME (,...) , \$1 HORIZON integer, \$1 FREQUENCY forecast\$1frequency, \$1 PERCENTILES array of strings )  
S3\$1BUCKET 절은 중간 결과를 저장하는 데 사용되는 Amazon S3 위치를 지정합니다.  
(선택 사항) TAGS 파라미터는 쉼표로 구분된 키-값 쌍의 목록으로, Amazon SageMaker AI에서 생성한 리소스에 태그를 지정하는 데 사용할 수 있으며 Amazon Forecast에 사용할 수 있습니다. 태그는 리소스를 구성하고 비용을 할당하는 데 도움이 됩니다 쌍의 값은 선택 사항이므로 `key=value` 형식을 사용하거나 키만 생성하여 태그를 만들 수 있습니다. Amazon Redshift의 태그에 대한 자세한 내용은 [태그 개요](https://docs.aws.amazon.com/redshift/latest/mgmt/amazon-redshift-tagging.html)를 참조하세요.  
(선택 사항) KMS\$1KEY\$1ID는 Amazon Redshift가 AWS KMS 키로 서버 측 암호화를 사용하여 저장 데이터를 보호할지 여부를 지정합니다. 전송 중인 데이터는 보안 소켓 계층(SSL)으로 보호됩니다.  
(선택 사항) S3\$1GARBAGE\$1COLLECT \$1 ON \$1 OFF \$1는 Amazon Redshift가 모델 훈련에 사용되는 결과 데이터 세트에 대해 가비지 수집을 수행할지 여부를 지정합니다. OFF로 설정하면 모델 훈련에 사용된 결과 데이터 집합과 모델이 Amazon S3에 남아 다른 용도로 사용할 수 있습니다. ON으로 설정하면 훈련이 완료된 후 Amazon Redshift가 Amazon S3에서 아티팩트를 삭제합니다. 기본값은 ON입니다.  
(선택 사항) MAX\$1CELLS는 훈련 데이터의 셀 수를 지정합니다. 이 값은 레코드 수(훈련 쿼리 또는 테이블)에 열 수를 곱한 값입니다. 기본값은 1,000,000입니다.  
(선택 사항) MAX\$1RUNTIME은 훈련할 최대 시간을 지정합니다. 데이터 집합 크기에 따라 훈련 작업이 더 빨리 완료되는 경우가 많습니다. 이는 훈련에 소요되는 최대 시간을 지정합니다. 기본값은 5,400(90분)입니다.  
HORIZON은 예측 모델이 반환할 수 있는 최대 예측 수를 지정합니다. 모델을 학습시킨 후에는 이 정수를 변경할 수 없습니다. 이 파라미터는 예측 모델을 학습하는 경우 필요합니다.  
FREQUENCY는 예측을 얼마나 세분화된 시간 단위로 설정할지를 지정합니다. 사용 가능한 옵션은 `Y | M | W | D | H | 30min | 15min | 10min | 5min | 1min`입니다. 이 파라미터는 예측 모델을 학습하는 경우 필요합니다.  
(선택 사항) PERCENTILES는 예측기를 훈련하는 데 사용되는 예측 유형을 지정하는 쉼표로 구분된 문자열입니다. 예측 유형은 0.01에서 0.99까지의 사분위수(0.01 이상 증분)일 수 있습니다. 평균을 사용하여 평균 예측을 지정할 수도 있습니다. 최대 5개의 예측 유형을 지정할 수 있습니다.

 MAX\$1BATCH\$1ROWS *정수*   
(선택) Amazon Redshift가 단일 SageMaker AI 간접 호출에 대한 단일 배치 요청으로 보내는 최대 행 수입니다. 원격 추론 기능이 있는 BYOM에만 지원됩니다. 이 파라미터의 최소값은 1입니다. 최대값은 `INT_MAX` 또는 2,147,483,647입니다. 이 파라미터는 입력 및 반환 데이터 형식이 모두 *SUPER*인 경우에만 필요합니다. 기본값은 `INT_MAX` 또는 2,147,483,647입니다.

# 사용 노트
<a name="r_create_model_usage_notes"></a>

CREATE MODEL을 사용할 때는 다음 사항을 고려하세요.
+ CREATE MODEL 문은 비동기 모드에서 작동하며 Amazon S3로 훈련 데이터를 내보낼 때 반환됩니다. Amazon SageMaker AI의 나머지 훈련 단계는 백그라운드에서 진행됩니다. 훈련이 진행되는 동안 해당 추론 함수가 표시되지만 실행할 수는 없습니다. [STV\$1ML\$1MODEL\$1INFO](r_STV_ML_MODEL_INFO.md)를 쿼리하여 훈련 상태를 볼 수 있습니다.
+ 훈련은 기본적으로 자동 모델에서 백그라운드로 최대 90분 동안 실행될 수 있으며 확장될 수 있습니다. 훈련을 취소하려면 [DROP MODEL](r_DROP_MODEL.md) 명령을 실행하기만 하면 됩니다.
+ 모델을 생성하는 데 사용되는 Amazon Redshift 클러스터와 훈련 데이터 및 모델 아티팩트를 준비하는 데 사용되는 Amazon S3 버킷은 동일한 AWS 리전에 있어야 합니다.
+ 모델 훈련 중 Amazon Redshift 및 SageMaker AI는 사용자가 제공하는 Amazon S3 버킷에 중간 아티팩트를 저장합니다. 기본적으로 Amazon Redshift는 CREATE MODEL 작업이 끝날 때 가비지 수집을 수행합니다. Amazon Redshift는 Amazon S3에서 해당 객체를 제거합니다. Amazon S3에 이러한 아티팩트를 유지하려면 S3\$1GARBAGE COLLECT OFF 옵션을 설정합니다.
+ FROM 절에 제공된 훈련 데이터에서 최소 500개의 행을 사용해야 합니다.
+ CREATE MODEL 문을 사용할 때 FROM \$1 table\$1name \$1 ( select\$1query ) \$1 절에 특성(입력) 열을 최대 256개까지만 지정할 수 있습니다.
+ AUTO ON의 경우 훈련 집합으로 사용할 수 있는 열 형식은 SMALLINT, INTEGER, BIGINT, DECIMAL, REAL, DOUBLE, BOOLEAN, CHAR, VARCHAR, DATE, TIME, TIMETZ, TIMESTAMP 및 TIMESTAMPTZ입니다. AUTO OFF의 경우 훈련 집합으로 사용할 수 있는 열 형식은 SMALLINT, INTEGER, BIGINT, DECIMAL, REAL, DOUBLE 및 BOOLEAN입니다.
+ DECIMAL, DATE, TIME, TIMETZ, TIMESTAMP, TIMESTAMPTZ, GEOMETRY, GEOGRAPHY, HLLSKETCH, SUPER 또는 VARBYTE는 대상 열 형식으로 사용할 수 없습니다.
+ 모델 정확도를 높이려면 다음 중 하나를 수행합니다.
  + FROM 절에 훈련 데이터를 지정할 때 CREATE MODEL 명령에 가능한 한 많은 관련 열을 추가합니다.
  + MAX\$1RUNTIME 및 MAX\$1CELLS에 더 큰 값을 사용합니다. 이 파라미터의 값이 클수록 모델 학습 비용이 증가합니다.
+ 훈련 데이터가 계산되어 Amazon S3 버킷으로 내보내는 즉시 CREATE MODEL 문 실행이 돌아옵니다. 그 이후에는 SHOW MODEL 명령을 사용하여 훈련 상태를 확인할 수 있습니다. 백그라운드에서 훈련 중인 모델이 실패하면 SHOW MODEL을 사용하여 오류를 확인할 수 있습니다. 실패한 모델은 재시도할 수 없습니다. DROP MODEL을 사용하여 실패한 모델을 제거하고 새 모델을 다시 생성합니다. SHOW MODEL에 대한 자세한 내용은 [SHOW MODEL](r_SHOW_MODEL.md) 섹션을 참조하세요.
+ 로컬 BYOM은 Amazon Redshift 기계 학습에서 BYOM이 아닌 경우에 지원하는 것과 동일한 종류의 모델을 지원합니다. Amazon Redshift는 일반 XGBoost(XGBoost 버전 1.0 이상 사용), 프리프로세서가 없는 KMEANS 모델 및 Amazon SageMaker AI Autopilot에서 훈련된 XGBOOST/MLP/Linear Learner 모델을 지원합니다. Amazon SageMaker AI Neo에서도 지원하는 Autopilot이 지정한 전처리기로 후자를 지원합니다.
+ Amazon Redshift 클러스터에서 가상 프라이빗 클라우드(VPC)에 향상된 라우팅을 사용하는 경우 클러스터가 있는 VPC에 대해 Amazon S3 VPC 엔드포인트와 SageMaker AI VPC 엔드포인트를 생성해야 합니다. 이렇게 하면 CREATE MODEL을 수행하는 동안 이러한 서비스 간에 VPC를 통해 트래픽을 실행할 수 있습니다. 자세한 내용은 [SageMaker AI Clarify Job Amazon VPC Subnets and Security Groups](https://docs.aws.amazon.com/sagemaker/latest/dg/clarify-vpc.html#clarify-vpc-job)을 참조하세요.

# 사용 사례
<a name="r_create_model_use_cases"></a>

다음 사용 사례는 필요에 맞게 CREATE MODEL을 사용하는 방법을 보여줍니다.

## 단순 CREATE MODEL
<a name="r_simple_create_model"></a>

다음은 CREATE MODEL 구문의 기본 옵션을 요약한 것입니다.

### 단순 CREATE MODEL 구문
<a name="r_simple-create-model-synposis"></a>

```
CREATE MODEL model_name
FROM { table_name | ( select_query ) }
TARGET column_name
FUNCTION prediction_function_name
IAM_ROLE { default }
SETTINGS (
  S3_BUCKET 'amzn-s3-demo-bucket',
  [ MAX_CELLS integer ]
)
```

### 단순 CREATE MODEL 파라미터
<a name="r_simple-create-model-parameters"></a>

 *model\$1name*   
모델의 이름입니다. 스키마의 모델 이름은 고유해야 합니다.

FROM \$1 *table\$1name* \$1 ( *select\$1query* ) \$1  
table\$1name 또는 훈련 데이터를 지정하는 쿼리입니다. 시스템의 기존 테이블이거나 괄호로 묶인 Amazon Redshift 호환 SELECT 쿼리, 즉 ()일 수 있습니다. 쿼리 결과에는 2개 이상의 열이 있어야 합니다.

TARGET *column\$1name*  
예측 대상이 되는 열의 이름입니다. FROM 절에 열이 있어야 합니다.

FUNCTION *prediction\$1function\$1name*   
CREATE MODEL에서 생성하고 이 모델을 사용하여 예측하는 데 사용할 Amazon Redshift 기계 학습 함수의 이름을 지정하는 값입니다. 이 함수는 모델 객체와 동일한 스키마에 생성되며 오버로드될 수 있습니다.  
Amazon Redshift 기계 학습은 회귀 및 분류를 위한 XGBoost(Xtreme Gradient Boosted tree) 모델과 같은 모델을 지원합니다.

IAM\$1ROLE \$1 default \$1 'arn:aws:iam::<account-id>:role/<role-name>' \$1  
 기본 키워드를 사용하여 CREAT MODEL 명령이 실행될 때 Amazon Redshift에서 기본값으로 설정되고 클러스터와 연결된 IAM 역할을 사용하도록 합니다. 또는 IAM 역할의 ARN을 지정하여 해당 역할을 사용할 수도 있습니다.

 *S3\$1BUCKET *'amzn-s3-demo-bucket'**  
이전에 만든 Amazon S3 버킷의 이름은 Amazon Redshift와 SageMaker AI 간에 훈련 데이터와 아티팩트를 공유하는 데 사용됩니다. Amazon Redshift는 훈련 데이터를 언로드하기 전에 이 버킷에 하위 폴더를 생성합니다. 훈련이 완료되면 Amazon Redshift는 생성된 하위 폴더와 해당 콘텐츠를 삭제합니다.

MAX\$1CELLS 정수   
FROM 절에서 내보낼 최대 셀 수입니다. 기본값은 1,000,000입니다.  
셀 수는 훈련 데이터의 행 수(FROM 절 테이블 또는 쿼리에 의해 생성됨)에 열 수를 곱한 값입니다. 훈련 데이터의 셀 수가 max\$1cells 파라미터에 지정된 것보다 많은 경우 CREATE MODEL은 FROM 절 훈련 데이터를 다운샘플링하여 훈련 집합의 크기를 MAX\$1CELLS 미만으로 줄입니다. 더 큰 훈련 데이터 집합을 허용하면 정확도를 높일 수 있지만 모델을 훈련하는 데 더 많은 시간과 비용이 더 많이 들 수 있습니다.  
Amazon Redshift 사용 비용에 대한 자세한 내용은 [Amazon Redshift 기계 학습 사용 비용](cost.md) 섹션을 참조하세요.  
다양한 셀 번호와 관련된 비용 및 무료 평가판 세부 정보에 대한 자세한 내용은 [Amazon Redshift 요금](https://aws.amazon.com/redshift/pricing) 섹션을 참조하세요.

## 사용자 안내에 따라 CREATE MODEL
<a name="r_user_guidance_create_model"></a>

다음으로 [단순 CREATE MODEL](#r_simple_create_model)에 설명된 옵션 외에 CREATE MODEL에 대한 옵션에 대한 설명을 찾아볼 수 있습니다.

기본적으로 CREATE MODEL은 특정 데이터 집합에 대한 최적의 전처리 및 모델 조합을 검색합니다. 추가 제어를 원하거나 모델에 대한 추가 도메인 지식(예: 문제 유형 또는 목표)을 도입할 수 있습니다. 고객 이탈 시나리오에서 "고객이 활동하고 있지 않음"이라는 결과가 드물다면 F1 목표가 정확도 목표보다 선호되는 경우가 많습니다. 높은 정확도 모델은 항상 "고객이 활동하고 있음"이라고 예측할 수 있기 때문에 정확도는 높지만 비즈니스 가치는 거의 없습니다. F1 목표에 대한 자세한 내용은 *Amazon SageMaker AI API Reference*의 [AutoMLJobObjective](https://docs.aws.amazon.com//sagemaker/latest/APIReference/API_AutoMLJobObjective.html) 섹션을 참조하세요.

그런 다음 CREATE MODEL은 목표와 같은 지정된 측면에 대한 제안을 따릅니다. 동시에 CREATE MODEL은 최고의 전처리기와 최고의 하이퍼파라미터를 자동으로 검색합니다.

### 사용자 안내 구문으로 CREATE MODEL
<a name="r_user_guidance-create-model-synposis"></a>

CREATE MODEL은 지정할 수 있는 측면과 Amazon Redshift가 자동으로 검색하는 측면에서 더 많은 유연성을 제공합니다.

```
CREATE MODEL model_name
FROM { table_name | ( select_statement ) }
TARGET column_name
FUNCTION function_name
IAM_ROLE { default }
[ MODEL_TYPE { XGBOOST | MLP | LINEAR_LEARNER} ]
[ PROBLEM_TYPE ( REGRESSION | BINARY_CLASSIFICATION | MULTICLASS_CLASSIFICATION ) ]
[ OBJECTIVE ( 'MSE' | 'Accuracy' | 'F1' | 'F1Macro' | 'AUC') ]
SETTINGS (
  S3_BUCKET 'amzn-s3-demo-bucket', |
  S3_GARBAGE_COLLECT { ON | OFF }, |
  KMS_KEY_ID 'kms_key_id', |
  MAX_CELLS integer, |
  MAX_RUNTIME integer (, ...)
)
```

### 사용자 안내 파라미터로 CREATE MODEL
<a name="r_user_guidance-create-model-parameters"></a>

 *MODEL\$1TYPE \$1 XGBOOST \$1 MLP \$1 LINEAR\$1LEARNER \$1*   
(옵션) 모델 유형을 지정합니다. XGBoost, 다층 퍼셉트론(MLP) 또는 Linear Learner와 같은 특정 모델 유형의 모델을 교육할지 여부를 지정할 수 있습니다. 이 모델은 모두 Amazon SageMaker AI Autopilot에서 지원하는 알고리즘입니다. 파라미터를 지정하지 않으면 지원되는 모든 모델 유형이 훈련 중 최상의 모델을 찾기 위해 검색됩니다.

 *PROBLEM\$1TYPE ( REGRESSION \$1 BINARY\$1CLASSIFICATION \$1 MULTICLASS\$1CLASSIFICATION )*   
(옵션) 문제 유형을 지정합니다. 문제 유형을 알고 있는 경우 해당 특정 모델 유형의 최상의 모델만 검색하도록 Amazon Redshift를 제한할 수 있습니다. 이 파라미터를 지정하지 않으면 데이터를 기반으로 훈련 중 문제 유형이 검색됩니다.

OBJECTIVE ( 'MSE' \$1 'Accuracy' \$1 'F1' \$1 'F1Macro' \$1 'AUC')  
(옵션) 기계 학습 시스템의 예측 품질을 측정하는 데 사용되는 목표 지표의 이름을 지정합니다. 이 지표는 데이터의 모델 파라미터 값에 대한 최상의 추정치를 제공하기 위해 훈련 중에 최적화됩니다. 지표를 명시적으로 지정하지 않은 경우 기본 동작은 MSE(회귀 분석의 경우), F1(이진 분류의 경우), 정확도(다중 클래스 분류의 경우)를 자동으로 사용하는 것입니다. 목표에 대한 자세한 내용은 *Amazon SageMaker AI API Reference*의 [AutoMLJobObjective](https://docs.aws.amazon.com//sagemaker/latest/APIReference/API_AutoMLJobObjective.html) 섹션을 참조하세요.

MAX\$1CELLS 정수   
(옵션) 훈련 데이터의 셀 수를 지정합니다. 이 값은 레코드 수(훈련 쿼리 또는 테이블)에 열 수를 곱한 값입니다. 기본값은 1,000,000입니다.

MAX\$1RUNTIME 정수   
(옵션) 훈련할 최대 시간을 지정합니다. 데이터 집합 크기에 따라 훈련 작업이 더 빨리 완료되는 경우가 많습니다. 이는 훈련에 소요되는 최대 시간을 지정합니다. 기본값은 5,400(90분)입니다.

S3\$1GARBAGE\$1COLLECT \$1 ON \$1 OFF \$1  
(옵션) Amazon Redshift가 모델 훈련에 사용되는 결과 데이터 집합에 대해 가비지 수집을 수행할지 여부를 지정합니다. OFF로 설정하면 모델 훈련에 사용된 결과 데이터 집합과 모델이 Amazon S3에 남아 다른 용도로 사용할 수 있습니다. ON으로 설정하면 훈련이 완료된 후 Amazon Redshift가 Amazon S3에서 아티팩트를 삭제합니다. 기본값은 ON입니다.

KMS\$1KEY\$1ID 'kms\$1key\$1id'  
(옵션) Amazon Redshift가 AWS KMS 키로 서버 측 암호화를 사용하여 저장된 데이터를 보호할지 여부를 지정합니다. 전송 중인 데이터는 보안 소켓 계층(SSL)으로 보호됩니다.

 *PREPROCESSORS 'string' *   
(옵션) 특정 열 집합에 대한 전처리기의 특정 조합을 지정합니다. 형식은 columnSet의 목록과 각 열 집합에 적용할 적절한 변환입니다. Amazon Redshift는 특정 변환기 목록의 모든 변환기를 해당 ColumnSet의 모든 열에 적용합니다. 예를 들어 Imputer가 있는 OneHotEncoder를 열 t1 및 t2에 적용하려면 다음 샘플 명령을 사용합니다.  

```
CREATE MODEL customer_churn
FROM customer_data
TARGET 'Churn'
FUNCTION predict_churn
IAM_ROLE { default | 'arn:aws:iam::<account-id>:role/<role-name>' }
PROBLEM_TYPE BINARY_CLASSIFICATION
OBJECTIVE 'F1'
PREPROCESSORS '[
...
{"ColumnSet": [
    "t1",
    "t2"
  ],
  "Transformers": [
    "OneHotEncoder",
    "Imputer"
  ]
},
{"ColumnSet": [
    "t3"
  ],
  "Transformers": [
    "OneHotEncoder"
  ]
},
{"ColumnSet": [
    "temp"
  ],
  "Transformers": [
    "Imputer",
    "NumericPassthrough"
  ]
}
]'
SETTINGS (
S3_BUCKET 'amzn-s3-demo-bucket'
)
```

Amazon Redshift는 다음 변환기를 지원합니다.
+ OneHotEncoder - 일반적으로 이산 값을 하나의 0이 아닌 값이 있는 이진 벡터로 인코딩하는 데 사용됩니다. 이 변환기는 많은 기계 학습 모델에 적합합니다.
+ OrdinalEncoder – 이산 값을 단일 정수로 인코딩합니다. 이 변환기는 MLP 및 Linear Learner와 같은 특정 기계 학습 모델에 적합합니다.
+ NumericPassthrough – 입력을 있는 그대로 모델에 전달합니다.
+ Imputer – 누락된 값과 NaN(Not a Number) 값을 채웁니다.
+ ImputerWithIndicator – 누락된 값과 NaN 값을 채웁니다. 또한 이 변환기는 누락되어 채워진 값이 있는지 여부에 대한 표시기를 생성합니다.
+ Normalizer – 많은 기계 학습 알고리즘의 성능을 향상시킬 수 있는 값을 정규화합니다.
+ DateTimeVectorizer - 기계 학습 모델에서 사용할 수 있는 날짜/시간 데이터 형식의 열을 나타내는 벡터 임베딩을 생성합니다.
+ PCA - 가능한 한 많은 정보를 유지하면서 특성 수를 줄이기 위해 데이터를 저차원 공간에 표시합니다.
+ StandardScaler – 평균을 제거하고 단위 분산에 맞게 조정하여 특성을 표준화합니다.
+ MinMax – 각 특성을 지정된 범위로 확장하여 특성을 변환합니다.

Amazon Redshift 기계 학습은 훈련된 변환기를 저장하고 예측 쿼리의 일부로 자동 적용합니다. 모델에서 예측을 생성할 때는 변환기를 지정할 필요가 없습니다.

## AUTO OFF로 CREATE XGBoost 모델
<a name="r_auto_off_create_model"></a>

AUTO OFF CREATE MODEL은 일반적으로 기본 CREATE MODEL과 다른 목표를 가지고 있습니다.

원하는 모델 유형과 이러한 모델을 훈련할때 사용할 하이퍼파라미터를 이미 알고 있는 고급 사용자는 AUTO OFF와 함께 CREATE MODEL을 사용하여 전처리기 및 하이퍼파라미터의 CREATE MODEL 자동 검색을 해제할 수 있습니다. 이를 위해서는 모델 유형을 명시적으로 지정합니다. XGBoost는 현재 AUTO가 OFF로 설정된 경우 지원되는 유일한 모델 유형입니다. 하이퍼파라미터를 지정할 수 있습니다. Amazon Redshift는 지정한 하이퍼파라미터에 대해 기본값을 사용합니다.

### AUTO OFF 구문이 있는 CREATE XGBoost 모델
<a name="r_auto_off-create-model-synposis"></a>

```
CREATE MODEL model_name
FROM { table_name | (select_statement ) }
TARGET column_name
FUNCTION function_name
IAM_ROLE { default }
AUTO OFF
MODEL_TYPE XGBOOST
OBJECTIVE { 'reg:squarederror' | 'reg:squaredlogerror' | 'reg:logistic' |
            'reg:pseudohubererror' | 'reg:tweedie' | 'binary:logistic' | 'binary:hinge' |
            'multi:softmax' | 'rank:pairwise' | 'rank:ndcg' }
HYPERPARAMETERS DEFAULT EXCEPT (
    NUM_ROUND '10',
    ETA '0.2',
    NUM_CLASS '10',
    (, ...)
)
PREPROCESSORS 'none'
SETTINGS (
  S3_BUCKET 'amzn-s3-demo-bucket', |
  S3_GARBAGE_COLLECT { ON | OFF }, |
  KMS_KEY_ID 'kms_key_id', |
  MAX_CELLS integer, |
  MAX_RUNTIME integer (, ...)
)
```

### AUTO OFF 파라미터로 CREATE XGBoost 모델
<a name="r_auto_off-create-model-parameters"></a>

 *AUTO OFF*   
전처리기, 알고리즘 및 하이퍼파라미터 선택의 CREATE MODEL 자동 검색을 해제합니다.

MODEL\$1TYPE XGBOOST  
XGBOOST를 사용하여 모델을 훈련하도록 지정합니다.

OBJECTIVE str  
알고리즘에서 인식하는 목표를 지정합니다. Amazon Redshift는 reg:squarederror, reg:squaredlogerror, reg:logistic, reg:pseudohubererror, reg:tweedie, binary:logistic, binary:hinge, multi:softmax를 지원합니다. 이러한 목표에 대한 자세한 내용은 XGBoost 설명서의 [Learning task parameters](https://xgboost.readthedocs.io/en/latest/parameter.html#learning-task-parameters) 섹션을 참조하세요.

HYPERPARAMETERS \$1 DEFAULT \$1 DEFAULT EXCEPT ( key ‘value’ (,..) ) \$1  
기본 XGBoost 파라미터가 사용되는지 아니면 사용자 지정 값으로 재정의되는지를 지정합니다. 작은따옴표로 값을 묶여야 합니다. 다음은 XGBoost에 대한 파라미터와 해당 기본값의 예입니다.      
[\[See the AWS documentation website for more details\]](http://docs.aws.amazon.com/ko_kr/redshift/latest/dg/r_create_model_use_cases.html)

다음 예에서는 XGBoost용 데이터를 준비합니다.

```
DROP TABLE IF EXISTS abalone_xgb;

CREATE TABLE abalone_xgb (
length_val float,
diameter float,
height float,
whole_weight float,
shucked_weight float,
viscera_weight float,
shell_weight float,
rings int,
record_number int);

COPY abalone_xgb
FROM 's3://redshift-downloads/redshift-ml/abalone_xg/'
REGION 'us-east-1'
IAM_ROLE default
IGNOREHEADER 1 CSV;
```

다음 예에서는 MODEL\$1TYPE, OBJECTIVE 및 PREPROCESSORS와 같은 고급 옵션이 지정된 XGBoost 모델을 생성합니다.

```
DROP MODEL abalone_xgboost_multi_predict_age;

CREATE MODEL abalone_xgboost_multi_predict_age
FROM ( SELECT length_val,
              diameter,
              height,
              whole_weight,
              shucked_weight,
              viscera_weight,
              shell_weight,
              rings
   FROM abalone_xgb WHERE record_number < 2500 )
TARGET rings FUNCTION ml_fn_abalone_xgboost_multi_predict_age
IAM_ROLE default
AUTO OFF
MODEL_TYPE XGBOOST
OBJECTIVE 'multi:softmax'
PREPROCESSORS 'none'
HYPERPARAMETERS DEFAULT EXCEPT (NUM_ROUND '100', NUM_CLASS '30')
SETTINGS (S3_BUCKET 'amzn-s3-demo-bucket');
```

다음 예에서는 추론 쿼리를 사용하여 레코드 번호가 2,500보다 큰 물고기의 나이를 예측합니다. 위의 명령에서 생성된 ml\$1fn\$1abalone\$1xgboost\$1multi\$1predict\$1age 함수가 사용됩니다.

```
select ml_fn_abalone_xgboost_multi_predict_age(length_val,
                                                   diameter,
                                                   height,
                                                   whole_weight,
                                                   shucked_weight,
                                                   viscera_weight,
                                                   shell_weight)+1.5 as age
from abalone_xgb where record_number > 2500;
```

## 기존 보유 모델 사용(BYOM) - 로컬 추론
<a name="r_byom_create_model"></a>

Amazon Redshift 기계 학습은 로컬 추론에서 기존 보유 모델 사용(BYOM)을 지원합니다.

다음은 BYOM용 CREATE MODEL 구문에 대한 옵션을 요약한 것입니다. Amazon Redshift에서 로컬로 데이터베이스 내 추론을 위해 Amazon SageMaker AI와 함께 Amazon Redshift 외부에서 훈련된 모델을 사용할 수 있습니다.

### 로컬 추론을 위한 CREATE MODEL 구문
<a name="r_local-create-model"></a>

다음은 로컬 추론을 위한 CREATE MODEL 구문에 대한 설명입니다.

```
CREATE MODEL model_name
FROM ('job_name' | 's3_path' )
FUNCTION function_name ( data_type [, ...] )
RETURNS data_type
IAM_ROLE { default }
[ SETTINGS (
  S3_BUCKET 'amzn-s3-demo-bucket', | --required
  KMS_KEY_ID 'kms_string') --optional
];
```

Amazon Redshift는 현재 BYOM용으로 사전 훈련된 XGBoost, MLP 및 Linear Learner 모델만 지원합니다. 이 경로를 사용하여 로컬 추론을 위해 Amazon SageMaker AI에서 직접 훈련된 SageMaker AI Autopilot과 모델을 가져올 수 있습니다.

#### 로컬 추론을 위한 CREATE MODEL 파라미터
<a name="r_local-create-model-parameters"></a>

 *model\$1name*   
모델의 이름입니다. 스키마의 모델 이름은 고유해야 합니다.

FROM (*'job\$1name'* \$1 *'s3\$1path'* )  
*job\$1name*은 Amazon SageMaker AI 작업 이름을 입력으로 사용합니다. 작업 이름은 Amazon SageMaker AI 훈련 작업 이름 또는 Amazon SageMaker AI Autopilot 작업 이름일 수 있습니다. 작업은 Amazon Redshift 클러스터를 소유한 동일한 AWS 계정에서 생성되어야 합니다. 작업 이름을 찾으려면 Amazon SageMaker AI를 시작합니다. **훈련(Training)** 드롭다운 메뉴에서 **훈련 작업(Training jobs)**을 선택합니다.  
*'s3\$1path'*는 모델을 생성할 때 사용할 .tar.gz 모델 아티팩트 파일의 S3 위치를 지정합니다.

FUNCTION *function\$1name* ( *data\$1type* [, ...] )  
생성할 함수의 이름과 입력 인수의 데이터 형식입니다. 스키마 이름을 제공할 수 있습니다.

RETURNS *data\$1type*  
함수에 의해 반환되는 값의 데이터 형식입니다.

IAM\$1ROLE \$1 default \$1 'arn:aws:iam::<account-id>:role/<role-name>'\$1  
 기본 키워드를 사용하여 CREATE MODEL 명령이 실행될 때 Amazon Redshift에서 기본값으로 설정되고 클러스터와 연결된 IAM 역할을 사용하도록 합니다.  
클러스터가 인증 및 권한 부여에 사용하는 IAM 역할의 Amazon 리소스 이름(ARN)을 사용합니다.

SETTINGS ( S3\$1BUCKET *'amzn-s3-demo-bucket'*, \$1 KMS\$1KEY\$1ID *'kms\$1string'*)  
S3\$1BUCKET 절은 중간 결과를 저장하는 데 사용되는 Amazon S3 위치를 지정합니다.  
(옵션) KMS\$1KEY\$1ID 절은 Amazon Redshift가 AWS KMS 키로 서버 측 암호화를 사용하여 저장된 데이터를 보호할지 여부를 지정합니다. 전송 중인 데이터는 보안 소켓 계층(SSL)으로 보호됩니다.  
자세한 내용은 [사용자 안내에 따라 CREATE MODEL](#r_user_guidance_create_model) 섹션을 참조하세요.

#### 로컬 추론을 위한 CREATE MODEL 예
<a name="r_local-create-model-example"></a>

다음 예에서는 Amazon Redshift 외부의 Amazon SageMaker AI에서 이전에 훈련된 모델을 생성합니다. 모델 유형은 로컬 추론을 위해 Amazon Redshift 기계 학습에서 지원되므로 다음 CREATE MODEL은 Amazon Redshift에서 로컬로 사용할 수 있는 함수를 생성합니다. SageMaker AI 훈련 작업 이름을 제공할 수 있습니다.

```
CREATE MODEL customer_churn
FROM 'training-job-customer-churn-v4'
FUNCTION customer_churn_predict (varchar, int, float, float)
RETURNS int
IAM_ROLE default
SETTINGS (S3_BUCKET 'amzn-s3-demo-bucket');
```

모델이 생성된 후 지정된 인수 형식과 함께 *customer\$1churn\$1predict* 함수를 사용하여 예측할 수 있습니다.

## 기존 보유 모델 사용(BYOM) - 원격 추론
<a name="r_byom_create_model_remote"></a>

또한 Amazon Redshift 기계 학습은 원격 추론에서도 기존 보유 모델 사용(BYOM)을 지원합니다.

다음은 BYOM용 CREATE MODEL 구문에 대한 옵션을 요약한 것입니다.

### 원격 추론을 위한 CREATE MODEL 구문
<a name="r_remote-create-model"></a>

다음은 원격 추론을 위한 CREATE MODEL 구문에 대한 설명입니다.

```
CREATE MODEL model_name 
FUNCTION function_name ( data_type [, ...] )
RETURNS data_type
SAGEMAKER 'endpoint_name'[:'model_name']
IAM_ROLE { default | 'arn:aws:iam::<account-id>:role/<role-name>' }
[SETTINGS (MAX_BATCH_ROWS integer)];
```

#### 원격 추론을 위한 CREATE MODEL 파라미터
<a name="r_remote-create-model-parameters"></a>

 *model\$1name*   
모델의 이름입니다. 스키마의 모델 이름은 고유해야 합니다.

FUNCTION *fn\$1name* ( [*data\$1type*] [, ...] )  
함수의 이름과 입력 인수의 데이터 형식입니다. 지원되는 모든 데이터 유형을 보려면 [데이터 유형](https://docs.aws.amazon.com/redshift/latest/dg/c_Supported_data_types.html)을 참조하세요. `Geography`, `geometry` 및 `hllsketch`는 지원되지 않습니다.  
`myschema.myfunction`과 같이 두 부분으로 구성된 표기법을 사용하여 스키마 내에 함수 이름을 제공할 수도 있습니다.

RETURNS *data\$1type*  
함수에 의해 반환되는 값의 데이터 형식입니다. 지원되는 모든 데이터 유형을 보려면 [데이터 유형](https://docs.aws.amazon.com/redshift/latest/dg/c_Supported_data_types.html)을 참조하세요. `Geography`, `geometry` 및 `hllsketch`는 지원되지 않습니다.

SAGEMAKER *'endpoint\$1name'*[:*'model\$1name'*]   
Amazon SageMaker AI 엔드포인트의 이름입니다. 엔드포인트 이름이 다중 모델 엔드포인트를 가리키는 경우 사용할 모델의 이름을 추가합니다. 엔드포인트는 Amazon Redshift 클러스터와 동일한 AWS 리전 및 AWS 계정에서 호스팅되어야 합니다. 엔드포인트를 찾으려면 Amazon SageMaker AI를 시작합니다. **추론(Inference)** 드롭다운 메뉴에서 **엔드포인트(Endpoints)**를 선택합니다.

IAM\$1ROLE \$1 default \$1 'arn:aws:iam::<account-id>:role/<role-name>'\$1  
 기본 키워드를 사용하여 CREATE MODEL 명령이 실행될 때 Amazon Redshift에서 기본값으로 설정되고 클러스터와 연결된 IAM 역할을 사용하도록 합니다. 또는 IAM 역할의 ARN을 지정하여 해당 역할을 사용할 수도 있습니다.

MAX\$1BATCH\$1ROWS *정수*  
Amazon Redshift가 단일 SageMaker AI 간접 호출에 대한 단일 배치 요청으로 보내는 최대 행 수입니다. 원격 추론 기능이 있는 BYOM에만 지원됩니다. 배치의 실제 행 수는 입력 크기에 따라 다르지만 이 값보다 작거나 같아야 합니다. 이 파라미터의 최소값은 1입니다. 최대값은 `INT_MAX` 또는 2,147,483,647입니다. 이 파라미터는 입력 및 반환 데이터 형식이 모두 `SUPER`인 경우에만 필요합니다. 기본값은 `INT_MAX` 또는 2,147,483,647입니다.

모델이 SageMaker AI 엔드포인트에 배포되면 SageMaker AI는 Amazon Redshift에 모델 정보를 생성합니다. 그런 다음 외부 기능을 통해 추론을 수행합니다. SHOW MODEL 명령을 사용하여 Amazon Redshift 클러스터의 모델 정보를 볼 수 있습니다.

#### 원격 추론을 위한 CREATE MODEL 사용 노트
<a name="r_remote-create-model-usage-notes"></a>

원격 추론을 위해 CREATE MODEL을 사용하기 전에 다음 사항을 고려하세요.
+ 엔드포인트는 Amazon Redshift 클러스터를 소유한 동일한 AWS 계정에서 호스팅되어야 합니다.
+ Amazon SageMaker AI 엔드포인트에 Amazon Redshift의 추론 직접 호출을 수용할 수 있는 충분한 리소스가 있는지 또는 Amazon SageMaker AI 엔드포인트가 자동으로 확장될 수 있는지 확인합니다.
+ `SUPER` 데이터 형식을 입력으로 사용하지 않는 경우 모델은 쉼표로 구분된 값(CSV) 형식의 입력만 허용하며, 이는 SageMaker AI의 `text/CSV` 콘텐츠 유형에 해당합니다.
+ `SUPER` 데이터 형식을 입력으로 사용하지 않는 경우 모델의 출력은 함수를 만들 때 지정한 유형의 단일 값입니다. 출력은 쉼표로 구분된 값(CSV) 형식의 `text/CSV` 콘텐츠 유형을 통해 SageMaker AI에서 이루어집니다. `VARCHAR` 데이터 형식은 따옴표로 묶을 수 없고 새 줄을 포함할 수 없으며 각 출력은 새 줄에 있어야 합니다.
+ 모델은 null을 빈 문자열로 수락합니다.
+ 입력 데이터 형식이 `SUPER`인 경우 하나의 입력 인수만 지원됩니다.
+ 입력 데이터 형식이 `SUPER`인 경우 반환되는 데이터 형식도 `SUPER`여야 합니다.
+ 입력 및 반환된 데이터 형식이 모두 SUPER인 경우 MAX\$1BATCH\$1ROWS가 필요합니다.
+ 입력 데이터 형식이 `SUPER`인 경우 엔드포인트 호출의 콘텐츠 유형은 MAX\$1BATCH\$1ROWS가 `application/json`인 경우 `1`, 그 외의 모든 경우에는 `application/jsonlines`입니다.
+ 반환 데이터 형식이 `SUPER`인 경우 엔드포인트 호출의 수락 유형은 MAX\$1BATCH\$1ROWS가 `application/json`인 경우 `1`, 그 외의 모든 경우에는 `application/jsonlines`입니다.

##### 원격 추론을 위한 CREATE MODEL 예
<a name="r_remote-create-model-example"></a>

다음 예에서는 SageMaker AI 엔드포인트를 사용하여 예측하는 모델을 생성합니다. 예측을 수행하고 CREATE MODEL 명령에서 해당 이름을 지정하기 위해 엔드포인트가 실행 중인지 확인합니다.

```
CREATE MODEL remote_customer_churn
FUNCTION remote_fn_customer_churn_predict (varchar, int, float, float)
RETURNS int
SAGEMAKER 'customer-churn-endpoint'
IAM_ROLE default;
```

 다음 예는 대규모 언어 모델 모델(LLM)을 사용하여 원격 추론으로 BYOM을 생성하는 예제입니다. Amazon SageMaker AI Jumpstart에서 호스팅되는 LLM은 `application/json` 콘텐츠 유형을 수락하고 반환하며 간접 호출당 단일 JSON을 지원합니다. 입력 및 반환 데이터 형식은 `SUPER`여야 하며 MAX\$1BATCH\$1ROWS는 1로 설정해야 합니다.

```
CREATE MODEL sample_super_data_model
FUNCTION sample_super_data_model_predict(super)
RETURNS super
SAGEMAKER 'sample_super_data_model_endpoint'
IAM_ROLE default
SETTINGS (MAX_BATCH_ROWS 1);
```

## K-MEANS를 사용한 CREATE MODEL
<a name="r_k-means_create_model"></a>

Amazon Redshift는 레이블이 지정되지 않은 데이터를 그룹화하는 K-Means 알고리즘을 지원합니다. 이 알고리즘은 데이터에서 그룹을 검색하려는 클러스터링 문제를 해결합니다. 분류되지 않은 데이터는 유사점과 차이점에 따라 그룹화되고 분할됩니다.

### K-MEANS 구문을 사용한 CREATE MODEL
<a name="r_k-means-create-model-synposis"></a>

```
CREATE MODEL model_name
FROM { table_name | ( select_statement ) }
FUNCTION function_name
IAM_ROLE { default | 'arn:aws:iam::<account-id>:role/<role-name>' }
AUTO OFF
MODEL_TYPE KMEANS
PREPROCESSORS 'string'
HYPERPARAMETERS DEFAULT EXCEPT ( K 'val' [, ...] )
SETTINGS (
  S3_BUCKET 'amzn-s3-demo-bucket',
  KMS_KEY_ID 'kms_string', |
    -- optional
  S3_GARBAGE_COLLECT on / off, |
    -- optional
  MAX_CELLS integer, |
    -- optional
  MAX_RUNTIME integer
    -- optional);
```

### K-MEANS 파라미터를 사용한 CREATE MODEL
<a name="r_k-means-create-model-parameters"></a>

 *AUTO OFF*   
전처리기, 알고리즘 및 하이퍼파라미터 선택의 CREATE MODEL 자동 검색을 해제합니다.

MODEL\$1TYPE KMEANS  
KMEANS를 사용하여 모델을 훈련하도록 지정합니다.

PREPROCESSORS 'string'  
특정 열 집합에 대한 프로프로세서의 특정 조합을 지정합니다. 형식은 columnSet의 목록과 각 열 집합에 적용할 적절한 변환입니다. Amazon Redshift는 3개의 K-Means 프리프로세서, 즉 StandardScaler, MinMax 및 NumericPassthrough를 지원합니다. K-Means에 대한 사전 처리를 적용하지 않으려면 변환기로 명시적으로 NumericPassthrough를 선택합니다. 지원되는 변환기에 대한 자세한 내용은 [사용자 안내 파라미터로 CREATE MODEL](#r_user_guidance-create-model-parameters) 섹션을 참조하세요.  
K-Means 알고리즘은 유클리드 거리를 사용하여 유사성을 계산합니다. 데이터 사전 처리는 모델의 특성이 동일한 규모로 유지되고 신뢰할 수 있는 결과를 생성하도록 보장합니다.

HYPERPARAMETERS DEFAULT EXCEPT ( K 'val' [, ...] )  
K-Means 파라미터의 사용 여부를 지정합니다. K-Means 알고리즘을 사용할 때는 `K` 파라미터를 지정해야 합니다. 자세한 내용은 *Amazon SageMaker AI Developer Guide*의 [K-Means Hyperparameters](https://docs.aws.amazon.com/sagemaker/latest/dg/k-means-api-config.html)를 참조하세요.

다음 예에서는 K-Means용 데이터를 준비합니다.

```
CREATE MODEL customers_clusters
FROM customers
FUNCTION customers_cluster
IAM_ROLE default
AUTO OFF
MODEL_TYPE KMEANS
PREPROCESSORS '[
{
  "ColumnSet": [ "*" ],
  "Transformers": [ "NumericPassthrough" ]
}
]'
HYPERPARAMETERS DEFAULT EXCEPT ( K '5' )
SETTINGS (S3_BUCKET 'amzn-s3-demo-bucket');

select customer_id, customers_cluster(...) from customers;
customer_id | customers_cluster
--------------------
12345            1
12346            2
12347            4
12348
```

## 예측이 포함된 CREATE MODEL
<a name="r_forecast_model"></a>

Redshift ML의 예측 모델은 Amazon Forecast를 사용하여 정확한 시계열 예측을 생성합니다. 이렇게 하면 일정 기간 동안의 과거 데이터를 사용하여 향후 이벤트를 예측할 수 있습니다. Amazon Forecast의 일반적인 사용 사례에는 소매 제품 데이터를 사용하여 재고 가격 책정 방법을 결정하고, 제조 수량 데이터를 사용하여 주문할 품목의 양을 예측하고, 웹 트래픽 데이터를 사용하여 웹 서버에 수신될 수 있는 트래픽 양을 예측하는 것이 포함됩니다.

 [Amazon Forecast의 할당량 한도](https://docs.aws.amazon.com/forecast/latest/dg/limits.html)는 Amazon Redshift 예측 모델에 적용됩니다. 예를 들어 최대 예측 수는 100개이지만 조정 가능합니다. 예측 모델을 삭제해도 Amazon Forecast의 관련 리소스가 자동으로 삭제되지는 않습니다. Redshift 클러스터를 삭제하면 관련 모델도 모두 삭제됩니다.

Forecast 모델은 현재 다음 리전에서만 사용할 수 있습니다.
+ 미국 동부(오하이오)(us-east-2)
+ 미국 동부(버지니아 북부)(us-east-1)
+ 미국 서부(오레곤)(us-west-2)
+ 아시아 태평양(뭄바이)(ap-south-1)
+ 아시아 태평양(서울)(ap-northeast-2)
+ 아시아 태평양(싱가포르)(ap-southeast-1)
+ 아시아 태평양(시드니)(ap-southeast-2)
+ 아시아 태평양(도쿄)(ap-northeast-1)
+ 유럽(프랑크푸르트)(eu-central-1)
+ 유럽(아일랜드)(eu-west-1)

### 예측 구문이 포함된 CREATE MODEL
<a name="r_forecast_model-synopsis"></a>

```
CREATE [ OR REPLACE ] MODEL forecast_model_name 
FROM { table_name | ( select_query ) } 
TARGET column_name
IAM_ROLE { default | 'arn:aws:iam::<account-id>:role/<role-name>'} 
AUTO ON
MODEL_TYPE FORECAST
SETTINGS (
  S3_BUCKET 'amzn-s3-demo-bucket',
  HORIZON integer,
  FREQUENCY forecast_frequency
  [PERCENTILES '0.1', '0.5', '0.9']
  )
```

### 예측 파라미터가 포함된 CREATE MODEL
<a name="r_forecast_model-parameters"></a>

 *forecast\$1model\$1name*   
모델의 이름입니다. 모델 이름은 고유해야 합니다.

FROM \$1 table\$1name \$1 ( select\$1query ) \$1  
table\$1name 또는 훈련 데이터를 지정하는 쿼리입니다. 이는 시스템의 기존 테이블이거나 괄호로 묶인 Amazon Redshift 호환 SELECT 쿼리일 수 있습니다. 테이블 또는 쿼리 결과에는 다음과 같이 3개 이상의 열이 있어야 합니다. (1) 시계열 이름을 지정하는 varchar 열. 각 데이터 세트에는 여러 시계열이 있음, (2) 날짜/시간 열, (3) 예측할 대상 열. 이 대상 열은 int 또는 float여야 함. 3개 이상의 열이 있는 데이터 세트를 제공하는 경우 Amazon Redshift는 모든 추가 열이 관련 시계열의 일부라고 가정합니다. 참고로 관련 시계열은 int 또는 float 유형이어야 합니다. 관련 시계열에 대한 자세한 내용은 관련 [시계열 데이터 세트 사용](https://docs.aws.amazon.com/forecast/latest/dg/related-time-series-datasets.html)을 참조하세요.

TARGET column\$1name  
예측 대상이 되는 열의 이름입니다. FROM 절에 열이 있어야 합니다.

IAM\$1ROLE \$1 default \$1 'arn:aws:iam::<account-id>:role/<role-name>' \$1  
기본 키워드를 사용하여 CREAT MODEL 명령이 실행될 때 Amazon Redshift에서 기본값으로 설정되고 클러스터와 연결된 IAM 역할을 사용하도록 합니다. 또는 IAM 역할의 ARN을 지정하여 해당 역할을 사용할 수도 있습니다.

AUTO ON  
알고리즘 및 하이퍼파라미터 선택의 CREATE MODEL 자동 검색을 켭니다. 예측 모델을 생성할 때 on을 지정하면 Amazon Forecast가 데이터 세트의 각 시계열에 최적의 알고리즘 조합을 적용하는 Forecast AutoPredictor를 사용한다는 뜻입니다.

MODEL\$1TYPE FORECAST  
FORECAST를 사용하여 모델을 훈련하도록 지정합니다.

S3\$1BUCKET 'amzn-s3-demo-bucket'  
이전에 생성한 Amazon Simple Storage Service 버킷의 이름으로, Amazon Redshift와 Amazon Forecast 간에 훈련 데이터와 아티팩트를 공유하는 데 사용됩니다. Amazon Redshift는 훈련 데이터를 언로드하기 전에 이 버킷에 하위 폴더를 생성합니다. 훈련이 완료되면 Amazon Redshift는 생성된 하위 폴더와 해당 콘텐츠를 삭제합니다.

HORIZON 정수  
예측 모델이 반환할 수 있는 최대 예측 수입니다. 모델을 학습시킨 후에는 이 정수를 변경할 수 없습니다.

FREQUENCY forecast\$1frequency  
예측을 얼마나 세분화하여 설정할지를 지정합니다. 사용 가능한 옵션은 `Y | M | W | D | H | 30min | 15min | 10min | 5min | 1min`입니다. 예측 모델을 학습하는 경우 필요합니다.

PERCENTILES 문자열  
예측기를 훈련하는 데 사용되는 예측 유형을 지정하는 쉼표로 구분된 문자열입니다. 예측 유형은 0.01에서 0.99까지의 사분위수(0.01 이상 증분)일 수 있습니다. 평균을 사용하여 평균 예측을 지정할 수도 있습니다. 최대 5개의 예측 유형을 지정할 수 있습니다.

다음 예는 간단한 예측 모델을 만드는 방법을 보여줍니다.

```
CREATE MODEL forecast_example
FROM forecast_electricity_
TARGET target 
IAM_ROLE 'arn:aws:iam::<account-id>:role/<role-name>'
AUTO ON 
MODEL_TYPE FORECAST
SETTINGS (S3_BUCKET 'amzn-s3-demo-bucket',
          HORIZON 24,
          FREQUENCY 'H',
          PERCENTILES '0.25,0.50,0.75,mean',
          S3_GARBAGE_COLLECT OFF);
```

예측 모델을 생성한 후 예측 데이터가 포함된 새 테이블을 생성할 수 있습니다.

```
CREATE TABLE forecast_model_results as SELECT Forecast(forecast_example)
```

그런 다음 새 테이블을 쿼리하여 예측을 얻을 수 있습니다.

```
SELECT * FROM forecast_model_results
```