SageMaker AI CatBoost 사용 방법

CatBoost를 Amazon SageMaker AI 기본 제공 알고리즘으로 사용할 수 있습니다. 다음 섹션에서는 SageMaker Python SDK와 함께 CatBoost를 사용하는 방법을 설명합니다. Amazon SageMaker Studio Classic UI에서 CatBoost를 사용하는 방법에 대한 자세한 내용은 SageMaker JumpStart 사전 훈련된 모델을 참조하세요.

CatBoost를 기본 제공 알고리즘으로 사용

CatBoost 기본 제공 알고리즘을 사용하여 다음 코드 예제와 같이 CatBoost 훈련 컨테이너를 빌드합니다. SageMaker AI image_uris.retrieve API(또는 Amazon SageMaker Python SDK 버전 2를 사용하는 경우 get_image_uri API)를 사용하여 CatBoost 내장 알고리즘 이미지 URI를 자동으로 찾아낼 수 있습니다.

CatBoost 이미지 URI를 지정한 후 CatBoost 컨테이너를 사용하여 SageMaker AI Estimator API를 사용하는 예측기를 구문화하고 훈련 작업을 시작할 수 있습니다. CatBoost 기본 제공 알고리즘은 스크립트 모드에서 실행되지만 훈련 스크립트가 제공되므로 교체할 필요가 없습니다. 스크립트 모드를 사용하여 SageMaker 훈련 작업을 생성한 경험이 풍부하다면 사용자의 CatBoost 훈련 스크립트를 직접 통합할 수 있습니다.


from sagemaker import image_uris, model_uris, script_uris

train_model_id, train_model_version, train_scope = "catboost-classification-model", "*", "training"
training_instance_type = "ml.m5.xlarge"

# Retrieve the docker image
train_image_uri = image_uris.retrieve(
    region=None,
    framework=None,
    model_id=train_model_id,
    model_version=train_model_version,
    image_scope=train_scope,
    instance_type=training_instance_type
)

# Retrieve the training script
train_source_uri = script_uris.retrieve(
    model_id=train_model_id, model_version=train_model_version, script_scope=train_scope
)

train_model_uri = model_uris.retrieve(
    model_id=train_model_id, model_version=train_model_version, model_scope=train_scope
)

# Sample training data is available in this bucket
training_data_bucket = f"jumpstart-cache-prod-{aws_region}"
training_data_prefix = "training-datasets/tabular_multiclass/"

training_dataset_s3_path = f"s3://{training_data_bucket}/{training_data_prefix}/train"
validation_dataset_s3_path = f"s3://{training_data_bucket}/{training_data_prefix}/validation"

output_bucket = sess.default_bucket()
output_prefix = "jumpstart-example-tabular-training"

s3_output_location = f"s3://{output_bucket}/{output_prefix}/output"

from sagemaker import hyperparameters

# Retrieve the default hyperparameters for training the model
hyperparameters = hyperparameters.retrieve_default(
    model_id=train_model_id, model_version=train_model_version
)

# [Optional] Override default hyperparameters with custom values
hyperparameters[
    "iterations"
] = "500"
print(hyperparameters)

from sagemaker.estimator import Estimator
from sagemaker.utils import name_from_base

training_job_name = name_from_base(f"built-in-algo-{train_model_id}-training")

# Create SageMaker Estimator instance
tabular_estimator = Estimator(
    role=aws_role,
    image_uri=train_image_uri,
    source_dir=train_source_uri,
    model_uri=train_model_uri,
    entry_point="transfer_learning.py",
    instance_count=1,
    instance_type=training_instance_type,
    max_run=360000,
    hyperparameters=hyperparameters,
    output_path=s3_output_location
)

# Launch a SageMaker Training job by passing the S3 path of the training data
tabular_estimator.fit(
    {
        "training": training_dataset_s3_path,
        "validation": validation_dataset_s3_path,
    }, logs=True, job_name=training_job_name
)

CatBoost를 기본 제공 알고리즘으로 설정하는 방법에 대한 자세한 내용은 다음 노트북 예제를 참조하세요.

javascript가 브라우저에서 비활성화되거나 사용이 불가합니다.

AWS 설명서를 사용하려면 Javascript가 활성화되어야 합니다. 지침을 보려면 브라우저의 도움말 페이지를 참조하십시오.

문서 규칙

CatBoost 알고리즘

CatBoost 알고리즘의 입력 및 출력 인터페이스