翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。
API を使用してテキスト分類用の AutoML ジョブを作成する
次の手順は、SageMaker API リファレンスを使用して、テキスト分類問題タイプのパイロット実験として Amazon SageMaker Autopilot ジョブを作成する方法を示しています。
注記
テキストと画像の分類、時系列予測、大規模言語モデルのファインチューニングなどのタスクは、AutoML REST API のバージョン 2 でのみ利用できます。選択した言語が Python の場合は、AWS SDK for Python (Boto3)
ユーザーインターフェイスの利便性を優先するユーザーは、Amazon SageMaker Canvas を使用して、事前にトレーニングされたモデルや生成 AI 基盤モデルにアクセスしたり、特定のテキスト、画像分類、予測のニーズ、または生成 AI に合わせたカスタムモデルを作成したりできます。
Amazon SageMaker Autopilot または AWS CLI でサポートされる任意の言語で CreateAutoMLJobV2 API アクションを呼び出すことで、Autopilot のテキスト分類実験をプログラムで作成できます。
この API アクションを選択した言語の関数に変換する方法については、CreateAutoMLJobV2 の「関連項目」セクションを参照して、SDK を選択してください。例として、Python ユーザーの場合は、AWS SDK for Python (Boto3) にある create_auto_ml_job_v2 の完全なリクエスト構文を参照してください。
以下は、テキスト分類に使用される CreateAutoMLJobV2 API アクションの必須およびオプションの入力リクエストパラメータをまとめたものです。
必須パラメータ
CreateAutoMLJobV2 を呼び出してテキスト分類用の Autopilot 実験を作成するには、次の値を指定する必要があります。
-
ジョブの名前を指定する
AutoMLJobName。 -
データソースを指定するための
AutoMLJobInputDataConfigのうち、少なくとも 1 つのAutoMLJobChannel。 -
AutoML ジョブのアーティファクトを保存する Amazon S3 出力パスを指定する
OutputDataConfig。 -
データへのアクセスに使用されるロールの ARN を指定する
RoleArn。
その他のすべてのパラメータは省略可能です。
任意指定のパラメータ
次のセクションでは、テキスト分類 AutoML ジョブに渡すことができるいくつかのオプションパラメータについて詳しく説明します。
独自の検証データセットとカスタムデータの分割比率を指定することも、Autopilot にデータセットを自動的に分割させることもできます。
各 AutoMLJobChannel オブジェクト (必須パラメータ「AutoMLJobInputDataConfig」を参照) には ChannelType があり、training 値または validation 値に設定することで、機械学習モデルを構築するときにデータをどのように使用するかを指定できます。
少なくとも 1 つのデータソースを指定する必要があり、最大 2 つのデータソースを指定できます。1 つはトレーニングデータ用、もう 1 つは検証データ用です。データをトレーニングデータセットと検証データセットに分割する方法は、データソースが 1 つか 2 つかによって異なります。
データをトレーニングデータセットと検証データセットに分割する方法は、データソースが 1 つか 2 つかによって異なります。
-
データソースが 1 つのみである場合、
ChannelTypeはデフォルトでtrainingに設定され、この値を持つ必要があります。-
AutoMLDataSplitConfigのValidationFraction値を設定しないと、このソースのデータの 0.2 (20%) がデフォルトで検証に使用されます。 -
ValidationFractionを 0 から 1 の間の値に設定すると、データセットは指定した値に基づいて分割されます。この値は、検証に使用されるデータセットの割合を指定します。
-
-
データソースが 2 つである場合は、
AutoMLJobChannelオブジェクトの 1 つのChannelTypeをtraining(デフォルト値) に設定する必要があります。他のデータソースのChannelTypeはvalidationに設定する必要があります。2 つのデータソースは、同じ形式 (CSV または Parquet) と同じスキーマを持つ必要があります。この場合、ValidationFractionの値を設定してはいけません。各ソースのすべてのデータがトレーニングまたは検証に使用されるためです。この値を設定すると、エラーが発生します。
AutoML ジョブの最適なモデル候補の自動デプロイを有効にするには、AutoML ジョブリクエストに ModelDeployConfig を含めます。これにより、最適なモデルを SageMaker AI エンドポイントにデプロイできます。カスタマイズできる設定は以下のとおりです。
-
Autopilot にエンドポイント名を生成させるには、
AutoGenerateEndpointNameをTrueに設定します。 -
エンドポイントに独自の名前を指定するには、
AutoGenerateEndpointName toを設定します。Falseand provide a name of your choice in EndpointName