API を使用してテキスト分類用の AutoML ジョブを作成する

次の手順は、SageMaker API リファレンスを使用して、テキスト分類問題タイプのパイロット実験として Amazon SageMaker Autopilot ジョブを作成する方法を示しています。

注記

テキストと画像の分類、時系列予測、大規模言語モデルのファインチューニングなどのタスクは、AutoML REST API のバージョン 2 でのみ利用できます。選択した言語が Python の場合は、AWS SDK for Python (Boto3) を参照することも、Amazon SageMaker Python SDK の AutoMLV2 オブジェクトを直接参照することもできます。

ユーザーインターフェイスの利便性を優先するユーザーは、Amazon SageMaker Canvas を使用して、事前にトレーニングされたモデルや生成 AI 基盤モデルにアクセスしたり、特定のテキスト、画像分類、予測のニーズ、または生成 AI に合わせたカスタムモデルを作成したりできます。

Amazon SageMaker Autopilot または AWS CLIでサポートされる任意の言語で CreateAutoMLJobV2 API アクションを呼び出すことで、Autopilot のテキスト分類実験をプログラムで作成できます。

この API アクションが選択した言語の関数にどのように変換されるかについては、「CreateAutoMLJobV2」の「関連項目」セクションを参照して SDK を選択してください。例として、Python ユーザーの場合は、「 AWS SDK for Python (Boto3)」の「create_auto_ml_job_v2 のすべてのリクエスト構文」を参照してください。

以下は、テキスト分類に使用される CreateAutoMLJobV2 API アクションの必須およびオプションの入力リクエストパラメータをまとめたものです。

必須パラメータ

CreateAutoMLJobV2 を呼び出してテキスト分類用の Autopilot 実験を作成するには、次の値を指定する必要があります。

ジョブの名前を指定する AutoMLJobName。
データソースを指定するための AutoMLJobInputDataConfig のうち、少なくとも 1 つの AutoMLJobChannel。
TextClassificationJobConfig タイプの AutoMLProblemTypeConfig。
AutoML ジョブのアーティファクトを保存する Amazon S3 出力パスを指定する OutputDataConfig。
データへのアクセスに使用されるロールの ARN を指定する RoleArn。

その他のすべてのパラメータは省略可能です。

任意指定のパラメータ

次のセクションでは、テキスト分類 AutoML ジョブに渡すことができるいくつかのオプションパラメータについて詳しく説明します。

独自の検証データセットとカスタムデータの分割比率を指定することも、Autopilot にデータセットを自動的に分割させることもできます。

各 AutoMLJobChannel オブジェクト (必須パラメータ「AutoMLJobInputDataConfig」を参照) には ChannelType があり、training 値または validation 値に設定することで、機械学習モデルを構築するときにデータをどのように使用するかを指定できます。

少なくとも 1 つのデータソースを指定する必要があり、最大 2 つのデータソースを指定できます。1 つはトレーニングデータ用、もう 1 つは検証データ用です。データをトレーニングデータセットと検証データセットに分割する方法は、データソースが 1 つか 2 つかによって異なります。

データをトレーニングデータセットと検証データセットに分割する方法は、データソースが 1 つか 2 つかによって異なります。

データソースが 1 つのみである場合、ChannelType はデフォルトで training に設定され、この値を持つ必要があります。
- AutoMLDataSplitConfig の ValidationFraction 値を設定しないと、このソースのデータの 0.2 (20%) がデフォルトで検証に使用されます。
- ValidationFraction を 0 から 1 の間の値に設定すると、データセットは指定した値に基づいて分割されます。この値は、検証に使用されるデータセットの割合を指定します。
データソースが 2 つである場合は、AutoMLJobChannel オブジェクトの 1 つの ChannelType を training (デフォルト値) に設定する必要があります。他のデータソースの ChannelType は validation に設定する必要があります。2 つのデータソースは、同じ形式 (CSV または Parquet) と同じスキーマを持つ必要があります。この場合、ValidationFraction の値を設定してはいけません。各ソースのすべてのデータがトレーニングまたは検証に使用されるためです。この値を設定すると、エラーが発生します。

AutoML ジョブの最適なモデル候補の自動デプロイを有効にするには、AutoML ジョブリクエストに ModelDeployConfig を含めます。これにより、最適なモデルを SageMaker AI エンドポイントにデプロイできます。カスタマイズできる設定は以下のとおりです。

Autopilot にエンドポイント名を生成させるには、AutoGenerateEndpointName を True に設定します。
エンドポイントに独自の名前を指定するには、AutoGenerateEndpointName to False and provide a name of your choice in EndpointName を設定します。

ブラウザで JavaScript が無効になっているか、使用できません。

AWS ドキュメントを使用するには、JavaScript を有効にする必要があります。手順については、使用するブラウザのヘルプページを参照してください。

ドキュメントの表記規則

モデルパフォーマンスレポート

データセット形式と目標メトリクス