

本文属于机器翻译版本。若本译文内容与英语原文存在差异，则一律以英文原文为准。

# 使用 API 创建文本分类 AutoML 作业
<a name="autopilot-create-experiment-text-classification"></a>

以下说明说明如何使用 SageMaker [API 参考](https://docs.aws.amazon.com/sagemaker/latest/dg/autopilot-reference.html)创建 Amazon A SageMaker utopilot 作业，作为文本分类问题类型的试点实验。

**注意**  
文本和映像分类、时间序列预测和大型语言模型微调等任务都可以通过 [AutoML REST API](autopilot-reference.md) 的第 2 版独家实现。如果您选择的语言是 Python，则可以直接引用 Amazon SageMaker Python 软件开发工具包的 A [uto MLV2 对象](https://sagemaker.readthedocs.io/en/stable/api/training/automlv2.html#sagemaker.automl.automlv2.AutoMLV2)。[适用于 Python (Boto3) 的 AWS SDK](https://boto3.amazonaws.com/v1/documentation/api/latest/reference/services/sagemaker/client/create_auto_ml_job_v2.html)  
喜欢用户界面便利性的用户可以使用 [Amazon SageMaker Canv](https://docs.aws.amazon.com/sagemaker/latest/dg/canvas-getting-started.html) as 访问预训练模型和生成式 AI 基础模型，或者创建针对特定文本、图像分类、预测需求或生成式 AI 量身定制的自定义模型。

您可以使用 Amazon Autopilot 支持的任何语言调用 [https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_CreateAutoMLJobV2.html](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_CreateAutoMLJobV2.html)API 操作或者，以编程方式创建 SageMaker 自动驾驶文本分类实验。 AWS CLI

有关此 API 操作如何转换为所选语言中函数的信息，请参阅 `CreateAutoMLJobV2` 中的[另请参阅](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_CreateAutoMLJobV2.html#API_CreateAutoMLJobV2_SeeAlso)部分并选择 SDK。例如，对于 Python 用户，请参阅 适用于 Python (Boto3) 的 AWS SDK中 `[create\$1auto\$1ml\$1job\$1v2](https://boto3.amazonaws.com/v1/documentation/api/latest/reference/services/sagemaker.html#SageMaker.Client.create_auto_ml_job_v2)` 的完整请求语法。

以下参数集合介绍了文本分类中使用的 `CreateAutoMLJobV2` API 操作的必需和可选输入请求参数。

## 必需参数
<a name="text-classification-api-required-params"></a>

在调用 `[CreateAutoMLJobV2](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_CreateAutoMLJobV2.html)` 以创建 Autopilot 实验进行文本分类时，您必须提供以下值：
+ `[AutoMLJobName](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_CreateAutoMLJobV2.html#API_CreateAutoMLJobV2_RequestSyntax)`，用于指定您作业的名称。
+ `[AutoMLJobInputDataConfig](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_CreateAutoMLJobV2.html#sagemaker-CreateAutoMLJobV2-request-AutoMLJobInputDataConfig)` 中至少有一个 `[AutoMLJobChannel](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_AutoMLJobChannel.html)` 来指定您的数据来源。
+ 一个类型为 `[TextClassificationJobConfig](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_TextClassificationJobConfig.html)` 的 `[AutoMLProblemTypeConfig](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_CreateAutoMLJobV2.html#sagemaker-CreateAutoMLJobV2-request-AutoMLProblemTypeConfig)`。
+ `[OutputDataConfig](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_AutoMLOutputDataConfig.html)`，指定用于存储 AutoML 作业构件的 Amazon S3 输出路径。
+ `[RoleArn](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_CreateAutoMLJob.html#sagemaker-CreateAutoMLJob-request-RoleArn)`，指定用于访问您的数据的角色的 ARN。

所有其他参数都是可选的。

## 可选参数
<a name="text-classification-api-optional-params"></a>

以下各节提供了一些可以传递给文本分类 AutoML 作业的可选参数的详细信息。

### 如何指定 AutoML 作业的训练和验证数据集
<a name="text-classification-data-training-or-validation"></a>

您可以提供自己的验证数据集和自定义的数据拆分比率，也可以让 Autopilot 自动拆分数据集。

每个[https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_AutoMLJobChannel.html](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_AutoMLJobChannel.html)对象（参见必填参数 [Auto MLJob InputDataConfig](https://docs.aws.amazon.com/sagemaker-api/src/AWSSageMakerAPIDoc/build/server-root/sagemaker/latest/APIReference/API_CreateAutoMLJobV2.html#sagemaker-CreateAutoMLJobV2-request-AutoMLJobInputDataConfig)）都有`ChannelType`，可以将其设置为`training`或指定在构建机器学习模型时如何使用数据的`validation`值。

数据来源至少需要一个，最多可以有两个：一个用于训练数据，一个用于验证数据。如何将数据拆分为训练和验证数据集，取决于您有一个还是两个数据来源。

如何将数据拆分为训练和验证数据集，取决于您有一个还是两个数据来源。
+ 如果您只有**一个数据来源**，则默认情况下 `ChannelType` 设置为 `training`，并且必须具有此值。
  + 如果未设置 [https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_AutoMLDataSplitConfig.html](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_AutoMLDataSplitConfig.html) 中的 `ValidationFraction` 值，则默认情况下，将使用来自此来源中数据的 0.2 (20%) 进行验证。
  + 如果 `ValidationFraction` 设置为介于 0 和 1 之间的值，则根据指定的值拆分数据集，该值指定用于验证的数据集的比例。
+ 如果您有**两个数据来源**，则其中一个 `AutoMLJobChannel` 对象的 `ChannelType` 必须设置为默认值 `training`。另一个数据来源的 `ChannelType` 必须设置为 `validation`。这两个数据来源必须具有相同的格式（CSV 或 Parquet）和相同的架构。在这种情况下，您不可为 `ValidationFraction` 设置值，因为每个来源的所有数据都用于训练或验证。设置此值会导致错误。

### 如何为 AutoML 作业指定自动模型部署配置
<a name="text-classification-auto-model-deployment"></a>

要为 AutoML 作业的最佳候选模型启用自动部署，请在 AutoML 任务请求中包括 `[ModelDeployConfig](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_CreateAutoMLJobV2.html#sagemaker-CreateAutoMLJobV2-request-ModelDeployConfig)`。这将允许将最佳模型部署到 A SageMaker I 端点。以下是可供自定义的配置。
+ 要让 Autopilot 生成端点名称，请将 `[AutoGenerateEndpointName](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_ModelDeployConfig.html#API_ModelDeployConfig_Contents)` 设置为 `True`。
+ 要为端点提供自己的名称，请设置 `[AutoGenerateEndpointName](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_ModelDeployConfig.html#API_ModelDeployConfig_Contents) to False and provide a name of your choice in [EndpointName](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_ModelDeployConfig.html#API_ModelDeployConfig_Contents)`。