本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
创建机器学习产品的要求和最佳实操
务必使买家能够轻松测试您的模型包和算法产品。以下各节介绍了关于机器学习产品的最佳实践。有关要求和建议的完整摘要,请参阅机器学习产品列表的要求和建议摘要。
注意
如果您发布的产品不符合这些要求,AWS Marketplace 销售代表可能会与您联系,帮助您满足这些要求。
机器学习产品的一般最佳实操
为您的机器学习产品提供以下信息:
-
对于产品描述,请包括以下内容:
-
模型的作用
-
目标客户
-
最重要的用例
-
模型训练方式及使用的数据量
-
性能指标及使用的验证数据
-
如果是医疗用途,则您的模型是否用于诊断
-
-
默认情况下,机器学习产品配置为公开可见。但是,您可以创建具有有限可见性的产品。有关更多信息,请参阅 步骤 7:配置允许列表。
-
(可选)对于付费产品,提供 14-30 天的免费试用,让客户试用您的产品。有关更多信息,请参阅 AWS Marketplace 机器学习产品定价。
使用信息要求
描述产品预期输入和输出的清晰使用信息(附示例)对于提供积极的买家体验至关重要。
对于添加到产品列表中的每个新资源版本,都必须提供使用信息。
要编辑特定版本的现有使用情况信息,请参阅更新版本信息。
输入和输出的要求
清晰解释支持的输入参数和返回的输出参数,并附上示例,这对于帮助买家了解并使用您的产品至关重要。这种理解可以帮助您的买家对输入数据进行任何必要的转换,以获得最佳的推理结果。
当您将 Amazon SageMaker AI 资源添加到产品信息时,系统将提示您填写以下内容。
推理输入和输出
对于推理输入,需说明您的产品对实时端点和批量转换作业所期望的输入数据。包括用于对数据进行任何必要预处理的代码片段。说明适用的限制条件。提供托管在 GitHub
对于推理输出,需说明您的产品对实时端点和批量转换作业返回的输出数据。说明适用的限制条件。提供托管在 GitHub
对于示例,请提供适用于您的产品的输入文件。如果您的模型执行多分类器,请为每个类提供至少一个示例输入文件。
训练输入
在训练模型的信息部分,提供输入数据格式和代码片段,以便对数据进行任何必要的预处理。描述数值含义及限制条件(如适用)。提供托管在 GitHub
解释买家可以提供的可选和必备特征,并指定是否支持 PIPE 输入模式。如果支持分布式训练(使用超过 1 个 CPU/GPU 实例进行训练),请指定此项。要进行调整,请列出推荐的超参数。
Jupyter 笔记本的要求
将 SageMaker AI 资源添加到产品信息时,请提供指向托管在 GitHub
使用 AWS SDK for Python (Boto)。精心开发的示例笔记本可以让买家更轻松地尝试使用您的产品。
对于模型包产品,您的示例笔记本演示了输入数据的准备、实时推理端点的创建以及批量转换作业的性能。有关更多信息,请参阅 GitHub 上的 模型包列表和示例笔记本
注意
开发不足的 Jupyter 笔记本示例无法显示多个可能的输入和数据预处理步骤,这可能会使买家难以完全了解您产品的价值主张。
对于算法产品,示例笔记本演示了完整的训练、调整、模型创建、实时推理端点的创建以及批处理转换作业的性能。有关更多信息,请参阅 GitHub 上的算法列表和示例笔记本
注意
缺少示例训练数据可能会使您的买家无法成功运行 Jupyter 笔记本。开发不足的示例笔记本可能会使您的买家无法使用您的产品并阻碍其采用。
机器学习产品列表的要求和建议摘要
下表提供了机器学习产品列表页面要求和建议的摘要。
| 详细信息: | 对于模型包列表 | 对于算法列表 |
|---|---|---|
| Product descriptions | ||
| Explain in detail what the product does for supported content types (for example, “detects X in images"). | Required | Required |
| Provide compelling and differentiating information about the product (avoid adjectives like "best" or unsubstantiated claims). | Recommended | Recommended |
| List most important use case(s) for this product. | Required | Required |
| Describe the data (source and size) it was trained on and list any known limitations. | Required | Not applicable |
| Describe the core framework that the model was built on. | Recommended | Recommended |
| Summarize model performance metric on validation data (for example, "XX.YY percent accuracy benchmarked using the Z dataset"). | Required | Not applicable |
| Summarize model latency and/or throughput metrics on recommended instance type. | Required | Not applicable |
| Describe the algorithm category. For example, “This decision forest regression algorithm is based on an ensemble of tree-structured classifiers that are built using the general technique of bootstrap aggregation and a random choice of features.” | Not applicable | Required |
| Usage information | ||
| For inference, provide a description of the expected input format for both the real-time endpoint and batch transform job. Include limitations, if applicable. See 输入和输出的要求. | Required | Required |
| For inference, provide input samples for both the real-time endpoint and batch transform job. Samples must be hosted on GitHub. See 输入和输出的要求. | Required | Required |
| For inference, provide the name and description of each input parameter. Provide details about the its limitations and specify if it is required or optional. | Recommended | Recommended |
| For inference, provide details about the output data your product returns for both the real-time endpoint and batch transform job. Include any limitations, if applicable. See 输入和输出的要求. | Required | Required |
| For inference, provide output samples for both the real-time endpoint and batch transform job. Samples must be hosted on GitHub. See 输入和输出的要求. | Required | Required |
| For inference, provide an example of using an endpoint or batch transform job. Include a code example using the AWS Command Line Interface (AWS CLI) commands or using an AWS SDK. | Required | Required |
| For inference, provide the name and description of each output parameter. Specify if it is always returned. | Recommended | Recommended |
| For training, provide details about necessary information to train the model such as minimum rows of data required. See 输入和输出的要求. | Not applicable | Required |
| For training, provide input samples hosted on GitHub. See 输入和输出的要求. | Not applicable | Required |
| For training, provide an example of performing training jobs. Describe the supported hyperparameters, their ranges, and their overall impact. Specify if the algorithm supports hyperparameter tuning, distributed training, or GPU instances. Include code example such as AWS CLI commands or using an AWS SDK, for example. | Not applicable | Required |
| Provide a Jupyter notebook hosted on GitHub demonstrating complete use of your product. See Jupyter 笔记本的要求. | Required | Required |
| Provide technical information related to the usage of the product, including user manuals and sample data. | Recommended | Recommended |