创建机器学习产品的要求和最佳实操 - AWS Marketplace

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

创建机器学习产品的要求和最佳实操

务必使买家能够轻松测试您的模型包和算法产品。以下各节介绍了关于机器学习产品的最佳实践。有关要求和建议的完整摘要,请参阅机器学习产品列表的要求和建议摘要

注意

如果您发布的产品不符合这些要求,AWS Marketplace 销售代表可能会与您联系,帮助您满足这些要求。

机器学习产品的一般最佳实操

为您的机器学习产品提供以下信息:

  • 对于产品描述,请包括以下内容:

    • 模型的作用

    • 目标客户

    • 最重要的用例

    • 模型训练方式及使用的数据量

    • 性能指标及使用的验证数据

    • 如果是医疗用途,则您的模型是否用于诊断

  • 默认情况下,机器学习产品配置为公开可见。但是,您可以创建具有有限可见性的产品。有关更多信息,请参阅 步骤 7:配置允许列表

  • (可选)对于付费产品,提供 14-30 天的免费试用,让客户试用您的产品。有关更多信息,请参阅 AWS Marketplace 机器学习产品定价

使用信息要求

描述产品预期输入和输出的清晰使用信息(附示例)对于提供积极的买家体验至关重要。

对于添加到产品列表中的每个新资源版本,都必须提供使用信息。

要编辑特定版本的现有使用情况信息,请参阅更新版本信息

输入和输出的要求

清晰解释支持的输入参数和返回的输出参数,并附上示例,这对于帮助买家了解并使用您的产品至关重要。这种理解可以帮助您的买家对输入数据进行任何必要的转换,以获得最佳的推理结果。

当您将 Amazon SageMaker AI 资源添加到产品信息时,系统将提示您填写以下内容。

推理输入和输出

对于推理输入,需说明您的产品对实时端点和批量转换作业所期望的输入数据。包括用于对数据进行任何必要预处理的代码片段。说明适用的限制条件。提供托管在 GitHub 上的输入示例。

对于推理输出,需说明您的产品对实时端点和批量转换作业返回的输出数据。说明适用的限制条件。提供托管在 GitHub 上的输出示例。

对于示例,请提供适用于您的产品的输入文件。如果您的模型执行多分类器,请为每个类提供至少一个示例输入文件。

训练输入

训练模型的信息部分,提供输入数据格式和代码片段,以便对数据进行任何必要的预处理。描述数值含义及限制条件(如适用)。提供托管在 GitHub 上的输入示例。

解释买家可以提供的可选和必备特征,并指定是否支持 PIPE 输入模式。如果支持分布式训练(使用超过 1 个 CPU/GPU 实例进行训练),请指定此项。要进行调整,请列出推荐的超参数。

Jupyter 笔记本的要求

将 SageMaker AI 资源添加到产品信息时,请提供指向托管在 GitHub 上的示例 Jupyter 笔记本的链接,该笔记本无需要求买家上传或查找任何数据即可演示完整的工作流程。

使用 AWS SDK for Python (Boto)。精心开发的示例笔记本可以让买家更轻松地尝试使用您的产品。

对于模型包产品,您的示例笔记本演示了输入数据的准备、实时推理端点的创建以及批量转换作业的性能。有关更多信息,请参阅 GitHub 上的 模型包列表和示例笔记本。有关示例笔记本,请参阅 auto_insurance。该笔记本可在所有 AWS 区域 使用,无需输入任何参数,也无需买家查找示例数据。

注意

开发不足的 Jupyter 笔记本示例无法显示多个可能的输入和数据预处理步骤,这可能会使买家难以完全了解您产品的价值主张。

对于算法产品,示例笔记本演示了完整的训练、调整、模型创建、实时推理端点的创建以及批处理转换作业的性能。有关更多信息,请参阅 GitHub 上的算法列表和示例笔记本。有关示例笔记本,请参阅 GitHub 上的 amazon_demo_productautoml。这些示例笔记本可在所有区域使用,无需输入任何参数,也无需买家查找示例数据。

注意

缺少示例训练数据可能会使您的买家无法成功运行 Jupyter 笔记本。开发不足的示例笔记本可能会使您的买家无法使用您的产品并阻碍其采用。

机器学习产品列表的要求和建议摘要

下表提供了机器学习产品列表页面要求和建议的摘要。

详细信息 对于模型包列表 对于算法列表
Product descriptions
Explain in detail what the product does for supported content types (for example, “detects X in images"). Required Required
Provide compelling and differentiating information about the product (avoid adjectives like "best" or unsubstantiated claims). Recommended Recommended
List most important use case(s) for this product. Required Required
Describe the data (source and size) it was trained on and list any known limitations. Required Not applicable
Describe the core framework that the model was built on. Recommended Recommended
Summarize model performance metric on validation data (for example, "XX.YY percent accuracy benchmarked using the Z dataset"). Required Not applicable
Summarize model latency and/or throughput metrics on recommended instance type. Required Not applicable
Describe the algorithm category. For example, “This decision forest regression algorithm is based on an ensemble of tree-structured classifiers that are built using the general technique of bootstrap aggregation and a random choice of features.” Not applicable Required
Usage information
For inference, provide a description of the expected input format for both the real-time endpoint and batch transform job. Include limitations, if applicable. See 输入和输出的要求. Required Required
For inference, provide input samples for both the real-time endpoint and batch transform job. Samples must be hosted on GitHub. See 输入和输出的要求. Required Required
For inference, provide the name and description of each input parameter. Provide details about the its limitations and specify if it is required or optional. Recommended Recommended
For inference, provide details about the output data your product returns for both the real-time endpoint and batch transform job. Include any limitations, if applicable. See 输入和输出的要求. Required Required
For inference, provide output samples for both the real-time endpoint and batch transform job. Samples must be hosted on GitHub. See 输入和输出的要求. Required Required
For inference, provide an example of using an endpoint or batch transform job. Include a code example using the AWS Command Line Interface (AWS CLI) commands or using an AWS SDK. Required Required
For inference, provide the name and description of each output parameter. Specify if it is always returned. Recommended Recommended
For training, provide details about necessary information to train the model such as minimum rows of data required. See 输入和输出的要求. Not applicable Required
For training, provide input samples hosted on GitHub. See 输入和输出的要求. Not applicable Required
For training, provide an example of performing training jobs. Describe the supported hyperparameters, their ranges, and their overall impact. Specify if the algorithm supports hyperparameter tuning, distributed training, or GPU instances. Include code example such as AWS CLI commands or using an AWS SDK, for example. Not applicable Required
Provide a Jupyter notebook hosted on GitHub demonstrating complete use of your product. See Jupyter 笔记本的要求. Required Required
Provide technical information related to the usage of the product, including user manuals and sample data. Recommended Recommended