Requisitos e práticas recomendadas para criar produtos de machine learning - AWS Marketplace

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Requisitos e práticas recomendadas para criar produtos de machine learning

É importante que os compradores achem fácil testar seu pacote de modelo e produtos de algoritmo. As seções a seguir descrevem práticas recomendadas para produtos de ML. Para obter um resumo completo dos requisitos e recomendações, consulte a Resumo dos requisitos e recomendações para listagens de produtos de ML.

nota

Um representante do AWS Marketplace pode entrar em contato para ajudar você a satisfazer esses requisitos, caso seus produtos publicados não os atendam.

Práticas recomendadas gerais para produtos de ML

Forneça as seguintes informações para seu produto de machine learning:

  • Para obter descrições de produtos, inclua o seguinte:

    • O que seu modelo faz

    • Quem é o cliente-alvo

    • Qual é o caso de uso mais importante

    • Como seu modelo foi treinado ou a quantidade de dados usada

    • Quais são as métricas de desempenho e os dados de validação usados

    • Se for médico, se o modelo é ou não para uso em diagnóstico

  • Por padrão, os produtos de machine learning são configurados para ter visibilidade pública. No entanto, você pode criar um produto com visibilidade limitada. Para obter mais informações, consulte Etapa 7: Configurar a lista de permissões.

  • (Opcional) Para produtos pagos, ofereça uma avaliação gratuita de 14 a 30 dias para que os clientes experimentem seu produto. Para obter mais informações, consulte Preços de produtos de machine learning para AWS Marketplace.

Requisitos para informações de uso

Informações claras de uso que descrevam as entradas e saídas esperadas do produto (com exemplos) são cruciais para promover uma experiência positiva para o comprador.

Com cada nova versão do recurso adicionada à lista de produtos, você deve fornecer informações de uso.

Para editar as informações de uso existentes de uma versão específica, consulte Atualização das informações da versão.

Requisitos para entradas e saídas

Uma explicação clara dos parâmetros de entrada compatíveis e dos parâmetros de saída retornados com exemplos é importante ajudar os compradores a compreender e usar o produto. Esse entendimento ajuda os compradores a realizar as transformações necessárias nos dados de entrada para obter os melhores resultados de inferência.

Você receberá o prompt a seguir ao adicionar o recurso do Amazon SageMaker AI à lista de produtos.

Entradas e saídas de inferência

Para entrada de inferência, dê uma descrição dos dados de entrada esperados pelo produto para o endpoint em tempo real e o trabalho de transformação em lote. Inclua snippets de código para qualquer pré-processamento necessário dos dados. Inclua limitações, se aplicável. Forneça amostras de entrada hospedadas no GitHub.

Para a saída de inferência, dê uma descrição dos dados de saída retornados para o endpoint em tempo real e o trabalho de transformação em lote. Inclua limitações, se aplicável. Forneça amostras de saída hospedadas no GitHub.

Para amostras, forneça arquivos de entrada que funcionem com seu produto. Se o modelo executar a classificação multiclasse, forneça pelo menos um arquivo de entrada de amostra para cada uma das classes.

Entradas de treinamento

Na seção Informações para treinar um modelo, forneça o formato dos dados de entrada e os snippets de código para qualquer pré-processamento necessário dos dados. Inclua uma descrição de valores e limitações, se aplicável. Forneça amostras de entrada hospedadas no GitHub.

Explique os recursos opcionais e obrigatórios que podem ser fornecidos pelo comprador e especifique se o modo de entrada PIPE é compatível. Se houver suporte para treinamento distribuído (treinamento com mais de uma instância de CPU/GPU), especifique isso. Para ajustar, liste os hiperparâmetros recomendados.

Requisitos para caderno Jupyter

Ao adicionar o recurso do SageMaker AI à lista de produtos, forneça um link para um caderno Jupyter de amostra hospedado no GitHub que demonstre o fluxo de trabalho completo sem pedir ao comprador carregar ou encontrar dados.

Usar a AWS SDK para Python (Boto). Um caderno de amostra bem desenvolvido torna mais fácil para os compradores tentarem usar sua lista.

Para produtos de pacotes de modelo, o caderno de amostra demonstra a preparação dos dados de entrada, a criação de um endpoint para inferência em tempo real e o desempenho de trabalhos de transformação em lote. Para obter mais informações, consulte Lista de pacotes de modelo e caderno de amostra no GitHub. Para ver um exemplo de caderno, consulte auto_insurance. O caderno funciona em todas as Regiões da AWS, sem inserir nenhum parâmetro e sem que o comprador precise localizar os dados da amostra.

nota

Um exemplo de caderno Jupyter subdesenvolvido que não mostra várias entradas possíveis e etapas de pré-processamento de dados pode dificultar que o comprador entenda completamente a proposta de valor do seu produto.

Para produtos de algoritmo, o caderno de amostra demonstra treinamento completo, ajuste, criação de modelos, criação de um endpoint para inferência em tempo real e o desempenho de trabalhos de transformação em lote. Para obter mais informações, consulte Lista de algoritmo e caderno de amostra no GitHub. Para exemplos de cadernos, consulte amazon_demo_product e automl no GitHub. Esses cadernos de amostra funcionam em todas as regiões sem inserir nenhum parâmetro e sem que o comprador precise localizar dados de amostra.

nota

A falta de dados de treinamento de exemplo impede que o comprador execute o caderno Jupyter com êxito. Um caderno de exemplo subdesenvolvido pode impedir que os compradores usem seu produto e dificultar a adoção.

Resumo dos requisitos e recomendações para listagens de produtos de ML

A tabela a seguir fornece um resumo dos requisitos e das recomendações para uma página de listagem de produtos de machine learning.

Detalhes Para listas de pacotes de modelo Para listas de algoritmos
Product descriptions
Explain in detail what the product does for supported content types (for example, “detects X in images"). Required Required
Provide compelling and differentiating information about the product (avoid adjectives like "best" or unsubstantiated claims). Recommended Recommended
List most important use case(s) for this product. Required Required
Describe the data (source and size) it was trained on and list any known limitations. Required Not applicable
Describe the core framework that the model was built on. Recommended Recommended
Summarize model performance metric on validation data (for example, "XX.YY percent accuracy benchmarked using the Z dataset"). Required Not applicable
Summarize model latency and/or throughput metrics on recommended instance type. Required Not applicable
Describe the algorithm category. For example, “This decision forest regression algorithm is based on an ensemble of tree-structured classifiers that are built using the general technique of bootstrap aggregation and a random choice of features.” Not applicable Required
Usage information
For inference, provide a description of the expected input format for both the real-time endpoint and batch transform job. Include limitations, if applicable. See Requisitos para entradas e saídas. Required Required
For inference, provide input samples for both the real-time endpoint and batch transform job. Samples must be hosted on GitHub. See Requisitos para entradas e saídas. Required Required
For inference, provide the name and description of each input parameter. Provide details about the its limitations and specify if it is required or optional. Recommended Recommended
For inference, provide details about the output data your product returns for both the real-time endpoint and batch transform job. Include any limitations, if applicable. See Requisitos para entradas e saídas. Required Required
For inference, provide output samples for both the real-time endpoint and batch transform job. Samples must be hosted on GitHub. See Requisitos para entradas e saídas. Required Required
For inference, provide an example of using an endpoint or batch transform job. Include a code example using the AWS Command Line Interface (AWS CLI) commands or using an AWS SDK. Required Required
For inference, provide the name and description of each output parameter. Specify if it is always returned. Recommended Recommended
For training, provide details about necessary information to train the model such as minimum rows of data required. See Requisitos para entradas e saídas. Not applicable Required
For training, provide input samples hosted on GitHub. See Requisitos para entradas e saídas. Not applicable Required
For training, provide an example of performing training jobs. Describe the supported hyperparameters, their ranges, and their overall impact. Specify if the algorithm supports hyperparameter tuning, distributed training, or GPU instances. Include code example such as AWS CLI commands or using an AWS SDK, for example. Not applicable Required
Provide a Jupyter notebook hosted on GitHub demonstrating complete use of your product. See Requisitos para caderno Jupyter. Required Required
Provide technical information related to the usage of the product, including user manuals and sample data. Recommended Recommended