Criação de pipelines de ML prontos para produção em AWS

Josiah Davis, Verdi March, Yin Song, Baichuan Sun, Chen Wu e Wei Yih Yap, da Amazon Web Services (AWS)

Janeiro de 2021 (histórico do documento)

Os projetos de machine learning (ML) exigem um esforço significativo em vários estágios que inclui modelagem, implantação e produção para agregar valor comercial e resolver problemas do mundo real. Várias alternativas e opções de personalização estão disponíveis em cada etapa, o que torna cada vez mais difícil preparar um modelo de ML para produção dentro das restrições de seus recursos e orçamento. Nos últimos anos na Amazon Web Services (AWS), nossa equipe de Ciência de Dados trabalhou com diferentes setores da indústria em iniciativas de ML. Identificamos pontos problemáticos compartilhados por muitos AWS clientes, que se originam tanto de problemas organizacionais quanto de desafios técnicos, e desenvolvemos uma abordagem ideal para fornecer soluções de ML prontas para produção.

Este guia destina-se a cientistas de dados e engenheiros de ML envolvidos na implantação de pipelines de ML. Ele descreve nossa abordagem para o fornecimento de pipelines de ML prontos para produção. O guia discute como você pode fazer a transição da execução interativa de modelos de ML (durante o desenvolvimento) para sua implantação como parte de um pipeline (durante a produção) para seu caso de uso de ML. Para isso, também desenvolvemos um conjunto de modelos de exemplo (veja o projeto do projeto ML Max), para acelerar a entrega de soluções personalizadas de ML para produção, de modo que você possa começar a usar rapidamente sem precisar fazer muitas escolhas de design.

Visão geral do

O processo de criação de um pipeline de ML pronto para produção consiste nas seguintes etapas:

Etapa 1. Execute a EDA e desenvolva o modelo inicial — Cientistas de dados disponibilizam dados brutos no Amazon Simple Storage Service (Amazon S3), realizam análise exploratória de dados (EDA), desenvolvem o modelo de ML inicial e avaliam sua performance de inferência. Você pode realizar essas atividades de forma interativa por meio dos cadernos Jupyter.
Etapa 2. Crie os scripts de tempo de execução — Você integra o modelo aos scripts Python de tempo de execução para que ele possa ser gerenciado e provisionado por uma estrutura de ML (no nosso caso, Amazon AI). SageMaker Esse é o primeiro passo para passar do desenvolvimento interativo de um modelo independente para a produção. Especificamente, você define separadamente a lógica para pré-processamento, avaliação, treinamento e inferência.
Etapa 3. Defina o pipeline — Você define os espaços reservados de entrada e saída para cada etapa do pipeline. Valores concretos para eles serão fornecidos mais tarde, durante o runtime (etapa 5). Você se concentra em pipelines para treinamento, inferência, validação cruzada e backtesting.
Etapa 4. Crie o pipeline — Você cria a infraestrutura subjacente, incluindo a instância da máquina de AWS Step Functions estado de forma automatizada (quase um clique), usando AWS CloudFormation.
Etapa 5. Execute o pipeline — Você executa o pipeline definido na etapa 4. Você também prepara metadados e dados ou locais de dados para preencher valores concretos para os input/output espaços reservados que você definiu na etapa 3. Isso inclui os scripts de runtime definidos na etapa 2, bem como os hiperparâmetros do modelo.
Etapa 6. Expanda o pipeline — Você implementa processos de integração contínua e implantação contínua (CI/CD), reciclagem automatizada, inferência programada e extensões similares do pipeline.

O diagrama a seguir ilustra as principais etapas desse processo.

Processo para criar um pipeline de ML pronto para produção

Atenção O Javascript está desativado ou não está disponível no seu navegador.

Para usar a documentação da AWS, o Javascript deve estar ativado. Consulte as páginas de Ajuda do navegador para obter instruções.

Convenções do documento