Padrão 1: pipeline de inferência de ML sem servidor - AWS Orientação prescritiva

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Padrão 1: pipeline de inferência de ML sem servidor

Em muitos ambientes corporativos, as equipes precisam inserir IA nos fluxos de trabalho operacionais, por exemplo, para classificar o feedback do usuário, detectar anomalias na telemetria recebida ou avaliar riscos em tempo real. Esses recursos baseados em aprendizado de máquina (ML) geralmente são incorporados em aplicativos voltados para o cliente, aplicativos móveis ou sistemas internos de automação.

No entanto, as cargas de trabalho tradicionais de inferência de ML geralmente exigem o seguinte:

  • Computação pré-provisionada, como instâncias e contêineres do Amazon Elastic Compute Cloud (Amazon EC2)

  • Políticas de escalabilidade manual

  • Infraestrutura persistente mesmo quando ociosa

  • Pipelines de implantação e monitoramento complexos

Esses requisitos resultam no seguinte:

  • Recursos subutilizados para inferência esporádica

  • Complexidade operacional para controle de versão, failover e auto-scaling de modelos

  • Custo aumentado, especialmente para cargas de trabalho de baixa frequência ou intermitentes

Além disso, as equipes de engenharia geralmente não têm as habilidades especializadas em infraestrutura de ML para manter essa complexidade, e a adoção da IA é interrompida na fase de protótipo.

O padrão de inferência de ML sem servidor: leve, orientado por eventos e escalável

O padrão de pipeline de inferência de ML sem servidor usa totalmente gerenciado e orientado por eventos para eliminar Serviços da AWS a carga da infraestrutura. Essa abordagem permite fluxos de trabalho de inferência que são acionados e executados somente quando necessário e escalam automaticamente de acordo com a demanda.

Esse padrão é ideal para realizar as seguintes tarefas:

  • Execute modelos leves de ML treinados na Amazon SageMaker ou localmente.

  • Execute classificação, pontuação ou transformação quase em tempo real.

  • Incorpore a lógica de ML em microsserviços ou APIs pipelines de ingestão de dados.

A arquitetura de referência implementa cada camada da seguinte forma:

  • Acionador de eventos — usa o Amazon API Gateway para solicitações de usuários, EventBridge o Amazon para eventos de negócios e o Amazon S3 para upload de dados.

  • Camada de processamento — implementa AWS Lambdapara normalizar a entrada, validar o esquema e enriquecer os metadados.

  • Camada de inferência — implanta o endpoint de inferência SageMaker sem servidor para realizar classificação, regressão ou pontuação.

  • Pós-processamento — usa o Lambda para formatar a resposta, armazenar registros e emitir novos eventos.

  • Saída — implementa o API Gateway para retornar resultados aos usuários ou publica eventos EventBridge para processamento posterior.

nota

Todo esse pipeline pode ser implantado como infraestrutura como código (IaC) usando AWS Cloud Development Kit (AWS CDK) or AWS Serverless Application Model (AWS SAM), versionado e observável.

Caso de uso: classificação de sentimentos para feedback do cliente

Uma empresa global de comércio eletrônico deseja classificar o feedback do cliente deixado nas avaliações de produtos ou nos tickets de suporte para identificar os detratores com antecedência e priorizar o acompanhamento. O sistema de classificação deve atender aos seguintes requisitos:

  • O tráfego é altamente variável, com picos durante os períodos da campanha.

  • A inferência deve ocorrer em tempo real para se integrar ao sistema de triagem de suporte.

  • O modelo é leve (latência de inferência de 100 ms) e é treinado. SageMaker

Para esse caso de uso, a solução de pipeline de inferência sem servidor consiste nas seguintes etapas:

  1. O feedback do usuário é enviado ao API Gateway, que então o envia para EventBridge.

  2. O Lambda pré-processa e formata a carga de texto.

  3. O endpoint de inferência SageMaker sem servidor executa um modelo de classificação de sentimentos.

  4. O Lambda encaminha os resultados “negativos” para a fila de escalonamento de suporte.

  5. Os resultados são registrados no Amazon DynamoDB para análise e reciclagem.

Valor comercial do pipeline de inferência de ML sem servidor

O pipeline de inferência de ML sem servidor agrega valor nas seguintes áreas:

  • Escalabilidade — Dimensiona automaticamente para milhares de inferências por minuto sem ajuste manual

  • Eficiência de custos — paga somente pelo tempo de execução com custo zero durante períodos de inatividade

  • Velocidade do desenvolvedor — permite que as equipes implantem fluxos de trabalho de inferência de end-to-end IA sem gerenciar a infraestrutura

  • Resiliência — fornece novas tentativas, registro e execução sem estado integrados para garantir robustez

  • Observabilidade — Monitora o uso do modelo, os volumes de entrada e saída e a latência usando Amazon e CloudWatch AWS X-Ray

O pipeline de inferência de ML sem servidor é o ponto de entrada para muitas organizações que desejam adotar a IA de forma incremental e pragmática. É o padrão ideal para atingir os seguintes objetivos:

  • IA em tempo real e de baixa latência

  • Implantação econômica de modelos tradicionais de ML

  • Integração perfeita com sistemas modernos sem servidor e orientados por eventos

Ao abstrair a infraestrutura, as equipes podem se concentrar na lógica de negócios, na precisão do modelo e na entrega de valor real, sem sacrificar o controle operacional ou a escalabilidade.