Patrón 1: canalización de inferencias de aprendizaje automático sin servidor - AWS Guía prescriptiva

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Patrón 1: canalización de inferencias de aprendizaje automático sin servidor

En muchos entornos empresariales, los equipos necesitan incorporar la IA a los flujos de trabajo operativos, por ejemplo, para clasificar los comentarios de los usuarios, detectar anomalías en la telemetría entrante o evaluar los riesgos en tiempo real. Estas funciones basadas en el aprendizaje automático (ML) suelen estar integradas en las aplicaciones orientadas al cliente, las aplicaciones móviles o los sistemas de automatización internos.

Sin embargo, las cargas de trabajo de inferencia de aprendizaje automático tradicionales suelen requerir lo siguiente:

  • Computación aprovisionada previamente, como instancias y contenedores de Amazon Elastic Compute Cloud (Amazon EC2)

  • Políticas de escalado manual

  • Infraestructura persistente incluso cuando está inactiva

  • Procesos complejos de implementación y monitoreo

Estos requisitos dan como resultado lo siguiente:

  • Recursos infrautilizados para inferencias esporádicas

  • Complejidad operativa para el control de versiones de modelos, la conmutación por error y el autoscalamiento

  • Aumento del costo, especialmente en el caso de cargas de trabajo de baja frecuencia o en ráfagas

Además, los equipos de ingeniería suelen carecer de las habilidades especializadas en infraestructura de aprendizaje automático necesarias para mantener esta complejidad, y la adopción de la IA se estanca en la fase de prototipo.

El patrón de inferencia del aprendizaje automático sin servidor: ligero, basado en eventos y escalable

El patrón de canalización de inferencias de aprendizaje automático sin servidor se basa en eventos Servicios de AWS y está totalmente gestionado para eliminar la carga de infraestructura. Este enfoque permite flujos de trabajo de inferencia que se activan y ejecutan solo cuando es necesario y que se escalan automáticamente en función de la demanda.

Este patrón es ideal para realizar las siguientes tareas:

  • Ejecute modelos de aprendizaje automático livianos entrenados en Amazon SageMaker o localmente.

  • Realice clasificaciones, puntajes o transformaciones prácticamente en tiempo real.

  • Incorpore la lógica del aprendizaje automático en los microservicios o en las canalizaciones de ingesta de datos. APIs

La arquitectura de referencia implementa cada capa de la siguiente manera:

  • Activador de eventos: utiliza Amazon API Gateway para las solicitudes de los usuarios, Amazon EventBridge para los eventos empresariales y Amazon S3 para la carga de datos.

  • Capa de procesamiento: se implementa AWS Lambdapara normalizar la entrada, validar el esquema y enriquecer los metadatos.

  • Capa de inferencia: implementa un punto final de inferencia SageMaker sin servidor para realizar la clasificación, la regresión o la puntuación.

  • Posprocesamiento: usa Lambda para formatear la respuesta, almacenar registros y emitir nuevos eventos.

  • Resultado: implementa API Gateway para devolver los resultados a los usuarios o publica eventos EventBridge para su procesamiento posterior.

nota

Toda esta canalización se puede implementar como infraestructura como código (IaC) utilizando AWS Cloud Development Kit (AWS CDK) o AWS Serverless Application Model (AWS SAM), versionada y observable.

Caso de uso: clasificación de opiniones a partir de los comentarios de los clientes

Una empresa de comercio electrónico global quiere clasificar los comentarios de los clientes que aparecen en las reseñas de productos o en las solicitudes de asistencia para identificar a los detractores con antelación y priorizar el seguimiento. El sistema de clasificación debe cumplir los siguientes requisitos:

  • El tráfico es muy variable, con picos durante los períodos de campaña.

  • La inferencia debe realizarse en tiempo real para integrarse con el sistema de clasificación de soporte.

  • El modelo es ligero (latencia de inferencia de 100 ms) y está diseñado para ello. SageMaker

Para este caso de uso, la solución de canalización de inferencias sin servidor consta de los siguientes pasos:

  1. Los comentarios de los usuarios se envían a API Gateway, que luego los envía a EventBridge.

  2. Lambda preprocesa y formatea la carga útil de texto.

  3. El punto final de inferencia SageMaker sin servidor ejecuta un modelo de clasificación de opiniones.

  4. Lambda envía los resultados «negativos» a la cola de escalamiento de soporte.

  5. Los resultados se registran en Amazon DynamoDB para su análisis y reentrenamiento.

Valor empresarial del proceso de inferencia de aprendizaje automático sin servidor

La canalización de inferencia de aprendizaje automático sin servidor ofrece valor en las siguientes áreas:

  • Escalabilidad: se escala automáticamente hasta miles de inferencias por minuto sin necesidad de ajustes manuales

  • Rentabilidad: solo paga por el tiempo de ejecución sin coste alguno durante los períodos de inactividad

  • Velocidad de desarrollo: permite a los equipos implementar flujos de trabajo de inferencia de end-to-end IA sin administrar la infraestructura

  • Resiliencia: proporciona reintentos, registros y ejecución sin estado integrados para garantizar la solidez

  • Observabilidad: monitorea el uso del modelo, los volúmenes de entrada y salida y la latencia mediante Amazon CloudWatch y AWS X-Ray

El proceso de inferencia del aprendizaje automático sin servidor es el punto de partida para muchas organizaciones que desean adoptar la IA de forma gradual y pragmática. Es el patrón ideal para lograr los siguientes objetivos:

  • IA en tiempo real y de baja latencia

  • Despliegue rentable de los modelos de aprendizaje automático tradicionales

  • Integración perfecta con sistemas modernos sin servidor y basados en eventos

Al separar la infraestructura, los equipos pueden centrarse en la lógica empresarial, en la precisión del modelo y en ofrecer un valor real, sin sacrificar el control operativo ni la escalabilidad.