Le modèle d'inférence ML sans serveur : léger, piloté par les événements, évolutif Cas d'utilisation : classification des sentiments pour les commentaires des clients Valeur commerciale du pipeline d'inférence ML sans serveur

Modèle 1 : pipeline d'inférence ML sans serveur

Dans de nombreux environnements d'entreprise, les équipes doivent intégrer l'IA dans les flux de travail opérationnels, par exemple pour classer les commentaires des utilisateurs, détecter des anomalies dans la télémétrie entrante ou évaluer les risques en temps réel. Ces fonctionnalités basées sur l'apprentissage automatique (ML) sont souvent intégrées dans des applications destinées aux clients, des applications mobiles ou des systèmes d'automatisation internes.

Cependant, les charges de travail d'inférence ML traditionnelles nécessitent généralement les éléments suivants :

Calcul préprovisionné tel que les instances et les conteneurs Amazon Elastic Compute Cloud (Amazon EC2)
Politiques de dimensionnement manuel
Infrastructure persistante même en cas d'inactivité
Pipelines de déploiement et de surveillance complexes

Ces exigences se traduisent par les résultats suivants :

Ressources sous-utilisées pour des inférences sporadiques
Complexité opérationnelle pour le versionnement, le basculement et l'auto-scaling des modèles
Augmentation des coûts, en particulier pour les charges de travail à basse fréquence ou en rafale

De plus, les équipes d'ingénierie n'ont souvent pas les compétences spécialisées en infrastructure de machine learning nécessaires pour maintenir cette complexité, et l'adoption de l'IA se bloque dès la phase de prototypage.

Le modèle d'inférence ML sans serveur : léger, piloté par les événements, évolutif

Le modèle de pipeline d'inférence ML sans serveur utilise une gestion entièrement gérée et axée sur les événements Services AWS pour éliminer la charge de l'infrastructure. Cette approche permet des flux de travail d'inférence qui se déclenchent et ne s'exécutent qu'en cas de besoin et qui s'adaptent automatiquement à la demande.

Ce modèle est idéal pour effectuer les tâches suivantes :

Exécutez des modèles de machine learning légers formés sur Amazon SageMaker ou localement.
Effectuez une classification, une notation ou une transformation en temps quasi réel.
Intégrez la logique ML dans les microservices ou les pipelines APIs d'ingestion de données.

L'architecture de référence implémente chaque couche comme suit :

Déclencheur d'événements : utilise Amazon API Gateway pour les demandes des utilisateurs, Amazon EventBridge pour les événements professionnels et Amazon S3 pour les téléchargements de données.
Couche de traitement : mise en œuvre AWS Lambdapour normaliser les entrées, valider le schéma et enrichir les métadonnées.
Couche d'inférence : déploie le point de terminaison d'inférence SageMaker sans serveur pour effectuer une classification, une régression ou une notation.
Post-traitement — Utilise Lambda pour formater la réponse, stocker les journaux et émettre de nouveaux événements.
Sortie — Implémente API Gateway pour renvoyer les résultats aux utilisateurs ou publier des événements EventBridge pour un traitement en aval.

Note

L'ensemble de ce pipeline peut être déployé sous forme d'infrastructure sous forme de code (IaC) en utilisant AWS Cloud Development Kit (AWS CDK) or AWS Serverless Application Model (AWS SAM), versionné et observable.

Cas d'utilisation : classification des sentiments pour les commentaires des clients

Une entreprise internationale de commerce électronique souhaite classer les commentaires des clients laissés sur les avis sur les produits ou les tickets d'assistance afin d'identifier rapidement les détracteurs et de prioriser le suivi. Le système de classification doit répondre aux exigences suivantes :

Le trafic est très variable, avec des pics pendant les périodes de campagne.
L'inférence doit avoir lieu en temps réel pour s'intégrer au système de triage du support.
Le modèle est léger (latence d'inférence de 100 ms) et entraîné. SageMaker

Pour ce cas d'utilisation, la solution de pipeline d'inférence sans serveur comprend les étapes suivantes :

Les commentaires des utilisateurs sont soumis à API Gateway qui les envoie ensuite à EventBridge.
Lambda prétraite et formate la charge utile du texte.
Le point de terminaison SageMaker Serverless Inference exécute un modèle de classification des sentiments.
Lambda achemine les résultats « négatifs » vers la file d'attente d'escalade du support.
Les résultats sont enregistrés dans Amazon DynamoDB à des fins d'analyse et de formation continue.

Valeur commerciale du pipeline d'inférence ML sans serveur

Le pipeline d'inférence ML sans serveur apporte de la valeur dans les domaines suivants :

Évolutivité : s'adapte automatiquement à des milliers d'inférences par minute sans réglage manuel
Rentabilité — Ne paie que le temps d'exécution, sans aucun coût pendant les périodes d'inactivité
Rapidité des développeurs : permet aux équipes de déployer des flux de travail d'inférence basés sur l' end-to-endIA sans gérer l'infrastructure
Résilience : fournit des tentatives intégrées, une journalisation et une exécution sans état pour garantir la robustesse
Observabilité — Surveille l'utilisation des modèles, les volumes d'entrée et de sortie et la latence à l'aide d'Amazon CloudWatch et AWS X-Ray

Le pipeline d'inférence ML sans serveur est le point d'entrée pour de nombreuses entreprises qui cherchent à adopter l'IA de manière progressive et pragmatique. C'est le modèle idéal pour atteindre les objectifs suivants :

IA en temps réel et à faible latence
Déploiement rentable de modèles de machine learning traditionnels
Intégration parfaite avec les systèmes modernes sans serveur et pilotés par les événements

En faisant abstraction de l'infrastructure, les équipes peuvent se concentrer sur la logique métier, la précision des modèles et la création de valeur réelle, sans pour autant sacrifier le contrôle opérationnel ou l'évolutivité.

Avertissement JavaScript est désactivé ou n'est pas disponible dans votre navigateur.

Pour que vous puissiez utiliser la documentation AWS, Javascript doit être activé. Vous trouverez des instructions sur les pages d'aide de votre navigateur.

Conventions de rédaction

Conception d'architectures d'IA sans serveur

Modèle 2 : orchestration de l'IA agentic avec Amazon Bedrock