Modèle 1 : pipeline d'inférence ML sans serveur - AWS Directives prescriptives

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Modèle 1 : pipeline d'inférence ML sans serveur

Dans de nombreux environnements d'entreprise, les équipes doivent intégrer l'IA dans les flux de travail opérationnels, par exemple pour classer les commentaires des utilisateurs, détecter des anomalies dans la télémétrie entrante ou évaluer les risques en temps réel. Ces fonctionnalités basées sur l'apprentissage automatique (ML) sont souvent intégrées dans des applications destinées aux clients, des applications mobiles ou des systèmes d'automatisation internes.

Cependant, les charges de travail d'inférence ML traditionnelles nécessitent généralement les éléments suivants :

  • Calcul préprovisionné tel que les instances et les conteneurs Amazon Elastic Compute Cloud (Amazon EC2)

  • Politiques de dimensionnement manuel

  • Infrastructure persistante même en cas d'inactivité

  • Pipelines de déploiement et de surveillance complexes

Ces exigences se traduisent par les résultats suivants :

  • Ressources sous-utilisées pour des inférences sporadiques

  • Complexité opérationnelle pour le versionnement, le basculement et l'auto-scaling des modèles

  • Augmentation des coûts, en particulier pour les charges de travail à basse fréquence ou en rafale

De plus, les équipes d'ingénierie n'ont souvent pas les compétences spécialisées en infrastructure de machine learning nécessaires pour maintenir cette complexité, et l'adoption de l'IA se bloque dès la phase de prototypage.

Le modèle d'inférence ML sans serveur : léger, piloté par les événements, évolutif

Le modèle de pipeline d'inférence ML sans serveur utilise une gestion entièrement gérée et axée sur les événements Services AWS pour éliminer la charge de l'infrastructure. Cette approche permet des flux de travail d'inférence qui se déclenchent et ne s'exécutent qu'en cas de besoin et qui s'adaptent automatiquement à la demande.

Ce modèle est idéal pour effectuer les tâches suivantes :

  • Exécutez des modèles de machine learning légers formés sur Amazon SageMaker ou localement.

  • Effectuez une classification, une notation ou une transformation en temps quasi réel.

  • Intégrez la logique ML dans les microservices ou les pipelines APIs d'ingestion de données.

L'architecture de référence implémente chaque couche comme suit :

  • Déclencheur d'événements : utilise Amazon API Gateway pour les demandes des utilisateurs, Amazon EventBridge pour les événements professionnels et Amazon S3 pour les téléchargements de données.

  • Couche de traitement : mise en œuvre AWS Lambdapour normaliser les entrées, valider le schéma et enrichir les métadonnées.

  • Couche d'inférence : déploie le point de terminaison d'inférence SageMaker sans serveur pour effectuer une classification, une régression ou une notation.

  • Post-traitement — Utilise Lambda pour formater la réponse, stocker les journaux et émettre de nouveaux événements.

  • Sortie — Implémente API Gateway pour renvoyer les résultats aux utilisateurs ou publier des événements EventBridge pour un traitement en aval.

Note

L'ensemble de ce pipeline peut être déployé sous forme d'infrastructure sous forme de code (IaC) en utilisant AWS Cloud Development Kit (AWS CDK) or AWS Serverless Application Model (AWS SAM), versionné et observable.

Cas d'utilisation : classification des sentiments pour les commentaires des clients

Une entreprise internationale de commerce électronique souhaite classer les commentaires des clients laissés sur les avis sur les produits ou les tickets d'assistance afin d'identifier rapidement les détracteurs et de prioriser le suivi. Le système de classification doit répondre aux exigences suivantes :

  • Le trafic est très variable, avec des pics pendant les périodes de campagne.

  • L'inférence doit avoir lieu en temps réel pour s'intégrer au système de triage du support.

  • Le modèle est léger (latence d'inférence de 100 ms) et entraîné. SageMaker

Pour ce cas d'utilisation, la solution de pipeline d'inférence sans serveur comprend les étapes suivantes :

  1. Les commentaires des utilisateurs sont soumis à API Gateway qui les envoie ensuite à EventBridge.

  2. Lambda prétraite et formate la charge utile du texte.

  3. Le point de terminaison SageMaker Serverless Inference exécute un modèle de classification des sentiments.

  4. Lambda achemine les résultats « négatifs » vers la file d'attente d'escalade du support.

  5. Les résultats sont enregistrés dans Amazon DynamoDB à des fins d'analyse et de formation continue.

Valeur commerciale du pipeline d'inférence ML sans serveur

Le pipeline d'inférence ML sans serveur apporte de la valeur dans les domaines suivants :

  • Évolutivité : s'adapte automatiquement à des milliers d'inférences par minute sans réglage manuel

  • Rentabilité — Ne paie que le temps d'exécution, sans aucun coût pendant les périodes d'inactivité

  • Rapidité des développeurs : permet aux équipes de déployer des flux de travail d'inférence basés sur l' end-to-endIA sans gérer l'infrastructure

  • Résilience : fournit des tentatives intégrées, une journalisation et une exécution sans état pour garantir la robustesse

  • Observabilité — Surveille l'utilisation des modèles, les volumes d'entrée et de sortie et la latence à l'aide d'Amazon CloudWatch et AWS X-Ray

Le pipeline d'inférence ML sans serveur est le point d'entrée pour de nombreuses entreprises qui cherchent à adopter l'IA de manière progressive et pragmatique. C'est le modèle idéal pour atteindre les objectifs suivants :

  • IA en temps réel et à faible latence

  • Déploiement rentable de modèles de machine learning traditionnels

  • Intégration parfaite avec les systèmes modernes sans serveur et pilotés par les événements

En faisant abstraction de l'infrastructure, les équipes peuvent se concentrer sur la logique métier, la précision des modèles et la création de valeur réelle, sans pour autant sacrifier le contrôle opérationnel ou l'évolutivité.