Das serverlose ML-Inferenzmuster: Leicht, ereignisgesteuert, skalierbar Anwendungsfall: Stimmungsklassifizierung für Kundenfeedback Geschäftlicher Nutzen der serverlosen ML-Inferenz-Pipeline

Muster 1: Serverlose ML-Inferenz-Pipeline

In vielen Unternehmensumgebungen müssen Teams KI in betriebliche Workflows integrieren, um beispielsweise Benutzerfeedback zu klassifizieren, Anomalien bei der eingehenden Telemetrie zu erkennen oder Risiken in Echtzeit zu bewerten. Diese auf maschinellem Lernen (ML) basierenden Funktionen sind häufig in kundenorientierte Anwendungen, mobile Apps oder interne Automatisierungssysteme eingebettet.

Herkömmliche ML-Inferenz-Workloads erfordern jedoch in der Regel Folgendes:

Vorab bereitgestellte Rechenleistung wie Amazon Elastic Compute Cloud (Amazon EC2) -Instances und Container
Richtlinien für die manuelle Skalierung
Dauerhafte Infrastruktur auch im Leerlauf
Komplexe Bereitstellungs- und Überwachungspipelines

Aus diesen Anforderungen ergibt sich Folgendes:

Nicht ausreichend genutzte Ressourcen für sporadische Inferenzen
Operative Komplexität für Modellversionierung, Failover und auto-scaling
Höhere Kosten, insbesondere bei Workloads mit niedriger Frequenz oder hoher Auslastung

Darüber hinaus fehlen den Entwicklungsteams häufig die speziellen Fähigkeiten zur ML-Infrastruktur, um diese Komplexität aufrechtzuerhalten, und die Einführung von KI gerät in der Prototypenphase ins Stocken.

Das serverlose ML-Inferenzmuster: Leicht, ereignisgesteuert, skalierbar

Das serverlose ML-Inferenz-Pipeline-Muster verwendet eine vollständig verwaltete, AWS-Services ereignisgesteuerte Methode, um die Belastung der Infrastruktur zu verringern. Dieser Ansatz ermöglicht Inferenz-Workflows, die nur bei Bedarf ausgelöst und ausgeführt werden und bei Bedarf automatisch skaliert werden.

Dieses Muster eignet sich ideal für die folgenden Aufgaben:

Führen Sie einfache ML-Modelle aus, die in Amazon SageMaker oder lokal trainiert wurden.
Führen Sie die Klassifizierung, Bewertung oder Transformation nahezu in Echtzeit durch.
Betten Sie ML-Logik in Microservices oder APIs Datenerfassungspipelines ein.

Die Referenzarchitektur implementiert jede Ebene wie folgt:

Ereignisauslöser — Verwendet Amazon API Gateway für Benutzeranfragen, Amazon EventBridge für Geschäftsereignisse und Amazon S3 für Datenuploads.
Verarbeitungsebene — Implementiert, AWS Lambdaum Eingaben zu normalisieren, das Schema zu validieren und Metadaten anzureichern.
Inferenzschicht — Stellt einen SageMaker serverlosen Inferenzendpunkt bereit, um Klassifizierungen, Regressionen oder Bewertungen durchzuführen.
Nachbearbeitung — Verwendet Lambda, um die Antwort zu formatieren, Protokolle zu speichern und neue Ereignisse auszusenden.
Output — Implementiert API Gateway, um Ergebnisse an Benutzer zurückzugeben oder Ereignisse EventBridge für die nachfolgende Verarbeitung zu veröffentlichen.

Anmerkung

Diese gesamte Pipeline kann mithilfe von AWS Cloud Development Kit (AWS CDK) or AWS Serverless Application Model () als Infrastruktur als Code (IaC AWS SAM), versioniert und beobachtbar bereitgestellt werden.

Anwendungsfall: Stimmungsklassifizierung für Kundenfeedback

Ein globales E-Commerce-Unternehmen möchte das Kundenfeedback, das auf Produktrezensionen oder Support-Tickets hinterlassen wurde, klassifizieren, um Kritiker frühzeitig zu identifizieren und Folgemaßnahmen zu priorisieren. Das Klassifizierungssystem muss die folgenden Anforderungen erfüllen:

Der Traffic ist sehr unterschiedlich und kann während der Kampagnenzeiten stark ansteigen.
Die Inferenz muss in Echtzeit erfolgen, um sie in das Support-Triage-System integrieren zu können.
Das Modell ist leichtgewichtig (100 ms Inferenzlatenz) und darauf trainiert. SageMaker

Für diesen Anwendungsfall besteht die serverlose Inferenz-Pipeline-Lösung aus den folgenden Schritten:

Benutzerfeedback wird an API Gateway gesendet, das es dann an sendet EventBridge.
Lambda verarbeitet und formatiert die Textnutzlast vor.
Auf dem SageMaker Serverless Inference-Endpunkt wird ein Stimmungsklassifizierungsmodell ausgeführt.
Lambda leitet „negative“ Ergebnisse an die Support-Eskalationswarteschlange weiter.
Die Ergebnisse werden in Amazon DynamoDB für Analysen und Schulungen protokolliert.

Geschäftlicher Nutzen der serverlosen ML-Inferenz-Pipeline

Die serverlose ML-Inferenz-Pipeline bietet Mehrwert in den folgenden Bereichen:

Skalierbarkeit — Automatische Skalierung auf Tausende von Inferenzen pro Minute ohne manuelles Tuning
Kosteneffizienz — Es wird nur für die Ausführungszeit bezahlt, während Leerlaufzeiten fallen keine Kosten an
Geschwindigkeit bei der Entwicklung — Ermöglicht Teams die Implementierung von end-to-end KI-Inferenz-Workflows, ohne die Infrastruktur verwalten zu müssen
Resilienz — Bietet integrierte Wiederholungsversuche, Protokollierung und statusfreie Ausführung, um die Stabilität zu gewährleisten
Beobachtbarkeit — Überwacht die Modellnutzung, die Eingabe- und Ausgabevolumina sowie die Latenz mithilfe von Amazon CloudWatch und AWS X-Ray

Die serverlose ML-Inferenz-Pipeline ist der Einstiegspunkt für viele Unternehmen, die KI schrittweise und pragmatisch einführen möchten. Es ist das ideale Muster, um die folgenden Ziele zu erreichen:

KI in Echtzeit und mit niedriger Latenz
Kosteneffizienter Einsatz herkömmlicher ML-Modelle
Nahtlose Integration mit modernen serverlosen und ereignisgesteuerten Systemen

Durch die Abstrahierung der Infrastruktur können sich Teams auf die Geschäftslogik, die Modellgenauigkeit und die Erzielung eines echten Mehrwerts konzentrieren, ohne Abstriche bei der betrieblichen Kontrolle oder Skalierbarkeit machen zu müssen.

Warnung JavaScript ist in Ihrem Browser nicht verfügbar oder deaktiviert.

Zur Nutzung der AWS-Dokumentation muss JavaScript aktiviert sein. Weitere Informationen finden auf den Hilfe-Seiten Ihres Browsers.

Dokumentkonventionen

Entwicklung serverloser KI-Architekturen

Muster 2: Agentische KI-Orchestrierung mit Amazon Bedrock