Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.
Muster 1: Serverlose ML-Inferenz-Pipeline
In vielen Unternehmensumgebungen müssen Teams KI in betriebliche Workflows integrieren, um beispielsweise Benutzerfeedback zu klassifizieren, Anomalien bei der eingehenden Telemetrie zu erkennen oder Risiken in Echtzeit zu bewerten. Diese auf maschinellem Lernen (ML) basierenden Funktionen sind häufig in kundenorientierte Anwendungen, mobile Apps oder interne Automatisierungssysteme eingebettet.
Herkömmliche ML-Inferenz-Workloads erfordern jedoch in der Regel Folgendes:
-
Vorab bereitgestellte Rechenleistung wie Amazon Elastic Compute Cloud (Amazon EC2) -Instances und Container
-
Richtlinien für die manuelle Skalierung
-
Dauerhafte Infrastruktur auch im Leerlauf
-
Komplexe Bereitstellungs- und Überwachungspipelines
Aus diesen Anforderungen ergibt sich Folgendes:
-
Nicht ausreichend genutzte Ressourcen für sporadische Inferenzen
-
Operative Komplexität für Modellversionierung, Failover und auto-scaling
-
Höhere Kosten, insbesondere bei Workloads mit niedriger Frequenz oder hoher Auslastung
Darüber hinaus fehlen den Entwicklungsteams häufig die speziellen Fähigkeiten zur ML-Infrastruktur, um diese Komplexität aufrechtzuerhalten, und die Einführung von KI gerät in der Prototypenphase ins Stocken.
Das serverlose ML-Inferenzmuster: Leicht, ereignisgesteuert, skalierbar
Das serverlose ML-Inferenz-Pipeline-Muster verwendet eine vollständig verwaltete, AWS-Services ereignisgesteuerte Methode, um die Belastung der Infrastruktur zu verringern. Dieser Ansatz ermöglicht Inferenz-Workflows, die nur bei Bedarf ausgelöst und ausgeführt werden und bei Bedarf automatisch skaliert werden.
Dieses Muster eignet sich ideal für die folgenden Aufgaben:
-
Führen Sie einfache ML-Modelle aus, die in Amazon SageMaker oder lokal trainiert wurden.
-
Führen Sie die Klassifizierung, Bewertung oder Transformation nahezu in Echtzeit durch.
-
Betten Sie ML-Logik in Microservices oder APIs Datenerfassungspipelines ein.
Die Referenzarchitektur implementiert jede Ebene wie folgt:
-
Ereignisauslöser — Verwendet Amazon API Gateway für Benutzeranfragen, Amazon EventBridge für Geschäftsereignisse und Amazon S3 für Datenuploads.
-
Verarbeitungsebene — Implementiert, AWS Lambdaum Eingaben zu normalisieren, das Schema zu validieren und Metadaten anzureichern.
-
Inferenzschicht — Stellt einen SageMaker serverlosen Inferenzendpunkt bereit, um Klassifizierungen, Regressionen oder Bewertungen durchzuführen.
-
Nachbearbeitung — Verwendet Lambda, um die Antwort zu formatieren, Protokolle zu speichern und neue Ereignisse auszusenden.
-
Output — Implementiert API Gateway, um Ergebnisse an Benutzer zurückzugeben oder Ereignisse EventBridge für die nachfolgende Verarbeitung zu veröffentlichen.
Anmerkung
Diese gesamte Pipeline kann mithilfe von AWS Cloud Development Kit (AWS CDK) or AWS Serverless Application Model () als Infrastruktur als Code (IaC AWS SAM), versioniert und beobachtbar bereitgestellt werden.
Anwendungsfall: Stimmungsklassifizierung für Kundenfeedback
Ein globales E-Commerce-Unternehmen möchte das Kundenfeedback, das auf Produktrezensionen oder Support-Tickets hinterlassen wurde, klassifizieren, um Kritiker frühzeitig zu identifizieren und Folgemaßnahmen zu priorisieren. Das Klassifizierungssystem muss die folgenden Anforderungen erfüllen:
-
Der Traffic ist sehr unterschiedlich und kann während der Kampagnenzeiten stark ansteigen.
-
Die Inferenz muss in Echtzeit erfolgen, um sie in das Support-Triage-System integrieren zu können.
-
Das Modell ist leichtgewichtig (100 ms Inferenzlatenz) und darauf trainiert. SageMaker
Für diesen Anwendungsfall besteht die serverlose Inferenz-Pipeline-Lösung aus den folgenden Schritten:
-
Benutzerfeedback wird an API Gateway gesendet, das es dann an sendet EventBridge.
-
Lambda verarbeitet und formatiert die Textnutzlast vor.
-
Auf dem SageMaker Serverless Inference-Endpunkt wird ein Stimmungsklassifizierungsmodell ausgeführt.
-
Lambda leitet „negative“ Ergebnisse an die Support-Eskalationswarteschlange weiter.
-
Die Ergebnisse werden in Amazon DynamoDB für Analysen und Schulungen protokolliert.
Geschäftlicher Nutzen der serverlosen ML-Inferenz-Pipeline
Die serverlose ML-Inferenz-Pipeline bietet Mehrwert in den folgenden Bereichen:
-
Skalierbarkeit — Automatische Skalierung auf Tausende von Inferenzen pro Minute ohne manuelles Tuning
-
Kosteneffizienz — Es wird nur für die Ausführungszeit bezahlt, während Leerlaufzeiten fallen keine Kosten an
-
Geschwindigkeit bei der Entwicklung — Ermöglicht Teams die Implementierung von end-to-end KI-Inferenz-Workflows, ohne die Infrastruktur verwalten zu müssen
-
Resilienz — Bietet integrierte Wiederholungsversuche, Protokollierung und statusfreie Ausführung, um die Stabilität zu gewährleisten
-
Beobachtbarkeit — Überwacht die Modellnutzung, die Eingabe- und Ausgabevolumina sowie die Latenz mithilfe von Amazon CloudWatch und AWS X-Ray
Die serverlose ML-Inferenz-Pipeline ist der Einstiegspunkt für viele Unternehmen, die KI schrittweise und pragmatisch einführen möchten. Es ist das ideale Muster, um die folgenden Ziele zu erreichen:
-
KI in Echtzeit und mit niedriger Latenz
-
Kosteneffizienter Einsatz herkömmlicher ML-Modelle
-
Nahtlose Integration mit modernen serverlosen und ereignisgesteuerten Systemen
Durch die Abstrahierung der Infrastruktur können sich Teams auf die Geschäftslogik, die Modellgenauigkeit und die Erzielung eines echten Mehrwerts konzentrieren, ohne Abstriche bei der betrieblichen Kontrolle oder Skalierbarkeit machen zu müssen.