サーバーレス ML 推論パターン: 軽量、イベント駆動型、スケーラブルユースケース: 顧客フィードバックの感情分類サーバーレス ML 推論パイプラインのビジネス価値

パターン 1: サーバーレス ML 推論パイプライン

多くのエンタープライズ環境では、チームは AI を運用ワークフローに組み込む必要があります。例えば、ユーザーフィードバックの分類、受信テレメトリの異常の検出、リアルタイムでのリスクのスコアリングなどです。これらの機械学習 (ML) を活用した機能は、多くの場合、顧客向けアプリケーション、モバイルアプリ、または内部オートメーションシステムに埋め込まれます。

ただし、従来の ML 推論ワークロードでは、通常以下が必要です。

Amazon Elastic Compute Cloud (Amazon EC2) インスタンスやコンテナなどの事前プロビジョニングされたコンピューティング
手動スケーリングポリシー
アイドル状態の場合でもインフラストラクチャが永続化する
複雑なデプロイとモニタリングパイプライン

これらの要件により、次の結果になります。

散発的な推論にリソースが十分に活用されていない
モデルバージョニング、フェイルオーバー、自動スケーリングの運用の複雑さ
特に低頻度またはバーストワークロードでのコストの増加

さらに、エンジニアリングチームには、この複雑さを維持するための特殊な ML インフラストラクチャスキルがない場合が多く、AI の導入はプロトタイプ段階で停止します。

サーバーレス ML 推論パターン: 軽量、イベント駆動型、スケーラブル

サーバーレス ML 推論パイプラインパターンは、フルマネージドのイベント駆動型 AWS のサービスを使用してインフラストラクチャの負担を排除します。このアプローチにより、必要な場合にのみトリガーして実行し、需要に応じて自動的にスケーリングする推論ワークフローが可能になります。

このパターンは、次のタスクを実行するのに最適です。

Amazon SageMaker またはローカルでトレーニングされた軽量 ML モデルを実行します。
分類、スコアリング、または変換をほぼリアルタイムで実行します。
ML ロジックをマイクロサービス、APIs、またはデータ取り込みパイプラインに埋め込みます。

リファレンスアーキテクチャは、次のように各レイヤーを実装します。

イベントトリガー – ユーザーリクエストには Amazon API Gateway、ビジネスイベントには Amazon EventBridge、データアップロードには Amazon S3 を使用します。
処理レイヤー – 入力AWS Lambdaの正規化、スキーマの検証、メタデータの強化を実装します。
推論レイヤー – SageMaker Serverless Inference エンドポイントをデプロイして、分類、回帰、スコアリングを実行します。
後処理 – Lambda を使用してレスポンスをフォーマットし、ログを保存し、新しいイベントを出力します。
出力 – API Gateway を実装してユーザーに結果を返すか、イベントを EventBridge に発行してダウンストリーム処理を行います。

注記

このパイプライン全体は、 AWS Cloud Development Kit (AWS CDK) or AWS Serverless Application Model ()、バージョニング、オブザーバブルを使用して、Infrastructure as Code (IaC AWS SAM) としてデプロイできます。

ユースケース: 顧客フィードバックの感情分類

あるグローバル e コマース企業は、製品レビューやサポートチケットに関するお客様からのフィードバックを分類して、デトラクターを早期に特定し、フォローアップを優先したいと考えています。分類システムは、次の要件を満たす必要があります。

トラフィックはキャンペーン期間中に急増して大きく変動します。
サポートのトリアージシステムと統合するには、推論をリアルタイムで実行する必要があります。
このモデルは軽量 (100 ミリ秒の推論レイテンシー) で、SageMaker でトレーニングされています。

このユースケースでは、サーバーレス推論パイプラインソリューションは次のステップで構成されます。

ユーザーフィードバックは API Gateway に送信され、その後 EventBridge に送信されます。
Lambda はテキストペイロードを事前処理してフォーマットします。
SageMaker Serverless Inference エンドポイントは感情分類モデルを実行します。
Lambda は、「負」の結果をサポートエスカレーションキューにルーティングします。
結果は、分析と再トレーニングのために Amazon DynamoDB に記録されます。

サーバーレス ML 推論パイプラインのビジネス価値

サーバーレス ML 推論パイプラインは、次の領域で値を提供します。

スケーラビリティ – 手動調整なしで 1 分あたり数千の推論に自動的にスケーリング
コスト効率 – 実行時間に対してのみ支払い、アイドル期間中はコストゼロ
開発者の速度 – チームがインフラストラクチャを管理せずにend-to-end AI 推論ワークフローをデプロイできるようにします
耐障害性 – 組み込みの再試行、ログ記録、ステートレス実行を提供し、堅牢性を確保します
オブザーバビリティ – Amazon CloudWatch とを使用して、モデルの使用状況、入出力ボリューム、レイテンシーをモニタリングします。 AWS X-Ray

サーバーレス ML 推論パイプラインは、AI を段階的かつ実用的に採用しようとしている多くの組織のエントリポイントです。これは、次の目標を達成するための理想的なパターンです。

リアルタイム、低レイテンシー AI
従来の ML モデルのコスト効率の高いデプロイ
最新のサーバーレスおよびイベント駆動型システムとのシームレスな統合

インフラストラクチャを抽象化することで、チームは運用上の制御やスケーラビリティを犠牲にすることなく、ビジネスロジック、モデルの精度、真の価値の提供に集中できます。

ブラウザで JavaScript が無効になっているか、使用できません。

AWS ドキュメントを使用するには、JavaScript を有効にする必要があります。手順については、使用するブラウザのヘルプページを参照してください。

ドキュメントの表記規則

サーバーレス AI アーキテクチャの設計

パターン 2: Amazon Bedrock によるエージェント AI オーケストレーション