モデルを大規模にデプロイする - Amazon SageMaker AI

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

モデルを大規模にデプロイする

SageMaker AI エンドポイントのオートスケーリングと CloudWatch モニタリングを設定して、本番環境に対応できるようにします。

テキスト分類に本番稼働のモニタリングが重要な理由

テキスト分類ワークロードは、次の理由でモニタリングが必要です。

  • 処理バーストで可変トラフィックパターンが発生します。

  • 1 秒未満の応答時間が必要です。

  • オートスケーリングによるコスト最適化が必要です。

前提条件

開始する前に、以下の準備が整っていることを確認します。

  • 前のセクションからデプロイされた SageMaker AI エンドポイント

  • エンドポイント名 (jumpstart-dft-hf-tc など)

  • Your AWS リージョン(us-east-2 など)。

エンドポイントの作成またはトラブルシューティングについては、「リアルタイム推論」を参照してください。

本番稼働のモニタリングを設定する

CloudWatch モニタリングを設定して、本番環境でのモデルのパフォーマンスを追跡します。

  1. JupyterLab スペースで、前にアップロードした評価パッケージから sagemaker_production_monitoring.ipynb ノートブックを開きます。

  2. 設定セクションでエンドポイント名とリージョンを更新します。

  3. ノートブックの指示に従って、以下を設定します。

    • オートスケーリング (トラフィックに基づく 1~10 インスタンス)

    • レイテンシーと呼び出しのしきい値に関する CloudWatch アラーム

    • ビジュアルモニタリング用のメトリクスダッシュボード

設定を検証する

ノートブックの手順を完了したら、以下が整っていることを検証します。

  • エンドポイントのステータス: InService.

  • オートスケーリング: 1~10 インスタンス設定済み

  • CloudWatch アラーム: 2 つのアラームモニタリング

  • メトリクス: 15 以上のメトリクス登録済み

注記

アラームは最初に INSUFFICIENT_DATA と表示されることがあります。これは正常であり、使用状況に応じて OK に変わります。

エンドポイントをモニタリングする

AWSマネジメントコンソールからビジュアルモニタリングにアクセスします。

詳細については「 SageMaker AI をモニタリングする」を参照してください。

コストの管理とリソースのクリーンアップ

モニタリング設定は貴重な本稼働インサイトを提供しますが、CloudWatch メトリクス、アラーム、自動スケーリングポリシーを通じて継続的なAWS料金が発生します。これらのコストを管理する方法を理解することは、費用対効果の高い運用には不可欠です。不要になったプロジェクトリソースをクリーンアップします。

警告

リクエストを処理していない場合でも、エンドポイントには引き続き料金が発生します。すべての料金を停止するには、エンドポイントを削除する必要があります。手順については、「エンドポイントとリソースを削除する」を参照してください。

高度なモニタリング設定については、「SageMaker AI 向けの CloudWatch メトリクス」を参照してください。