翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。
SageMaker AI ホスティングサービスでのモデルのデプロイに関するベストプラクティス
SageMaker AI ホスティングサービスを使ってモデルをホストする場合は、次の点を考慮してください。
-
通常、クライアントアプリケーションは SageMaker AI HTTPS エンドポイントにリクエストを送信し、デプロイされたモデルから推論を取得します。テスト中に Jupyter ノートブックからこのエンドポイントにリクエストを送信することもできます。
-
SageMaker AI を使ってトレーニングしたモデルを、独自のデプロイターゲットにデプロイできます。そのためには、モデルトレーニングによって生成されたモデルアーティファクトのアルゴリズム固有の形式を知る必要があります。出力形式の詳細については、「トレーニングの共通データ形式」の使用しているアルゴリズムに対応するセクションを参照してください。
-
同じ SageMaker AI HTTPS エンドポイントに、1 つのモデルの複数のバリアントをデプロイできます。これは、本番環境でモデルのバリエーションをテストするのに役立ちます。たとえば、モデルを本番環境にデプロイしたとします。たとえば、5% という少量のトラフィックを新しいモデルに転送することで、モデルのバリエーションをテストします。これを行うには、モデルの両方のバリエーションを記述するエンドポイント設定を作成します。
ProductionVariantをCreateEndPointConfigへのリクエストに指定します。詳細については、「ProductionVariant」を参照してください。 -
ProductionVariantを設定すると、Application Auto Scaling を使うことができます。自動スケーリングの設定については、「Amazon SageMaker AI モデルの自動スケーリング」を参照してください。 -
すでに実稼働環境にデプロイされているモデルを停止中の状態にすることなく、エンドポイントを変更することができます。たとえば、新しいモデルバリアントを追加したり、既存のモデルバリアントの ML コンピューティングインスタンス設定を更新したり、モデルバリアント間のトラフィックの分散を変更することができます。エンドポイントを変更するには、新しいエンドポイント設定を指定します SageMaker AI は、ダウンタイムなしに変更を実装します。詳細については、「
UpdateEndpoint」および「UpdateEndpointWeightsAndCapacities」を参照してください。 -
モデルアーティファクトを変更または削除したり、モデルをデプロイした後に推論コードを変更すると、予期しない結果が生じます。モデルアーティファクトの変更や削除、または推論コードの変更が必要な場合は、新しいエンドポイント設定を提供してエンドポイントを変更します。新しいエンドポイント設定を指定すると、古いエンドポイント設定に対応するモデルアーティファクトを変更または削除できます。
-
データセット全体の推論を取得するには、ホスティングサービスの代わりにバッチ変換を使用することを検討してください。詳細については、「Amazon SageMaker AI による推論のためのバッチ変換」を参照してください。
複数のアベイラビリティーゾーンにインスタンスをデプロイする
モデルをホストするエンドポイントとして、堅牢なエンドポイントを作成します。SageMaker AI エンドポイントは、アベイラビリティーゾーンの停止やインスタンスの障害からアプリケーションを保護するのに役立ちます。停止が発生したりインスタンスが失敗したりした場合、SageMaker AI は自動的にインスタンスを複数のアベイラビリティーゾーンに分散しようとします。そのため、本番稼働用エンドポイントごとに複数のインスタンスをデプロイすることを強くお勧めします。
Amazon Virtual Private Cloud (VPC) を使用している場合は、それぞれ異なるアベイラビリティーゾーンにある 2 つ以上の Subnets を使用して VPC を設定します。停止が発生したりインスタンスが失敗した場合、Amazon SageMaker AI は自動的にインスタンスを複数のアベイラビリティーゾーンに分散させようとします。
一般的に、より信頼性の高いパフォーマンスを実現するには、さまざまなアベイラビリティーゾーンでより小さなインスタンスタイプを使用してエンドポイントをホストします。
高可用性を実現するため、推論コンポーネントをデプロイします。99.95% の可用性を実現するには、インスタンス番号に関する上記の推奨事項に加えて、推論コンポーネントのコピー数が 3 つ以上となるように設定されていることを確認します。さらに、マネージド自動スケーリングポリシーで、インスタンスの最小数も 2 に設定します。