事前に最適化されたモデルのデプロイ

JumpStart の一部のモデルは SageMaker AI によって事前に最適化されています。つまり、最初に推論最適化ジョブを作成することなく、これらのモデルの最適化されたバージョンをデプロイできます。

事前に最適化されたオプションが用意されているモデルのリストについては、「事前に最適化された JumpStart モデル」を参照してください。

Amazon SageMaker Studio を使用して事前に最適化された JumpStart モデルをデプロイするには、次の手順に従います。

事前に最適化されたモデルをデプロイするには

Studio の左側のナビゲーションメニューで、[JumpStart] を選択します。
[すべてのパブリックモデル] ページで、事前に最適化されているモデルのいずれかを選択します。
モデルの詳細ページで、[デプロイ] を選択します。
一部の JumpStart モデルでは、デプロイページで、続行する前にエンドユーザーライセンス契約 (EULA) に署名する必要があります。要求された場合、[ライセンス契約] セクションのライセンス条項を確認してください。その条項がユースケースで受け入れられる場合は、[EULA に同意し、利用規約を読みました] のチェックボックスをオンにします。

詳細については、「エンドユーザーライセンス契約」を参照してください。
[エンドポイント名] と [初期インスタンス数] は、デフォルト値を受け入れるか、カスタム値を設定します。
[インスタンスタイプ] は、デフォルト値のままにします。それ以外の場合、事前に最適化された設定をデプロイできません。
[モデル] で、モデル設定を展開します。Studio の表に、事前い最適化され、選択可能な設定が表示されます。各オプションには、レイテンシーとスループットのメトリクスがあります。アプリケーションのニーズに最適なオプションを選択します。
[デプロイ] をクリックします。

プロジェクトで SageMaker AI Python SDK を使用して、事前最適化済みモデルをデプロイできます。まず、ModelBuilder クラスを使用して Model インスタンスを定義します。次に、set_deployment_config() メソッドを使用して、デプロイする事前最適化済み構成を設定します。その後、build() メソッドを使用してモデルを構築します。最後に、deploy() メソッドを使用してそれを推論エンドポイントにデプロイします。

次の例で使用されているクラスとメソッドの詳細については、SageMaker AI Python SDK ドキュメントの「APIs」を参照してください。

プロジェクトをセットアップするには

アプリケーションコードで、必要なライブラリをインポートします。以下の例では、SDK for Python (Boto3) をインポートします。また、モデルの定義と操作に使用するモジュールを SageMaker AI Python SDK からインポートします。
```
import boto3
from sagemaker.serve.builder.model_builder import ModelBuilder
from sagemaker.serve.builder.schema_builder import SchemaBuilder
from sagemaker.session import Session
```
SageMaker AI セッションを初期化します。次の例では Session() クラスを使用しています。
```
sagemaker_session = Session()
```

モデルを定義するには

SchemaBuilder インスタンスを作成し、入力サンプルと出力サンプルを提供します。モデルを定義するときに、このインスタンスを ModelBuilder クラスに指定します。これにより、SageMaker AI は入力と出力をシリアル化および逆シリアル化するためのマーシャリング関数を自動的に生成します。

SchemaBuilder または ModelBuilder クラスの使用の詳細については、「ModelBuilder を使用して Amazon SageMaker AI でモデルを作成する」を参照してください。

次の例では、SchemaBuilder クラスに入力文字列の例と出力文字列の例を提供します。
```
response = "Jupiter is the largest planet in the solar system. It is the fifth planet from the sun."
sample_input = {
    "inputs": "What is the largest planet in the solar system?",
    "parameters": {"max_new_tokens": 128, "top_p": 0.9, "temperature": 0.6},
}
sample_output = [{"generated_text": response}]
schema_builder = SchemaBuilder(sample_input, sample_output)
```
モデルを SageMaker AI に定義します。次の例では、ModelBuilder インスタンスを初期化するようにパラメータを設定します。
```
model_builder = ModelBuilder(
    model="jumpstart-model-id",
    schema_builder=schema_builder,
    sagemaker_session=sagemaker_session,
    role_arn=sagemaker_session.get_caller_identity_arn(),
)
```
この例では、JumpStart モデルを使用しています。jumpstart-model-id を meta-textgeneration-llama-3-70b などの JumpStart モデルの ID に置き換えます。

ベンチマークメトリクスを取得するには

デプロイ対象の事前に最適化された設定を確認するには、SageMaker AI が提供するオプションを調べます。次の例をご覧ください。


model_builder.display_benchmark_metrics()

この display_benchmark_metrics() メソッドにより、次のようなテーブルが出力されます。


| Instance Type   | Config Name   |   Concurrent Users |   Latency, TTFT (P50 in sec) |   Throughput (P50 in tokens/sec/user) |
|:----------------|:--------------|-------------------:|-----------------------------:|--------------------------------------:|
| ml.g5.48xlarge  | lmi-optimized |                  1 |                         2.25 |                                 49.70 |
| ml.g5.48xlarge  | lmi-optimized |                  2 |                         2.28 |                                 21.10 |
| ml.g5.48xlarge  | lmi-optimized |                  4 |                         2.37 |                                 14.10 |
. . .
| ml.p4d.24xlarge | lmi-optimized |                  1 |                         0.10 |                                137.40 |
| ml.p4d.24xlarge | lmi-optimized |                  2 |                         0.11 |                                109.20 |
| ml.p4d.24xlarge | lmi-optimized |                  4 |                         0.13 |                                 85.00 |
. . .

テーブルの最初の列には、選択した JumpStart モデルのホストに使用できる潜在的なインスタンスタイプが一覧表示されています。インスタンスタイプごとに、Config Name の下に、事前に最適化された設定の名前が一覧表示されます。SageMaker AI が提供する設定の名前は lmi-optimized です。インスタンスタイプと設定ごとに、テーブルにベンチマークメトリクスが表示されます。これらのメトリクスは、モデルがさまざまな数の同時ユーザーに対して対応するスループットとレイテンシーを示します。

ベンチマークメトリクスに基づいて、パフォーマンスニーズに最適なインスタンスタイプと設定名を選択します。これらの値は、デプロイ設定を作成するときに使用します。

事前に最適化されたモデルをデプロイするには

デプロイ設定を作成します。次の例では、ModelBuilder インスタンスを使用します。インスタンスタイプと設定名が set_deployment_config() メソッドに渡されます。
```
model_builder.set_deployment_config(
    config_name="config-name", 
    instance_type="instance-type",
)
```
lmi-optimized などのテーブルの設定名を config-name に置き換えます。ml.p4d.24xlarge などのテーブルのインスタンスタイプを instance-type に置き換えます。
モデルをビルドします。次の例では、ModelBuilder インスタンスの .build() メソッドを使用します。
```
optimized_model = model_builder.build()
```
.build() メソッドはデプロイ可能な Model インスタンスを返します。
モデルを推論エンドポイントにデプロイします。次の例では、Model インスタンスの .deploy() メソッドを使用します。
```
predictor = optimized_model.deploy(accept_eula=True)
```
deploy() メソッドは Predictor インスタンスを返します。このインスタンスを使用すると、モデルに推論リクエストを送信できます。

推論リクエストを使用してモデルをテストするには

モデルを推論エンドポイントにデプロイしたら、モデル予測をテストします。次の例では、Predictor インスタンスを使用して推論リクエストを送信します。
```
predictor.predict(sample_input)
```
モデルは、次のようなレスポンスで生成されるテキストを返します。
```
{'generated_text': ' Jupiter is the largest planet in the solar system. It is the fifth planet from the sun. It is a gas giant with . . .'}
```

事前に最適化された JumpStart モデル

設定が事前に最適化されている JumpStart モデルを次に示します。

HuggingFace

Mixtral 8x7B Instruct
Mixtral 8x7B
Mistral 7B Instruct
Mistral 7B

事前にコンパイルされた JumpStart モデル

一部のモデルと設定では、SageMaker AI は特定の Inferentia インスタンスと AWS Trainium AWS インスタンス用に事前にコンパイルされたモデルを提供します。これらのモデルについて、コンパイル最適化ジョブを作成し、デプロイインスタンスタイプとして ml.inf2.48xlarge または ml.trn1.32xlarge を選択した場合、SageMaker AI はコンパイルされたアーティファクトを取得します。ジョブは、既にコンパイルされているモデルを使用するため、コンパイルを初めから実行する必要がなく、迅速に完了します。

以下は、SageMaker AI によってモデルが事前にコンパイルされた JumpStart モデルです。

HuggingFace

Mistral 7B

ブラウザで JavaScript が無効になっているか、使用できません。

AWS ドキュメントを使用するには、JavaScript を有効にする必要があります。手順については、使用するブラウザのヘルプページを参照してください。

ドキュメントの表記規則

セキュリティ

最適化ジョブの作成

事前に最適化されたモデルのデプロイ

事前に最適化されたモデルをデプロイするには

プロジェクトをセットアップするには

モデルを定義するには

ベンチマークメトリクスを取得するには

事前に最適化されたモデルをデプロイするには

推論リクエストを使用してモデルをテストするには

事前に最適化された JumpStart モデル

Meta

HuggingFace

事前にコンパイルされた JumpStart モデル

Meta

HuggingFace