翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。
カスタムモデルのインポートを使用して、カスタマイズされたオープンソースモデルを Amazon Bedrock にインポートする
Amazon Bedrock Custom Model Import 機能を使用して、Amazon SageMaker AI などの他の環境でカスタマイズした基盤モデルをインポートすると、Amazon Bedrock でカスタムモデルを作成できます。例えば、専有の重みを持つ Amazon SageMaker AI でモデルを作成したとします。そのモデルを Amazon Bedrock にインポートすると、Amazon Bedrock 機能を使用して、モデルに推論呼び出しを行えます。
オンデマンドスループットでインポートするモデルを使用できます。InvokeModel または InvokeModelWithResponseStream オペレーションを使用して、モデルに推論呼び出しを行います。詳細については、「InvokeModel で 1 つのプロンプトを送信する」を参照してください。
カスタムモデルのインポートは、次のリージョンでサポートされています。
-
eu-central-1
-
us-east-1
-
us-east-2
-
us-west-2
注記
Amazon Bedrock でのモデルのインポートと使用が、モデルに適用される条件またはライセンスに準拠していることを確認します。
次の Amazon Bedrock 機能では、カスタムモデルインポートを使用できません。
バッチ推論
CloudFormation
カスタムモデルインポートでは、次のパターンをサポートするカスタムモデルを作成できます。
-
ファインチューニング済みまたは継続的な事前トレーニングモデル — 専有データを使用してモデルの重みをカスタマイズできますが、ベースモデルの設定は保持されます。
-
適応 モデルがいまく一般化されないユースケースに合わせて、モデルをドメインにカスタマイズできます。ドメイン適応は、ターゲットドメインを一般化し、価格を適切に一般化するモデルを作成したい金融業界など、ドメイン間の不一致に対処するようにモデルを変更します。もう 1 つの例は、言語の適応です。例えば、モデルをカスタマイズすると、ポルトガル語またはタミル語でレスポンスを生成できます。ほとんどの場合、これには使用しているモデルの語彙の変更が含まれます。
-
ゼロから事前トレーニング済み — モデルの重みと語彙をカスタマイズするだけでなく、注意ヘッドの数、非表示レイヤー、コンテキストの長さなどのモデル設定パラメータを変更することもできます。
カスタムモデルのインポートの料金については、Amazon Bedrock 料金
トピック
対応アーキテクチャ
インポートするモデルは、次のいずれかのアーキテクチャにある必要があります。
-
Mistral — Sliding Window Attention (SWA) と Grouped Query Attention (GQA) のオプションを備えたデコーダー専用トランスフォーマーベースのアーキテクチャ。詳細については、Hugging Face ドキュメントの「Mistral
」を参照してください。 -
Mixtral — スパース Mixture of Experts (MoE) モデルを備えたデコーダー専用トランスフォーマーモデル。詳細については、Hugging Face ドキュメントの「 Mixtral
」を参照してください。 -
Flan — T5 アーキテクチャの拡張バージョン、エンコーダーデコーダーベースのトランスフォーマーモデル。詳細については、Hugging Face ドキュメントの「Flan T5
」を参照してください。 -
Llama 2、Llama3、Llama3.1、Llama3.2、Llama 3.3、および Mllama - Grouped Query Attention (GQA) を備えた Llama の改善バージョン。詳細については、Hugging Face ドキュメントの「Llama 2
」、「Llama 3 」、「Llama 3.1 」、「Llama 3.2 」、「Llama 3.3 」、および「Mllama 」を参照してください。 -
GPTBigCode — マルチクエリアクションを備えた GPT-2 の最適化バージョン。詳細については、Hugging Face ドキュメントの「GPTBigCode
」を参照してください。 -
Qwen2、Qwen2.5、Qwen2-VL、Qwen2.5-VL、 Qwen3 — 包括的なマルチモーダル認識と高速ビジョンエンコーディングを備えた LLM ファミリー。Qwen2、Qwen2-VL、および Qwen2.5-VL アーキテクチャを使用するすべてのモデルをインポートできます。Qwen3 アーキテクチャの場合、Qwen3ForCausalLM および Qwen3MoeForCausalLM のみサポートされています。Converse は Qwen3 モデルでもサポートされていません。詳細については、Hugging Face ドキュメントの「Qwen2
」、「Qwen2.5 」、「Qwen2-VL 」、「Qwen2.5-VL 」、および「Qwen3 」を参照してください。 -
GPT-OSS — OpenAI ベースのGPT-OSSアーキテクチャ。Amazon Bedrock は、20B および 120B ベースのカスタムモデルの両方をサポートしています。 GPT-OSSモデルアーキテクチャは、米国東部 (バージニア北部) リージョンでのみサポートされています。
注記
インポートされるモデルの重みのサイ ズは、マルチモーダルモデルでは 100GB 未満、テキストモデルでは 200GB 未満である必要があります。
モデルでサポートされる最大位置埋め込みまたは最大コンテキスト長は 128K 未満になります。
Amazon Bedrock はトランスフォーマーバージョン 4.51.3 をサポートしています。モデルをファインチューニングするときは、トランスフォーマーバージョン 4.51.3 を使用していることを確認してください。
カスタムモデルインポートはモデルの埋め込みをサポートしていません。
Amazon S3 からモデルソースをインポートする
Amazon Bedrock コンソールまたは API でモデルインポートジョブを作成して、モデルを Amazon Bedrock にインポートします。ジョブで、モデルファイルのソースに Amazon S3 URI を指定します。モデルトレーニング中、インポートジョブはモデルのアーキテクチャを自動的に検出します。
モデルファイルを Hugging Face の重み形式で指定する必要があります。Hugging Face トランスフォーマーライブラリを使用するとファイルを作成できます。Llama モデルのモデルファイルを作成するには、「convert_llama_weights_to_hf.py
Amazon S3 からモデルをインポートするには、Hugging Face トランスフォーマーライブラリが作成する次のファイルを最小限に抑える必要があります。
-
.safetensor — Safetensor 形式のモデルの重み。Safetensor は、モデル重みをテンソルとして保存する Hugging Face が作成した形式です。モデルのテンソルは、拡張子
.safetensorsのファイルに保存する必要があります。詳細については、「Safetensors」を参照してください。モデルの重みを Safetensor 形式に変換する方法については、「Convert weights to safetensors 」を参照してください。 config.json — 例については、「LlamaConfig
」と「MistralConfig 」を参照してください。 注記
Amazon Bedrock は、llama3
rope_scalingを値を次の値で上書きします。-
original_max_position_embeddings=8192 -
high_freq_factor=4 -
low_freq_factor=1 -
factor=8
-
-
tokenizer_config.json 例については、「LlamaTokenizer
」を参照してください。 tokenizer.json
tokenizer.model
対応トークナイザ
Amazon Bedrock カスタムモデルインポートでは、次のトークナイザに対応しています。これらのトークナイザは、どのモデルでも使用できます。
T5Tokenizer
T5TokenizerFast
LlamaTokenizer
LlamaTokenizerFast
CodeLlamaTokenizer
CodeLlamaTokenizerFast
GPT2Tokenizer
GPT2TokenizerFast
GPTNeoXTokenizer
GPTNeoXTokenizerFast
PreTrainedTokenizer
PreTrainedTokenizerFast
Qwen2Tokenizer
Qwen2TokenizerFast