本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
使用自定义模型导入功能将自定义的开源模型导入 Amazon Bedrock 中
您可以在 Amazon Bedrock 中创建自定义模型,方法是使用 Amazon Bedrock 自定义模型导入功能导入您在其他环境(例如 Ama SageMaker zon AI)中自定义的基础模型。例如,您可能有一个在 Amazon A SageMaker I 中创建的具有专有模型权重的模型。现在,您可以将该模型导入 Amazon Bedrock,然后利用 Amazon Bedrock 的功能对该模型进行推理调用。
您可以将导入的模型与按需吞吐量配合使用。使用InvokeModel或InvokeModelWithResponseStream运算对模型进行推理调用。有关更多信息,请参阅 使用以下命令提交单个提示 InvokeModel。
以下区域支持自定义模型导入:
-
eu-central-1
-
us-east-1
-
us-east-2
-
us-west-2
注意
请确保您在 Amazon Bedrock 中导入和使用模型时遵守适用于模型的条款或许可。
您不能将自定义模型导入功能与以下 Amazon Bedrock 功能一起使用。
批量推理
CloudFormation
使用自定义模型导入功能,您可以创建支持以下模式的自定义模型。
-
微调或持续预训练模型 – 您可以使用专有数据自定义模型权重,但保留基础模型的配置。
-
适应能力您可以根据自己的领域自定义模型,以适应模型无法很好地泛化的使用案例。有了领域适应能力,您可以修改模型,使其适用于目标领域,并处理跨领域的差异,例如金融行业想要创建一个能在定价方面很好地泛化的模型。另一个示例是语言适应。例如,您可以自定义模型以生成葡萄牙语或泰米尔语的响应。通常,这涉及对所用模型的词汇表的更改。
-
从头开始预训练 – 除了自定义模型的权重和词汇表外,您还可以更改模型配置参数,例如注意力头目的数量、隐藏层或上下文长度。
有关自定义模型导入功能的定价的信息,请在 Amazon Bedrock 定价
支持的架构
导入的模型必须是以下架构之一。
-
Mistral – 仅限解码器的基于转换器的架构,具有滑动窗口注意力 (SWA) 和分组查询注意力 (GQA) 选项。有关更多信息,请参阅 Hugging Face 文档中的 Mistral
。 -
Mixtral – 仅限解码器的转换器模型,具有稀疏混合专家 (MoE) 模型。有关更多信息,请参阅 Hugging Face 文档中的 Mixtral
。 -
Flan – T5 架构的增强版,基于编码器-解码器的转换器模型。有关更多信息,请参阅 Hugging Face 文档中的 Flan T5
。 -
Llama 2、Llama3、Llama3.1、Llama3.2 Llama 3.3 和 Mllama – 具有分组查询注意力(GQA)的 Llama 的改进版本。有关更多信息,请参阅 Hugging Face 文档中的 Llama 2
、Llama 3 、Llama 3.1 、Llama 3.2 、Llama 3.3 和 Mllama 。 -
GPTBigCode – 采用多查询操作的 GPT-2 的优化版本。有关更多信息,请参阅Hugging Face文档中的GPTBig代码
。 -
Qwen2、Qwen2.5、Qwen2-VL、Qwen2.5-VL、Qwen3 – 具有全面的多模态感知能力和高速视觉编码功能的 LLM 系列。可以导入任何使用 Qwen2、Qwen2-VL 和 Qwen2.5-VL 架构的模型。对于 Qwen3 架构,仅支持 Qwen3ForCausalLM 和 Qwen3MoeForCausalLM。Qwen3 模型也不支持 Converse。有关更多信息,请参阅 Hugging Face 文档中的 Qwen2
、Qwen2.5 、Qwen2-VL 、Qwen2.5-VL 和 Qwen3 。 -
GPT-OSS— 基于GPT-OSS开放人工智能的架构。Amazon Bedrock 支持基于 20B 和 120B 的自定义模型。 GPT-OSS仅美国东部(弗吉尼亚北部)地区支持模型架构。
注意
导入的模型权重大小必须小于 100 GB(多模态模型)和 200 GB(文本模型)。
模型支持的最大位置嵌入或最大上下文长度应小于 128 K。
Amazon Bedrock 支持变压器版本 4.51.3。对模型进行微调时,请务必使用转换器版本 4.51.3。
自定义模型导入不支持嵌入模型。
从 Amazon S3 导入模型源
您可以通过在 Amazon Bedrock 控制台或 API 中创建模型导入作业,将模型导入到 Amazon Bedrock 中。在作业中,您可以指定模型文件来源的 Amazon S3 URI。在模型训练过程中,导入作业会自动检测模型的架构。
您需要提供采用 Hugging Face 权重格式的模型文件。您可以使用 Hugging Face 转换器库来创建文件。要为 Llama 模型创建模型文件,请参阅 convert_llama_weights_to_hf.py
要从 Amazon S3 导入模型,您至少需要 Hugging Face 转换器库创建的以下文件。
-
.safetensor – Safetensor 格式的模型权重。Safetensors 是 Hugging Face 创建的一种格式,可将模型权重存储为张量。您必须将模型的张量存储在扩展名为
.safetensors的文件中。有关更多信息,请参阅 Safetensors。有关将模型权重转换为 Safetensor 格式的信息,请参阅将权重转换为 Safetensor 。 config.json — 有关示例,请参阅LlamaConfig
和。MistralConfig 注意
Amazon Bedrock 会使用以下值覆盖 llama3
rope_scaling值:-
original_max_position_embeddings=8192 -
high_freq_factor=4 -
low_freq_factor=1 -
factor=8
-
-
tokenizer_config.js on 有关示例,请参阅。LlamaTokenizer
tokenizer.json
tokenizer.model
支持的标记器
Amazon Bedrock 自定义模型导入功能支持以下标记器。您可以将这些标记器与任何模型配合使用。
T5Tokenizer
T5 TokenizerFast
LlamaTokenizer
LlamaTokenizerFast
CodeLlamaTokenizer
CodeLlamaTokenizerFast
GPT2分词器
GPT2TokenizerFast
GPTNeoXTokenizer
GPTNeoXTokenizer快速
PreTrainedTokenizer
PreTrainedTokenizerFast
Qwen2Tokenizer
Qwen2 TokenizerFast