As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.
Usar a importação de modelo personalizado para importar um modelo de código aberto personalizado para o Amazon Bedrock
Você pode criar um modelo personalizado no Amazon Bedrock usando o recurso Amazon Bedrock Custom Model Import para importar modelos de base que você personalizou em outros ambientes, como o Amazon SageMaker AI. Por exemplo, você pode ter um modelo criado na Amazon SageMaker AI que tenha pesos de modelo proprietários. Agora é possível importar esse modelo no Amazon Bedrock e aproveitar os recursos do Amazon Bedrock para fazer chamadas de inferência ao modelo.
É possível usar um modelo que você importa com o throughput sob demanda. Use as InvokeModelWithResponseStreamoperações InvokeModelou para fazer chamadas de inferência para o modelo. Para obter mais informações, consulte Envie uma única solicitação com InvokeModel.
A importação de modelos personalizados é suportada nas seguintes regiões:
-
eu-central-1
-
us-east-1
-
us-east-2
-
us-west-2
nota
Certifique-se de que a importação e o uso dos modelos no Amazon Bedrock estejam em conformidade com os termos ou licenças aplicáveis aos modelos.
Você não pode usar o recurso Importar modelo personalizado com os recursos do Amazon Bedrock a seguir.
Inferência em lote
CloudFormation
Com o recurso Importar modelo personalizado, é possível criar um modelo personalizado compatível com os padrões a seguir.
-
Modelo ajustado ou de pré-treinamento contínuo: é possível personalizar os pesos do modelo usando dados proprietários, mas reter a configuração do modelo de base.
-
Adaptação é possível personalizar o modelo ao seu domínio para casos de uso em que o modelo não se generaliza bem. A adaptação de domínio modifica um modelo para generalizar para um domínio de destino e lidar com discrepâncias entre domínios, como um setor financeiro que deseja criar um modelo que generalize bem os preços. Outro exemplo é a adaptação da linguagem. Por exemplo, é possível personalizar um modelo para gerar respostas em português ou tâmil. Na maioria das vezes, isso envolve alterações no vocabulário do modelo que você está usando.
-
Pré-treinado do zero: além de personalizar os pesos e o vocabulário do modelo, você também pode alterar os parâmetros de configuração do modelo, como o número de cabeçalhos de atenção, camadas ocultas ou comprimento do contexto.
Para ter informações sobre preços para importação de modelos personalizados, selecione a guia “Importação de modelo personalizado” na seção “Detalhes de preços do modelo” de Preços do Amazon Bedrock
Tópicos
Arquiteturas compatíveis
O modelo que você importa deve estar em uma das arquiteturas a seguir.
-
Mistral: uma arquitetura baseada em transformador somente para decodificadores com Sliding Window Attention (SWA) e opções para Grouped Query Attention (GQA). Para obter mais informações, consulte Mistral
na documentação da Hugging Face. -
Mixtral: um modelo tipo transformador somente para decodificador com modelos esparsos de Mixture of Experts (MoE). Para obter mais informações, consulte Mistral
na documentação da Hugging Face. -
Flan: uma versão aprimorada da arquitetura T5, um modelo tipo transformador baseado em codificador-decodificador. Para obter mais informações, consulte Flan T5
na documentação da Hugging Face. -
Llama 2, Llama3, Llama3.1, Llama3.2, Llama 3.3 e Mllama: uma versão aprimorada do Llama com Atenção de Consulta Agrupada (GQA). Para ter mais informações, consulte Llama 2
, Llama 3 , Llama 3.1 , Llama 3.2 , Llama 3.3 e Mllama na documentação da Hugging Face. -
GPTBigCode: uma versão otimizada do GPT-2 com ação multiconsulta. Para obter mais informações, consulte GPTBigCódigo
na Hugging Face documentação. -
Qwen2, Qwen2.5, Qwen2-VL, Qwen2.5-VL e Qwen3: uma família de LLMs com percepção multimodal abrangente e codificação de visão de alta velocidade. Qualquer modelo usando as arquiteturas Qwen2, Qwen2-VL e Qwen2.5-VL pode ser importado. Para a arquitetura Qwen3, somente Qwen3ForCausalLM e Qwen3MoeForCausalLM são permitidos. Também não é possível usar a Converse em modelos Qwen3. Para ter mais informações, consulte Qwen2
, Qwen2.5 , Qwen2-VL , Qwen2.5-VL e Qwen3 na documentação da Hugging Face. -
GPT-OSS— Arquitetura baseada em GPT-OSS OpenAI. O Amazon Bedrock oferece suporte a modelos personalizados baseados em 20B e 120B. GPT-OSSa arquitetura do modelo só é suportada na região Leste dos EUA (Norte da Virgínia).
nota
O tamanho dos pesos do modelo importado deve ser menor que 100 GB para modelos multimodais e 200 GB para modelos de texto.
As incorporações posicionais máximas ou o tamanho máximo do contexto permitido pelo modelo devem ser inferiores a 128 mil.
O Amazon Bedrock suporta a versão 4.51.3 do transformador. Verifique se você está usando a versão 4.41.1 do transformador ao ajustar o modelo.
A importação de modelos personalizados não é compatível com modelos incorporados.
Importar uma fonte de modelo do Amazon S3
Importe um modelo no Amazon Bedrock criando um trabalho de importação de modelo no console ou na API do Amazon Bedrock. No trabalho, especifique o URI do Amazon S3 para a origem dos arquivos do modelo. Durante o treinamento do modelo, o trabalho de importação detecta automaticamente a arquitetura do modelo.
É necessário fornecer os arquivos do modelo no formato de pesos do Hugging Face. É possível criar os arquivos usando a biblioteca de transformadores da Hugging Face. Para criar arquivos de modelo para um modelo Llama, consulte convert_llama_weights_to_hf.py
Para importar o modelo do Amazon S3, você precisa no mínimo dos arquivos a seguir que são criados pela biblioteca de transformadores da Hugging Face.
-
.safetensor: os pesos do modelo no formato Safetensor. Safetensors é um formato criado pela Hugging Face que armazena os pesos de um modelo como tensores. Armazene os tensores do modelo em um arquivo com a extensão
.safetensors. Para obter mais informações, consulte Safetensors. Para obter informações sobre como converter pesos do modelo para o formato Safetensor, consulte Converter pesos em safetensors . config.json — Para exemplos, veja e. LlamaConfigMistralConfig
nota
O Amazon Bedrock substitui o valor
rope_scalingdo llama3 pelos seguintes valores:-
original_max_position_embeddings=8192 -
high_freq_factor=4 -
low_freq_factor=1 -
factor=8
-
-
tokenizer_config.json Para obter um exemplo, consulte. LlamaTokenizer
tokenizer.json
tokenizer.model
Tokenizers compatíveis
O recurso Importar modelo personalizado do Amazon Bedrock permite os tokenizadores a seguir. É possível usar esses tokenizadores com qualquer modelo.
T5Tokenizer
T5 TokenizerFast
LlamaTokenizer
LlamaTokenizerFast
CodeLlamaTokenizer
CodeLlamaTokenizerFast
GPT2Tokenizador
GPT2TokenizerFast
GPTNeoXTokenizer
GPTNeoXTokenizerRápido
PreTrainedTokenizer
PreTrainedTokenizerFast
Qwen2Tokenizer
Rainha 2 TokenizerFast