

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

# Usar a importação de modelo personalizado para importar um modelo de código aberto personalizado para o Amazon Bedrock
<a name="model-customization-import-model"></a>

Você pode criar um modelo personalizado no Amazon Bedrock usando o recurso Amazon Bedrock Custom Model Import para importar modelos de base que você personalizou em outros ambientes, como o Amazon SageMaker AI. Por exemplo, você pode ter um modelo criado na Amazon SageMaker AI que tenha pesos de modelo proprietários. Agora é possível importar esse modelo no Amazon Bedrock e aproveitar os recursos do Amazon Bedrock para fazer chamadas de inferência ao modelo. 

É possível usar um modelo que você importa com o throughput sob demanda. Use as [InvokeModelWithResponseStream](https://docs.aws.amazon.com/bedrock/latest/APIReference/API_runtime_InvokeModelWithResponseStream.html)operações [InvokeModel](https://docs.aws.amazon.com/bedrock/latest/APIReference/API_runtime_InvokeModel.html)ou para fazer chamadas de inferência para o modelo. Para obter mais informações, consulte [Envie uma única solicitação com InvokeModel](inference-invoke.md).

A importação de modelos personalizados é suportada nas seguintes regiões:
+ eu-central-1
+ us-east-1
+ us-east-2
+ us-west-2

**nota**  
Certifique-se de que a importação e o uso dos modelos no Amazon Bedrock estejam em conformidade com os termos ou licenças aplicáveis aos modelos.  
Você não pode usar o recurso Importar modelo personalizado com os recursos do Amazon Bedrock a seguir.  
Inferência em lote
CloudFormation

Com o recurso Importar modelo personalizado, é possível criar um modelo personalizado compatível com os padrões a seguir.
+ **Modelo ajustado** — Você pode personalizar os pesos do modelo usando dados proprietários, mas manter a configuração do modelo básico. 
+ **Adaptação** é possível personalizar o modelo ao seu domínio para casos de uso em que o modelo não se generaliza bem. A adaptação de domínio modifica um modelo para generalizar para um domínio de destino e lidar com discrepâncias entre domínios, como um setor financeiro que deseja criar um modelo que generalize bem os preços. Outro exemplo é a adaptação da linguagem. Por exemplo, é possível personalizar um modelo para gerar respostas em português ou tâmil. Na maioria das vezes, isso envolve alterações no vocabulário do modelo que você está usando.
+ **Pré-treinado do zero**: além de personalizar os pesos e o vocabulário do modelo, você também pode alterar os parâmetros de configuração do modelo, como o número de cabeçalhos de atenção, camadas ocultas ou comprimento do contexto.

Para ter informações sobre preços para importação de modelos personalizados, selecione a guia “Importação de modelo personalizado” na seção “Detalhes de preços do modelo” de [Preços do Amazon Bedrock](https://aws.amazon.com/bedrock/pricing).

**Topics**
+ [Arquiteturas compatíveis](#model-customization-import-model-architecture)
+ [Importar uma fonte de modelo do Amazon S3](#model-customization-import-model-source)
+ [Pré-requisitos para importação de modelos personalizados](custom-model-import-prereq.md)
+ [Enviar um trabalho de importação de modelo](model-customization-import-model-job.md)
+ [Invocar o modelo importado](invoke-imported-model.md)
+ [Lidando com modelos de bate-papo e tokenizadores personalizados](custom-chat-templates-tokenizers.md)
+ [Calcular o custo de execução de um modelo personalizado](import-model-calculate-cost.md)
+ [Exemplos de código para importação de modelos personalizados](custom-model-import-code-samples.md)

## Arquiteturas compatíveis
<a name="model-customization-import-model-architecture"></a>

O modelo que você importa deve estar em uma das arquiteturas a seguir.
+ **Mistral**: uma arquitetura baseada em transformador somente para decodificadores com Sliding Window Attention (SWA) e opções para Grouped Query Attention (GQA). Para obter mais informações, consulte [https://huggingface.co/docs/transformers/en/model_doc/mistral](https://huggingface.co/docs/transformers/en/model_doc/mistral) na documentação da Hugging Face. 
+ **Mixtral**: um modelo tipo transformador somente para decodificador com modelos esparsos de Mixture of Experts (MoE). Para obter mais informações, consulte [Mistral](https://huggingface.co/docs/transformers/en/model_doc/mixtral) na documentação da Hugging Face. 
+  **Flan**: uma versão aprimorada da arquitetura T5, um modelo tipo transformador baseado em codificador-decodificador. Para obter mais informações, consulte [https://huggingface.co/docs/transformers/model_doc/flan-t5](https://huggingface.co/docs/transformers/model_doc/flan-t5) na documentação da Hugging Face. 
+ **Llama 2, Llama3, Llama3.1, Llama3.2, Llama 3.3 e Mllama**: uma versão aprimorada do Llama com Atenção de Consulta Agrupada (GQA). Para ter mais informações, consulte [https://huggingface.co/blog/llama2](https://huggingface.co/blog/llama2), [https://huggingface.co/blog/llama3 ](https://huggingface.co/blog/llama3 ), [https://huggingface.co/meta-llama/Meta-Llama-3.1-8B-Instruct#model-information](https://huggingface.co/meta-llama/Meta-Llama-3.1-8B-Instruct#model-information), [https://huggingface.co/meta-llama/Llama-3.2-11B-Vision-Instruct](https://huggingface.co/meta-llama/Llama-3.2-11B-Vision-Instruct), [https://huggingface.co/meta-llama/Llama-3.3-70B-Instruct](https://huggingface.co/meta-llama/Llama-3.3-70B-Instruct) e [https://huggingface.co/docs/transformers/main/en/model_doc/mllama](https://huggingface.co/docs/transformers/main/en/model_doc/mllama) na documentação da Hugging Face.
+ **GPTBigCode**: uma versão otimizada do GPT-2 com ação multiconsulta. Para obter mais informações, consulte [GPTBigCódigo](https://huggingface.co/docs/transformers/en/model_doc/gpt_bigcode) na Hugging Face documentação.
+ **Qwen2, Qwen2.5, Qwen2-VL, Qwen2.5-VL e Qwen3**: uma família de LLMs com percepção multimodal abrangente e codificação de visão de alta velocidade. Qualquer modelo usando as arquiteturas Qwen2, Qwen2-VL e Qwen2.5-VL pode ser importado. Para a arquitetura Qwen3, somente Qwen3ForCausalLM e Qwen3MoeForCausalLM são permitidos. Também não é possível usar a Converse em modelos Qwen3. Para ter mais informações, consulte [Qwen2](https://huggingface.co/collections/Qwen/qwen2-6659360b33528ced941e557f), [Qwen2.5](https://huggingface.co/collections/Qwen/qwen25-66e81a666513e518adb90d9e), [Qwen2-VL](https://huggingface.co/collections/Qwen/qwen2-vl-66cee7455501d7126940800d), [Qwen2.5-VL](https://huggingface.co/collections/Qwen/qwen25-vl-6795ffac22b334a837c0f9a5) e [Qwen3](https://huggingface.co/docs/transformers/en/model_doc/qwen3) na documentação da Hugging Face.
+ **GPT-OSS**— Arquitetura baseada em GPT-OSS OpenAI. O Amazon Bedrock oferece suporte a modelos personalizados baseados em 20B e 120B. GPT-OSSa arquitetura do modelo só é suportada na região Leste dos EUA (Norte da Virgínia).

**nota**  
O tamanho dos pesos do modelo importado deve ser menor que 100 GB para modelos multimodais e 200 GB para modelos de texto.
As incorporações posicionais máximas ou o tamanho máximo do contexto permitido pelo modelo devem ser inferiores a 128 mil.
O Amazon Bedrock suporta a versão 4.51.3 do transformador. Verifique se você está usando a versão 4.41.1 do transformador ao ajustar o modelo.
A importação de modelos personalizados não é compatível com modelos incorporados.

## Importar uma fonte de modelo do Amazon S3
<a name="model-customization-import-model-source"></a>

Importe um modelo no Amazon Bedrock criando um trabalho de importação de modelo no console ou na API do Amazon Bedrock. No trabalho, especifique o URI do Amazon S3 para a origem dos arquivos do modelo. Durante o treinamento do modelo, o trabalho de importação detecta automaticamente a arquitetura do modelo.

É necessário fornecer os arquivos do modelo no formato de pesos do Hugging Face. É possível criar os arquivos usando a biblioteca de transformadores da Hugging Face. Para criar arquivos de modelo para um modelo Llama, consulte [convert\$1llama\$1weights\$1to\$1hf.py](https://github.com/huggingface/transformers/blob/main/src/transformers/models/llama/convert_llama_weights_to_hf.py). Para criar os arquivos para um modelo Mistral AI, consulte [convert\$1mistral\$1weights\$1to\$1hf.py](https://github.com/huggingface/transformers/blob/main/src/transformers/models/mistral/convert_mistral_weights_to_hf.py).

Para importar o modelo do Amazon S3, você precisa no mínimo dos arquivos a seguir que são criados pela biblioteca de transformadores da Hugging Face.
+ **.safetensor**: os pesos do modelo no formato *Safetensor*. Safetensors é um formato criado pela Hugging Face que armazena os pesos de um modelo como tensores. Armazene os tensores do modelo em um arquivo com a extensão `.safetensors`. Para obter mais informações, consulte [Safetensors](https://huggingface.co/docs/safetensors/en/index). Para obter informações sobre como converter pesos do modelo para o formato Safetensor, consulte [Converter pesos em safetensors](https://huggingface.co/docs/safetensors/en/convert-weights).
+ **config.json** — Para exemplos, veja e. [LlamaConfig[MistralConfig](https://huggingface.co/docs/transformers/model_doc/mistral#transformers.MistralConfig)](https://huggingface.co/docs/transformers/model_doc/llama2#transformers.LlamaConfig)
**nota**  
O Amazon Bedrock substitui o valor `rope_scaling` do llama3 pelos seguintes valores:  
`original_max_position_embeddings=8192`
`high_freq_factor=4`
`low_freq_factor=1`
`factor=8`
+ **tokenizer\$1config.json** Para obter um exemplo, consulte. [LlamaTokenizer](https://huggingface.co/docs/transformers/model_doc/llama2#transformers.LlamaTokenizer)
+ **tokenizer.json**
+ **tokenizer.model** 

### Tokenizers compatíveis
<a name="tokenizers"></a>

O recurso Importar modelo personalizado do Amazon Bedrock permite os tokenizadores a seguir. É possível usar esses tokenizadores com qualquer modelo.
+ T5Tokenizer
+ T5 TokenizerFast
+ LlamaTokenizer
+ LlamaTokenizerFast
+ CodeLlamaTokenizer
+ CodeLlamaTokenizerFast
+ GPT2Tokenizador
+ GPT2TokenizerFast
+ GPTNeoXTokenizer
+ GPTNeoXTokenizerRápido
+ PreTrainedTokenizer
+ PreTrainedTokenizerFast
+ Qwen2Tokenizer
+ Rainha 2 TokenizerFast