Usar a importação de modelo personalizado para importar um modelo de código aberto personalizado para o Amazon Bedrock - Amazon Bedrock

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Usar a importação de modelo personalizado para importar um modelo de código aberto personalizado para o Amazon Bedrock

Você pode criar um modelo personalizado no Amazon Bedrock usando o recurso Amazon Bedrock Custom Model Import para importar modelos de base que você personalizou em outros ambientes, como o Amazon SageMaker AI. Por exemplo, você pode ter um modelo criado na Amazon SageMaker AI que tenha pesos de modelo proprietários. Agora é possível importar esse modelo no Amazon Bedrock e aproveitar os recursos do Amazon Bedrock para fazer chamadas de inferência ao modelo.

É possível usar um modelo que você importa com o throughput sob demanda. Use as InvokeModelWithResponseStreamoperações InvokeModelou para fazer chamadas de inferência para o modelo. Para obter mais informações, consulte Envie uma única solicitação com InvokeModel.

A importação de modelos personalizados é suportada nas seguintes regiões:

  • eu-central-1

  • us-east-1

  • us-east-2

  • us-west-2

nota

Certifique-se de que a importação e o uso dos modelos no Amazon Bedrock estejam em conformidade com os termos ou licenças aplicáveis aos modelos.

Você não pode usar o recurso Importar modelo personalizado com os recursos do Amazon Bedrock a seguir.

  • Inferência em lote

  • CloudFormation

Com o recurso Importar modelo personalizado, é possível criar um modelo personalizado compatível com os padrões a seguir.

  • Modelo ajustado ou de pré-treinamento contínuo: é possível personalizar os pesos do modelo usando dados proprietários, mas reter a configuração do modelo de base.

  • Adaptação é possível personalizar o modelo ao seu domínio para casos de uso em que o modelo não se generaliza bem. A adaptação de domínio modifica um modelo para generalizar para um domínio de destino e lidar com discrepâncias entre domínios, como um setor financeiro que deseja criar um modelo que generalize bem os preços. Outro exemplo é a adaptação da linguagem. Por exemplo, é possível personalizar um modelo para gerar respostas em português ou tâmil. Na maioria das vezes, isso envolve alterações no vocabulário do modelo que você está usando.

  • Pré-treinado do zero: além de personalizar os pesos e o vocabulário do modelo, você também pode alterar os parâmetros de configuração do modelo, como o número de cabeçalhos de atenção, camadas ocultas ou comprimento do contexto.

Para ter informações sobre preços para importação de modelos personalizados, selecione a guia “Importação de modelo personalizado” na seção “Detalhes de preços do modelo” de Preços do Amazon Bedrock.

Arquiteturas compatíveis

O modelo que você importa deve estar em uma das arquiteturas a seguir.

  • Mistral: uma arquitetura baseada em transformador somente para decodificadores com Sliding Window Attention (SWA) e opções para Grouped Query Attention (GQA). Para obter mais informações, consulte Mistral na documentação da Hugging Face.

  • Mixtral: um modelo tipo transformador somente para decodificador com modelos esparsos de Mixture of Experts (MoE). Para obter mais informações, consulte Mistral na documentação da Hugging Face.

  • Flan: uma versão aprimorada da arquitetura T5, um modelo tipo transformador baseado em codificador-decodificador. Para obter mais informações, consulte Flan T5 na documentação da Hugging Face.

  • Llama 2, Llama3, Llama3.1, Llama3.2, Llama 3.3 e Mllama: uma versão aprimorada do Llama com Atenção de Consulta Agrupada (GQA). Para ter mais informações, consulte Llama 2, Llama 3, Llama 3.1, Llama 3.2, Llama 3.3 e Mllama na documentação da Hugging Face.

  • GPTBigCode: uma versão otimizada do GPT-2 com ação multiconsulta. Para obter mais informações, consulte GPTBigCódigo na Hugging Face documentação.

  • Qwen2, Qwen2.5, Qwen2-VL, Qwen2.5-VL e Qwen3: uma família de LLMs com percepção multimodal abrangente e codificação de visão de alta velocidade. Qualquer modelo usando as arquiteturas Qwen2, Qwen2-VL e Qwen2.5-VL pode ser importado. Para a arquitetura Qwen3, somente Qwen3ForCausalLM e Qwen3MoeForCausalLM são permitidos. Também não é possível usar a Converse em modelos Qwen3. Para ter mais informações, consulte Qwen2, Qwen2.5, Qwen2-VL, Qwen2.5-VL e Qwen3 na documentação da Hugging Face.

  • GPT-OSS— Arquitetura baseada em GPT-OSS OpenAI. O Amazon Bedrock oferece suporte a modelos personalizados baseados em 20B e 120B. GPT-OSSa arquitetura do modelo só é suportada na região Leste dos EUA (Norte da Virgínia).

nota
  • O tamanho dos pesos do modelo importado deve ser menor que 100 GB para modelos multimodais e 200 GB para modelos de texto.

  • As incorporações posicionais máximas ou o tamanho máximo do contexto permitido pelo modelo devem ser inferiores a 128 mil.

  • O Amazon Bedrock suporta a versão 4.51.3 do transformador. Verifique se você está usando a versão 4.41.1 do transformador ao ajustar o modelo.

  • A importação de modelos personalizados não é compatível com modelos incorporados.

Importar uma fonte de modelo do Amazon S3

Importe um modelo no Amazon Bedrock criando um trabalho de importação de modelo no console ou na API do Amazon Bedrock. No trabalho, especifique o URI do Amazon S3 para a origem dos arquivos do modelo. Durante o treinamento do modelo, o trabalho de importação detecta automaticamente a arquitetura do modelo.

É necessário fornecer os arquivos do modelo no formato de pesos do Hugging Face. É possível criar os arquivos usando a biblioteca de transformadores da Hugging Face. Para criar arquivos de modelo para um modelo Llama, consulte convert_llama_weights_to_hf.py. Para criar os arquivos para um modelo Mistral AI, consulte convert_mistral_weights_to_hf.py.

Para importar o modelo do Amazon S3, você precisa no mínimo dos arquivos a seguir que são criados pela biblioteca de transformadores da Hugging Face.

  • .safetensor: os pesos do modelo no formato Safetensor. Safetensors é um formato criado pela Hugging Face que armazena os pesos de um modelo como tensores. Armazene os tensores do modelo em um arquivo com a extensão .safetensors. Para obter mais informações, consulte Safetensors. Para obter informações sobre como converter pesos do modelo para o formato Safetensor, consulte Converter pesos em safetensors.

  • config.json — Para exemplos, veja e. LlamaConfigMistralConfig

    nota

    O Amazon Bedrock substitui o valor rope_scaling do llama3 pelos seguintes valores:

    • original_max_position_embeddings=8192

    • high_freq_factor=4

    • low_freq_factor=1

    • factor=8

  • tokenizer_config.json Para obter um exemplo, consulte. LlamaTokenizer

  • tokenizer.json

  • tokenizer.model

Tokenizers compatíveis

O recurso Importar modelo personalizado do Amazon Bedrock permite os tokenizadores a seguir. É possível usar esses tokenizadores com qualquer modelo.

  • T5Tokenizer

  • T5 TokenizerFast

  • LlamaTokenizer

  • LlamaTokenizerFast

  • CodeLlamaTokenizer

  • CodeLlamaTokenizerFast

  • GPT2Tokenizador

  • GPT2TokenizerFast

  • GPTNeoXTokenizer

  • GPTNeoXTokenizerRápido

  • PreTrainedTokenizer

  • PreTrainedTokenizerFast

  • Qwen2Tokenizer

  • Rainha 2 TokenizerFast