Usar a importação de modelo personalizado para importar um modelo de código aberto personalizado para o Amazon Bedrock - Amazon Bedrock

Usar a importação de modelo personalizado para importar um modelo de código aberto personalizado para o Amazon Bedrock

É possível criar um modelo personalizado no Amazon Bedrock usando o recurso Importação de modelos personalizados do Amazon Bedrock para importar modelos de base personalizados em outros ambientes, como o Amazon SageMaker AI. Por exemplo, é possível ter um modelo criado no Amazon SageMaker AI que tenha pesos de modelo proprietários. Agora é possível importar esse modelo no Amazon Bedrock e aproveitar os recursos do Amazon Bedrock para fazer chamadas de inferência ao modelo.

É possível usar um modelo que você importa com o throughput sob demanda. Use as operações InvokeModel ou InvokeModelWithResponseStream para fazer chamadas de inferência ao modelo. Para obter mais informações, consulte Enviar um único prompt com InvokeModel.

É possível usar a importação de modelos personalizados do Amazon Bedrock nas seguintes regiões (para ter mais informações sobre as regiões em que o Amazon Bedrock está disponível, consulte Endpoints e cotas do Amazon Bedrock):

  • Leste dos EUA (Norte da Virgínia)

  • Leste dos EUA (Ohio)

  • Oeste dos EUA (Oregon)

  • Europa (Frankfurt)

nota

Certifique-se de que a importação e o uso dos modelos no Amazon Bedrock estejam em conformidade com os termos ou licenças aplicáveis aos modelos.

Você não pode usar o recurso Importar modelo personalizado com os recursos do Amazon Bedrock a seguir.

  • Inferência em lote

  • CloudFormation

Com o recurso Importar modelo personalizado, é possível criar um modelo personalizado compatível com os padrões a seguir.

  • Modelo ajustado ou de pré-treinamento contínuo: é possível personalizar os pesos do modelo usando dados proprietários, mas reter a configuração do modelo de base.

  • Adaptação é possível personalizar o modelo ao seu domínio para casos de uso em que o modelo não se generaliza bem. A adaptação de domínio modifica um modelo para generalizar para um domínio de destino e lidar com discrepâncias entre domínios, como um setor financeiro que deseja criar um modelo que generalize bem os preços. Outro exemplo é a adaptação da linguagem. Por exemplo, é possível personalizar um modelo para gerar respostas em português ou tâmil. Na maioria das vezes, isso envolve alterações no vocabulário do modelo que você está usando.

  • Pré-treinado do zero: além de personalizar os pesos e o vocabulário do modelo, você também pode alterar os parâmetros de configuração do modelo, como o número de cabeçalhos de atenção, camadas ocultas ou comprimento do contexto.

Para ter informações sobre preços para importação de modelos personalizados, selecione a guia “Importação de modelo personalizado” na seção “Detalhes de preços do modelo” de Preços do Amazon Bedrock.

Arquiteturas compatíveis

O modelo que você importa deve estar em uma das arquiteturas a seguir.

  • Mistral — uma arquitetura baseada em transformador somente para decodificadores com Sliding Window Attention (SWA) e opções para Grouped Query Attention (GQA). Para obter mais informações, consulte Mistral na documentação da Hugging Face.

  • Mixtral — um modelo tipo transformador somente para decodificador com modelos esparsos de Mixture of Experts (MoE). Para obter mais informações, consulte Mistral na documentação da Hugging Face.

  • Flan — uma versão aprimorada da arquitetura T5, um modelo tipo transformador baseado em codificador-decodificador. Para obter mais informações, consulte Flan T5 na documentação da Hugging Face.

  • Llama 2, Llama3, Llama3.1, Llama3.2, Llama 3.3 e Mllama: uma versão aprimorada do Llama com Atenção de Consulta Agrupada (GQA). Para ter mais informações, consulte Llama 2, Llama 3, Llama 3.1, Llama 3.2, Llama 3.3 e Mllama na documentação da Hugging Face.

  • GPTBigCode: uma versão otimizada do GPT-2 com ação multiconsulta. Para ter mais informações, consulte GPTBigCode na documentação da Hugging Face.

  • Qwen2, Qwen2.5, Qwen2-VL, Qwen2.5-VL e Qwen3: uma família de LLMs com percepção multimodal abrangente e codificação de visão de alta velocidade. Qualquer modelo usando as arquiteturas Qwen2, Qwen2-VL e Qwen2.5-VL pode ser importado. Para a arquitetura Qwen3, somente Qwen3ForCausalLM e Qwen3MoeForCausalLM são permitidos. Também não é possível usar a Converse em modelos Qwen3. Para ter mais informações, consulte Qwen2, Qwen2.5, Qwen2-VL, Qwen2.5-VL e Qwen3 na documentação da Hugging Face.

nota
  • O tamanho dos pesos do modelo importado deve ser menor que 100 GB para modelos multimodais e 200 GB para modelos de texto.

  • As incorporações posicionais máximas ou o tamanho máximo do contexto permitido pelo modelo devem ser inferiores a 128 mil.

  • O Amazon Bedrock só é compatível com a versão 4.51.3 do transformador. Verifique se você está usando a versão 4.41.1 do transformador ao ajustar o modelo.

Importar uma fonte de modelo do Amazon S3

Importe um modelo no Amazon Bedrock criando um trabalho de importação de modelo no console ou na API do Amazon Bedrock. No trabalho, especifique o URI do Amazon S3 para a origem dos arquivos do modelo. Durante o treinamento do modelo, o trabalho de importação detecta automaticamente a arquitetura do modelo.

É necessário fornecer os arquivos do modelo no formato de pesos do Hugging Face. É possível criar os arquivos usando a biblioteca de transformadores da Hugging Face. Para criar arquivos de modelo para um modelo Llama, consulte convert_llama_weights_to_hf.py. Para criar os arquivos para um modelo Mistral AI, consulte convert_mistral_weights_to_hf.py.

Para importar o modelo do Amazon S3, você precisa no mínimo dos arquivos a seguir que são criados pela biblioteca de transformadores da Hugging Face.

  • .safetensor: os pesos do modelo no formato Safetensor. Safetensors é um formato criado pela Hugging Face que armazena os pesos de um modelo como tensores. Armazene os tensores do modelo em um arquivo com a extensão .safetensors. Para obter mais informações, consulte Safetensors. Para obter informações sobre como converter pesos do modelo para o formato Safetensor, consulte Converter pesos em safetensors.

    nota
    • Atualmente, o Amazon Bedrock é compatível apenas com pesos de modelos com precisão FP32, FP16 e BF16. O Amazon Bedrock rejeitará os pesos dos modelos se você os fornecer com qualquer outra precisão. Internamente, o Amazon Bedrock converterá modelos FP32 em precisão BF16.

    • O Amazon Bedrock não é compatível com a importação de modelos quantizados.

  • config.json: para obter exemplos, consulte LlamaConfig e MistralConfig.

    nota

    O Amazon Bedrock substitui o valor rope_scaling do llama3 pelos seguintes valores:

    • original_max_position_embeddings=8192

    • high_freq_factor=4

    • low_freq_factor=1

    • factor=8

  • tokenizer_config.json para obter um exemplo, consulte LlamaTokenizer.

  • tokenizer.json

  • tokenizer.model

Tokenizers compatíveis

O recurso Importar modelo personalizado do Amazon Bedrock permite os tokenizadores a seguir. É possível usar esses tokenizadores com qualquer modelo.

  • T5Tokenizer

  • T5TokenizerFast

  • LlamaTokenizer

  • LlamaTokenizerFast

  • CodeLlamaTokenizer

  • CodeLlamaTokenizerFast

  • GPT2Tokenizer

  • GPT2TokenizerFast

  • GPTNeoXTokenizer

  • GPTNeoXTokenizerFast

  • PreTrainedTokenizer

  • PreTrainedTokenizerFast

  • Qwen2Tokenizer

  • Qwen2TokenizerFast