Prepare seus conjuntos de dados de treinamento para ajuste fino e pré-treinamento contínuo - Amazon Bedrock

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Prepare seus conjuntos de dados de treinamento para ajuste fino e pré-treinamento contínuo

Para preparar conjuntos de dados de treinamento e validação para seu modelo personalizado, você cria .jsonl arquivos, em que cada linha é um objeto JSON correspondente a um registro. Antes de começar um trabalho de personalização do modelo, você deve, no mínimo, preparar um conjunto de dados de treinamento. Os arquivos criados devem estar em conformidade com o formato do método e modelo de personalização que você escolher. Os registros nele devem estar de acordo com os requisitos de tamanho, dependendo do modelo.

Para obter informações sobre os requisitos do modelo, consulte. Requisitos de modelo para conjuntos de dados de treinamento e validação Para ver as cotas padrão que se aplicam aos conjuntos de dados de treinamento e de validação usados para personalizar diferentes modelos, consulte as cotas de Sum of training and validation records em Amazon Bedrock endpoints and quotas no Referência geral da AWS.

Se um conjunto de dados de validação for compatível e o formato do seu conjunto de dados de treinamento e validação dependerem dos fatores a seguir.

  • O tipo de trabalho de personalização de ajuste fino (ajuste fino ou pré-treinamento contínuo).

  • As modalidades de entrada e saída dos dados.

Para obter informações sobre modelos de ajuste fino, consulte Amazon Nova Modelos de ajuste fino Amazon Nova.

Modalidades suportadas para ajuste fino e pré-treinamento contínuo

As seções a seguir descrevem os diferentes recursos de ajuste fino e pré-treinamento suportados por cada modelo, organizados por suas modalidades de entrada e saída. Para obter informações sobre modelos de ajuste fino, consulte Amazon Nova Modelos de ajuste fino Amazon Nova.

Text-to-Text modelos

Text-to-Text os modelos podem ser ajustados para várias tarefas baseadas em texto, incluindo aplicativos conversacionais e não conversacionais. Para obter informações sobre como preparar dados para Text-to-Text modelos de ajuste fino, consulte. Prepare dados para modelos de ajuste fino text-to-text

Os seguintes modelos não conversacionais são otimizados para tarefas como resumo, tradução e resposta a perguntas:

  • Amazon Titan Text G1 - Express

  • Amazon Titan Text G1 - Lite

  • Amazon Titan Text Premier

  • Cohere Command

  • Cohere Command Light

  • Meta Llama 3.1 8B Instruct

  • Meta Llama 3.1 70B Instruct

Os modelos de conversação a seguir foram projetados para interações de um único turno e de vários turnos. Se um modelo usa a API Converse, seu conjunto de dados de ajuste fino deve seguir o formato de mensagem da API Converse e incluir mensagens do sistema, do usuário e do assistente. Para obter exemplos, consulte Prepare dados para modelos de ajuste fino text-to-text. Para obter mais informações sobre as operações da API Converse, consulteConverse com as operações da Converse API.

  • Antropic Claude 3 Haicai

  • MetaLlama 3.2 1B Instruct(Formato de API Converse)

  • MetaLlama 3.2 3B Instruct(Formato de API Converse)

  • MetaLlama 3.2 11B InstructVisão (formato Converse API)

  • MetaLlama 3.2 90B InstructVisão (formato Converse API)

Text-Image-to-Text & Text-to-Image modelo s

Os modelos a seguir oferecem suporte ao ajuste fino para geração de imagens e processamento de imagens de texto. Esses modelos processam ou geram imagens com base na entrada de texto ou geram texto com base nas entradas de texto e de imagem. Para obter informações sobre como preparar dados para ajuste fino Text-Image-to-Text e Text-to-Image modelos de modelos, consulte. Prepare dados para ajustar modelos de processamento de imagens e textos

  • Amazon Titan Image Generator G1 V1

  • MetaLlama 3.2 11B InstructVisão

  • MetaLlama 3.2 90B InstructVisão

Imagem para incorporação

Os modelos a seguir oferecem suporte ao ajuste fino de tarefas como classificação e recuperação. Esses modelos geram representações numéricas (incorporações) a partir de entradas de imagem. Para obter informações sobre como preparar dados para Image-to-Embeddings modelos de ajuste fino, consulte. Prepare os dados para ajustar os modelos de geração e incorporação de imagens

  • Amazon Titan Multimodal Embeddings G1

  • Amazon Titan Image Generator G1 V1

Pré-treinamento contínuo: Text-to-Text

Os modelos a seguir podem ser usados para o pré-treinamento contínuo. Esses modelos oferecem suporte ao pré-treinamento contínuo em dados específicos do domínio para aprimorar seu conhecimento básico. Para obter informações sobre como preparar dados para o pré-treinamento contínuo para Text-to-Text modelos, consultePrepare conjuntos de dados para o pré-treinamento contínuo.

  • Amazon Titan Text G1 - Express

  • Amazon Titan Text G1 - Lite