Engenharia rápida para modelos de base - SageMaker IA da Amazon

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Engenharia rápida para modelos de base

A engenharia rápida é o processo de projetar e refinar as instruções ou estímulos de entrada de um modelo de linguagem para gerar tipos específicos de saída. A engenharia rápida envolve selecionar palavras-chave apropriadas, fornecer contexto e moldar a entrada de uma forma que incentive o modelo a produzir a resposta desejada e é uma técnica vital para moldar ativamente o comportamento e a saída dos modelos de base.

A engenharia rápida e eficaz é crucial para direcionar o comportamento do modelo e obter as respostas desejadas. Por meio de engenharia rápida, você pode controlar o tom, o estilo e a experiência de domínio de um modelo sem medidas de personalização mais complicadas, como ajustes finos. Recomendamos dedicar tempo à engenharia de prompt antes de considerar o ajuste fino de um modelo com dados adicionais. O objetivo é fornecer contexto e orientação suficientes ao modelo para que ele possa generalizar e ter um bom desempenho em cenários de dados invisíveis ou limitados.

Aprendizado zero-shot

O aprendizado zero envolve o treinamento de um modelo para generalizar e fazer predições sobre aulas ou tarefas invisíveis. Para realizar engenharia de prompts em ambientes de aprendizado sem falhas, recomendamos construir prompts que forneçam explicitamente informações sobre a tarefa de destino e o formato de saída desejado. Por exemplo, se você quiser usar um modelo de base para classificação de texto zero em um conjunto de classes que o modelo não viu durante o treinamento, um prompt bem projetado poderia ser: "Classify the following text as either sports, politics, or entertainment: [input text]." Quando especificar explicitamente as classes de destino e o formato de saída esperado, você pode orientar o modelo para fazer predições precisas mesmo em classes não vistas.

Aprendizado few-shot

O aprendizado rápido envolve o treinamento de um modelo com uma quantidade limitada de dados para novas classes ou tarefas. A engenharia rápida em ambientes de aprendizado few-shots e concentra na criação de instruções que usem com eficácia os limitados dados de treinamento disponíveis. Por exemplo, se você usar um modelo de base para uma tarefa de classificação de imagens e tiver apenas alguns exemplos de uma nova classe de imagem, poderá criar um prompt que inclua os exemplos rotulados disponíveis com um espaço reservado para a classe de destino. Por exemplo, o prompt pode ser:"[image 1], [image 2], and [image 3] are examples of [target class]. Classify the following image as [target class]". Quando incorporar os exemplos rotulados limitados e especificar explicitamente a classe de destino, você pode orientar o modelo para generalizar e fazer predições precisas, mesmo com o mínimo de dados de treinamento.

Parâmetros de inferência compatíveis

A alteração dos parâmetros de inferência também pode afetar as respostas aos seus prompts. Embora você possa tentar adicionar o máximo de detalhes e contextos possíveis aos prompts, você também pode testar os parâmetros de inferência compatíveis. Veja a seguir exemplos de alguns parâmetros de inferência normalmente aceitos:

Parâmetro de inferência Descrição

max_new_tokens

O comprimento máximo de saída de uma resposta do modelo de base. Valores válidos: inteiro, intervalo: inteiro positivo.

temperature

Controla a randomização da saída. Uma temperatura mais alta resulta em uma sequência de saídas com palavras de baixa probabilidade, e uma temperatura mais baixa resulta em uma sequência de saídas com palavras de alta probabilidade. Se for temperature=0, a resposta será composta apenas pelas palavras de maior probabilidade (decodificação voraz). Valores válidos: flutuante, intervalo: flutuante positivo

top_p

Em cada etapa da geração de texto, o modelo extrai amostras do menor conjunto possível de palavras com uma probabilidade cumulativa de top_p. Valores válidos: flutuante, intervalo: 0,0, 1,0.

return_full_text

se for True, o texto de entrada fará parte do texto de saída gerado. Valores válidos: booleano, padrão: False.

Para obter mais informações sobre a inferência de modelos de base, consulte Implantar modelos de base disponíveis ao público com a função JumpStartModel.

Se a engenharia de prompt não for suficiente para adaptar seu modelo de base às necessidades comerciais específicas, à linguagem específica do domínio, às tarefas de destino ou a outros requisitos, considere ajustar seu modelo em dados adicionais ou usar a geração aumentada via recuperação (RAG) para ampliar sua arquitetura de modelo com contexto aprimorado de fontes de conhecimento arquivadas. Para ter mais informações, consulte Modelos de base e hiperparâmetros para ajuste ou geração aumentada via recuperação.