Métricas para ajustar modelos de linguagem grandes no Autopilot - SageMaker IA da Amazon

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Métricas para ajustar modelos de linguagem grandes no Autopilot

A seção a seguir descreve as métricas que você pode usar para entender seus grandes modelos de linguagem (LLMs) ajustados. Usando seu conjunto de dados, o Autopilot ajusta diretamente seu LLM alvo para aprimorar uma métrica objetiva padrão, a perda de entropia cruzada.

A perda de entropia cruzada é uma métrica amplamente usada para avaliar a dissimilaridade entre a distribuição de probabilidade prevista e a distribuição real das palavras nos dados de treinamento. Ao minimizar a perda de entropia cruzada, o modelo aprende a fazer predições mais precisas e contextualmente relevantes, principalmente em tarefas relacionadas à geração de texto.

Depois de ajustar um LLM, você pode avaliar a qualidade do texto gerado usando uma variedade de pontuações do ROUGE. Além disso, você pode analisar as perdas de treinamento e validação de perplexidade e entropia cruzada como parte do processo de avaliação.

  • A perda de perplexidade mede o quão bem o modelo pode prever a próxima palavra em uma sequência de texto, com valores mais baixos indicando uma melhor compreensão do idioma e do contexto.

  • O Recall-Oriented Understudy for Gisting Evaluation (ROUGE) é um conjunto de métricas usadas no campo do processamento de linguagem natural (PLN) e de machine learning para avaliar a qualidade do texto gerado por máquina, como resumo de texto ou geração de texto. Ele avalia principalmente as semelhanças entre o texto gerado e o texto de referência da verdade básica (escrito por humanos) de um conjunto de dados de validação. As medidas do ROUGE são projetadas para avaliar vários aspectos da similaridade de texto, incluindo a precisão e a recordação de n-gramas (sequências contíguas de palavras) nos textos gerados pelo sistema e de referência. O objetivo é avaliar o quão bem um modelo captura as informações presentes no texto de referência.

    Existem várias variantes das métricas do ROUGE, dependendo do tipo de n-gramas usados e dos aspectos específicos da qualidade do texto em avaliação.

    A lista a seguir contém o nome e a descrição das métricas do ROUGE disponíveis após o ajuste de grandes modelos de linguagem no Autopilot.

    ROUGE-1, ROUGE-2

    ROUGE-N, a métrica principal ROUGE, mede a sobreposição de n-gramas entre os textos gerados pelo sistema e os textos de referência. ROUGE-N pode ser ajustado para diferentes valores de n (aqui 1 ou 2) para avaliar o quão bem o texto gerado pelo sistema captura os n-gramas do texto de referência.

    ROUGE-L

    ROUGE-L (ROUGE-Longest Common Subsequence) calcula a maior subsequência comum entre o texto gerado pelo sistema e o texto de referência. Essa variante considera a ordem das palavras, além da sobreposição de conteúdo.

    ROUGE-L-Sum

    ROUGE-L-SUM (Longest Common Subsequence for Summarization) foi projetado para a avaliação de sistemas de resumo de texto. Ele se concentra em medir a maior subsequência comum entre o resumo gerado pela máquina e o resumo de referência. ROUGE-L-SUM leva em consideração a ordem das palavras no texto, o que é importante nas tarefas de resumo do texto.