Interpretar seus resultados - SageMaker IA da Amazon

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Interpretar seus resultados

Analise as métricas de avaliação da comparação do seu modelo de classificação de texto para tomar decisões orientadas por dados sobre implantação na produção.

Noções básicas de métricas de avaliação

A avaliação oferece várias métricas importantes para cada modelo em todos os conjuntos de dados:

Precisão

Mede a porcentagem de predições corretas e funciona melhor para conjuntos de dados balanceados. No entanto, ela pode ser enganosa com dados desbalanceados e mostrar resultados falsamente altos quando uma classe predomina.

Precisão

Avalia quão bem o modelo evita falso-positivos medindo qual porcentagem de predições positivas estava correta. Essa métrica varia de 0,0 a 1,0 (quanto maior, melhor) e se torna essencial quando os falso-positivos são caros.

Recall

Avalia quão bem o modelo captura todos os casos positivos medindo qual porcentagem de positivos reais foi encontrada. Varia de 0,0 a 1,0 (quanto maior, melhor) e se torna essencial quando a perda de positivos é cara.

Pontuação F1

Fornece a média harmônica de precisão e recuperação, equilibrando as duas métricas em uma única pontuação que varia de 0,0 a 1,0 (quanto maior, melhor).

Coeficiente de correlação de Matthews (MCC)

Mede a qualidade geral da classificação binária e serve como a melhor métrica para dados desbalanceados. Varia de -1,0 a 1,0. Valores mais altos indicam melhor desempenho e 0 representa suposição aleatória.

Área sob a curva característica de operação do receptor

Avalia quão bem o modelo distingue as classes. Varia de 0,0 a 1,0, em que 1,0 representa uma classificação perfeita e 0,5 representa suposição aleatória.

Tempo médio de inferência

Mede a velocidade de predição, que se torna essencial para aplicações em tempo real. Considere a velocidade e a consistência ao avaliar essa métrica.

nota

Não se fie apenas na precisão para selecionar o modelo. Para conjuntos de dados desbalanceados, a precisão, o recall e o MCC oferecem indicadores mais confiáveis do desempenho em situações reais.

Comparar o desempenho em todos os tipos de conjunto de dados

O conjunto de dados balanceado mostra o desempenho de seus modelos em condições ideais com representação igual de exemplos positivos e negativos. O bom desempenho aqui indica que o modelo aprendeu os padrões fundamentais de classificação de texto.

O conjunto de dados distorcido revela como os modelos lidam com o desequilíbrio de classes em situações reais, o que é comum em cenários de produção.

O conjunto de dados desafiador testa a robustez do modelo em casos ambíguos ou extremos que possam aparecer na produção.

Seleção de modelo

Use essa abordagem sistemática para selecionar o modelo ideal para seu caso de uso específico.

Definir suas prioridades de negócios

Antes de escolher um modelo, determine quais fatores de desempenho são mais importantes para seu caso de uso.

  1. Identifique os requisitos de precisão e o limite mínimo de desempenho aceitável.

  2. Determine suas restrições de latência, inclusive se você precisa de processamento em tempo real (<100 ms) ou em lote.

  3. Estabeleça suas considerações de custo e orçamento para inferência e ajuste de escala.

  4. Analise as características de seus dados para entender se os dados de produção são balanceados, distorcidos ou altamente variáveis.

Quando escolher cada modelo

Com base nos resultados da avaliação, escolha o modelo que melhor ajuste ao seu caso de uso:

  • Escolha o DistilBERT quando precisar de inferências mais rápidas e com boa precisão, como análise de sentimentos em tempo real em chatbots de atendimento ao cliente, sistemas de moderação de conteúdo ou aplicações em que um tempo de resposta abaixo de 100 ms é essencial.

  • Escolha o BERT quando a precisão máxima for mais importante do que a velocidade, como classificação de documentos legais, análise de textos médicos ou aplicativos de conformidade em que a precisão é fundamental e o processamento em lote é aceitável.

Priorizar os conjuntos de dados de avaliação

Concentre-se nos conjuntos de dados que melhor representem seu caso de uso em situações reais.

  1. Atribua um peso maior ao conjunto de dados que mais se assemelhe aos seus dados reais.

  2. Considere a importância dos casos extremos em sua aplicação e priorize adequadamente o desempenho do conjunto de dados desafiador.

  3. Contrabalance a otimização em vários cenários em vez de focar em apenas um tipo de conjunto de dados.

Compare os resultados da avaliação com essas prioridades para selecionar o modelo que melhor contrabalance seus requisitos de precisão, velocidade e custo.

Agora que você selecionou o modelo de sua preferência, tudo está pronto para a implantação em produção. Avance para Implantar o modelo em grande escala.