

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

# Analisar as métricas de um trabalho automatizado de avaliação de modelo no Amazon Bedrock (console)
<a name="model-evaluation-report-programmatic"></a>

É possível analisar as métricas apresentadas em um relatório para um trabalho automático de avaliação de modelo usando o console do Amazon Bedrock.

No boletim da avaliação de modelo, você verá o número total de prompts no conjunto de dados que forneceu ou selecionou e quantos desses prompts receberam respostas. Se o número de respostas for menor que o número de prompts de entrada, verifique o arquivo de saída de dados no bucket do Amazon S3. É possível que o prompt tenha causado um erro no modelo e nenhuma inferência tenha sido recuperada. Somente as respostas do modelo serão usadas nos cálculos das métricas.

Use o procedimento a seguir para analisar um trabalho automático de avaliação de modelo no console do Amazon Bedrock.

1. Abra o console do Amazon Bedrock.

1. No painel de navegação, selecione **Avaliação de modelos**.

1. Na tabela **Avaliações de modelos**, encontre o nome do trabalho de avaliação automatizada de modelo que você deseja revisar. Selecione-o.

Em todas as métricas relacionadas à robustez semântica, o Amazon Bedrock perturba os prompts das seguintes maneiras: converte texto em todas as letras minúsculas, erros de digitação no teclado, conversão de números em palavras, alterações aleatórias em maiúsculas e espaços em branco aleatórios. addition/deletion 

Depois de abrir o relatório da avaliação de modelo, você poderá ver as métricas resumidas e o **Resumo da configuração do trabalho**.

Para cada métrica e conjunto de dados de prompts especificados quando o trabalho foi criado, você vê um cartão e um valor para cada conjunto de dados especificado para essa métrica. A forma como esse valor é calculado muda com base no tipo de tarefa e nas métricas selecionadas.

**Como cada métrica disponível é calculada quando aplicada ao tipo de tarefa de geração de texto geral**
+ **Precisão**: para essa métrica, o valor é calculado usando a pontuação de conhecimento do mundo real (pontuação RWK). A pontuação RWK examina a capacidade do modelo de codificar o conhecimento factual sobre o mundo real. Uma pontuação RWK alta indica que o modelo está sendo preciso.
+ **Robustez**: para essa métrica, o valor é calculado usando a robustez semântica. Esse cálculo se baseia na taxa de palavras erradas. A robustez semântica mede o quanto a saída do modelo muda como resultado de pequenas perturbações de preservação semântica na entrada. A robustez a tais perturbações é uma propriedade desejável e, portanto, uma baixa pontuação de robustez semântica indica que o modelo está funcionando bem.

  Os tipos de perturbação que consideraremos são: converter texto em letras minúsculas, erros de digitação no teclado, conversão de números em palavras, alterações aleatórias em maiúsculas e espaços em branco aleatórios addition/deletion . Cada prompt no conjunto de dados é perturbado aproximadamente cinco vezes. Depois, cada resposta perturbada é enviada para inferência e é usada para calcular automaticamente as pontuações de robustez.
+ **Toxicidade**: para essa métrica, o valor é calculado usando a toxicidade do algoritmo detoxify. Um valor baixo de toxicidade indica que o modelo selecionado não está produzindo grandes quantidades de conteúdo tóxico. Para saber mais sobre o algoritmo de desintoxicação e ver como a toxicidade é calculada, consulte o algoritmo de [desintoxicação](https://github.com/unitaryai/detoxify) em. GitHub

**Como cada métrica disponível é calculada quando aplicada ao tipo de tarefa de resumo de texto**
+ **Precisão**: para essa métrica, o valor é calculado usando a BERT Score. A BERT Score é calculada usando incorporações contextuais pré-treinadas de modelos BERT. Ela combina palavras em frases candidatas e de referência usando similaridade por cosseno.
+ **Robustez**: para essa métrica, o valor calculado é uma porcentagem. É calculado tomando (Delta BERTScore /BERTScore) x 100. Delta BERTScore é a diferença nas pontuações do BERT entre uma solicitação perturbada e a solicitação original em seu conjunto de dados. Cada prompt no conjunto de dados é perturbado aproximadamente cinco vezes. Depois, cada resposta perturbada é enviada para inferência e é usada para calcular automaticamente as pontuações de robustez. Uma pontuação mais baixa indica que o modelo selecionado é mais robusto.
+ **Toxicidade**: para essa métrica, o valor é calculado usando a toxicidade do algoritmo detoxify. Um valor baixo de toxicidade indica que o modelo selecionado não está produzindo grandes quantidades de conteúdo tóxico. Para saber mais sobre o algoritmo de desintoxicação e ver como a toxicidade é calculada, consulte o algoritmo de [desintoxicação](https://github.com/unitaryai/detoxify) em. GitHub

**Como cada métrica disponível é calculada quando aplicada ao tipo de tarefa de perguntas e respostas**
+ **Precisão**: para essa métrica, o valor calculado é a pontuação F1. A pontuação F1 é calculada dividindo a pontuação de precisão (a proporção de previsões corretas para todas as previsões) pela pontuação de recall (a proporção de previsões corretas em relação ao número total de previsões relevantes). A pontuação F1 varia de 0 a 1, com valores mais altos indicando melhor performance.
+ **Robustez**: para essa métrica, o valor calculado é uma porcentagem. Ela é calculada pela fórmula (Delta F1/F1) x 100. Delta F1 é a diferença em F1 Scores entre um prompt perturbado e o prompt original no conjunto de dados. Cada prompt no conjunto de dados é perturbado aproximadamente cinco vezes. Depois, cada resposta perturbada é enviada para inferência e é usada para calcular automaticamente as pontuações de robustez. Uma pontuação mais baixa indica que o modelo selecionado é mais robusto.
+ **Toxicidade**: para essa métrica, o valor é calculado usando a toxicidade do algoritmo detoxify. Um valor baixo de toxicidade indica que o modelo selecionado não está produzindo grandes quantidades de conteúdo tóxico. Para saber mais sobre o algoritmo de desintoxicação e ver como a toxicidade é calculada, consulte o algoritmo de [desintoxicação](https://github.com/unitaryai/detoxify) em. GitHub

**Como cada métrica disponível é calculada quando aplicada ao tipo de tarefa de classificação de texto**
+ **Precisão**: para essa métrica, o valor calculado é a precisão. Precisão é uma pontuação que compara a classe prevista com seu rótulo real. Uma precisão mais alta indica que o modelo está classificando corretamente o texto com base no rótulo real fornecido.
+ **Robustez**: para essa métrica, o valor calculado é uma porcentagem. É calculada pela fórmula (delta da pontuação de precisão da classificação/pontuação de precisão da classificação) x 100. O delta da pontuação da precisão da classificação é a diferença entre a pontuação de precisão da classificação do prompt perturbado e do prompt de entrada original. Cada prompt no conjunto de dados é perturbado aproximadamente cinco vezes. Depois, cada resposta perturbada é enviada para inferência e é usada para calcular automaticamente as pontuações de robustez. Uma pontuação mais baixa indica que o modelo selecionado é mais robusto.