

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

# Avaliar o desempenho de modelos otimizados
<a name="model-optimize-evaluate"></a>

Depois de usar um trabalho de otimização para criar um modelo otimizado, você pode executar uma avaliação do desempenho do modelo. Essa avaliação gera métricas de latência, throughput e preço. Use essas métricas para avaliar se o modelo otimizado atende às necessidades do seu caso de uso ou se requer maior otimização.

Você pode executar avaliações de desempenho somente por meio do Studio. Esse recurso não é fornecido por meio da Amazon SageMaker AI API ou do Python SDK.

## Antes de começar
<a name="eval-prereqs"></a>

Para criar uma avaliação de desempenho, você deve primeiro otimizar um modelo criando um trabalho de otimização de inferência. No Studio, é possível avaliar apenas os modelos criados com esses trabalhos.

## Criar a avaliação de desempenho
<a name="create-perf-eval"></a>

Conclua as etapas a seguir no Studio para criar uma avaliação de desempenho para um modelo otimizado.

1. No menu de navegação, em **Trabalho**, escolha **Otimização da inferência**.

1. Escolha o nome do trabalho que criou o modelo otimizado que você deseja avaliar.

1. Na página de detalhes do trabalho, escolha **Avaliar desempenho**.

1. Na página **Avaliar desempenho**, alguns JumpStart modelos exigem que você assine um contrato de licença de usuário final (EULA) antes de continuar. Se solicitado, analise os termos da licença na seção **Contrato de licença**. Se os termos forem aceitáveis para seu caso de uso, marque a caixa de seleção **Aceito o EULA e li os termos e condições**.

1. Em **Selecione um modelo para o tokenizador**, aceite o padrão ou escolha um modelo específico para atuar como tokenizador em sua avaliação.

1. Em **Conjuntos de dados de entrada**, escolha se deseja: 
   + Use os conjuntos de dados de amostra padrão da SageMaker IA.
   + Fornecer um URI do S3 que aponte para seus próprios conjuntos de dados de amostra.

1. Em **URI do S3 para resultados de desempenho**, forneça um URI que aponte para o local no Amazon S3 onde você deseja armazenar os resultados da avaliação.

1. Escolha **Avaliar**.

   O Studio mostra a página **Avaliações de desempenho**, onde seu trabalho de avaliação é mostrado na tabela. A coluna **Status** mostra o status da sua avaliação.

1. Quando o status for **Concluído**, escolha o nome do trabalho para ver os resultados da avaliação.

A página de detalhes da avaliação mostra tabelas que fornecem as métricas de desempenho de latência, throughput e preço. Para ter mais informações sobre cada métrica, consulte [Referência de métricas para avaliações de desempenho de inferência](#performance-eval-metrics-reference).

## Referência de métricas para avaliações de desempenho de inferência
<a name="performance-eval-metrics-reference"></a>

Depois de avaliar com sucesso o desempenho de um modelo otimizado, a página de detalhes da avaliação no Studio mostra as métricas a seguir.

### Métricas de latência
<a name="latency-metrics"></a>

A seção **Latência** mostra as métricas a seguir.

**Simultaneidade**  
O número de usuários simultâneos que a avaliação simulou para invocar o endpoint simultaneamente.

**Tempo até o primeiro token (ms)**  
O tempo decorrido entre o envio da solicitação e o recebimento do primeiro token de uma resposta de streaming.

**Latência entre tokens (ms)**  
O tempo para gerar um token de saída para cada solicitação.

**Latência do cliente (ms)**  
A latência da solicitação desde o momento em que a solicitação é enviada até o momento em que a resposta inteira é recebida.

**Entrada tokens/sec (contagem)**  
O número total de tokens de entrada gerados, em todas as solicitações, dividido pela duração total em segundos da simultaneidade.

**Saída tokens/sec (contagem)**  
O número total de tokens de saída gerados, em todas as solicitações, dividido pela duração total em segundos da simultaneidade.

**Invocações de cliente (contagem)**  
O número total de solicitações de inferência enviadas ao endpoint para todos os usuários em uma simultaneidade.

**Erros de invocação de cliente (contagem)**  
O número total de solicitações de inferência enviadas ao endpoint para todos os usuários em uma determinada simultaneidade que provocou um erro de invocação.

**Falha no tokenizador (contagem)**  
O número total de solicitações de inferência em que o tokenizador falhou ao analisar a solicitação ou a resposta.

**Resposta de inferência vazia (contagem)**  
O número total de solicitações de inferência em que nenhum token de saída foi gerado ou em que o tokenizador não conseguiu analisar a resposta.

### Métricas do modo de throughput
<a name="throughput-metrics"></a>

A seção **Throughput** mostra as métricas a seguir.

**Simultaneidade**  
O número de usuários simultâneos que a avaliação simulou para invocar o endpoint simultaneamente.

**Entrada tokens/sec/req (contagem)**  
O número total de tokens de entrada gerados por segundo por solicitação.

**Saída tokens/sec/req (contagem)**  
O número total de tokens de saída gerados por segundo por solicitação.

**Tokens de entrada (contagem)**  
O número total de tokens de entrada gerados por solicitação.

**Tokens de saída (contagem)**  
O número total de tokens de saída gerados por solicitação.

### Métricas de preço
<a name="price-metrics"></a>

A seção **Preço** mostra as métricas a seguir.

**Simultaneidade**  
O número de usuários simultâneos que a avaliação simulou para invocar o endpoint simultaneamente.

**Preço por milhão de tokens de entrada**  
Custo do processamento de 1 milhão de tokens de entrada.

**Preço por milhão de tokens de saída**  
Custo para gerar 1 milhão de tokens de saída.