View a markdown version of this page

Avaliar o desempenho de modelos otimizados - SageMaker Inteligência Artificial da Amazon

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Avaliar o desempenho de modelos otimizados

Depois de usar um trabalho de otimização para criar um modelo otimizado, você pode executar uma avaliação do desempenho do modelo. Essa avaliação gera métricas de latência, throughput e preço. Use essas métricas para avaliar se o modelo otimizado atende às necessidades do seu caso de uso ou se requer maior otimização.

Você pode executar avaliações de desempenho somente por meio do Studio. Esse recurso não é fornecido por meio da Amazon SageMaker AI API ou do Python SDK.

Antes de começar

Para criar uma avaliação de desempenho, você deve primeiro otimizar um modelo criando um trabalho de otimização de inferência. No Studio, é possível avaliar apenas os modelos criados com esses trabalhos.

Criar a avaliação de desempenho

Conclua as etapas a seguir no Studio para criar uma avaliação de desempenho para um modelo otimizado.

  1. No menu de navegação, em Trabalho, escolha Otimização da inferência.

  2. Escolha o nome do trabalho que criou o modelo otimizado que você deseja avaliar.

  3. Na página de detalhes do trabalho, escolha Avaliar desempenho.

  4. Na página Avaliar desempenho, alguns JumpStart modelos exigem que você assine um contrato de licença de usuário final (EULA) antes de continuar. Se solicitado, analise os termos da licença na seção Contrato de licença. Se os termos forem aceitáveis para seu caso de uso, marque a caixa de seleção Aceito o EULA e li os termos e condições.

  5. Em Selecione um modelo para o tokenizador, aceite o padrão ou escolha um modelo específico para atuar como tokenizador em sua avaliação.

  6. Em Conjuntos de dados de entrada, escolha se deseja:

    • Use os conjuntos de dados de amostra padrão da SageMaker IA.

    • Fornecer um URI do S3 que aponte para seus próprios conjuntos de dados de amostra.

  7. Em URI do S3 para resultados de desempenho, forneça um URI que aponte para o local no Amazon S3 onde você deseja armazenar os resultados da avaliação.

  8. Escolha Avaliar.

    O Studio mostra a página Avaliações de desempenho, onde seu trabalho de avaliação é mostrado na tabela. A coluna Status mostra o status da sua avaliação.

  9. Quando o status for Concluído, escolha o nome do trabalho para ver os resultados da avaliação.

A página de detalhes da avaliação mostra tabelas que fornecem as métricas de desempenho de latência, throughput e preço. Para ter mais informações sobre cada métrica, consulte Referência de métricas para avaliações de desempenho de inferência.

Referência de métricas para avaliações de desempenho de inferência

Depois de avaliar com sucesso o desempenho de um modelo otimizado, a página de detalhes da avaliação no Studio mostra as métricas a seguir.

Métricas de latência

A seção Latência mostra as métricas a seguir.

Simultaneidade

O número de usuários simultâneos que a avaliação simulou para invocar o endpoint simultaneamente.

Tempo até o primeiro token (ms)

O tempo decorrido entre o envio da solicitação e o recebimento do primeiro token de uma resposta de streaming.

Latência entre tokens (ms)

O tempo para gerar um token de saída para cada solicitação.

Latência do cliente (ms)

A latência da solicitação desde o momento em que a solicitação é enviada até o momento em que a resposta inteira é recebida.

Entrada tokens/sec (contagem)

O número total de tokens de entrada gerados, em todas as solicitações, dividido pela duração total em segundos da simultaneidade.

Saída tokens/sec (contagem)

O número total de tokens de saída gerados, em todas as solicitações, dividido pela duração total em segundos da simultaneidade.

Invocações de cliente (contagem)

O número total de solicitações de inferência enviadas ao endpoint para todos os usuários em uma simultaneidade.

Erros de invocação de cliente (contagem)

O número total de solicitações de inferência enviadas ao endpoint para todos os usuários em uma determinada simultaneidade que provocou um erro de invocação.

Falha no tokenizador (contagem)

O número total de solicitações de inferência em que o tokenizador falhou ao analisar a solicitação ou a resposta.

Resposta de inferência vazia (contagem)

O número total de solicitações de inferência em que nenhum token de saída foi gerado ou em que o tokenizador não conseguiu analisar a resposta.

Métricas do modo de throughput

A seção Throughput mostra as métricas a seguir.

Simultaneidade

O número de usuários simultâneos que a avaliação simulou para invocar o endpoint simultaneamente.

Entrada tokens/sec/req (contagem)

O número total de tokens de entrada gerados por segundo por solicitação.

Saída tokens/sec/req (contagem)

O número total de tokens de saída gerados por segundo por solicitação.

Tokens de entrada (contagem)

O número total de tokens de entrada gerados por solicitação.

Tokens de saída (contagem)

O número total de tokens de saída gerados por solicitação.

Métricas de preço

A seção Preço mostra as métricas a seguir.

Simultaneidade

O número de usuários simultâneos que a avaliação simulou para invocar o endpoint simultaneamente.

Preço por milhão de tokens de entrada

Custo do processamento de 1 milhão de tokens de entrada.

Preço por milhão de tokens de saída

Custo para gerar 1 milhão de tokens de saída.