Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

# Évaluation des performances des modèles optimisés
<a name="model-optimize-evaluate"></a>

Après avoir utilisé une tâche d’optimisation pour créer un modèle optimisé, vous pouvez exécuter une évaluation des performances du modèle. Cette évaluation fournit des métriques de latence, de débit et de prix. Utilisez ces métriques pour déterminer si le modèle optimisé répond aux besoins de votre cas d’utilisation ou s’il nécessite une optimisation supplémentaire.

Vous ne pouvez exécuter des évaluations de performances qu’à l’aide de Studio. Cette fonctionnalité n'est pas fournie par le biais de l'API Amazon SageMaker AI ou du SDK Python.

## Avant de commencer
<a name="eval-prereqs"></a>

Avant de créer une évaluation des performances, vous devez d’abord optimiser un modèle en créant une tâche d’optimisation d’inférence. Dans Studio, vous ne pouvez évaluer que les modèles que vous créez avec ces tâches.

## Création d’une évaluation de performances
<a name="create-perf-eval"></a>

Procédez comme suit dans Studio pour créer une évaluation des performances d’un modèle optimisé.

1. Dans le menu de navigation Studio, sous **Tâches**, choisissez **Optimisation de l’inférence**.

1. Choisissez le nom de la tâche qui a permis de créer le modèle optimisé à évaluer.

1. Sur la page des détails de la tâche, choisissez **Évaluer les performances**.

1. Sur la page **Evaluer les performances**, certains JumpStart modèles nécessitent que vous signiez un contrat de licence utilisateur final (EULA) avant de pouvoir continuer. Si nécessaire, consultez les termes du contrat de licence dans la section **Contrat de licence**. Si les conditions sont acceptables pour votre cas d’utilisation, cochez la case **J’accepte le CLUF et j’en ai lu les conditions générales**.

1. Pour **Sélectionnez un modèle comme créateur de jetons**, acceptez le modèle par défaut ou choisissez un modèle spécifique qui servira de créateur de jeton pour votre évaluation.

1. Pour **Jeux de données d’entrée**, choisissez si vous souhaitez : 
   + Utilisez les exemples de jeux de données par défaut fournis par SageMaker AI.
   + fournir un URI S3 qui pointe vers vos propres exemples de jeux de données.

1. Pour **URI S3 destiné aux résultats de performances**, fournissez un URI qui pointe vers l’emplacement Amazon S3 où vous souhaitez stocker les résultats de l’évaluation.

1. Choisissez **Évaluer**.

   Studio affiche la page **Évaluations des performances**, où votre tâche d’évaluation apparaît dans le tableau. La colonne **Statut** indique le statut de votre évaluation.

1. Lorsque le statut est **Terminé**, cliquez sur le nom de la tâche pour afficher les résultats de l’évaluation.

La page des détails de l’évaluation présente des tableaux qui fournissent les métriques de performances liées à la latence, au débit et au prix. Pour plus d’informations sur chaque métrique, consultez la [Référence des métriques pour les évaluations des performances d’inférence](#performance-eval-metrics-reference).

## Référence des métriques pour les évaluations des performances d’inférence
<a name="performance-eval-metrics-reference"></a>

Une fois que vous avez réussi à évaluer les performances d’un modèle optimisé, la page des détails de l’évaluation affiche les métriques suivantes dans Studio.

### Métriques de latence
<a name="latency-metrics"></a>

La section **Latence** présente les métriques suivantes.

**Concurrency**  
Nombre d’utilisateurs simultanés simulés par l’évaluation pour invoquer simultanément le point de terminaison.

**Délai de réception du premier jeton (ms)**  
Temps qui s’est écoulé entre l’envoi de la demande et la réception du premier jeton d’une réponse en streaming.

**Latence entre les jetons (ms)**  
Temps nécessaire pour générer un jeton de sortie pour chaque demande.

**Latence du client (ms)**  
Latence de la demande entre l’envoi de la demande et la réception de la réponse complète.

**Entrée tokens/sec (nombre)**  
Nombre total de jetons d’entrée générés pour toutes les demandes, divisé par la durée totale en secondes de la simultanéité.

**Sortie tokens/sec (nombre)**  
Nombre total de jetons de sortie générés pour toutes les demandes, divisé par la durée totale en secondes de la simultanéité.

**Invocations de clients (nombre)**  
Nombre total de demandes d’inférence envoyées au point de terminaison par tous les utilisateurs simultanément.

**Erreurs d’invocation du client (nombre)**  
Nombre total de demandes d’inférence envoyées au point de terminaison par tous les utilisateurs simultanément, qui ont généré une erreur d’invocation.

**Échecs du créateur de jetons (nombre)**  
Nombre total de demandes d’inférence pour lesquelles le créateur de jetons n’a pas réussi à analyser la demande ou la réponse.

**Réponse d’inférence vide (nombre)**  
Nombre total de demandes d’inférence qui ont entraîné l’absence de jetons de sortie ou l’échec de l’analyse de la réponse par le créateur de jetons.

### Métriques de débit
<a name="throughput-metrics"></a>

La section **Débit** présente les métriques suivantes.

**Concurrency**  
Nombre d’utilisateurs simultanés simulés par l’évaluation pour invoquer simultanément le point de terminaison.

**Entrée tokens/sec/req (nombre)**  
Nombre total de jetons d’entrée générés par seconde et par demande.

**Sortie tokens/sec/req (nombre)**  
Nombre total de jetons de sortie générés par seconde et par demande.

**Jetons d’entrée (nombre)**  
Nombre total de jetons d’entrée générés par demande.

**Jetons de sortie (nombre)**  
Nombre total de jetons de sortie générés par demande.

### Métriques de prix
<a name="price-metrics"></a>

La section **Prix** présente les métriques suivantes.

**Concurrency**  
Nombre d’utilisateurs simultanés simulés par l’évaluation pour invoquer simultanément le point de terminaison.

**Prix par million de jetons d’entrée**  
Coût de traitement d’un million de jetons d’entrée.

**Prix par million de jetons de sortie**  
Coût de génération d’un million de jetons de sortie.