Interprétation de vos résultats - Amazon SageMaker AI

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Interprétation de vos résultats

Analysez les métriques d’évaluation issues de la comparaison de votre modèle de classification de texte afin de prendre des décisions basées sur les données concernant le déploiement en production.

Compréhension des métriques d’évaluation

L’évaluation fournit plusieurs métriques clés pour chaque modèle sur l’ensemble des jeux de données :

Précision

Mesure le pourcentage de prédictions correctes et convient le mieux pour les jeux de données équilibrés. Toutefois, peut être trompeuse avec des données déséquilibrées et peut montrer des résultats artificiellement élevés lorsqu’une classe individuelle domine.

Précision

Évalue dans quelle mesure le modèle évite les faux positifs en mesurant le pourcentage de prédictions positives correctes. Cette métrique est comprise entre 0,0 et 1,0 (valeur maximale souhaitée) et devient critique lorsque les faux positifs sont coûteux.

Rappel

Évalue dans quelle mesure le modèle détecte tous les cas positifs en mesurant le pourcentage de vrais positifs trouvés. Elle est comprise entre 0,0 et 1,0 (valeur maximale souhaitée) et devient critique lorsqu’il est coûteux de manquer des positifs.

Score F1

Fournit la moyenne harmonique de la précision et du rappel, en équilibrant les deux métriques en un score unique compris entre 0,0 et 1,0 (valeur maximale souhaitée).

Coefficient de corrélation de Matthews (MCC)

Mesure la qualité globale de la classification binaire et constitue la meilleure métrique pour les données déséquilibrées. Elle est comprise entre -1,0 et 1,0, les valeurs les plus élevées indiquant de meilleures performances et 0 représentant une estimation aléatoire.

Aire sous la courbe ROC

Évalue la distinction que le modèle fait entre les classes. Elle est comprise entre 0,0 et 1,0, où 1,0 représente une classification parfaite et 0,5 représente une estimation aléatoire.

Temps d’inférence moyen

Mesure la vitesse de prédiction, qui devient essentielle pour les applications en temps réel. Tenez compte à la fois de la vitesse et de la cohérence lors de l’évaluation de cette métrique.

Note

Ne vous fiez pas uniquement à l’exactitude pour sélectionner le modèle. Pour les jeux de données déséquilibrés, la précision, le rappel et le MCC constituent des indicateurs plus fiables des performances réelles.

Comparaison des performances sur l’ensemble des types de jeux de données

Le jeu de données équilibré montre les performances de vos modèles dans des conditions idéales avec une représentation égale des exemples positifs et négatifs. De bonnes performances indiquent ici que le modèle a appris les modèles fondamentaux de classification de texte.

Le jeu de données asymétrique révèle comment les modèles traitent le déséquilibre de classes réel, lequel est courant dans des scénarios de production.

Le jeu de données complexe teste la robustesse des modèles sur des cas ambigus ou limites, susceptibles d’apparaître en production.

Sélection du modèle

Utilisez cette approche systématique pour sélectionner le modèle optimal pour votre cas d’utilisation spécifique.

Définition des priorités de votre entreprise

Avant de choisir un modèle, déterminez les facteurs de performance les plus importants pour votre cas d’utilisation.

  1. Identifiez vos exigences en matière d’exactitude et de seuil de performance minimum acceptable.

  2. Déterminez vos contraintes de latence, notamment si vous avez besoin d’un traitement en temps réel (< 100 ms) ou par lots.

  3. Établissez vos considérations en matière de coûts et votre budget pour l’inférence et la mise à l’échelle.

  4. Analysez les caractéristiques de vos données pour déterminer si vos données de production sont équilibrées, asymétriques ou très variables.

Quand choisir les différents modèles

Sur la base de vos résultats d’évaluation, choisissez le modèle qui convient le mieux à votre cas d’utilisation :

  • Choisissez DistilBERT lorsque vous avez besoin d’une inférence plus rapide et précise, telle que l’analyse des sentiments en temps réel dans les chatbots des services client, dans les systèmes de modération de contenu ou dans les applications exigeant des temps de réponse inférieurs à 100 ms.

  • Choisissez BERT lorsque l’exactitude maximale est plus importante que la vitesse, par exemple pour la classification de documents juridiques, l’analyse de textes médicaux ou les applications de conformité où la précision est primordiale et le traitement par lots acceptable.

Hiérarchisation de vos jeux de données d’évaluation

Concentrez-vous sur les jeux de données qui représentent le mieux votre cas d’utilisation réel.

  1. Accordez plus de poids au jeu de données qui ressemble le plus à vos données réelles.

  2. Tenez compte de l’importance des cas limites dans votre application et hiérarchisez en conséquence les performances des jeux de données complexes.

  3. Équilibrez l’optimisation entre plusieurs scénarios au lieu de vous concentrer sur un seul type de jeu de données.

Comparez vos résultats d’évaluation à ces priorités pour sélectionner le modèle qui équilibre le mieux vos exigences en matière d’exactitude, de vitesse et de coûts.

Maintenant que vous avez sélectionné votre modèle préféré, vous êtes prêt pour le déploiement en production. Passez au Déploiement de votre modèle à grande échelle.