Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.
Évaluation d’un modèle de fondation de génération de texte dans Studio
Note
Foundation Model Evaluations (FMEval) est en version préliminaire pour Amazon SageMaker Clarify et est susceptible d'être modifiée.
Important
Pour utiliser les évaluations du modèle SageMaker Clarify Foundation, vous devez passer à la nouvelle expérience Studio. Depuis le 30 novembre 2023, l'expérience Amazon SageMaker Studio précédente s'appelle désormais Amazon SageMaker Studio Classic. La caractéristique d’évaluation des modèles de fondation ne peut être utilisée que dans l’expérience mise à jour. Pour en savoir plus sur la façon de mettre à jour Studio, consultez Migration depuis Amazon SageMaker Studio Classic. Pour en savoir plus sur l’utilisation de l’application Studio Classic, consultez Amazon SageMaker Studio classique.
Amazon SageMaker JumpStart propose des intégrations avec SageMaker Clarify Foundation Model Evaluations (FMEval) dans Studio. Si un JumpStart modèle possède des fonctionnalités d'évaluation intégrées, vous pouvez choisir Evaluer dans le coin supérieur droit de la page détaillée du modèle dans l'interface utilisateur de JumpStart Studio. Pour plus d'informations sur la navigation dans l'interface utilisateur de JumpStart Studio, voir Ouvrir JumpStart dans le studio
Utilisez Amazon SageMaker JumpStart pour évaluer des modèles de base basés sur du texte avec. FMEval Vous pouvez utiliser ces évaluations de modèles pour comparer les indicateurs de qualité et de responsabilité d'un modèle, entre deux modèles ou entre différentes versions du même modèle, afin de vous aider à quantifier les risques du modèle. FMEval peut évaluer des modèles basés sur du texte qui exécutent les tâches suivantes :
-
Génération ouverte : production de réponses humaines naturelles à un texte qui n’a pas de structure prédéfinie.
-
Synthétisation de texte : génération d’un récapitulatif concis et condensé tout en conservant le sens et les informations clés contenus dans un texte plus long.
-
Réponse à une question : génération d’une réponse en langage naturel à une question.
-
Classification : attribution d’une classe, par exemple
positiveplutôt quenegative, à un passage de texte en fonction de son contenu.
Vous pouvez l'utiliser FMEval pour évaluer automatiquement les réponses du modèle en fonction de repères spécifiques. Vous pouvez également évaluer les réponses du modèle par rapport à vos propres critères en apportant vos propres ensembles de données instantanés. FMEval fournit une interface utilisateur (UI) qui vous guide tout au long de l'installation et de la configuration d'une tâche d'évaluation. Vous pouvez également utiliser la FMEval bibliothèque dans votre propre code.
Chaque évaluation nécessite un quota pour deux instances :
-
Instance d’hébergement : instance qui héberge et déploie un LLM.
-
Instance d’évaluation : instance utilisée pour effectuer les invites et une évaluation d’un LLM sur l’instance d’hébergement.
Si votre LLM est déjà déployé, fournissez le point de terminaison, et SageMaker AI utilisera votre instance d'hébergement pour héberger et déployer le LLM.
Si vous évaluez un JumpStart modèle qui n'est pas encore déployé sur votre compte, vous FMEval créez une instance d'hébergement temporaire dans votre compte et ne la maintenez déployée que pendant la durée de votre évaluation. FMEval utilise l'instance par défaut qui JumpStart recommande le LLM choisi comme instance d'hébergement. Vous devez disposer d’un quota suffisant pour cette instance recommandée.
Chaque évaluation utilise également une instance d’évaluation pour fournir les invites et évaluer les réponses du LLM. Vous devez également disposer d’un quota et d’une mémoire suffisants pour exécuter les algorithmes d’évaluation. Les exigences en termes de quota et de mémoire de l’instance d’évaluation sont généralement inférieures à celles requises pour une instance d’hébergement. Nous vous recommandons de sélectionner l’instance ml.m5.2xlarge. Pour plus d’informations sur les quotas et la mémoire, consultez Résoudre les erreurs lors de la création d'une tâche d'évaluation de modèle dans Amazon SageMaker AI.
Les évaluations automatiques peuvent être utilisées pour obtenir LLMs des scores selon les critères suivants :
-
Précision : pour la synthétisation de texte, la réponse aux questions et la classification de texte
-
Robustesse sémantique : pour les tâches de génération ouverte, de synthétisation de texte et de classification de texte
-
Connaissances factuelles : pour la génération ouverte
-
Stéréotypage d’invite : pour la génération ouverte
-
Toxicité : pour la génération ouverte, la synthétisation de texte et la réponse aux questions
Vous pouvez également utiliser des évaluations humaines afin d’évaluer manuellement les réponses du modèle. L' FMEval interface utilisateur vous guide tout au long d'un flux de travail consistant à sélectionner un ou plusieurs modèles, à provisionner des ressources, à rédiger des instructions pour votre personnel et à contacter celui-ci. Une fois l'évaluation humaine terminée, les résultats sont affichés dans FMEval.
Vous pouvez accéder à l'évaluation du modèle via la page JumpStart d'accueil de Studio en sélectionnant un modèle à évaluer, puis en choisissant Evaluer. Notez que les fonctionnalités d'évaluation ne sont pas disponibles sur tous les JumpStart modèles. Pour plus d'informations sur la configuration, le provisionnement et l'exécution FMEval, voir Que sont les évaluations du modèle de base ?