Évaluation d’un modèle de fondation de génération de texte dans Studio

Note

Foundation Model Evaluations (FMeval) est en version préliminaire pour Amazon SageMaker Clarify et est susceptible d'être modifiée.

Important

Pour utiliser les évaluations du modèle SageMaker Clarify Foundation, vous devez passer à la nouvelle expérience Studio. Depuis le 30 novembre 2023, l'expérience Amazon SageMaker Studio précédente s'appelle désormais Amazon SageMaker Studio Classic. La caractéristique d’évaluation des modèles de fondation ne peut être utilisée que dans l’expérience mise à jour. Pour en savoir plus sur la façon de mettre à jour Studio, consultez Migration depuis Amazon SageMaker Studio Classic. Pour en savoir plus sur l’utilisation de l’application Studio Classic, consultez Amazon SageMaker Studio classique.

Amazon SageMaker JumpStart propose des intégrations avec SageMaker Clarify Foundation Model Evaluations (FMeval) dans Studio. Si un JumpStart modèle possède des fonctionnalités d'évaluation intégrées, vous pouvez choisir Evaluer dans le coin supérieur droit de la page détaillée du modèle dans l'interface utilisateur de JumpStart Studio. Pour plus d'informations sur la navigation dans l'interface utilisateur de JumpStart Studio, voir Ouvrir JumpStart dans le studio

Utilisez Amazon SageMaker JumpStart pour évaluer des modèles de base basés sur du texte avec FMeval. Vous pouvez utiliser ces évaluations de modèles pour comparer les indicateurs de qualité et de responsabilité d’un modèle, entre deux modèles ou entre différentes versions du même modèle, afin de vous aider à quantifier les risques du modèle. FMEval peut évaluer des modèles basés sur le texte qui effectuent les tâches suivantes :

Open-ended génération — La production de réponses humaines naturelles à un texte qui n'a pas de structure prédéfinie.
Synthétisation de texte : génération d’un récapitulatif concis et condensé tout en conservant le sens et les informations clés contenus dans un texte plus long.
Réponse à une question : génération d’une réponse en langage naturel à une question.
Classification : attribution d’une classe, par exemple positive plutôt que negative, à un passage de texte en fonction de son contenu.

Vous pouvez utiliser FMEval pour évaluer automatiquement les réponses du modèle en fonction de points de référence spécifiques. Vous pouvez également évaluer les réponses du modèle par rapport à vos propres critères en apportant vos propres jeux de données d’invites. FMEval fournit une interface utilisateur (UI) qui vous guide tout au long de l’installation et de la configuration d’une tâche d’évaluation. Vous pouvez également utiliser la bibliothèque FMEval dans votre propre code.

Chaque évaluation nécessite un quota pour deux instances :

Instance d’hébergement : instance qui héberge et déploie un LLM.
Instance d’évaluation : instance utilisée pour effectuer les invites et une évaluation d’un LLM sur l’instance d’hébergement.

Si votre LLM est déjà déployé, fournissez le point de terminaison, et SageMaker AI utilisera votre instance d'hébergement pour héberger et déployer le LLM.

Si vous évaluez un JumpStart modèle qui n'est pas encore déployé sur votre compte, FMeval crée une instance d'hébergement temporaire pour vous dans votre compte et ne la déploie que pendant la durée de votre évaluation. FMeval utilise l'instance par défaut qui JumpStart recommande le LLM choisi comme instance d'hébergement. Vous devez disposer d’un quota suffisant pour cette instance recommandée.

Chaque évaluation utilise également une instance d’évaluation pour fournir les invites et évaluer les réponses du LLM. Vous devez également disposer d’un quota et d’une mémoire suffisants pour exécuter les algorithmes d’évaluation. Les exigences en termes de quota et de mémoire de l’instance d’évaluation sont généralement inférieures à celles requises pour une instance d’hébergement. Nous vous recommandons de sélectionner l’instance ml.m5.2xlarge. Pour plus d’informations sur les quotas et la mémoire, consultez Résoudre les erreurs lors de la création d'une tâche d'évaluation de modèle dans Amazon SageMaker AI.

Les évaluations automatiques peuvent être utilisées pour évaluer les LLM selon les catégories suivantes :

Précision : pour la synthétisation de texte, la réponse aux questions et la classification de texte
Robustesse sémantique : pour les tâches de génération ouverte, de synthétisation de texte et de classification de texte
Connaissances factuelles : pour la génération ouverte
Stéréotypage d’invite : pour la génération ouverte
Toxicité : pour la génération ouverte, la synthétisation de texte et la réponse aux questions

Vous pouvez également utiliser des évaluations humaines afin d’évaluer manuellement les réponses du modèle. L’interface utilisateur FMEval vous guide tout au long d’un flux de travail consistant à sélectionner un ou plusieurs modèles, à provisionner des ressources, à rédiger des instructions et à contacter votre personnel humain. Une fois l’évaluation humaine terminée, les résultats sont affichés dans FMEval.

Vous pouvez accéder à l'évaluation du modèle via la page JumpStart d'accueil de Studio en sélectionnant un modèle à évaluer, puis en choisissant Evaluer. Notez que les fonctionnalités d'évaluation ne sont pas disponibles sur tous les JumpStart modèles. Pour plus d’informations sur la configuration, le provisionnement et l’exécution de FMEval, consultez Que sont les évaluations des modèles de fondation ?

Avertissement JavaScript est désactivé ou n'est pas disponible dans votre navigateur.

Pour que vous puissiez utiliser la documentation AWS, Javascript doit être activé. Vous trouverez des instructions sur les pages d'aide de votre navigateur.

Conventions de rédaction

Génération à enrichissement contextuel (RAG)

Exemples de blocs-notes