Prérequis Tâches de référence disponibles Configurations spécifiques à l'évaluation Emplois de formation à l'évaluation Évaluation des résultats de l'évaluation Bonnes pratiques et résolution des problèmes Sous-tâches disponibles

Évaluation de votre modèle entraîné par SageMaker l'IA

Le but du processus d'évaluation est d'évaluer les performances du modèle entraîné par rapport à des repères ou à un ensemble de données personnalisé. Le processus d'évaluation comprend généralement des étapes visant à créer une recette d'évaluation pointant vers le modèle entraîné, à spécifier des ensembles de données et des mesures d'évaluation, à soumettre une tâche distincte pour l'évaluation et à évaluer par rapport à des repères standard ou à des données personnalisées. Le processus d'évaluation produira des mesures de performance stockées dans votre compartiment Amazon S3.

Note

Le processus d'évaluation décrit dans cette rubrique est un processus hors ligne. Le modèle est testé par rapport à des points de référence fixes avec des réponses prédéfinies, plutôt que d'être évalué en temps réel ou par le biais d'interactions en direct avec les utilisateurs. Pour une évaluation en temps réel, vous pouvez tester le modèle après son déploiement sur Amazon Bedrock en appelant Amazon Bedrock Runtime. APIs

Rubriques

Prérequis
Tâches de référence disponibles
Configurations spécifiques à l'évaluation
Exécution de tâches de formation à l'évaluation
Évaluation et analyse des résultats d'évaluation
Meilleures pratiques d'évaluation et résolution des problèmes
Sous-tâches disponibles

Prérequis

Avant de commencer un travail de formation à l'évaluation, notez ce qui suit.

Un modèle SageMaker Amazon Nova entraîné par l'IA dont vous souhaitez évaluer les performances.
Recette de base Amazon Nova à des fins d'évaluation. Pour de plus amples informations, veuillez consulter Obtenir des recettes Amazon Nova.

Tâches de référence disponibles

Un exemple de package de code est disponible qui montre comment calculer les mesures de référence à l'aide de la fonctionnalité d'évaluation du SageMaker modèle pour Amazon Nova. Pour accéder aux packages de code, consultez Sample-n ova-lighteval-custom-task.

Voici une liste des benchmarks standard disponibles pris en charge. Vous pouvez spécifier les repères suivants dans le eval_task paramètre.

Points de référence disponibles pour l'évaluation des modèles

Comparaison	Modalité	Description	Métriques	Strategy	Sous-tâche disponible
mmlu	Texte	Compréhension linguistique multitâche — Teste les connaissances dans 57 matières.	précision	zs_cot	Oui
mmlu pro	Texte	MMLU — Sous-ensemble professionnel — Se concentre sur des domaines professionnels tels que le droit, la médecine, la comptabilité et l'ingénierie.	précision	zs_cot	Non
bbh	Texte	Tâches de raisonnement avancées — Ensemble de problèmes difficiles qui mettent à l'épreuve des compétences cognitives et de résolution de problèmes de haut niveau.	précision	fs_cot	Oui
gpqa	Texte	Réponses aux questions de physique générale — Évalue la compréhension des concepts de physique et les capacités de résolution de problèmes connexes.	précision	zs_cot	Non
math	Texte	Résolution de problèmes mathématiques — Mesure le raisonnement mathématique dans des domaines tels que l'algèbre, le calcul et les problèmes de mots.	match exact	zs_cot	Oui
strong_reject	Texte	Tâche de contrôle qualité : teste la capacité du modèle à détecter et à rejeter le contenu inapproprié, préjudiciable ou incorrect.	déviation	zs	Oui
ifeval	Texte	Évaluation suivant les instructions — Évalue la précision avec laquelle un modèle suit les instructions données et exécute les tâches conformément aux spécifications.	précision	zs	Non
gen_qa	Texte	Évaluation personnalisée du jeu de données : vous permet de fournir votre propre ensemble de données à des fins d'analyse comparative, en comparant les résultats du modèle aux réponses de référence avec des indicateurs tels que ROUGE et BLEU.	Tout	gen_qa	Non
mmmu	Multimodal	Compréhension multidisciplinaire et multimodale massive (MMMU) — Indice de référence de niveau universitaire comprenant des questions à choix multiples et ouvertes portant sur 30 disciplines.	précision	zs_cot	Oui
llm_judge	Texte	LLM-as-a-Judge Comparaison des préférences — Utilise un modèle Nova Judge pour déterminer la préférence entre les réponses appariées (B par rapport à A) pour vos invites, en calculant la probabilité que B soit préféré à A.	Tout	juger	Non

Configurations spécifiques à l'évaluation

Vous trouverez ci-dessous une description des principaux composants de la recette et des conseils sur la manière de les modifier en fonction de vos cas d'utilisation.

Comprendre et modifier vos recettes

Configuration générale d'exécution


run:
  name: eval_job_name 
  model_type: amazon.nova-micro-v1:0:128k 
  model_name_or_path: nova-micro/prod 
  replicas: 1 
  data_s3_path: ""

name: nom descriptif de votre tâche d'évaluation.
model_type: Spécifie la variante du modèle Nova à utiliser. Ne modifiez pas ce champ manuellement. Les options incluent :
- amazon. nova-micro-v1:40:128 km
- amazon. nova-lite-v1:30:300 km
- amazon. nova-pro-v1:30:300 km
model_name_or_path: le chemin vers le modèle de base ou le chemin s3 pour le point de contrôle après l'entraînement. Les options incluent :
- nova-micro/prod
- nova-lite/prod
- nova-pro/prod
- chemin S3 pour le chemin de point de contrôle après entraînement () s3:customer-escrow-111122223333-smtj-<unique_id>/<training_run_name>
  
  Note
  Évaluer le modèle après l'entraînement
  Pour évaluer un modèle post-entraîné après une tâche de formation chez Nova SFT, suivez ces étapes après avoir exécuté une tâche de formation réussie. À la fin des journaux d'entraînement, vous verrez le message « L'entraînement est terminé ». Vous trouverez également un manifest.json fichier dans votre compartiment de sortie contenant l'emplacement de votre point de contrôle. Ce fichier sera situé dans un output.tar.gz fichier à votre emplacement S3 de sortie. Pour procéder à l'évaluation, utilisez ce point de contrôle en le définissant comme valeur pour run.model_name_or_path dans la configuration de votre recette.
replica: le nombre d'instances de calcul à utiliser pour la formation distribuée. Définissez cette valeur sur 1 car les nœuds multiples ne sont pas pris en charge.
data_s3_path: chemin du jeu de données en entrée Amazon S3. Ce champ est obligatoire mais doit toujours être laissé vide.

Configuration de l'évaluation


evaluation:
  task: mmlu 
  strategy: zs_cot 
  subtask: abstract_algebra
  metric: accuracy

task: Spécifie le point de référence ou la tâche d'évaluation à utiliser. Les tâches prises en charge incluent :
- mmlu
- mmlu_pro
- bbh
- gpqa
- math
- strong_reject
- gen_qa
- ifeval
- mmmu
- llm_judge
strategy: définit l'approche d'évaluation.
- zs_cot: Chaîne de pensée zéro : une approche visant à susciter de grands modèles linguistiques qui encouragent le step-by-step raisonnement sans nécessiter d'exemples explicites.
- fs_cot: Chaîne de pensée en plusieurs points : approche qui fournit quelques exemples de step-by-step raisonnement avant de demander au modèle de résoudre un nouveau problème.
- zs: Zero-shot : une approche pour résoudre un problème sans aucun exemple de formation préalable.
- gen_qa: stratégie spécifique pour apporter votre propre ensemble de données.
- judge: Stratégie spécifique à Nova LLM en tant que juge.
subtask: Facultatif. Composantes spécifiques de la tâche d'évaluation. Pour obtenir la liste complète des sous-tâches disponibles, consultezSous-tâches disponibles.
- Vérifiez les sous-tâches prises en charge dans Tâches de référence disponibles.
- Ce champ devrait être supprimé s'il n'y a pas de points de repère pour les sous-tâches.
metric: métrique d'évaluation à utiliser.
- accuracy: Pourcentage de bonnes réponses.
- exact_match: Pour le benchmark mathématique, renvoie le taux auquel les chaînes prédites en entrée correspondent exactement à leurs références.
- deflection: Pour un indice de référence de rejet fort, renvoie une déflexion relative par rapport au modèle de base et aux mesures d'importance des différences.
- all:
  
  Pourgen_qa, apportez votre propre base de données de référence, renvoyez les métriques suivantes :
  - rouge1: Mesure le chevauchement des unigrammes (mots uniques) entre le texte généré et le texte de référence.
  - rouge2: Mesure le chevauchement des bigrammes (deux mots consécutifs) entre le texte généré et le texte de référence.
  - rougeL: Mesure la plus longue sous-séquence commune entre les textes, en tenant compte des lacunes dans la correspondance.
  - exact_match: score binaire (0 ou 1) indiquant si le texte généré correspond exactement au texte de référence, caractère par caractère.
  - quasi_exact_match: Similaire à la correspondance exacte, mais plus indulgent, ignorant généralement les différences entre majuscules et minuscules, la ponctuation et les espaces blancs.
  - f1_score: moyenne harmonique de précision et de rappel, mesurant le chevauchement des mots entre les réponses prédites et les réponses de référence.
  - f1_score_quasi: Similaire à f1_score mais avec une correspondance plus souple, en utilisant une comparaison de texte normalisée qui ignore les différences mineures.
  - bleu: Mesure la précision des correspondances en n-grammes entre le texte généré et le texte de référence, couramment utilisé dans l'évaluation des traductions.
  Pourllm_judge, apportez votre propre base de données de référence, renvoyez les métriques suivantes :
  - a_scores: Nombre de victoires pour response_A les passes d'évaluation avant et arrière.
  - a_scores_stderr: erreur standard response_A_scores entre les jugements par paires.
  - b_scores: Mesure le nombre de victoires pour response_B les passes d'évaluation avant et arrière.
  - a_scores_stderr: erreur standard response_B_scores entre les jugements par paires.
  - ties: Nombre de jugements où response_A et response_B sont évalués sur un pied d'égalité.
  - ties_stderr: erreur standard ties entre les jugements par paires.
  - inference_error: Nombre de jugements qui n'ont pas pu être correctement évalués.
  - score: Score agrégé basé sur les victoires obtenues lors des passes avant et arrière pourresponse_B.
  - score_stderr: Score agrégé basé sur les victoires obtenues lors des passes avant et arrière pourresponse_B.
  - inference_error_stderr: erreur type du score agrégé pour les jugements par paires.
  - winrate: probabilité qui response_B sera préférée par rapport à la probabilité response_A calculée à l'aide de la probabilité de Bradley-Terry.
  - lower_rate: Borne inférieure (2,5 centile) du taux de victoire estimé à partir d'un échantillonnage bootstrap.
  - upper_rate: Borne supérieure (97,5e percentile) du taux de victoire estimé à partir d'un échantillonnage bootstrap.

Configuration d'inférence (facultatif)


inference:
  max_new_tokens: 2048 
  top_k: -1 
  top_p: 1.0 
  temperature: 0

max_new_tokens: nombre maximum de jetons à générer. Doit être un entier. (Non disponible pour le juge LLM)
top_k: Nombre de jetons présentant la probabilité la plus élevée à prendre en compte. Doit être un entier.
top_p: seuil de probabilité cumulé pour l'échantillonnage de jetons. Doit être un float compris entre 1,0 et 0,0.
temperature: Aléatoire dans la sélection des jetons (plus élevé = plus aléatoire), conservez 0 pour que le résultat soit déterministe. Type flottant, la valeur minimale est 0.

Exemples de recettes d'évaluation

Amazon Nova propose quatre types de recettes d'évaluation différents. Toutes les recettes sont disponibles dans le GitHub référentiel de SageMaker HyperPod recettes Amazon.

Recettes d'évaluation

Ces recettes vous permettent d'évaluer les fonctionnalités fondamentales des modèles Amazon Nova grâce à une suite complète de tests de performance basés uniquement sur le texte.

Format de recette :xxx_ general_text_benchmark_eval.yaml.

Ces recettes vous permettent d'évaluer les fonctionnalités fondamentales des modèles Amazon Nova à travers une suite complète de benchmarks multimodaux.

Format de recette :xxx_general_multi_modal_benchmark_eval.yaml.

Exigences de référence multimodales

Support de modèle - Compatible uniquement avec les modèles de base Nova-Lite et Nova-Pro et leurs variantes post-entraînées.

Ces recettes vous permettent d'utiliser votre propre ensemble de données à des fins d'analyse comparative et de comparer les résultats du modèle aux réponses de référence à l'aide de différents types de mesures.

Format de recette :xxx_ bring_your_own_dataset_eval.yaml.

Apportez vos propres exigences en matière de jeux de données

Format de fichier :

gen_qa.jsonlFichier unique contenant des exemples d'évaluation. Le nom du fichier doit être exactgen_qa.jsonl.
Vous devez télécharger votre ensemble de données sur un emplacement S3 auquel les postes de SageMaker formation peuvent accéder.
Le fichier doit suivre le format de schéma requis pour le jeu de données Q&Q général.

Format de schéma : chaque ligne du .jsonl fichier doit être un objet JSON avec les champs suivants.

Champs obligatoires

query: chaîne contenant la question ou l'instruction nécessitant une réponse.

response: chaîne contenant le résultat attendu du modèle.
Champs facultatifs

system: chaîne contenant l'invite système qui définit le comportement, le rôle ou la personnalité du modèle d'IA avant qu'il ne traite la requête.

Exemple d’entrée


{
"system":"You are an English major with top marks in class who likes to give minimal word responses: ",
   "query":"What is the symbol that ends the sentence as a question",
   "response":"?"
}{
"system":"You are a pattern analysis specialist who provides succinct answers: ",
   "query":"What is the next number in this series? 1, 2, 4, 8, 16, ?",
   "response":"32"
}{
"system":"You have great attention to detail and follow instructions accurately: ",
   "query":"Repeat only the last two words of the following: I ate a hamburger today and it was kind of dry",
   "response":"of dry"
}

Pour utiliser votre ensemble de données personnalisé, modifiez votre recette d'évaluation avec les champs obligatoires suivants, sans modifier le contenu :


evaluation:
  task: gen_qa 
  strategy: gen_qa 
  metric: all

Limites

Un seul .jsonl fichier est autorisé par évaluation.
Le fichier doit suivre strictement le schéma défini.

Nova LLM Judge est une fonctionnalité d'évaluation de modèle qui vous permet de comparer la qualité des réponses d'un modèle aux réponses d'un modèle de référence à l'aide d'un ensemble de données personnalisé. Il accepte un ensemble de données contenant des invites, des réponses de base et des réponses de challenger, puis utilise un modèle Nova Judge pour fournir une métrique du taux de victoire basée sur la probabilité de Bradley-Terry par le biais de comparaisons par paires. Format de recette :xxx_llm_judge _eval.yaml.

Exigences relatives à l'ensemble de données Nova LLM

Format de fichier :

llm_judge.jsonlFichier unique contenant des exemples d'évaluation. Le nom du fichier doit être exactllm_judge.jsonl.
Vous devez télécharger votre ensemble de données sur un emplacement S3 auquel les postes de SageMaker formation peuvent accéder.
Le fichier doit respecter le format de schéma requis pour le llm_judge jeu de données.
L'ensemble de données en entrée doit garantir que tous les enregistrements ont une longueur de contexte inférieure à 12 ko.

Format de schéma : chaque ligne du .jsonl fichier doit être un objet JSON avec les champs suivants.

Champs obligatoires

prompt: chaîne contenant l'invite de réponse générée.

response_A: chaîne contenant la réponse de base.

response_B: La chaîne contenant la réponse alternative doit être comparée à la réponse de base.

Exemple d’entrée


{
"prompt": "What is the most effective way to combat climate change?",
"response_A": "The most effective way to combat climate change is through a combination of transitioning to renewable energy sources and implementing strict carbon pricing policies. This creates economic incentives for businesses to reduce emissions while promoting clean energy adoption.",
"response_B": "We should focus on renewable energy. Solar and wind power are good. People should drive electric cars. Companies need to pollute less."
}
{
"prompt": "Explain how a computer's CPU works",
"response_A": "CPU is like brain of computer. It does math and makes computer work fast. Has lots of tiny parts inside.",
"response_B": "A CPU (Central Processing Unit) functions through a fetch-execute cycle, where instructions are retrieved from memory, decoded, and executed through its arithmetic logic unit (ALU). It coordinates with cache memory and registers to process data efficiently using binary operations."
}
{
"prompt": "How does photosynthesis work?",
"response_A": "Plants do photosynthesis to make food. They use sunlight and water. It happens in leaves.",
"response_B": "Photosynthesis is a complex biochemical process where plants convert light energy into chemical energy. They utilize chlorophyll to absorb sunlight, combining CO2 and water to produce glucose and oxygen through a series of chemical reactions in chloroplasts."
}

Pour utiliser votre ensemble de données personnalisé, modifiez votre recette d'évaluation avec les champs obligatoires suivants, sans modifier le contenu :


evaluation:
  task: llm_judge
  strategy: judge
  metric: all

Limites

Un seul .jsonl fichier est autorisé par évaluation.
Le fichier doit suivre strictement le schéma défini.
Les modèles Nova Judge sont les mêmes quelles que soient les spécifications micro/lite/pro.
Les modèles de juges personnalisés ne sont actuellement pas pris en charge.

Exécution de tâches de formation à l'évaluation

Commencez une tâche de formation à l'aide de l'exemple de bloc-notes Jupyter ci-dessous. Pour plus d'informations, voir Utiliser un estimateur SageMaker basé sur l'IA pour exécuter une tâche de formation.

Tables de référence

Avant d'exécuter le bloc-notes, reportez-vous aux tableaux de référence suivants pour sélectionner l'URI de l'image et les configurations d'instance.

Sélection de l'URI d'image

Recipe	URI de l'image
URI de l'image d'évaluation	`708977205387.dkr.ecr.us-east-1.amazonaws.com/nova-evaluation-repo:SM-TJ-Eval-latest`

Sélection du type et du nombre d'instances

Modèle	Type de tâche	Type d’instance	Nombre d'instances recommandé	Nombre d'instances autorisées
Amazon Nova Micro	Évaluation (SFT/DPO)	g5.12xlarge	1	1
Amazon Nova Lite	Évaluation (SFT/DPO)	g5.12xlarge	1	1
Amazon Nova Pro	Évaluation (SFT/DPO)	p5.48xlarge	1	1

Exemple de carnet

L'exemple de bloc-notes suivant montre comment exécuter une tâche de formation à l'évaluation.


# install python SDK
!pip install sagemaker
 
import os
import sagemaker,boto3
from sagemaker.inputs import TrainingInput
from sagemaker.pytorch import PyTorch

sagemaker_session = sagemaker.Session()
role = sagemaker.get_execution_role()

# Download recipe from https://github.com/aws/sagemaker-hyperpod-recipes/tree/main/recipes_collection/recipes/evaluation/nova to local
# Assume the file name be `recipe.yaml`

# Populate parameters
# input_s3_uri = "s3://<path>/input/" # (Optional) Only used for multi-modal dataset or bring your own dataset s3 location
output_s3_uri= "s3://<path>/output/" # Output data s3 location, a zip containing metrics json and tensorboard metrics files will be stored to this location
instance_type = "instace_type"  # ml.g5.16xlarge as example
job_name = "your job name"
recipe_path = "recipe path" # ./recipe.yaml as example
image_uri = "708977205387.dkr.ecr.us-east-1.amazonaws.com/nova-evaluation-repo:SM-TJ-Eval-latest" # Do not change

# (Optional) To bring your own dataset and LLM judge for evaluation
# evalInput = TrainingInput(
# s3_data=input_s3_uri,
# distribution='FullyReplicated',
# s3_data_type='S3Prefix'
#)

estimator = PyTorch(
    output_path=output_s3_uri,
    base_job_name=job_name,
    role=role,
    instance_type=instance_type,
    training_recipe=recipe_path,
    sagemaker_session=sagemaker_session,
    image_uri = image_uri
)
estimator.fit()

# If input dataset exist, pass in inputs
# estimator.fit(inputs={"train": evalInput})

Évaluation et analyse des résultats d'évaluation

Une fois votre tâche d'évaluation terminée avec succès, vous pouvez évaluer et analyser les résultats en suivant les étapes suivantes.

Pour évaluer et analyser les résultats, suivez les étapes.

Comprenez la structure de l'emplacement de sortie. Les résultats sont stockés dans l'emplacement de sortie Amazon S3 que vous avez spécifié sous forme de fichier compressé :
```
s3://your-bucket/output/benchmark-name/
└── job_name/
    └── output/
        └── output.tar.gz
```

Téléchargez le output.tar.gz fichier depuis votre bucket. Extrayez le contenu pour le révéler. Existe pour tous les benchmarks saufstrong_reject.


run_name/
├── eval_results/
│   └── results_[timestamp].json
|   └── details/
|         └── model/
|              └── <execution-date-time>/
|                         └──details_<task_name>_#_<datetime>.parquet
└── tensorboard_results/
    └── eval/
        └── events.out.tfevents.[timestamp]

results_[timestamp].json- Fichier JSON des métriques de sortie
details_<task_name>_#_<datetime>.parquet- Fichier de sortie d'inférence
events.out.tfevents.[timestamp]- fichier TensorBoard de sortie

Afficher les résultats dans TensorBoard. Pour visualiser vos indicateurs d'évaluation :
1. Téléchargez le dossier extrait dans un compartiment S3
2. Naviguez vers SageMaker TensorBoard
3. Sélectionnez vos « dossiers S3 »
4. Ajoutez le chemin du dossier S3
5. Attendez que la synchronisation soit terminée
Analysez les sorties d'inférence. Toutes les tâches d'évaluation, à l'exception de llm_judge, comporteront les champs d'analyse suivants dans le résultat d'inférence.
- full_prompt- l'invite utilisateur complète envoyée au modèle utilisé pour la tâche d'évaluation.
- gold- le champ qui contient la ou les bonnes réponses telles que spécifiées par l'ensemble de données.
- metrics- le champ qui contient les métriques évaluées sur la base de l'inférence individuelle. Les valeurs nécessitant une agrégation n'auraient aucune valeur sur les sorties d'inférence individuelles.
- predictions- le champ qui contient la liste des résultats du modèle pour l'invite donnée.
En consultant ces champs, vous pouvez déterminer la cause des différences entre les métriques et comprendre le comportement des modèles personnalisés.

En llm_judge effet, le fichier de sortie d'inférence contient les champs suivants sous le champ des métriques par paire d'évaluations.
- forward_output- Jugez les préférences brutes lors de l'évaluation dans l'ordre (Response_A, Response_B).
- backward_output- Jugez les préférences brutes lors de l'évaluation dans l'ordre inverse (Response_B, Response_A).
- Pairwise metrics- Indicateurs calculés par paire d'évaluations en avant et en arrièrea_scores, y comprisb_scores,ties, inference-score etscore.
  
  Note
  Les mesures agrégées telles que celles-ci ne winrate sont disponibles que dans les fichiers de résultats récapitulatifs, et non par jugement individuel.

Meilleures pratiques d'évaluation et résolution des problèmes

Bonnes pratiques

Voici une liste de bonnes pratiques pour le processus d'évaluation.

Organisez vos chemins de sortie par modèle et par type de référence.
Maintenez des conventions de dénomination cohérentes pour faciliter le suivi.
Enregistrez les résultats extraits dans un emplacement sécurisé.
Surveillez l'état de TensorBoard synchronisation pour vérifier que le chargement des données est réussi.

Résolution des problèmes

Vous pouvez utiliser le groupe de CloudWatch journaux /aws/sagemaker/TrainingJobs pour former les journaux d'erreurs des tâches.

Erreur de mémoire insuffisante CUDA

Problème :

Lorsque vous exécutez l'évaluation du modèle, le message d'erreur suivant s'affiche :


torch.cuda.OutOfMemoryError: CUDA out of memory. Tried to allocate X MiB. 
GPU 0 has a total capacity of Y GiB of which Z MiB is free.

Cause:

Cette erreur se produit lorsque vous tentez de charger un modèle qui nécessite plus de mémoire GPU que celle disponible sur votre type d'instance actuel.

Solution :

Choisissez un type d'instance avec plus de mémoire GPU. Par exemple, si vous utilisez G5.12xLarge (96 GiB de mémoire graphique), passez à G5.48xLarge (192 GiB de mémoire GPU)

Prévention :

Avant d'exécuter l'évaluation du modèle, procédez comme suit.

Estimez les besoins en mémoire de votre modèle
Assurez-vous que le type d'instance sélectionné dispose d'une mémoire GPU suffisante
Tenez compte de la surcharge de mémoire nécessaire au chargement et à l'inférence des modèles

Sous-tâches disponibles

La liste suivante répertorie les sous-tâches disponibles pour l'évaluation de modèles dans plusieurs domaines, notamment MMLU (Massive Multitask Language Understanding), BBH (Big Bench Hard), les mathématiques et MMMU (Massive Multi-discipline Multimodal Understanding). Ces sous-tâches vous permettent d'évaluer les performances de votre modèle par rapport à des capacités et à des domaines de connaissances spécifiques.

MMLU


MMLU_SUBTASKS = [
    "abstract_algebra",
    "anatomy",
    "astronomy",
    "business_ethics",
    "clinical_knowledge",
    "college_biology",
    "college_chemistry",
    "college_computer_science",
    "college_mathematics",
    "college_medicine",
    "college_physics",
    "computer_security",
    "conceptual_physics",
    "econometrics",
    "electrical_engineering",
    "elementary_mathematics",
    "formal_logic",
    "global_facts",
    "high_school_biology",
    "high_school_chemistry",
    "high_school_computer_science",
    "high_school_european_history",
    "high_school_geography",
    "high_school_government_and_politics",
    "high_school_macroeconomics",
    "high_school_mathematics",
    "high_school_microeconomics",
    "high_school_physics",
    "high_school_psychology",
    "high_school_statistics",
    "high_school_us_history",
    "high_school_world_history",
    "human_aging",
    "human_sexuality",
    "international_law",
    "jurisprudence",
    "logical_fallacies",
    "machine_learning",
    "management",
    "marketing",
    "medical_genetics",
    "miscellaneous",
    "moral_disputes",
    "moral_scenarios",
    "nutrition",
    "philosophy",
    "prehistory",
    "professional_accounting",
    "professional_law",
    "professional_medicine",
    "professional_psychology",
    "public_relations",
    "security_studies",
    "sociology",
    "us_foreign_policy",
    "virology",
    "world_religions"
]

BBH


BBH_SUBTASKS = [
    "boolean_expressions",
    "causal_judgement",
    "date_understanding",
    "disambiguation_qa",
    "dyck_languages",
    "formal_fallacies",
    "geometric_shapes",
    "hyperbaton",
    "logical_deduction_five_objects",
    "logical_deduction_seven_objects",
    "logical_deduction_three_objects",
    "movie_recommendation",
    "multistep_arithmetic_two",
    "navigate",
    "object_counting",
    "penguins_in_a_table",
    "reasoning_about_colored_objects",
    "ruin_names",
    "salient_translation_error_detection",
    "snarks",
    "sports_understanding",
    "temporal_sequences",
    "tracking_shuffled_objects_five_objects",
    "tracking_shuffled_objects_seven_objects",
    "tracking_shuffled_objects_three_objects",
    "web_of_lies",
    "word_sorting"
]

Math


MATH_SUBTASKS = [
    "algebra",
    "counting_and_probability",
    "geometry",
    "intermediate_algebra",
    "number_theory",
    "prealgebra",
    "precalculus",
]

MMMU


MATH_SUBTASKS = [
    "Accounting",
    "Agriculture",
    "Architecture_and_Engineering",
    "Art",
    "Art_Theory",
    "Basic_Medical_Science",
    "Biology",
    "Chemistry",
    "Clinical_Medicine",
    "Computer_Science",
    "Design",
    "Diagnostics_and_Laboratory_Medicine",
    "Economics",
    "Electronics",
    "Energy_and_Power",
    "Finance",
    "Geography",
    "History",
    "Literature",
    "Manage",
    "Marketing",
    "Materials",
    "Math",
    "Mechanical_Engineering",
    "Music",
    "Pharmacy",
    "Physics",
    "Psychology",
    "Public_Health",
    "Sociology",
]

Avertissement JavaScript est désactivé ou n'est pas disponible dans votre navigateur.

Pour que vous puissiez utiliser la documentation AWS, Javascript doit être activé. Vous trouverez des instructions sur les pages d'aide de votre navigateur.

Conventions de rédaction

Affinement

Sur SageMaker HyperPod