

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

# Création d’une tâche d’évaluation de modèles automatique dans Amazon Bedrock
<a name="evaluation-automatic"></a>

Cette rubrique fournit des instructions détaillées pour créer une tâche d’évaluation de modèles automatique.

**Topics**
+ [Étapes requises avant de créer votre première tâche d’évaluation automatique de modèles](model-evaluation-type-automatic.md)
+ [Types de tâches d’évaluation de modèles dans Amazon Bedrock](model-evaluation-tasks.md)
+ [Utilisation des jeux de données d’invite pour l’évaluation des modèles dans Amazon Bedrock](model-evaluation-prompt-datasets.md)
+ [Démarrage d’une évaluation des modèles automatique dans Amazon Bedrock](model-evaluation-jobs-management-create.md)
+ [Liste des tâches d’évaluation de modèles automatique dans Amazon Bedrock](model-evaluation-jobs-management-list.md)
+ [Arrêt d’une tâche d’évaluation de modèles dans Amazon Bedrock](model-evaluation-jobs-management-stop.md)
+ [Suppression d’une tâche d’évaluation des modèles dans Amazon Bedrock](model-evaluation-jobs-management-delete.md)

# Étapes requises avant de créer votre première tâche d’évaluation automatique de modèles
<a name="model-evaluation-type-automatic"></a>

Les tâches d’évaluation automatique des modèles nécessitent l’accès aux ressources de niveau de service suivantes. Utilisez les rubriques liées pour en savoir plus sur la configuration.

**Exigences relatives aux autorisations CORS (Cross Origin Resource Sharing)**  
Toutes les tâches d’évaluation de modèles basées sur une console nécessitent l’activation des autorisations CORS (Cross Origin Resource Sharing) sur tous les compartiments Amazon S3 spécifiés dans la tâche d’évaluation des modèles. Pour en savoir plus, consultez [Autorisation CORS (Cross Origin Resource Sharing) nécessaire sur les compartiments S3](model-evaluation-security-cors.md)

**Ressources de niveau de service requises pour démarrer une tâche d’évaluation automatique de modèles**

1. Pour démarrer une tâche d’évaluation automatique de modèles, vous devez avoir accès à au moins un modèle de fondation Amazon Bedrock. Pour en savoir plus, veuillez consulter la section [Accès aux modèles de fondation Amazon Bedrock](model-access.md).

1. Pour créer une tâche d'évaluation automatique de modèle [https://console.aws.amazon.com/bedrock/](https://console.aws.amazon.com/bedrock/) AWS Command Line Interface, vous devez accéder au SDK ou à un AWS SDK compatible. Pour en savoir plus sur les actions et ressources IAM nécessaires, consultez [Autorisations de la console nécessaires pour créer une tâche d’évaluation automatique de modèles](#base-for-automatic).

1. Lorsque la tâche d’évaluation de modèles démarre, un rôle de service est utilisé pour effectuer des actions en votre nom. Pour en savoir plus sur les actions IAM nécessaires et les exigences de politique de confiance, consultez [Exigences de fonction du service pour les tâches d’évaluation de modèle automatique](automatic-service-roles.md).

1. Amazon Simple Storage Service : toutes les données utilisées et générées doivent être placées dans un compartiment Amazon S3 qui se trouve dans le même Région AWS compartiment dans le cadre d'une tâche d'évaluation automatique du modèle.

1. Cross Origin Resource Sharing (Cross Origin Resource Sharing) : pour les tâches d’évaluation automatique de modèles créées à l’aide de la console Amazon Bedrock, vous devez spécifier une configuration CORS sur le compartiment S3. Pour en savoir plus, consultez [Autorisation CORS (Cross Origin Resource Sharing) nécessaire sur les compartiments S3](model-evaluation-security-cors.md).

1. Un rôle de service IAM : pour exécuter une tâche d’évaluation automatique de modèles, vous devez créer un rôle de service. Le rôle de service permet à Amazon Bedrock d'effectuer des actions en votre nom sur votre AWS compte. Pour en savoir plus, veuillez consulter la section [Exigences de fonction du service pour les tâches d’évaluation de modèle automatique](automatic-service-roles.md). 

## Autorisations de la console nécessaires pour créer une tâche d’évaluation automatique de modèles
<a name="base-for-automatic"></a>

La politique suivante contient l’ensemble minimum d’actions IAM et de ressources d’Amazon Bedrock et d’Amazon S3 nécessaires pour créer une tâche d’évaluation *automatique* de modèles.

Dans la politique, nous recommandons d’utiliser l’élément de politique JSON IAM [Resource](https://docs.aws.amazon.com/IAM/latest/UserGuide/reference_policies_elements_resource.html) pour limiter l’accès aux seuls modèles et compartiments requis pour l’utilisateur, le groupe ou le rôle IAM.

------
#### [ JSON ]

****  

```
{
  "Version":"2012-10-17",		 	 	 
  "Statement": [
    {
      "Sid": "AllowPassingConsoleCreatedServiceRoles",
      "Effect": "Allow",
      "Action": [
        "iam:PassRole"
      ],
      "Resource": [
        "arn:aws:iam::111122223333:role/service-role/Amazon-Bedrock-IAM-Role-*"
      ],
      "Condition": {
        "StringEquals": {
          "iam:PassedToService": "bedrock.amazonaws.com"
        }
      }
    },
    {
      "Sid": "BedrockConsole",
      "Effect": "Allow",
      "Action": [
        "bedrock:CreateEvaluationJob",
        "bedrock:GetEvaluationJob",
        "bedrock:ListEvaluationJobs",
        "bedrock:StopEvaluationJob",
        "bedrock:GetCustomModel",
        "bedrock:ListCustomModels",
        "bedrock:CreateProvisionedModelThroughput",
        "bedrock:UpdateProvisionedModelThroughput",
        "bedrock:GetProvisionedModelThroughput",
        "bedrock:ListProvisionedModelThroughputs",
        "bedrock:GetImportedModel",
        "bedrock:ListImportedModels",
        "bedrock:ListMarketplaceModelEndpoints",
        "bedrock:ListTagsForResource",
        "bedrock:UntagResource",
        "bedrock:TagResource"
      ],
      "Resource": [
        "arn:aws:bedrock:us-west-2::foundation-model/model-id-of-foundational-model",
        "arn:aws:bedrock:us-west-2:111122223333:inference-profile/*",
        "arn:aws:bedrock:us-west-2:111122223333:provisioned-model/*",
        "arn:aws:bedrock:us-west-2:111122223333:imported-model/*"
      ]
    },
    {
      "Sid": "AllowConsoleS3AccessForModelEvaluation",
      "Effect": "Allow",
      "Action": [
        "s3:GetObject",
        "s3:GetBucketCORS",
        "s3:ListBucket",
        "s3:ListBucketVersions",
        "s3:GetBucketLocation"
      ],
      "Resource": [
        "arn:aws:s3:::my_output_bucket",
        "arn:aws:s3:::input_datasets/prompts.jsonl"
      ]
    }
  ]
}
```

------

# Types de tâches d’évaluation de modèles dans Amazon Bedrock
<a name="model-evaluation-tasks"></a>

Dans une tâche d’évaluation de modèle, un type de tâche d’évaluation correspond à une tâche que doit effectuer le modèle en fonction des informations contenues dans vos invites. Vous pouvez choisir un type de tâche par tâche d’évaluation de modèle.

Le tableau suivant récapitule les types de tâches disponibles pour les évaluations automatiques des modèles, les jeux de données intégrés et les métriques pertinentes pour chaque type de tâche.


**Jeux de données intégrés disponibles pour les tâches d’évaluation de modèle automatique dans Amazon Bedrock**  
[\[See the AWS documentation website for more details\]](http://docs.aws.amazon.com/fr_fr/bedrock/latest/userguide/model-evaluation-tasks.html)

**Topics**
+ [Génération de texte général pour l’évaluation de modèles dans Amazon Bedrock](model-evaluation-tasks-general-text.md)
+ [Synthétisation de texte pour l’évaluation des modèles dans Amazon Bedrock](model-evaluation-tasks-text-summary.md)
+ [Questions et réponses pour l’évaluation de modèles dans Amazon Bedrock](model-evaluation-tasks-question-answer.md)
+ [Classification de texte pour l’évaluation des modèles dans Amazon Bedrock](model-evaluation-text-classification.md)

# Génération de texte général pour l’évaluation de modèles dans Amazon Bedrock
<a name="model-evaluation-tasks-general-text"></a>

La génération de texte général est une tâche qu’utilisent les applications dotées d’un chatbot. Les réponses générées par un modèle à des questions générales sont influencées par l’exactitude, la pertinence et le biais contenu dans le texte ayant servir à entraîner le modèle.

**Important**  
En ce qui concerne la génération de texte général, un problème système connu empêche les modèles Cohere de mener à bien une évaluation de toxicité.

Les jeux de données intégrés suivants contiennent des requêtes bien adaptées aux tâches de génération de texte général.

**Jeu de données BOLD (Biais in Open-ended Language Generation Dataset)**  
Le jeu de données BOLD (Bias in Open-ended Language Generation Dataset) évalue l’impartialité dans la génération de texte général, en se concentrant sur cinq axes : la profession, le sexe, l’origine ethnique, les idéologies religieuses et les idéologies politiques. Il comporte 23 679 requêtes de génération de texte différentes.

**RealToxicityPrompts**  
RealToxicityPrompts est un jeu de données qui évalue la toxicité. Il teste le modèle en tentant de lui faire générer un langage à connotation raciste, sexiste ou de nature toxique. Ce jeu de données comporte 100 000 requêtes de génération de texte différentes.

**T-Rex : alignement à grande échelle du langage naturel sur des triplets de base de connaissances (TREX)**  
TREX est un jeu de données composé de triplets de base de connaissances (KBT) extraits de Wikipédia. Les KBT consistent en un type de structure de données utilisé dans le traitement du langage naturel (NLP) et la représentation des connaissances. Ils sont constitués d’un sujet, d’un prédicat et d’un objet, le sujet et l’objet étant liés par une relation. Par exemple, « George Washington fut président des États-Unis » est un triplet de base de connaissances (KBT). Le sujet est « George Washington », le prédicat est « fut président » et l’objet est « des États-Unis ».

**WikiText2**  
WikiText2 est un jeu de données HuggingFace qui contient des requêtes utilisées dans la génération de texte général.

Le tableau suivant offre un résumé des métriques calculées et du jeu de données intégré recommandé mis à disposition pour les tâches d’évaluation de modèle automatique. Pour spécifier correctement les jeux de données intégrés disponibles à l’aide de l’AWS CLI ou d’un kit AWS SDK pris en charge, utilisez les noms des paramètres dans la colonne *Jeux de données intégrés (API)*.


**Jeux de données intégrés disponibles pour la génération de texte général dans Amazon Bedrock**  
[\[See the AWS documentation website for more details\]](http://docs.aws.amazon.com/fr_fr/bedrock/latest/userguide/model-evaluation-tasks-general-text.html)

Pour en savoir plus sur le mode de calcul de la métrique pour chaque jeu de données intégré, consultez [Examen des rapports et des métriques des tâches d’évaluation de modèles dans Amazon Bedrock](model-evaluation-report.md)

# Synthétisation de texte pour l’évaluation des modèles dans Amazon Bedrock
<a name="model-evaluation-tasks-text-summary"></a>

Le résumé de texte est utilisé pour certaines tâches comme la création de résumés d’information, de documents juridiques, d’articles universitaires, d’aperçus de contenu et de compilation de contenu. La qualité des réponses peut être influencée par l’ambiguïté, la cohérence, le biais et la fluidité du texte ayant servir à entraîner le modèle, tout comme la perte, la précision, la pertinence ou l’inadéquation contextuelle des informations.

**Important**  
En ce qui concerne la synthétisation de texte, un problème système connu empêche les modèles Cohere de mener à bien une évaluation de toxicité.

Le jeu de données intégré suivant est pris en charge pour l’utilisation avec les tâches de type synthétisation de texte.

**Gigaword**  
Le jeu de données Gigaword se compose de nouveaux titres d’articles d’actualités. Ce jeu de données est utilisé dans les tâches de résumé de texte.

Le tableau suivant offre un résumé des métriques calculées et du jeu de données intégré recommandé. Pour spécifier correctement les jeux de données intégrés disponibles à l’aide de l’AWS CLI ou d’un kit AWS SDK pris en charge, utilisez les noms des paramètres dans la colonne *Jeux de données intégrés (API)*.


**Jeux de données intégrés disponibles pour le résumé de texte dans Amazon Bedrock**  
[\[See the AWS documentation website for more details\]](http://docs.aws.amazon.com/fr_fr/bedrock/latest/userguide/model-evaluation-tasks-text-summary.html)

Pour en savoir plus sur le mode de calcul de la métrique pour chaque jeu de données intégré, consultez [Examen des rapports et des métriques des tâches d’évaluation de modèles dans Amazon Bedrock](model-evaluation-report.md)

# Questions et réponses pour l’évaluation de modèles dans Amazon Bedrock
<a name="model-evaluation-tasks-question-answer"></a>

Les questions/réponses sont utilisées pour certaines tâches comme la génération de réponses automatiques d’un service d’assistance, la récupération d’informations et la formation en ligne. Si le texte utilisé pour entraîner le modèle de fondation présente des problèmes comme des données incomplètes ou inexactes, un ton sarcastique ou ironique, la qualité des réponses peut se dégrader.

**Important**  
En ce qui concerne les questions et les réponses, un problème système connu empêche les modèles Cohere de mener à bien une évaluation de toxicité.

Avec les tâches de type question/réponse, il est recommandé d’utiliser les jeux de données intégrés suivants.

**BoolQ**  
BoolQ est un ensemble de données composé de paires de yes/no questions et réponses. La requête contient un court passage, suivi d’une question sur le passage. Il est recommandé d’utiliser ce jeu de données avec les tâches de type question/réponse.

**Natural Questions**  
Natural Questions est un jeu de données composé de questions qui ont été soumises à une recherche Google par des utilisateurs réels.

**TriviaQA**  
TriviaQA est un ensemble de données contenant plus de 650 000 exemplaires. question-answer-evidence-triples Ce jeu de données est utilisé dans les tâches question/réponse.

Le tableau suivant offre un résumé des métriques calculées et du jeu de données intégré recommandé. Pour spécifier correctement les ensembles de données intégrés disponibles à l'aide du SDK ou d'un AWS SDK compatible AWS CLI, utilisez les noms des paramètres dans la colonne *Ensembles de données intégrés (API)*.


**Jeux de données intégrés disponibles pour les tâches de type question/réponse dans Amazon Bedrock**  
[\[See the AWS documentation website for more details\]](http://docs.aws.amazon.com/fr_fr/bedrock/latest/userguide/model-evaluation-tasks-question-answer.html)

Pour en savoir plus sur le mode de calcul de la métrique pour chaque jeu de données intégré, consultez [Examen des rapports et des métriques des tâches d’évaluation de modèles dans Amazon Bedrock](model-evaluation-report.md)

# Classification de texte pour l’évaluation des modèles dans Amazon Bedrock
<a name="model-evaluation-text-classification"></a>

La classification de texte sert à classer le texte dans des catégories prédéfinies. La recommandation de contenu, la détection de spam, l’identification de la langue et l’analyse des tendances sur les réseaux sociaux comptent parmi les applications qui utilisent la classification de texte. Les classes déséquilibrées, les données ambiguës, les données bruyantes et le biais d’étiquetage sont quelques-uns des problèmes qui peuvent entraîner des erreurs dans la classification de texte.

**Important**  
En ce qui concerne la classification, un problème système connu empêche les modèles Cohere de mener à bien une évaluation de toxicité.

Avec les tâches de type classification de texte, il est recommandé d’utiliser les jeux de données intégrés suivants.

**Women’s E-Commerce Clothing Reviews**  
Women’s E-Commerce Clothing Reviews est un jeu de données qui contient les avis de clientes sur des articles vestimentaires. Ce jeu de données est utilisé dans les tâches de classification de texte. 

Le tableau suivant offre un résumé des métriques calculées et des jeux de données intégrés recommandés. Pour spécifier correctement les jeux de données intégrés disponibles à l’aide de l’AWS CLI ou d’un kit AWS SDK pris en charge, utilisez les noms des paramètres dans la colonne *Jeux de données intégrés (API)*.




**Jeux de données intégrés disponibles dans Amazon Bedrock**  
[\[See the AWS documentation website for more details\]](http://docs.aws.amazon.com/fr_fr/bedrock/latest/userguide/model-evaluation-text-classification.html)

Pour en savoir plus sur le mode de calcul de la métrique pour chaque jeu de données intégré, consultez [Examen des rapports et des métriques des tâches d’évaluation de modèles dans Amazon Bedrock](model-evaluation-report.md)

# Utilisation des jeux de données d’invite pour l’évaluation des modèles dans Amazon Bedrock
<a name="model-evaluation-prompt-datasets"></a>

Pour créer une tâche d’évaluation des modèles automatique, vous devez spécifier un jeu de données d’invite. Les requêtes sont ensuite utilisées lors de l’inférence avec le modèle que vous sélectionnez pour évaluer. Amazon Bedrock fournit des jeux de données intégrés qui peuvent être utilisés dans les évaluations de modèle automatiques. Vous pouvez également apporter votre propre jeu de données d’invite.

Consultez les sections suivantes pour en apprendre davantage sur les jeux de données d’invite intégrés mis à disposition et pour savoir comment créer vos propres jeux de données d’invite personnalisés.

## Utilisation des jeux de données d’invite intégrés pour l’évaluation des modèles automatique dans Amazon Bedrock
<a name="model-evaluation-prompt-datasets-builtin"></a>

Amazon Bedrock fournit plusieurs jeux de données d’invite intégrés que vous pouvez utiliser dans une tâche d’évaluation de modèle automatique. Chaque jeu de données intégré est dérivé d’un jeu de données open source. Nous avons sous-échantillonné aléatoirement chaque jeu de données open source pour n’inclure que 100 invites.

Lorsque vous créez une tâche d’évaluation de modèle automatique et que vous choisissez un **Type de tâche**, Amazon Bedrock vous propose une liste de métriques recommandées. Pour chaque métrique, Amazon Bedrock propose également des jeux de données intégrés recommandés. Pour en savoir plus sur les types de tâches disponibles, consultez [Types de tâches d’évaluation de modèles dans Amazon Bedrock](model-evaluation-tasks.md).

**Jeu de données BOLD (Biais in Open-ended Language Generation Dataset)**  
Le jeu de données BOLD (Bias in Open-ended Language Generation Dataset) évalue l’impartialité dans la génération de texte général, en se concentrant sur cinq axes : la profession, le sexe, l’origine ethnique, les idéologies religieuses et les idéologies politiques. Il comporte 23 679 requêtes de génération de texte différentes.

**RealToxicityPrompts**  
RealToxicityPrompts est un ensemble de données qui évalue la toxicité. Il teste le modèle en tentant de lui faire générer un langage à connotation raciste, sexiste ou de nature toxique. Ce jeu de données comporte 100 000 requêtes de génération de texte différentes.

**T-Rex : alignement à grande échelle du langage naturel sur des triplets de base de connaissances (TREX)**  
TREX est un ensemble de données composé de triples de la base de connaissances (KBTs) extraits de Wikipédia. KBTs sont un type de structure de données utilisé dans le traitement du langage naturel (NLP) et la représentation des connaissances. Ils sont constitués d’un sujet, d’un prédicat et d’un objet, le sujet et l’objet étant liés par une relation. Par exemple, « George Washington fut président des États-Unis » est un triplet de base de connaissances (KBT). Le sujet est « George Washington », le prédicat est « fut président » et l’objet est « des États-Unis ».

**WikiText2**  
WikiText2 est un HuggingFace jeu de données qui contient des instructions utilisées dans la génération de texte en général.

**Gigaword**  
Le jeu de données Gigaword se compose de nouveaux titres d’articles d’actualités. Ce jeu de données est utilisé dans les tâches de résumé de texte.

**BoolQ**  
BoolQ est un ensemble de données composé de paires de yes/no questions et réponses. La requête contient un court passage, suivi d’une question sur le passage. Il est recommandé d’utiliser ce jeu de données avec les tâches de type question/réponse.

**Natural Questions **  
Natural Questions est un jeu de données composé de questions qui ont été soumises à une recherche Google par des utilisateurs réels.

**TriviaQA**  
TriviaQA est un ensemble de données contenant plus de 650 000 exemplaires. question-answer-evidence-triples Ce jeu de données est utilisé dans les tâches question/réponse.

**Women’s E-Commerce Clothing Reviews**  
Women’s E-Commerce Clothing Reviews est un jeu de données qui contient les avis de clientes sur des articles vestimentaires. Ce jeu de données est utilisé dans les tâches de classification de texte. 

Dans le tableau suivant, vous pouvez voir la liste des jeux de données disponibles regroupés par type de tâche. Pour en savoir plus sur le calcul des métriques automatiques, consultez [Révision des métriques pour une tâche automatique d’évaluation des modèles dans Amazon Bedrock (console)](model-evaluation-report-programmatic.md). 


**Jeux de données intégrés disponibles pour les tâches d’évaluation de modèle automatique dans Amazon Bedrock**  
[\[See the AWS documentation website for more details\]](http://docs.aws.amazon.com/fr_fr/bedrock/latest/userguide/model-evaluation-prompt-datasets.html)

Pour en savoir plus sur les exigences liées à la création de jeux de données d’invite personnalisés et pour en obtenir des exemples, consultez [Utilisation d’un jeu de données d’invite personnalisé pour l’évaluation des modèles dans Amazon Bedrock](#model-evaluation-prompt-datasets-custom).

## Utilisation d’un jeu de données d’invite personnalisé pour l’évaluation des modèles dans Amazon Bedrock
<a name="model-evaluation-prompt-datasets-custom"></a>

Vous pouvez créer un jeu de données d’invite personnalisé dans les tâches d’évaluation des modèles automatique. Les jeux de données d’invite personnalisés doivent être stockés dans Amazon S3 et utiliser le format de ligne JSON et l’extension de fichier `.jsonl`. Chaque ligne doit être un objet JSON valide. Votre jeu de données peut contenir jusqu’à 1 000 requêtes par tâche d’évaluation automatique.

Pour une tâche créée à l’aide de la console, vous devez mettre à jour la configuration CORS (Cross Origin Resource Sharing) sur le compartiment S3. Pour en savoir plus sur les autorisations CORS nécessaires, consultez [Autorisation CORS (Cross Origin Resource Sharing) nécessaire sur les compartiments S3](model-evaluation-security-cors.md). 

Dans un jeu de données personnalisé, vous devez utiliser les paire clés-valeur suivantes.
+ `prompt` : nécessaire pour indiquer l’entrée pour les tâches suivantes :
  + Requête à laquelle votre modèle doit répondre dans une tâche de génération de texte général.
  + Question à laquelle votre modèle doit répondre dans une tâche de type question/réponse.
  + Texte que votre modèle doit résumer dans une tâche de résumé de texte.
  + Texte que votre modèle doit classifier dans les tâches de classification.
+ `referenceResponse` : nécessaire pour indiquer la réponse de vérité terrain par rapport à laquelle votre modèle est évalué pour les types de tâches suivants :
  + Réponse à toutes les requêtes dans les tâches question/réponse.
  + Réponse pour toutes les évaluations de précision et de robustesse.
+ `category` (facultatif) : génère des scores d’évaluation rapportés pour chaque catégorie. 

Par exemple, pour évaluer la précision, il est nécessaire de disposer d’une question posée et d’une réponse qui sera comparée à celle du modèle. Dans cet exemple, la clé `prompt` est utilisée avec la valeur contenue dans la question, et la clé `referenceResponse` avec la valeur contenue dans la réponse comme suit.

```
{
  "prompt": "Bobigny is the capital of",
  "referenceResponse": "Seine-Saint-Denis",
  "category": "Capitals"
}
```

L’exemple ci-dessus est une ligne unique d’un fichier d’entrée de lignes JSON qui sera envoyée à votre modèle sous forme de demande d’inférence. Le modèle sera invoqué pour chaque enregistrement de ce type dans votre jeu de données de lignes JSON. L’exemple d’entrée de données ci-dessous concerne une tâche question/réponse qui utilise une clé facultative `category` pour l’évaluation.

```
{"prompt":"Aurillac is the capital of", "category":"Capitals", "referenceResponse":"Cantal"}
{"prompt":"Bamiyan city is the capital of", "category":"Capitals", "referenceResponse":"Bamiyan Province"}
{"prompt":"Sokhumi is the capital of", "category":"Capitals", "referenceResponse":"Abkhazia"}
```

# Démarrage d’une évaluation des modèles automatique dans Amazon Bedrock
<a name="model-evaluation-jobs-management-create"></a>

Vous pouvez créer une tâche d'évaluation automatique du modèle à l'aide du AWS Management Console AWS CLI, ou d'un AWS SDK compatible. Dans une tâche d’évaluation des modèles automatique, le modèle que vous sélectionnez effectue une inférence à l’aide d’invites provenant d’un jeu de données intégré pris en charge ou de votre propre jeu de données d’invite personnalisé. Pour chaque tâche, vous devez également sélectionner un type de tâche. Le type de tâche vous fournit certaines mesures recommandées et des jeux de données d’invite intégrés. Pour en savoir plus sur les types de tâches et métriques disponibles, consultez [Types de tâches d’évaluation de modèles dans Amazon Bedrock](model-evaluation-tasks.md).

Les exemples suivants vous montrent comment créer une tâche d'évaluation automatique de modèles à l'aide de la console Amazon Bedrock et AWS CLI du SDK pour Python.

Toutes les tâches d’évaluation des modèles automatiques nécessitent la création d’un rôle de service IAM. Pour plus d’informations sur les exigences IAM nécessaires pour configurer une tâche d’évaluation des modèles, consultez [Exigences de fonction du service pour les tâches d’évaluation de modèle](model-evaluation-security-service-roles.md).

Les exemples suivants montrent comment créer une tâche d’évaluation des modèles automatique. Dans l’API, vous pouvez également inclure un [profil d’inférence](cross-region-inference.md) dans la tâche en spécifiant son ARN dans le champ `modelIdentifier`.

------
#### [ Amazon Bedrock console ]

Utilisez la procédure suivante pour créer une tâche d’évaluation des modèles à l’aide de la console Amazon Bedrock. Pour finaliser cette procédure, assurez-vous que votre utilisateur, groupe ou rôle IAM dispose des autorisations suffisantes pour accéder à la console. Pour en savoir plus, veuillez consulter la section [Autorisations de la console nécessaires pour créer une tâche d’évaluation automatique de modèles](model-evaluation-type-automatic.md#base-for-automatic). 

En outre, les autorisations CORS requises doivent être ajoutées au compartiment Amazon S3 pour tous les jeux de données d’invite personnalisés que vous souhaitez spécifier dans la tâche d’évaluation des modèles. Pour plus d’informations sur l’ajout des autorisations CORS nécessaires, consultez [Autorisation CORS (Cross Origin Resource Sharing) nécessaire sur les compartiments S3](model-evaluation-security-cors.md).

**Pour créer une tâche d’évaluation des modèles automatique**

1. Ouvrez la console Amazon Bedrock : [https://console.aws.amazon.com/bedrock/home](https://console.aws.amazon.com/bedrock/home)

1. Dans le volet de navigation, choisissez **Évaluation de modèle**.

1. Dans la carte **Élaborer une évaluation**, sous **Automatique**, choisissez **Créer une évaluation automatique**.

1. Sur la page **Créer une évaluation automatique**, fournissez les informations suivantes :

   1. **Nom de l’évaluation** : donnez un nom descriptif à la tâche d’évaluation de modèle. Ce nom s’affiche dans votre liste de tâches d’évaluation de modèle. Il doit être unique dans votre compte et au sein d’une Région AWS.

   1. **Description** (facultatif) : fournissez éventuellement une description.

   1. **Modèles** : choisissez le modèle que vous souhaitez utiliser dans la tâche d’évaluation de modèle.

      Pour en savoir plus sur les modèles disponibles dans Amazon Bedrock, consultez [Accès aux modèles de fondation Amazon Bedrock](model-access.md).

   1. (Facultatif) Pour modifier la configuration de l’inférence, choisissez **mettre à jour**.

      Le fait de modifier la configuration de l’inférence a pour effet de modifier les réponses générées par les modèles sélectionnés. Pour en savoir plus sur les paramètres d’inférence disponibles, consultez [Paramètres de demande d’inférence et champs de réponse pour les modèles de fondation](model-parameters.md).

   1. **Type de tâche** : choisissez le type de tâche que le modèle doit tenter d’effectuer dans la tâche d’évaluation de modèle.

   1. **Métriques et jeux de données** : la liste des métriques et des jeux de données de requêtes disponibles change en fonction de la tâche sélectionnée. Vous pouvez effectuer un choix dans la liste **Jeux de données intégrés disponibles** ou choisir **Utiliser votre jeu de données de requêtes**. Si vous choisissez d’utiliser votre propre jeu de données d’invite, saisissez l’URI S3 exact de votre fichier de jeu de données d’invite ou choisissez **Parcourir S3** pour rechercher votre jeu de données d’invite.

   1. **Résultats de l’évaluation** : vous devez spécifier l’URI S3 du répertoire où doivent être enregistrés les résultats. Choisissez **Parcourir S3** pour rechercher un emplacement dans Amazon S3.

   1. (Facultatif) Pour utiliser une clé gérée par le client, sélectionnez la case **Personnaliser les paramètres de chiffrement (avancé)**. Indiquez ensuite l’ARN de la clé AWS KMS que vous souhaitez utiliser.

   1. **Rôle IAM Amazon Bedrock** : choisissez **Utiliser un rôle existant** pour utiliser un rôle de service IAM disposant déjà des autorisations requises, ou choisissez **Créer un nouveau rôle** pour créer un nouveau rôle de service IAM.

1. Ensuite, choisissez **Créer**.

Une fois que le statut passe à **Terminé**, vous pouvez consulter le bulletin d’évaluation de la tâche.

------
#### [ SDK for Python ]

L’exemple suivant crée une tâche d’évaluation automatique à l’aide de Python.

```
import boto3
client = boto3.client('bedrock')

job_request = client.create_evaluation_job(
    jobName="api-auto-job-titan",
    jobDescription="two different task types",
    roleArn="arn:aws:iam::111122223333:role/role-name",
    inferenceConfig={
        "models": [
            {
                "bedrockModel": {
                    "modelIdentifier":"arn:aws:bedrock:us-west-2::foundation-model/amazon.titan-text-lite-v1",
                    "inferenceParams":"{\"inferenceConfig\":{\"maxTokens\": 512,\"temperature\":0.7,\"topP\":0.9}}"
                }

            }
        ]

    },
    outputDataConfig={
        "s3Uri":"s3://amzn-s3-demo-bucket-model-evaluations/outputs/"
    },
    evaluationConfig={
        "automated": {
            "datasetMetricConfigs": [
                {
                    "taskType": "QuestionAndAnswer",
                    "dataset": {
                        "name": "Builtin.BoolQ"
                    },
                    "metricNames": [
                        "Builtin.Accuracy",
                        "Builtin.Robustness"
                    ]
                }
            ]
        }
    }
)

print(job_request)
```

------
#### [ AWS CLI ]

Dans le AWS CLI, vous pouvez utiliser la `help` commande pour voir quels paramètres sont obligatoires et quels paramètres sont facultatifs lors de la spécification `create-evaluation-job` dans le AWS CLI.

```
aws bedrock create-evaluation-job help
```

```
aws bedrock create-evaluation-job \
--job-name 'automatic-eval-job-cli-001' \
--role-arn 'arn:aws:iam::111122223333:role/role-name' \
--evaluation-config '{"automated": {"datasetMetricConfigs": [{"taskType": "QuestionAndAnswer","dataset": {"name": "Builtin.BoolQ"},"metricNames": ["Builtin.Accuracy","Builtin.Robustness"]}]}}' \
--inference-config '{"models": [{"bedrockModel": {"modelIdentifier":"arn:aws:bedrock:us-west-2::foundation-model/amazon.titan-text-lite-v1","inferenceParams":"{\"inferenceConfig\":{\"maxTokens\": 512,\"temperature\":0.7,\"topP\":0.9}}"}}]}' \
--output-data-config '{"s3Uri":"s3://automatic-eval-jobs/outputs"}'
```

------

# Liste des tâches d’évaluation de modèles automatique dans Amazon Bedrock
<a name="model-evaluation-jobs-management-list"></a>

Vous pouvez répertorier vos tâches d’évaluation automatique de modèles en cours que vous avez déjà créées à l’aide de l’AWS CLI ou d’un kit AWS SDK compatible. Dans la console Amazon Bedrock, vous pouvez également consulter un tableau contenant vos tâches d’évaluation de modèle en cours.

Les exemples suivants vous montrent comment trouver vos tâches d’évaluation des modèles à l’aide de la AWS Management Console, de l’AWS CLI et du kit SDK pour Python.

------
#### [ Amazon Bedrock console ]

1. Ouvrez la console Amazon Bedrock : [https://console.aws.amazon.com/bedrock/home](https://console.aws.amazon.com/bedrock/home)

1. Dans le volet de navigation, choisissez **Évaluation de modèle**.

1. Dans la fiche **Tâches d’évaluation de modèles**, vous trouverez un tableau répertoriant les tâches d’évaluation de modèles que vous avez déjà créées.

------
#### [ AWS CLI ]

Dans l’AWS CLI, vous pouvez utiliser la commande `help` pour voir quels paramètres sont requis et lesquels sont facultatifs lors de l’utilisation de `list-evaluation-jobs`.

```
aws bedrock list-evaluation-jobs help
```

Voici un exemple d’utilisation de `list-evaluation-jobs` et de spécification d’un maximum de 5 tâches à renvoyer. Par défaut, les tâches sont renvoyées par ordre décroissant à partir du moment où elles ont été lancées.

```
aws bedrock list-evaluation-jobs --max-items 5
```

------
#### [ SDK for Python ]

Les exemples suivants montrent comment utiliser le kit AWS SDK pour Python afin de rechercher une tâche d’évaluation de modèles que vous avez créée précédemment. 

```
import boto3
client = boto3.client('bedrock')

job_request = client.list_evaluation_jobs(maxResults=20)

print (job_request)
```

------

# Arrêt d’une tâche d’évaluation de modèles dans Amazon Bedrock
<a name="model-evaluation-jobs-management-stop"></a>

Vous pouvez arrêter une tâche d’évaluation de modèles en cours de traitement à l’aide de la AWS Management Console, de l’AWS CLI ou d’un kit AWS SDK compatible.

Les exemples suivants vous montrent comment arrêter une tâche d’évaluation de modèles à l’aide de la AWS Management Console, de l’AWS CLI et du kit SDK pour Python

------
#### [ Amazon Bedrock console ]

L’exemple suivant vous montre comment arrêter une tâche d’évaluation de modèles à l’aide de la AWS Management Console

1. Ouvrez la console Amazon Bedrock : [https://console.aws.amazon.com/bedrock/home](https://console.aws.amazon.com/bedrock/home)

1. Dans le volet de navigation, choisissez **Évaluation de modèle**.

1. Dans la fiche **Tâches d’évaluation de modèles**, vous trouverez un tableau répertoriant les tâches d’évaluation de modèles que vous avez déjà créées.

1. Sélectionnez la case d’option située à côté du nom de votre tâche.

1. Choisissez ensuite **Arrêter l’évaluation**.

------
#### [ SDK for Python ]

L’exemple suivant vous montre comment arrêter une tâche d’évaluation de modèles à l’aide du kit SDK pour Python

```
import boto3
client = boto3.client('bedrock')
response = client.stop_evaluation_job(
	## The ARN of the model evaluation job you want to stop.
	jobIdentifier='arn:aws:bedrock:us-west-2:444455556666:evaluation-job/fxaqujhttcza'
)

print(response)
```

------
#### [ AWS CLI ]

Dans l’AWS CLI, vous pouvez utiliser la commande `help` pour voir les paramètres requis et quels paramètres sont facultatifs lorsque vous spécifiez `add-something` dans l’AWS CLI.

```
aws bedrock create-evaluation-job help
```

L’exemple suivant vous montre comment arrêter une tâche d’évaluation de modèles à l’aide de la AWS CLI

```
aws bedrock stop-evaluation-job --job-identifier arn:aws:bedrock:us-west-2:444455556666:evaluation-job/fxaqujhttcza
```

------

# Suppression d’une tâche d’évaluation des modèles dans Amazon Bedrock
<a name="model-evaluation-jobs-management-delete"></a>

Vous pouvez supprimer une tâche d’évaluation des modèles à l’aide de la console Amazon Bedrock, ou en utilisant l’opération [BatchDeleteEvaluationJob](https://docs.aws.amazon.com/bedrock/latest/APIReference/API_BatchDeleteEvaluationJob.html) avec l’AWS CLI, ou un kit AWS SDK compatible. 

Avant que vous puissiez supprimer une tâche d’évaluation des modèles, elle doit avoir le statut `FAILED`, `COMPLETED` ou `STOPPED`. Vous pouvez obtenir le statut actuel d’une tâche depuis la console Amazon Bedrock ou en appelant [ListEvaluationJobs](https://docs.aws.amazon.com/bedrock/latest/APIReference/API_ListEvaluationJobs.html). Pour plus d’informations, consultez [Liste des tâches d’évaluation de modèles automatique dans Amazon BedrockListe des tâches d’évaluation de modèles faisant appel à des travailleurs humains dans Amazon Bedrock](model-evaluation-jobs-management-list.md). 

Vous pouvez supprimer jusqu’à 25 tâches d’évaluation des modèles à la fois avec la console et avec l’opération `BatchDeleteEvaluationJob`. Si vous devez supprimer d’autres tâches, répétez la procédure de console ou appelez `BatchDeleteEvaluationJob`.

Si vous supprimez une tâche d’évaluation des modèles avec cette opération `BatchDeleteEvaluationJob`, vous avez besoin des Amazon Resource Names (ARN) des modèles que vous souhaitez supprimer. Pour plus d’informations sur la façon d’obtenir l’ARN d’un modèle, consultez [Liste des tâches d’évaluation de modèles automatique dans Amazon BedrockListe des tâches d’évaluation de modèles faisant appel à des travailleurs humains dans Amazon Bedrock](model-evaluation-jobs-management-list.md). 

Lorsque vous supprimez une tâche d’évaluation des modèles, toutes les ressources d’Amazon Bedrock et d’Amazon SageMaker AI sont supprimées. Toutes les tâches d’évaluation des modèles enregistrées dans les compartiments Amazon S3 restent inchangées. De même, pour les tâches d’évaluation des modèles effectuées par des employés, la suppression d’une tâche d’évaluation des modèles n’entraîne pas la suppression de la main-d’œuvre ou de l’équipe de travail que vous avez configurée dans Amazon Cognito ou SageMaker AI.

Utilisez les sections suivantes pour voir des exemples de suppression d’une tâche d’évaluation des modèles.

------
#### [ Amazon Bedrock console ]

Utilisez la procédure suivante pour supprimer une tâche d’évaluation des modèles à l’aide de la console Amazon Bedrock. Pour finaliser cette procédure, assurez-vous que votre utilisateur, groupe ou rôle IAM dispose des autorisations suffisantes pour accéder à la console. Pour en savoir plus, consultez [Autorisations de la console nécessaires pour créer une tâche d’évaluation automatique de modèles](model-evaluation-type-automatic.md#base-for-automatic).

**Pour supprimer plusieurs tâches d’évaluation des modèles**

1. Ouvrez la console Amazon Bedrock : [https://console.aws.amazon.com/bedrock/](https://console.aws.amazon.com/bedrock/)

1. Dans le volet de navigation, choisissez **Évaluation des modèles**.

1. Dans **Tâches d’évaluation des modèles**, utilisez le tableau pour trouver les tâches d’évaluation des modèles que vous souhaitez supprimer, puis cochez la case située près de leur nom pour les sélectionner. Vous pouvez en sélectionner jusqu’à 25.

1. Choisissez **Supprimer** pour supprimer les tâches d’évaluation des modèles.

1. Si vous devez supprimer d’autres tâches d’évaluation des modèles, répétez les étapes 3 et 4.

------
#### [ AWS CLI ]

Dans l’AWS CLI, vous pouvez utiliser la commande `help` pour voir quels paramètres sont requis et lesquels sont facultatifs lors de l’utilisation de `batch-delete-evaluation-job`.

```
aws bedrock batch-delete-evaluation-job help
```

Voici un exemple d’utilisation de `batch-delete-evaluation-job` et de spécification de la suppression de deux tâches d’évaluation des modèles. Vous utilisez le paramètre `job-identifiers` pour spécifier une liste d’ARN pour les tâches d’évaluation des modèles à supprimer. Vous pouvez supprimer jusqu’à 25 tâches d’évaluation des modèles en un seul appel à `batch-delete-evaluation-job`. Si vous devez supprimer d’autres tâches, effectuez des appels vers `batch-delete-evaluation-job`.

```
aws bedrock batch-delete-evaluation-job \
--job-identifiers arn:aws:bedrock:us-east-1:111122223333:evaluation-job/rmqp8zg80rvg arn:aws:bedrock:us-east-1:111122223333:evaluation-job/xmfp9zg204fdk
```

Après soumission, vous recevrez la réponse suivante.

```
{
	"evaluationJobs": [
		{
			"jobIdentifier": "rmqp8zg80rvg",
			"jobStatus": "Deleting"
		},
		{
			"jobIdentifier": "xmfp9zg204fdk",
			"jobStatus": "Deleting"
		}

	],
	"errors": []
}
```

------
#### [ SDK for Python ]

Les exemples suivants montrent comment utiliser le kit AWS SDK pour Python pour supprimer une tâche d’évaluation des modèles. Utilisez le paramètre `jobIdentifiers` pour spécifier une liste d’ARN pour les tâches d’évaluation des modèles à supprimer. Vous pouvez supprimer jusqu’à 25 tâches d’évaluation des modèles en un seul appel à `BatchDeleteEvaluationJob`. Si vous devez supprimer d’autres tâches, effectuez des appels vers `BatchDeleteEvaluationJob`.

```
import boto3
client = boto3.client('bedrock')

job_request = client.batch_delete_model_evaluation_job(jobIdentifiers=["arn:aws:bedrock:us-east-1:111122223333:evaluation-job/rmqp8zg80rvg", "arn:aws:bedrock:us-east-1:111122223333:evaluation-job/xmfp9zg204fdk"])

print (job_request)
```

------