Création d’un jeu de données d’invite personnalisé dans une tâche d’évaluation des modèles qui utilise des travailleurs humains - Amazon Bedrock

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Création d’un jeu de données d’invite personnalisé dans une tâche d’évaluation des modèles qui utilise des travailleurs humains

Pour créer une tâche d’évaluation des modèles faisant appel à des travailleurs humains, vous devez spécifier un jeu de données d’invite personnalisé. Ces invites sont ensuite utilisées lors de l’inférence avec les modèles que vous sélectionnez pour évaluation.

Si vous souhaitez évaluer des modèles autres qu’Amazon Bedrock à l’aide des réponses que vous avez déjà générées, incluez-les dans le jeu de données d’invite, comme décrit sous Effectuez une tâche d’évaluation à l’aide de vos propres données de réponse d’inférence. Lorsque vous fournissez vos propres données de réponse d’inférence, Amazon Bedrock ignore l’étape d’invocation du modèle et effectue la tâche d’évaluation avec les données que vous fournissez.

Les jeux de données d’invite personnalisés doivent être stockés dans Amazon S3 et utiliser le format de ligne JSON et l’extension de fichier .jsonl. Chaque ligne doit être un objet JSON valide. Votre jeu de données peut contenir jusqu’à 1 000 requêtes par tâche d’évaluation automatique.

Pour une tâche créée à l’aide de la console, vous devez mettre à jour la configuration CORS (Cross Origin Resource Sharing) sur le compartiment S3. Pour en savoir plus sur les autorisations CORS nécessaires, consultez Autorisation CORS (Cross Origin Resource Sharing) nécessaire sur les compartiments S3.

Effectuez une tâche d’évaluation dans laquelle Amazon Bedrock invoque un modèle pour vous

Pour exécuter une tâche d’évaluation dans laquelle Amazon Bedrock invoque les modèles pour vous, fournissez un jeu de données d’invite contenant les paires clé-valeur suivantes :

  • prompt : l’invite à laquelle vous souhaitez que les modèles répondent.

  • referenceResponse : (facultatif) une réponse comportant une vérité terrain à laquelle vos travailleurs peuvent faire référence pendant l’évaluation.

  • category : (facultatif) clé que vous pouvez utiliser pour filtrer les résultats pendant leur examen dans le bulletin d’évaluation des modèles.

Dans l’interface utilisateur des travailleurs, ce que vous spécifiez pour prompt et referenceResponse est visible de vos travailleurs humains.

Voici un exemple de jeu de données personnalisé qui contient 6 entrées et utilise le format de ligne JSON.

{"prompt":"Provide the prompt you want the model to use during inference","category":"(Optional) Specify an optional category","referenceResponse":"(Optional) Specify a ground truth response."} {"prompt":"Provide the prompt you want the model to use during inference","category":"(Optional) Specify an optional category","referenceResponse":"(Optional) Specify a ground truth response."} {"prompt":"Provide the prompt you want the model to use during inference","category":"(Optional) Specify an optional category","referenceResponse":"(Optional) Specify a ground truth response."} {"prompt":"Provide the prompt you want the model to use during inference","category":"(Optional) Specify an optional category","referenceResponse":"(Optional) Specify a ground truth response."} {"prompt":"Provide the prompt you want the model to use during inference","category":"(Optional) Specify an optional category","referenceResponse":"(Optional) Specify a ground truth response."} {"prompt":"Provide the prompt you want the model to use during inference","category":"(Optional) Specify an optional category","referenceResponse":"(Optional) Specify a ground truth response."}

L’exemple suivant est une entrée unique développée dans un souci de clarté. Dans votre jeu de données d’invite actuel, chaque ligne doit être un objet JSON valide.

{ "prompt": "What is high intensity interval training?", "category": "Fitness", "referenceResponse": "High-Intensity Interval Training (HIIT) is a cardiovascular exercise approach that involves short, intense bursts of exercise followed by brief recovery or rest periods." }

Effectuez une tâche d’évaluation à l’aide de vos propres données de réponse d’inférence

Pour exécuter une tâche d’évaluation à l’aide des réponses que vous avez déjà générées, vous devez fournir un jeu de données d’invite contenant les paires clé-valeur suivantes :

  • prompt : l’invite utilisée par vos modèles pour générer les réponses.

  • referenceResponse : (facultatif) une réponse comportant une vérité terrain à laquelle vos travailleurs peuvent faire référence pendant l’évaluation.

  • category : (facultatif) clé que vous pouvez utiliser pour filtrer les résultats pendant leur examen dans le bulletin d’évaluation des modèles.

  • modelResponses : les réponses issues de votre propre inférence que vous voulez évaluer. Vous pouvez fournir une ou deux entrées avec les propriétés suivantes dans la liste modelResponses.

    • response : une chaîne contenant la réponse issue de votre inférence de modèle.

    • modelIdentifier : une chaîne identifiant le modèle qui a généré les réponses.

Chaque ligne de votre jeu de données d’invite doit contenir le même nombre de réponses (une ou deux). En outre, vous devez spécifier le ou les même(s) identificateur(s) de modèle sur chaque ligne et vous ne pouvez pas utiliser plus de 2 valeurs uniques pour modelIdentifier dans un seul jeu de données.

Voici un exemple de jeu de données personnalisé avec 6 entrées au format de ligne JSON.

{"prompt":"The prompt you used to generate the model responses","referenceResponse":"(Optional) a ground truth response","category":"(Optional) a category for the prompt","modelResponses":[{"response":"The response your first model generated","modelIdentifier":"A string identifying your first model"},{"response":"The response your second model generated","modelIdentifier":"A string identifying your second model"}]} {"prompt":"The prompt you used to generate the model responses","referenceResponse":"(Optional) a ground truth response","category":"(Optional) a category for the prompt","modelResponses":[{"response":"The response your first model generated","modelIdentifier":"A string identifying your first model"},{"response":"The response your second model generated","modelIdentifier":"A string identifying your second model"}]} {"prompt":"The prompt you used to generate the model responses","referenceResponse":"(Optional) a ground truth response","category":"(Optional) a category for the prompt","modelResponses":[{"response":"The response your first model generated","modelIdentifier":"A string identifying your first model"},{"response":"The response your second model generated","modelIdentifier":"A string identifying your second model"}]} {"prompt":"The prompt you used to generate the model responses","referenceResponse":"(Optional) a ground truth response","category":"(Optional) a category for the prompt","modelResponses":[{"response":"The response your first model generated","modelIdentifier":"A string identifying your first model"},{"response":"The response your second model generated","modelIdentifier":"A string identifying your second model"}]} {"prompt":"The prompt you used to generate the model responses","referenceResponse":"(Optional) a ground truth response","category":"(Optional) a category for the prompt","modelResponses":[{"response":"The response your first model generated","modelIdentifier":"A string identifying your first model"},{"response":"The response your second model generated","modelIdentifier":"A string identifying your second model"}]} {"prompt":"The prompt you used to generate the model responses","referenceResponse":"(Optional) a ground truth response","category":"(Optional) a category for the prompt","modelResponses":[{"response":"The response your first model generated","modelIdentifier":"A string identifying your first model"},{"response":"The response your second model generated","modelIdentifier":"A string identifying your second model"}]}

L’exemple suivant montre une entrée unique dans un jeu de données d’invite développée dans un souci de clarté.

{ "prompt": "What is high intensity interval training?", "referenceResponse": "High-Intensity Interval Training (HIIT) is a cardiovascular exercise approach that involves short, intense bursts of exercise followed by brief recovery or rest periods.", "category": "Fitness", "modelResponses": [ { "response": "High intensity interval training (HIIT) is a workout strategy that alternates between short bursts of intense, maximum-effort exercise and brief recovery periods, designed to maximize calorie burn and improve cardiovascular fitness.", "modelIdentifier": "Model1" }, { "response": "High-intensity interval training (HIIT) is a cardiovascular exercise strategy that alternates short bursts of intense, anaerobic exercise with less intense recovery periods, designed to maximize calorie burn, improve fitness, and boost metabolic rate.", "modelIdentifier": "Model2" } ] }