As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.
Criar um conjunto de dados de prompts personalizado em trabalhos de avaliação de modelo que utilizam trabalhadores humanos
Para criar um trabalho de avaliação de modelo que utiliza trabalhadores humanos, você deve especificar um conjunto de dados de prompts personalizado. Esses prompts são então usados durante a inferência com os modelos que você opta por avaliar.
Se quiser avaliar modelos que não são do Amazon Bedrock usando respostas que você já gerou, inclua-os no conjunto de dados de prompts, conforme descrito em Executar um trabalho de avaliação usando seus próprios dados de inferência. Quando você fornece seus próprios dados de resposta de inferência, o Amazon Bedrock ignora a etapa de invocação do modelo e executa o trabalho de avaliação com os dados que você fornece.
Os conjuntos de dados de prompts personalizados devem ser armazenados no Amazon S3, usar o formato de linha JSON e usar a extensão de arquivo .jsonl. Cada linha também deve ser um objeto JSON válido. Um conjunto de dados pode ter até 1.000 prompts por trabalho de avaliação automática.
Para trabalhos criados usando o console, atualize a configuração de compartilhamento de recursos de origem cruzada (CORS) no bucket do S3. Para saber mais sobre as permissões de CORS necessárias, consulte Permissões de compartilhamento de recursos de origem cruzada (CORS) necessárias em buckets do S3.
Executar um trabalho de avaliação em que o Amazon Bedrock invoque um modelo para você
Para executar um trabalho de avaliação em que o Amazon Bedrock invoque os modelos para você, forneça um conjunto de dados de prompts que contenha os seguintes pares de chave-valor:
-
prompt: o prompt ao qual você deseja que os modelos respondam. -
referenceResponse: (opcional) uma resposta real que os trabalhadores humanos podem consultar durante a avaliação. -
category: (opcional) uma chave que você pode usar para filtrar os resultados ao analisá-los no boletim de avaliação de modelo.
Na interface de usuário do operador, o que você especifica para prompt e referenceResponse fica visível para os operadores humanos.
Veja a seguir um exemplo de conjunto de dados personalizado que contém seis entradas e usa o formato de linha JSON.
{"prompt":"Provide the prompt you want the model to use during inference","category":"(Optional) Specify an optional category","referenceResponse":"(Optional) Specify a ground truth response."}
{"prompt":"Provide the prompt you want the model to use during inference","category":"(Optional) Specify an optional category","referenceResponse":"(Optional) Specify a ground truth response."}
{"prompt":"Provide the prompt you want the model to use during inference","category":"(Optional) Specify an optional category","referenceResponse":"(Optional) Specify a ground truth response."}
{"prompt":"Provide the prompt you want the model to use during inference","category":"(Optional) Specify an optional category","referenceResponse":"(Optional) Specify a ground truth response."}
{"prompt":"Provide the prompt you want the model to use during inference","category":"(Optional) Specify an optional category","referenceResponse":"(Optional) Specify a ground truth response."}
{"prompt":"Provide the prompt you want the model to use during inference","category":"(Optional) Specify an optional category","referenceResponse":"(Optional) Specify a ground truth response."}
O exemplo a seguir é uma única entrada única expandida para aumentar a clareza. Em seu conjunto de dados de prompts real, cada linha deve ser um objeto JSON válido.
{ "prompt": "What is high intensity interval training?", "category": "Fitness", "referenceResponse": "High-Intensity Interval Training (HIIT) is a cardiovascular exercise approach that involves short, intense bursts of exercise followed by brief recovery or rest periods." }
Executar um trabalho de avaliação usando seus próprios dados de inferência
Para executar um trabalho de avaliação usando respostas que você já gerou, forneça um conjunto de dados de prompts que contenha os seguintes pares de chave-valor:
-
prompt: o prompt que seus modelos usaram para gerar as respostas. -
referenceResponse: (opcional) uma resposta real que os trabalhadores humanos podem consultar durante a avaliação. -
category: (opcional) uma chave que você pode usar para filtrar os resultados ao analisá-los no boletim de avaliação de modelo. -
modelResponses: as respostas de sua própria inferência que você deseja avaliar. Você pode fornecer uma ou duas entradas com as propriedades a seguir na listamodelResponses.-
response: uma string contendo a resposta da inferência do modelo. -
modelIdentifier: uma string que identifica o modelo que gerou as respostas.
-
Cada linha em seu conjunto de dados de prompts deve conter o mesmo número de respostas (uma ou duas). Além disso, você deve especificar os mesmos identificadores de modelo em cada linha e não pode usar mais de dois valores exclusivos para modelIdentifier em um único conjunto de dados.
Veja a seguir um exemplo de conjunto de dados personalizado com seis entradas no formato de linha JSON.
{"prompt":"The prompt you used to generate the model responses","referenceResponse":"(Optional) a ground truth response","category":"(Optional) a category for the prompt","modelResponses":[{"response":"The response your first model generated","modelIdentifier":"A string identifying your first model"},{"response":"The response your second model generated","modelIdentifier":"A string identifying your second model"}]} {"prompt":"The prompt you used to generate the model responses","referenceResponse":"(Optional) a ground truth response","category":"(Optional) a category for the prompt","modelResponses":[{"response":"The response your first model generated","modelIdentifier":"A string identifying your first model"},{"response":"The response your second model generated","modelIdentifier":"A string identifying your second model"}]} {"prompt":"The prompt you used to generate the model responses","referenceResponse":"(Optional) a ground truth response","category":"(Optional) a category for the prompt","modelResponses":[{"response":"The response your first model generated","modelIdentifier":"A string identifying your first model"},{"response":"The response your second model generated","modelIdentifier":"A string identifying your second model"}]} {"prompt":"The prompt you used to generate the model responses","referenceResponse":"(Optional) a ground truth response","category":"(Optional) a category for the prompt","modelResponses":[{"response":"The response your first model generated","modelIdentifier":"A string identifying your first model"},{"response":"The response your second model generated","modelIdentifier":"A string identifying your second model"}]} {"prompt":"The prompt you used to generate the model responses","referenceResponse":"(Optional) a ground truth response","category":"(Optional) a category for the prompt","modelResponses":[{"response":"The response your first model generated","modelIdentifier":"A string identifying your first model"},{"response":"The response your second model generated","modelIdentifier":"A string identifying your second model"}]} {"prompt":"The prompt you used to generate the model responses","referenceResponse":"(Optional) a ground truth response","category":"(Optional) a category for the prompt","modelResponses":[{"response":"The response your first model generated","modelIdentifier":"A string identifying your first model"},{"response":"The response your second model generated","modelIdentifier":"A string identifying your second model"}]}
O exemplo a seguir mostra um única entrada expandida em conjunto de dados de prompts para aumentar a clareza.
{ "prompt": "What is high intensity interval training?", "referenceResponse": "High-Intensity Interval Training (HIIT) is a cardiovascular exercise approach that involves short, intense bursts of exercise followed by brief recovery or rest periods.", "category": "Fitness", "modelResponses": [ { "response": "High intensity interval training (HIIT) is a workout strategy that alternates between short bursts of intense, maximum-effort exercise and brief recovery periods, designed to maximize calorie burn and improve cardiovascular fitness.", "modelIdentifier": "Model1" }, { "response": "High-intensity interval training (HIIT) is a cardiovascular exercise strategy that alternates short bursts of intense, anaerobic exercise with less intense recovery periods, designed to maximize calorie burn, improve fitness, and boost metabolic rate.", "modelIdentifier": "Model2" } ] }