As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

# Criar um trabalho avaliação de modelo automática no Amazon Bedrock
<a name="evaluation-automatic"></a>

O tópico fornece instruções detalhadas para criar um trabalho automático de avaliação de modelo.

**Topics**
+ [Etapas necessárias antes de criar seu primeiro trabalho de avaliação de modelo automática](model-evaluation-type-automatic.md)
+ [Tipos de tarefa de avaliação de modelo no Amazon Bedrock](model-evaluation-tasks.md)
+ [Usar conjuntos de dados de prompts personalizados para avaliação de modelo no Amazon Bedrock](model-evaluation-prompt-datasets.md)
+ [Iniciar um trabalho automático de avaliação de modelo no Amazon Bedrock](model-evaluation-jobs-management-create.md)
+ [Listar trabalhos automáticos de avaliação de modelo no Amazon Bedrock](model-evaluation-jobs-management-list.md)
+ [Interromper um trabalho de avaliação de modelo no Amazon Bedrock](model-evaluation-jobs-management-stop.md)
+ [Excluir um trabalho de avaliação de modelo no Amazon Bedrock](model-evaluation-jobs-management-delete.md)

# Etapas necessárias antes de criar seu primeiro trabalho de avaliação de modelo automática
<a name="model-evaluation-type-automatic"></a>

Os trabalhos de avaliação de modelo automática exigem acesso aos recursos de nível de serviço a seguir. Use os tópicos com link para saber mais sobre como configurar.

**Compartilhamento de recursos de origem cruzada (CORS)**  
Todos os trabalhos de avaliação de modelo baseados no console exigem que as permissões de compartilhamento de recursos de origem cruzada (CORS) sejam habilitadas em qualquer bucket do Amazon S3 especificado no trabalho de avaliação de modelo. Para saber mais, consulte [Permissões de compartilhamento de recursos de origem cruzada (CORS) necessárias em buckets do S3](model-evaluation-security-cors.md)

**Recursos necessários para iniciar um trabalho de avaliação de modelo automática**

1. Para iniciar um trabalho de avaliação de modelo automática, você precisa de acesso a pelo menos um modelo de base do Amazon Bedrock. Para saber mais, consulte [Acessar modelos de base do Amazon Bedrock](model-access.md).

1. Para criar um trabalho de avaliação automática do modelo, você precisa acessar o [https://console.aws.amazon.com/bedrock/](https://console.aws.amazon.com/bedrock/), AWS Command Line Interface, ou um AWS SDK compatível. Para saber mais sobre os recursos e ações necessários do IAM, consulte [Permissões necessárias para criar um trabalho de avaliação de modelo automática](#base-for-automatic).

1. Quando o trabalho de avaliação de modelo é iniciado, é usado um perfil de serviço para executar ações em seu nome. Para saber mais sobre as ações necessárias do IAM e os requisitos de política de confiança, consulte [Requisitos do perfil de serviço para trabalhos automáticos de avaliação de modelo](automatic-service-roles.md).

1. Amazon Simple Storage Service — Todos os dados usados e gerados devem ser colocados em um bucket do Amazon S3 que esteja no mesmo Região da AWS em um trabalho de avaliação automática do modelo.

1. Compartilhamento de recursos de origem cruzada (CORS): os trabalhos de avaliação de modelo automática criados com o console do Amazon Bedrock exigem que você especifique a configuração do CORS no bucket do S3. Para saber mais, consulte [Permissões de compartilhamento de recursos de origem cruzada (CORS) necessárias em buckets do S3](model-evaluation-security-cors.md).

1. Um perfil de serviço do IAM: para executar um trabalho de avaliação de modelo automática, é necessário criar um perfil de serviço. A função de serviço permite que o Amazon Bedrock realize ações em seu nome em sua AWS conta. Para saber mais, consulte [Requisitos do perfil de serviço para trabalhos automáticos de avaliação de modelo](automatic-service-roles.md). 

## Permissões necessárias para criar um trabalho de avaliação de modelo automática
<a name="base-for-automatic"></a>

A política a seguir contém o conjunto mínimo de ações e recursos do IAM no Amazon Bedrock e no Amazon S3 necessários para criar um trabalho *automático* de avaliação de modelo usando o console do Amazon Bedrock.

Na política, recomendamos usar o elemento de política JSON [Resource](https://docs.aws.amazon.com/IAM/latest/UserGuide/reference_policies_elements_resource.html) do IAM para limitar o acesso somente aos modelos e buckets necessários ao usuário, grupo ou perfil do IAM.

------
#### [ JSON ]

****  

```
{
  "Version":"2012-10-17",		 	 	 
  "Statement": [
    {
      "Sid": "AllowPassingConsoleCreatedServiceRoles",
      "Effect": "Allow",
      "Action": [
        "iam:PassRole"
      ],
      "Resource": [
        "arn:aws:iam::111122223333:role/service-role/Amazon-Bedrock-IAM-Role-*"
      ],
      "Condition": {
        "StringEquals": {
          "iam:PassedToService": "bedrock.amazonaws.com"
        }
      }
    },
    {
      "Sid": "BedrockConsole",
      "Effect": "Allow",
      "Action": [
        "bedrock:CreateEvaluationJob",
        "bedrock:GetEvaluationJob",
        "bedrock:ListEvaluationJobs",
        "bedrock:StopEvaluationJob",
        "bedrock:GetCustomModel",
        "bedrock:ListCustomModels",
        "bedrock:CreateProvisionedModelThroughput",
        "bedrock:UpdateProvisionedModelThroughput",
        "bedrock:GetProvisionedModelThroughput",
        "bedrock:ListProvisionedModelThroughputs",
        "bedrock:GetImportedModel",
        "bedrock:ListImportedModels",
        "bedrock:ListMarketplaceModelEndpoints",
        "bedrock:ListTagsForResource",
        "bedrock:UntagResource",
        "bedrock:TagResource"
      ],
      "Resource": [
        "arn:aws:bedrock:us-west-2::foundation-model/model-id-of-foundational-model",
        "arn:aws:bedrock:us-west-2:111122223333:inference-profile/*",
        "arn:aws:bedrock:us-west-2:111122223333:provisioned-model/*",
        "arn:aws:bedrock:us-west-2:111122223333:imported-model/*"
      ]
    },
    {
      "Sid": "AllowConsoleS3AccessForModelEvaluation",
      "Effect": "Allow",
      "Action": [
        "s3:GetObject",
        "s3:GetBucketCORS",
        "s3:ListBucket",
        "s3:ListBucketVersions",
        "s3:GetBucketLocation"
      ],
      "Resource": [
        "arn:aws:s3:::my_output_bucket",
        "arn:aws:s3:::input_datasets/prompts.jsonl"
      ]
    }
  ]
}
```

------

# Tipos de tarefa de avaliação de modelo no Amazon Bedrock
<a name="model-evaluation-tasks"></a>

Em um trabalho de avaliação de modelo, um tipo de tarefa de avaliação é uma tarefa que você deseja que o modelo execute com base nas informações dos prompts. É possível escolher um tipo de tarefa por trabalho de avaliação de modelo.

A tabela a seguir resume os tipos de tarefa disponíveis para avaliações de modelo automáticas, conjuntos de dados integrados e métricas relevantes de cada tipo de tarefa.


**Conjuntos de dados integrados disponíveis para trabalhos automáticos de avaliação de modelo no Amazon Bedrock**  
[\[See the AWS documentation website for more details\]](http://docs.aws.amazon.com/pt_br/bedrock/latest/userguide/model-evaluation-tasks.html)

**Topics**
+ [Geração de texto geral para avaliação de modelo no Amazon Bedrock](model-evaluation-tasks-general-text.md)
+ [Resumo de texto para avaliação de modelo no Amazon Bedrock.](model-evaluation-tasks-text-summary.md)
+ [Pergunta e resposta da avaliação de modelo no Amazon Bedrock.](model-evaluation-tasks-question-answer.md)
+ [Classificação de texto para avaliação de modelo no Amazon Bedrock](model-evaluation-text-classification.md)

# Geração de texto geral para avaliação de modelo no Amazon Bedrock
<a name="model-evaluation-tasks-general-text"></a>

A geração de texto geral é uma tarefa usada por aplicações que incluem chatbots. As respostas geradas por um modelo às perguntas gerais são influenciadas pela exatidão, relevância e desvio contidos no texto usado para treinar o modelo.

**Importante**  
Para a geração de texto geral, há um problema conhecido do sistema que impede que os modelos da Cohere concluam uma avaliação de toxicidade com êxito.

Os conjuntos de dados integrados a seguir contêm prompts que são adequados para uso em tarefas de geração de texto geral.

**Bias in Open-ended Language Generation Dataset (BOLD)**  
Bias in Open-ended Language Generation Dataset (BOLD) é um conjunto de dados que avalia a imparcialidade na geração de texto geral, com foco em cinco domínios: profissão, gênero, raça, ideologias religiosas e ideologias políticas. Ele contém 23.679 prompts diferentes de geração de texto.

**RealToxicityPrompts**  
RealToxicityPrompts é um conjunto de dados que avalia a toxicidade. Ele tenta fazer com que o modelo gere uma linguagem racista, sexista ou tóxica. Esse conjunto de dados contém 100.000 prompts diferentes de geração de texto.

**T-Rex: A Large Scale Alignment of Natural Language with Knowledge Base Triples (TREX)**  
TREX é um conjunto de dados que consiste em Knowledge Base Triples (KBTs) extraídas da Wikipedia. As KBTs são um tipo de estrutura de dados usada no processamento de linguagem natural (PLN) e na representação do conhecimento. Elas consistem em um sujeito, predicado e objeto, onde o sujeito e o objeto estão ligados por uma relação. Um exemplo de Knowledge Base Triple (KBT) é “George Washington foi presidente dos Estados Unidos”. O sujeito é “George Washington”, o predicado é “foi presidente do” e o objeto é “os Estados Unidos”.

**WikiText2**  
WikiText2 é um conjunto de dados da Hugging Face que contém prompts usados na geração de texto geral.

A tabela a seguir resume as métricas calculadas e o conjunto de dados integrado recomendado que estão disponíveis para trabalhos automáticos de avaliação de modelo. Para especificar com êxito os conjuntos de dados integrados disponíveis usando a AWS CLI ou um SDK da AWS compatível, use os nomes dos parâmetros na coluna *Conjuntos de dados integrados (API)*.


**Conjuntos de dados integrados disponíveis para geração de texto geral no Amazon Bedrock**  
[\[See the AWS documentation website for more details\]](http://docs.aws.amazon.com/pt_br/bedrock/latest/userguide/model-evaluation-tasks-general-text.html)

Para saber mais sobre como a métrica computada para cada conjunto de dados incorporado é calculada, consulte [Analisar os relatórios e métricas do trabalho de avaliação de modelo no Amazon Bedrock](model-evaluation-report.md).

# Resumo de texto para avaliação de modelo no Amazon Bedrock.
<a name="model-evaluation-tasks-text-summary"></a>

O resumo de texto é usado para tarefas que incluem a criação de resumos de notícias, documentos jurídicos, trabalhos acadêmicos, pré-visualizações de conteúdo e curadoria de conteúdo. A ambiguidade, a coerência, o desvio e a fluência do texto usado para treinar o modelo, bem como a perda, a precisão, a relevância ou a incompatibilidade de contexto das informações, podem influenciar a qualidade das respostas.

**Importante**  
Para resumo de texto, há um problema conhecido do sistema que impede que os modelos da Cohere concluam uma avaliação de toxicidade com êxito.

O conjunto de dados integrado a seguir é compatível com o tipo de tarefa de resumo.

**Gigaword**  
O conjunto de dados Gigaword consiste em manchetes de artigos de notícias. Esse conjunto de dados é usado em tarefas de resumo de texto.

A tabela a seguir resume as métricas calculadas e o conjunto de dados integrado recomendado. Para especificar com êxito os conjuntos de dados integrados disponíveis usando a AWS CLI ou um SDK da AWS compatível, use os nomes dos parâmetros na coluna *Conjuntos de dados integrados (API)*.


**Conjuntos de dados integrados disponíveis para resumo de texto no Amazon Bedrock**  
[\[See the AWS documentation website for more details\]](http://docs.aws.amazon.com/pt_br/bedrock/latest/userguide/model-evaluation-tasks-text-summary.html)

Para saber mais sobre como a métrica computada para cada conjunto de dados incorporado é calculada, consulte [Analisar os relatórios e métricas do trabalho de avaliação de modelo no Amazon Bedrock](model-evaluation-report.md).

# Pergunta e resposta da avaliação de modelo no Amazon Bedrock.
<a name="model-evaluation-tasks-question-answer"></a>

As perguntas e respostas são usadas para tarefas que incluem a geração de respostas automáticas do help desk, recuperação de informações e e-learning. Se o texto usado para treinar o modelo de base contiver problemas, incluindo dados incompletos ou imprecisos, sarcasmo ou ironia, a qualidade das respostas poderá se deteriorar.

**Importante**  
Para perguntas e respostas, há um problema conhecido do sistema que impede que os modelos da Cohere concluam uma avaliação de toxicidade com êxito.

Os conjuntos de dados integrados a seguir são recomendados para uso com o tipo de tarefa de perguntas e respostas.

**BoolQ**  
BoolQ é um conjunto de dados que consiste em pares de yes/no perguntas e respostas. O prompt contém uma passagem curta e uma pergunta sobre a passagem. Esse conjunto de dados é recomendado para uso com o tipo de tarefa de perguntas e respostas.

**Natural Questions**  
Natural Questions é um conjunto de dados que consiste em perguntas reais de usuários enviadas para pesquisa no Google.

**TriviaQA**  
O TriviaQA é um conjunto de dados que contém mais de 650 mil. question-answer-evidence-triples Esse conjunto de dados é usado em tarefas de perguntas e respostas.

A tabela a seguir resume as métricas calculadas e o conjunto de dados integrado recomendado. Para especificar com êxito os conjuntos de dados integrados disponíveis usando o AWS CLI, ou um AWS SDK compatível, use os nomes dos parâmetros na coluna Conjuntos de *dados integrados (*API).


**Conjuntos de dados integrados disponíveis para o tipo de tarefa de perguntas e respostas no Amazon Bedrock**  
[\[See the AWS documentation website for more details\]](http://docs.aws.amazon.com/pt_br/bedrock/latest/userguide/model-evaluation-tasks-question-answer.html)

Para saber mais sobre como a métrica computada para cada conjunto de dados incorporado é calculada, consulte [Analisar os relatórios e métricas do trabalho de avaliação de modelo no Amazon Bedrock](model-evaluation-report.md).

# Classificação de texto para avaliação de modelo no Amazon Bedrock
<a name="model-evaluation-text-classification"></a>

A classificação de texto é usada para classificar texto em categorias predefinidas. As aplicações que usam classificação de texto incluem recomendação de conteúdo, detecção de spam, identificação de idioma e análise de tendências em mídias sociais. Classes desequilibradas, dados ambíguos, dados ruidosos e desvio na rotulagem são alguns problemas que podem causar erros na classificação de texto.

**Importante**  
Para a classificação de texto, há um problema conhecido do sistema que impede que os modelos da Cohere concluam uma avaliação de toxicidade com êxito.

Os conjuntos de dados integrados a seguir são recomendados para uso com o tipo de tarefa de classificação de texto.

**Women's E-Commerce Clothing Reviews**  
Women's E-Commerce Clothing Reviews é um conjunto de dados que contém avaliações de roupas escritas por clientes. Esse conjunto de dados é usado em tarefas de classificação de texto. 

A tabela a seguir resume as métricas calculadas e os conjuntos de dados integrados recomendados. Para especificar com êxito os conjuntos de dados integrados disponíveis usando a AWS CLI ou um SDK da AWS compatível, use os nomes dos parâmetros na coluna *Conjuntos de dados integrados (API)*.


**Conjuntos de dados integrados disponíveis no Amazon Bedrock**  
[\[See the AWS documentation website for more details\]](http://docs.aws.amazon.com/pt_br/bedrock/latest/userguide/model-evaluation-text-classification.html)

Para saber mais sobre como a métrica computada para cada conjunto de dados incorporado é calculada, consulte [Analisar os relatórios e métricas do trabalho de avaliação de modelo no Amazon Bedrock](model-evaluation-report.md).

# Usar conjuntos de dados de prompts personalizados para avaliação de modelo no Amazon Bedrock
<a name="model-evaluation-prompt-datasets"></a>

Para criar um trabalho automático de avaliação de modelo, é necessário especificar um conjunto de dados de prompts. Os prompts são então usados durante a inferência com o modelo selecionado para avaliação. O Amazon Bedrock fornece conjuntos de dados integrados que podem ser usados em avaliações de modelo automáticas, mas você também pode trazer seu próprio conjunto de dados de prompts.

Use as seções a seguir para saber mais sobre os conjuntos de dados de prompts integrados disponíveis e sobre como criar conjuntos de dados de prompts personalizados.

## Usar conjuntos de dados de prompts integrados para avaliação de modelo automática no Amazon Bedrock
<a name="model-evaluation-prompt-datasets-builtin"></a>

O Amazon Bedrock fornece vários conjuntos de dados de prompts integrados que é possível usar em um trabalho automático de avaliação de modelo. Cada conjunto de dados integrado é baseado em um conjunto de dados de código aberto. Reduzimos as amostras aleatoriamente de cada conjunto de dados de código aberto para incluir apenas cem prompts.

Ao criar um trabalho automático de avaliação de modelo e escolher um **Tipo de tarefa**, o Amazon Bedrock fornece uma lista de métricas recomendadas. Para cada métrica, o Amazon Bedrock também fornece conjuntos de dados integrados recomendados. Para saber mais sobre os tipos de tarefa disponíveis, consulte [Tipos de tarefa de avaliação de modelo no Amazon Bedrock](model-evaluation-tasks.md).

**Bias in Open-ended Language Generation Dataset (BOLD)**  
Bias in Open-ended Language Generation Dataset (BOLD) é um conjunto de dados que avalia a imparcialidade na geração de texto geral, com foco em cinco domínios: profissão, gênero, raça, ideologias religiosas e ideologias políticas. Ele contém 23.679 prompts diferentes de geração de texto.

**RealToxicityPrompts**  
RealToxicityPrompts é um conjunto de dados que avalia a toxicidade. Ele tenta fazer com que o modelo gere uma linguagem racista, sexista ou tóxica. Esse conjunto de dados contém 100.000 prompts diferentes de geração de texto.

**T-Rex: A Large Scale Alignment of Natural Language with Knowledge Base Triples (TREX)**  
TREX é um conjunto de dados que consiste em Knowledge Base Triples (KBTs) extraído da Wikipedia. KBTs são um tipo de estrutura de dados usada no processamento de linguagem natural (PNL) e na representação do conhecimento. Elas consistem em um sujeito, predicado e objeto, onde o sujeito e o objeto estão ligados por uma relação. Um exemplo de Knowledge Base Triple (KBT) é “George Washington foi presidente dos Estados Unidos”. O sujeito é “George Washington”, o predicado é “foi presidente do” e o objeto é “os Estados Unidos”.

**WikiText2**  
WikiText2 é um HuggingFace conjunto de dados que contém avisos usados na geração geral de texto.

**Gigaword**  
O conjunto de dados Gigaword consiste em manchetes de artigos de notícias. Esse conjunto de dados é usado em tarefas de resumo de texto.

**BoolQ**  
BoolQ é um conjunto de dados que consiste em pares de yes/no perguntas e respostas. O prompt contém uma passagem curta e uma pergunta sobre a passagem. Esse conjunto de dados é recomendado para uso com o tipo de tarefa de perguntas e respostas.

**Natural Questions **  
Natural Questions é um conjunto de dados que consiste em perguntas reais de usuários enviadas para pesquisa no Google.

**TriviaQA**  
O TriviaQA é um conjunto de dados que contém mais de 650 mil. question-answer-evidence-triples Esse conjunto de dados é usado em tarefas de perguntas e respostas.

**Women's E-Commerce Clothing Reviews**  
Women's E-Commerce Clothing Reviews é um conjunto de dados que contém avaliações de roupas escritas por clientes. Esse conjunto de dados é usado em tarefas de classificação de texto. 

Na tabela a seguir, é possível ver a lista de conjuntos de dados disponíveis agrupados por tipo de tarefa. Para saber mais sobre como as métricas automáticas são calculadas, consulte [Analisar as métricas de um trabalho automatizado de avaliação de modelo no Amazon Bedrock (console)](model-evaluation-report-programmatic.md). 


**Conjuntos de dados integrados disponíveis para trabalhos automáticos de avaliação de modelo no Amazon Bedrock**  
[\[See the AWS documentation website for more details\]](http://docs.aws.amazon.com/pt_br/bedrock/latest/userguide/model-evaluation-prompt-datasets.html)

Para saber mais sobre os requisitos de criação e obter exemplos de conjuntos de dados de prompts personalizados, consulte [Usar conjuntos de dados de prompts personalizados para avaliação de modelo no Amazon Bedrock](#model-evaluation-prompt-datasets-custom).

## Usar conjuntos de dados de prompts personalizados para avaliação de modelo no Amazon Bedrock
<a name="model-evaluation-prompt-datasets-custom"></a>

É possível criar um conjunto de dados de prompts personalizados em trabalhos automáticos de avaliação de modelo. Os conjuntos de dados de prompts personalizados devem ser armazenados no Amazon S3, usar o formato de linha JSON e usar a extensão de arquivo `.jsonl`. Cada linha também deve ser um objeto JSON válido. Um conjunto de dados pode ter até 1.000 prompts por trabalho de avaliação automática.

Para trabalhos criados usando o console, atualize a configuração de compartilhamento de recursos de origem cruzada (CORS) no bucket do S3. Para saber mais sobre as permissões de CORS necessárias, consulte [Permissões de compartilhamento de recursos de origem cruzada (CORS) necessárias em buckets do S3](model-evaluation-security-cors.md). 

Você deve usar os pares de chaves a seguir em um conjunto de dados personalizado.
+ `prompt`: necessária para indicar a entrada para as seguintes tarefas:
  + O prompt ao qual o modelo deve responder em caso de geração de texto geral.
  + A pergunta que o modelo deve responder no tipo de tarefa de perguntas e respostas.
  + O texto que o modelo deve resumir na tarefa de resumo de texto.
  + O texto que o modelo deve classificar nas tarefas de classificação.
+ `referenceResponse`: necessária para indicar a resposta real em relação à qual o modelo é avaliado para os seguintes tipos de tarefas:
  + A resposta para todos os prompts em tarefas de perguntas e respostas.
  + A resposta para todas as avaliações de precisão e robustez.
+ (Opcional) `category`: gera pontuações de avaliação relatadas para cada categoria. 

Por exemplo, a precisão exige tanto a pergunta feita quanto a resposta para comparar com a resposta do modelo. Neste exemplo, use a chave `prompt` com o valor contido na pergunta e a chave `referenceResponse` com o valor contido na resposta, conforme mostrado a seguir.

```
{
  "prompt": "Bobigny is the capital of",
  "referenceResponse": "Seine-Saint-Denis",
  "category": "Capitals"
}
```

O exemplo anterior é uma única linha de um arquivo de entrada de linha JSON que será enviada ao modelo como uma solicitação de inferência. O modelo será invocado para cada registro desse tipo no conjunto de dados de linha JSON. O exemplo de entrada de dados a seguir se refere a uma tarefa de resposta a perguntas que usa uma chave `category` opcional para avaliação.

```
{"prompt":"Aurillac is the capital of", "category":"Capitals", "referenceResponse":"Cantal"}
{"prompt":"Bamiyan city is the capital of", "category":"Capitals", "referenceResponse":"Bamiyan Province"}
{"prompt":"Sokhumi is the capital of", "category":"Capitals", "referenceResponse":"Abkhazia"}
```

# Iniciar um trabalho automático de avaliação de modelo no Amazon Bedrock
<a name="model-evaluation-jobs-management-create"></a>

Você pode criar um trabalho de avaliação automática de modelo usando o Console de gerenciamento da AWS, AWS CLI, ou um AWS SDK compatível. Em um trabalho automática de avaliação de modelo, o modelo selecionado realiza inferência usando prompts de um conjunto de dados integrado compatível ou seu próprio conjunto de dados de prompts personalizados. Cada trabalho também exige que você selecione um tipo de tarefa. O tipo de tarefa fornece algumas métricas recomendadas e conjuntos de dados de prompts integrados. Para saber mais sobre os tipos de tarefa e métricas disponíveis, consulte [Tipos de tarefa de avaliação de modelo no Amazon Bedrock](model-evaluation-tasks.md).

Os exemplos a seguir mostram como criar um trabalho de avaliação automática de modelos usando o console Amazon Bedrock AWS CLI, SDK for Python.

Todos os trabalhos automáticos de avaliação de modelo exigem que você crie um perfil de serviço do IAM. Para saber mais sobre os requisitos do IAM para configurar um trabalho de avaliação de modelo, consulte [Requisitos de perfil de serviço para trabalhos de avaliação de modelo](model-evaluation-security-service-roles.md).

Os exemplos a seguir mostram como criar um trabalho automático de avaliação de modelo. Na API, você também pode incluir um [perfil de inferência](cross-region-inference.md) no trabalho especificando seu ARN no campo `modelIdentifier`.

------
#### [ Amazon Bedrock console ]

Use o procedimento a seguir para criar um trabalho de avaliação de modelo no console do Amazon Bedrock. Para concluir esse procedimento com êxito, verifique se o usuário, o grupo ou o perfil do IAM tem permissões suficientes para acessar o console. Para saber mais, consulte [Permissões necessárias para criar um trabalho de avaliação de modelo automática](model-evaluation-type-automatic.md#base-for-automatic). 

Além disso, qualquer conjunto de dados de prompt personalizado que você queira especificar no trabalho de avaliação de modelo deve ter as permissões CORS necessárias adicionadas ao bucket do Amazon S3. Para saber mais sobre como adicionar as permissões CORS necessárias, consulte [Permissões de compartilhamento de recursos de origem cruzada (CORS) necessárias em buckets do S3](model-evaluation-security-cors.md).

**Como criar um trabalho automático de avaliação de modelo**

1. Abra o console Amazon Bedrock: [https://console.aws.amazon.com/bedrock/home](https://console.aws.amazon.com/bedrock/home)

1. No painel de navegação, selecione **Avaliação de modelos**.

1. No cartão **Criar uma avaliação**, em **Automática**, escolha **Criar avaliação automática**.

1. Na página **Criar avaliação automática**, forneça as seguintes informações:

   1. **Nome da avaliação**: dê ao trabalho de avaliação de modelo um nome que descreva o trabalho. Esse nome é mostrado na lista de trabalhos de avaliação de modelo. O nome deve ser único na sua conta em uma Região da AWS.

   1. **Descrição** (opcional): forneça uma descrição opcional.

   1. **Modelos**: escolha o modelo que deseja usar no trabalho de avaliação de modelo.

      Para saber mais sobre os modelos disponíveis no Amazon Bedrock, consulte [Acessar modelos de base do Amazon Bedrock](model-access.md).

   1. (Opcional) Para alterar a configuração de inferência, escolha **atualizar**.

      A alteração da configuração de inferência altera as respostas geradas pelos modelos selecionados. Para saber mais sobre os parâmetros de inferência disponíveis, consulte [Parâmetros de solicitação de inferência e campos de resposta para modelos de base](model-parameters.md).

   1. **Tipo de tarefa**: escolha o tipo de tarefa que você deseja que o modelo tente realizar durante o trabalho de avaliação de modelo.

   1. **Métricas e conjuntos de dados**: a lista de métricas disponíveis e os conjuntos de dados de prompts integrados mudam com base na tarefa selecionada. É possível escolher na lista **Conjuntos de dados integrados disponíveis** ou selecionar **Usar seu próprio conjunto de dados de prompts**. Se escolher usar seu próprio conjunto de dados, insira o URI exato do S3 do arquivo do conjunto de dados de prompts ou escolha **Procurar no S3** para pesquisar o conjunto de dados de prompts.

   1. **Resultados da avaliação**: especifique o URI do S3 do diretório em que deseja que os resultados do trabalho sejam salvos. Escolha **Procurar no S3** para pesquisar locais do Amazon S3.

   1. (Opcional) Para habilitar o uso de uma chave gerenciada pelo cliente, escolha **Personalizar as configurações de criptografia (avançado)**. Forneça o ARN da chave do AWS KMS que deseja usar.

   1. **Perfil do IAM do Amazon Bedrock**: escolha **Usar um perfil existente** para usar o perfil de serviço do IAM que já tenha as permissões necessárias ou escolha **Criar um perfil** para criar um perfil de serviço do IAM.

1. Escolha **Criar**.

Depois que o status for alterado para **Concluído**, o boletim do trabalho poderá ser visualizado.

------
#### [ SDK for Python ]

O exemplo a seguir cria um trabalho automático de avaliação usando o Python.

```
import boto3
client = boto3.client('bedrock')

job_request = client.create_evaluation_job(
    jobName="api-auto-job-titan",
    jobDescription="two different task types",
    roleArn="arn:aws:iam::111122223333:role/role-name",
    inferenceConfig={
        "models": [
            {
                "bedrockModel": {
                    "modelIdentifier":"arn:aws:bedrock:us-west-2::foundation-model/amazon.titan-text-lite-v1",
                    "inferenceParams":"{\"inferenceConfig\":{\"maxTokens\": 512,\"temperature\":0.7,\"topP\":0.9}}"
                }

            }
        ]

    },
    outputDataConfig={
        "s3Uri":"s3://amzn-s3-demo-bucket-model-evaluations/outputs/"
    },
    evaluationConfig={
        "automated": {
            "datasetMetricConfigs": [
                {
                    "taskType": "QuestionAndAnswer",
                    "dataset": {
                        "name": "Builtin.BoolQ"
                    },
                    "metricNames": [
                        "Builtin.Accuracy",
                        "Builtin.Robustness"
                    ]
                }
            ]
        }
    }
)

print(job_request)
```

------
#### [ AWS CLI ]

No AWS CLI, você pode usar o `help` comando para ver quais parâmetros são obrigatórios e quais parâmetros são opcionais ao especificar `create-evaluation-job` no AWS CLI.

```
aws bedrock create-evaluation-job help
```

```
aws bedrock create-evaluation-job \
--job-name 'automatic-eval-job-cli-001' \
--role-arn 'arn:aws:iam::111122223333:role/role-name' \
--evaluation-config '{"automated": {"datasetMetricConfigs": [{"taskType": "QuestionAndAnswer","dataset": {"name": "Builtin.BoolQ"},"metricNames": ["Builtin.Accuracy","Builtin.Robustness"]}]}}' \
--inference-config '{"models": [{"bedrockModel": {"modelIdentifier":"arn:aws:bedrock:us-west-2::foundation-model/amazon.titan-text-lite-v1","inferenceParams":"{\"inferenceConfig\":{\"maxTokens\": 512,\"temperature\":0.7,\"topP\":0.9}}"}}]}' \
--output-data-config '{"s3Uri":"s3://automatic-eval-jobs/outputs"}'
```

------

# Listar trabalhos automáticos de avaliação de modelo no Amazon Bedrock
<a name="model-evaluation-jobs-management-list"></a>

É possível listar seus trabalhos de avaliação de modelo atuais criados por você usando a AWS CLI ou um SDK da AWS compatível. No console do Amazon Bedrock, também é possível visualizar uma tabela contendo seus trabalhos atuais de avaliação de modelo.

Os exemplos a seguir mostram como encontrar os trabalhos de avaliação de modelo usando o Console de gerenciamento da AWS, a AWS CLI e o SDK para Python.

------
#### [ Amazon Bedrock console ]

1. Abra o console do Amazon Bedrock: [https://console.aws.amazon.com/bedrock/home](https://console.aws.amazon.com/bedrock/home)

1. No painel de navegação, escolha **Avaliação de modelo**.

1. No cartão **Trabalhos de avaliação de modelo**, é possível encontrar uma tabela que lista os trabalhos de avaliação de modelo que você já criou.

------
#### [ AWS CLI ]

Na AWS CLI, é possível usar o comando `help` para ver os parâmetros necessários e quais são opcionais ao usar `list-evaluation-jobs`.

```
aws bedrock list-evaluation-jobs help
```

Veja a seguir um exemplo de como usar `list-evaluation-jobs` e especificar que no máximo cinco trabalhos sejam mostrados. Por padrão, os trabalhos são mostrados em ordem decrescente a partir do momento em que foram iniciados.

```
aws bedrock list-evaluation-jobs --max-items 5
```

------
#### [ SDK for Python ]

Os exemplos a seguir mostram como usar o AWS SDK para Python para encontrar um trabalho de avaliação de modelo criado anteriormente. 

```
import boto3
client = boto3.client('bedrock')

job_request = client.list_evaluation_jobs(maxResults=20)

print (job_request)
```

------

# Interromper um trabalho de avaliação de modelo no Amazon Bedrock
<a name="model-evaluation-jobs-management-stop"></a>

É possível interromper um trabalho de avaliação de modelo que está sendo processado usando o Console de gerenciamento da AWS, a AWS CLI ou um SDK da AWS compatível.

Os exemplos a seguir mostram como interromper o trabalho de avaliação de modelo usando o Console de gerenciamento da AWS, a AWS CLI e o SDK para Python.

------
#### [ Amazon Bedrock console ]

Os exemplos a seguir mostram como interromper o trabalho de avaliação de modelo usando a Console de gerenciamento da AWS.

1. Abra o console do Amazon Bedrock: [https://console.aws.amazon.com/bedrock/home](https://console.aws.amazon.com/bedrock/home)

1. No painel de navegação, escolha **Avaliação de modelo**.

1. No cartão **Trabalhos de avaliação de modelo**, é possível encontrar uma tabela que lista os trabalhos de avaliação de modelo que você já criou.

1. Selecione o botão de opção ao lado do nome do trabalho.

1. Escolha **Interromper avaliação**.

------
#### [ SDK for Python ]

Os exemplos a seguir mostram como interromper um trabalho de avaliação de modelo usando o SDK para Python.

```
import boto3
client = boto3.client('bedrock')
response = client.stop_evaluation_job(
	## The ARN of the model evaluation job you want to stop.
	jobIdentifier='arn:aws:bedrock:us-west-2:444455556666:evaluation-job/fxaqujhttcza'
)

print(response)
```

------
#### [ AWS CLI ]

Na AWS CLI, é possível usar o comando `help` para ver quais parâmetros são necessários e quais são opcionais ao especificar `add-something` na AWS CLI.

```
aws bedrock create-evaluation-job help
```

Os exemplos a seguir mostram como interromper o trabalho de avaliação de modelo usando a AWS CLI.

```
aws bedrock stop-evaluation-job --job-identifier arn:aws:bedrock:us-west-2:444455556666:evaluation-job/fxaqujhttcza
```

------

# Excluir um trabalho de avaliação de modelo no Amazon Bedrock
<a name="model-evaluation-jobs-management-delete"></a>

É possível excluir um trabalho de avaliação de modelo usando o console Amazon Bedrock ou usando a operação [BatchDeleteEvaluationJob](https://docs.aws.amazon.com/bedrock/latest/APIReference/API_BatchDeleteEvaluationJob.html) com a AWS CLI ou um SDK da AWS compatível. 

Antes de excluir um trabalho de avaliação de modelo, o status do trabalho deve ser `FAILED`, `COMPLETED` ou `STOPPED`. É possível obter o status atual de um trabalho no console Amazon Bedrock ou chamando o [ListEvaluationJobs](https://docs.aws.amazon.com/bedrock/latest/APIReference/API_ListEvaluationJobs.html). Para obter mais informações, consulte [Listar trabalhos automáticos de avaliação de modelo no Amazon BedrockListar trabalhos de avaliação de modelo que usam trabalhadores humanos no Amazon Bedrock](model-evaluation-jobs-management-list.md). 

É possível excluir até 25 trabalhos de avaliação de modelo por vez com o console e com a operação `BatchDeleteEvaluationJob`. Se for necessário excluir mais trabalhos, repita o procedimento do console ou chamada de `BatchDeleteEvaluationJob`.

Se você excluir um trabalho de avaliação de modelo com a operação `BatchDeleteEvaluationJob`, precisará dos nomes dos recursos da Amazon (ARNs) dos modelos que deseja excluir. Para obter mais informações sobre como obter o ARN de um modelo, consulte [Listar trabalhos automáticos de avaliação de modelo no Amazon BedrockListar trabalhos de avaliação de modelo que usam trabalhadores humanos no Amazon Bedrock](model-evaluation-jobs-management-list.md). 

Ao excluir um trabalho de avaliação de modelo, todos os recursos no Amazon Bedrock e no Amazon SageMaker AI são removidos. Qualquer trabalho de avaliação de modelo salvo nos buckets do Amazon S3 são deixados inalterados. Além disso, para trabalhos de avaliação de modelo que usam trabalhadores humanos, a exclusão de um trabalho de avaliação de modelo não excluirá a força de trabalho ou a equipe de trabalho que você configurou no Amazon Cognito ou no SageMaker AI.

Use as seções a seguir para obter exemplos de como excluir um trabalho de avaliação de modelo.

------
#### [ Amazon Bedrock console ]

Use o procedimento a seguir para criar um trabalho de avaliação de modelo no console do Amazon Bedrock. Para concluir esse procedimento com êxito, verifique se o usuário, o grupo ou o perfil do IAM tem permissões suficientes para acessar o console. Para saber mais, consulte [Permissões necessárias para criar um trabalho de avaliação de modelo automática](model-evaluation-type-automatic.md#base-for-automatic).

**Para excluir trabalhos de avaliação de modelo de vários trabalhos.**

1. Abra o console do Amazon Bedrock: [https://console.aws.amazon.com/bedrock/](https://console.aws.amazon.com/bedrock/).

1. No painel de navegação, escolha **Avaliação de modelo**.

1. No cartão **Trabalhos de avaliação de modelo**, use a tabela para encontrar os trabalhos de avaliação de modelo que você deseja excluir e selecione-os usando a caixa de seleção ao lado do nome do trabalho. É possível selecionar até 25 trabalhos.

1. Escolha **Excluir** para excluir os trabalhos de avaliação de modelo.

1. Se for necessário excluir mais trabalhos de avaliação de modelo, repita as etapas 3 e 4.

------
#### [ AWS CLI ]

Na AWS CLI, é possível usar o comando `help` para ver os parâmetros necessários e quais são opcionais ao usar `batch-delete-evaluation-job`.

```
aws bedrock batch-delete-evaluation-job help
```

Veja a seguir um exemplo de como usar `batch-delete-evaluation-job` e especificar que dois trabalhos de avaliação de modelo sejam excluídos. Use o parâmetro `job-identifiers` para especificar uma lista de ARNs para trabalhos de avaliação de modelo que deseja excluir. É possível excluir até 25 trabalhos de avaliação de modelo em uma única chamada a `batch-delete-evaluation-job`. Se for necessário excluir mais trabalhos, faça mais chamadas a `batch-delete-evaluation-job`.

```
aws bedrock batch-delete-evaluation-job \
--job-identifiers arn:aws:bedrock:us-east-1:111122223333:evaluation-job/rmqp8zg80rvg arn:aws:bedrock:us-east-1:111122223333:evaluation-job/xmfp9zg204fdk
```

Depois de enviar, você receberá a resposta a seguir.

```
{
	"evaluationJobs": [
		{
			"jobIdentifier": "rmqp8zg80rvg",
			"jobStatus": "Deleting"
		},
		{
			"jobIdentifier": "xmfp9zg204fdk",
			"jobStatus": "Deleting"
		}

	],
	"errors": []
}
```

------
#### [ SDK for Python ]

Os exemplos a seguir mostram como usar o AWS SDK para Python para excluir um trabalho de avaliação de modelo. Use o parâmetro `jobIdentifiers` para especificar uma lista de ARNs para trabalhos de avaliação de modelo que deseja excluir. É possível excluir até 25 trabalhos de avaliação de modelo em uma única chamada a `BatchDeleteEvaluationJob`. Se for necessário excluir mais trabalhos, faça mais chamadas a `BatchDeleteEvaluationJob`.

```
import boto3
client = boto3.client('bedrock')

job_request = client.batch_delete_model_evaluation_job(jobIdentifiers=["arn:aws:bedrock:us-east-1:111122223333:evaluation-job/rmqp8zg80rvg", "arn:aws:bedrock:us-east-1:111122223333:evaluation-job/xmfp9zg204fdk"])

print (job_request)
```

------