Avaliar o modelo treinado

Uma receita de avaliação é um arquivo de configuração YAML que define como a tarefa de avaliação de modelo do Amazon Nova é executada. Com essa receita, você pode avaliar a performance de um modelo básico ou treinado em relação a benchmarks comuns ou em relação a seus próprios conjuntos de dados personalizados. As métricas podem ser armazenadas no Amazon S3 ou no TensorBoard. A avaliação fornece métricas quantitativas que ajudam a avaliar a performance do modelo em várias tarefas para determinar se é necessária alguma personalização adicional.

A avaliação de modelo é um processo off-line em que os modelos são testados em relação a benchmarks fixos com respostas predefinidas. Eles não são avaliados em tempo real ou em relação às interações ao vivo do usuário. Para avaliações em tempo real, você pode avaliar o modelo depois de implantado no Amazon Bedrock chamando as APIs de runtime do Amazon Bedrock.

nota

Além disso, é possível avaliar os modelos usando o Inspect AI, um framework de avaliação de código aberto compatível com avaliações comparativas padronizadas e tarefas de avaliação personalizadas.

Importante

O contêiner de avaliação suporta apenas pontos de verificação produzidos pela mesma plataforma de treinamento. Checkpoints criados com o SageMaker HyperPod só podem ser avaliados usando o fluxo de trabalho de avaliação do SageMaker HyperPod, e checkpoints criados com jobs de treinamento do SageMaker só podem ser avaliados usando o fluxo de trabalho de avaliação de jobs de treinamento do SageMaker. A tentativa de avaliar um ponto de verificação a partir de uma plataforma diferente resultará em falha.

Tópicos

Atenção O Javascript está desativado ou não está disponível no seu navegador.

Para usar a documentação da AWS, o Javascript deve estar ativado. Consulte as páginas de Ajuda do navegador para obter instruções.

Convenções do documento

Otimização de política proximal (PPO)

Tarefas de referência disponíveis