Avaliar o modelo treinado
Uma receita de avaliação é um arquivo de configuração YAML que define como a tarefa de avaliação de modelo do Amazon Nova é executada. Com essa receita, você pode avaliar a performance de um modelo básico ou treinado em relação a benchmarks comuns ou em relação a seus próprios conjuntos de dados personalizados. As métricas podem ser armazenadas no Amazon S3 ou no TensorBoard. A avaliação fornece métricas quantitativas que ajudam a avaliar a performance do modelo em várias tarefas para determinar se é necessária alguma personalização adicional.
A avaliação de modelo é um processo off-line em que os modelos são testados em relação a benchmarks fixos com respostas predefinidas. Eles não são avaliados em tempo real ou em relação às interações ao vivo do usuário. Para avaliações em tempo real, você pode avaliar o modelo depois de implantado no Amazon Bedrock chamando as APIs de runtime do Amazon Bedrock.
Importante
O contêiner de avaliação suporta apenas pontos de verificação produzidos pela mesma plataforma de treinamento. Checkpoints criados com o SageMaker HyperPod só podem ser avaliados usando o fluxo de trabalho de avaliação do SageMaker HyperPod, e checkpoints criados com jobs de treinamento do SageMaker só podem ser avaliados usando o fluxo de trabalho de avaliação de jobs de treinamento do SageMaker. A tentativa de avaliar um ponto de verificação a partir de uma plataforma diferente resultará em falha.