View a markdown version of this page

Formatos de métricas de avaliação - SageMaker Inteligência Artificial da Amazon

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Formatos de métricas de avaliação

Avaliando a qualidade do seu modelo nesses formatos métricos:

  • Resumo da avaliação do modelo

  • MLFlow

  • TensorBoard

Resumo da avaliação do modelo

Ao enviar seu trabalho de avaliação, você especifica um local de saída do AWS S3. SageMaker carrega automaticamente o arquivo.json de resumo da avaliação para o local. O caminho do resumo do benchmark para o S3 é o seguinte:

s3://<your-provide-s3-location>/<training-job-name>/output/output/<evaluation-job-name>/eval_results/

Passe a localização do AWS S3

SageMaker Studio
Passar para a localização do artefato de saída (URI AWS S3)
SageMaker Python SDK
evaluator = BenchMarkEvaluator( benchmark=Benchmark.MMLU, model="arn:aws:sagemaker:<region>:<account-id>:model-package/<model-package-name>/<version>", s3_output_path="s3://<bucket-name>/<prefix>/eval/", evaluate_base_model=False ) execution = evaluator.evaluate()

Leia-o diretamente do local .json do AWS S3 ou visualizado automaticamente na interface do usuário:

{ "results": { "custom|gen_qa_gen_qa|0": { "rouge1": 0.9152812653966208, "rouge1_stderr": 0.003536439199232507, "rouge2": 0.774569918517409, "rouge2_stderr": 0.006368825746765958, "rougeL": 0.9111255645823356, "rougeL_stderr": 0.003603841524881021, "em": 0.6562150055991042, "em_stderr": 0.007948251702846893, "qem": 0.7522396416573348, "qem_stderr": 0.007224355240883467, "f1": 0.8428757602152095, "f1_stderr": 0.005186300690881584, "f1_score_quasi": 0.9156170336744968, "f1_score_quasi_stderr": 0.003667700152375464, "bleu": 100.00000000000004, "bleu_stderr": 1.464411857851008 }, "all": { "rouge1": 0.9152812653966208, "rouge1_stderr": 0.003536439199232507, "rouge2": 0.774569918517409, "rouge2_stderr": 0.006368825746765958, "rougeL": 0.9111255645823356, "rougeL_stderr": 0.003603841524881021, "em": 0.6562150055991042, "em_stderr": 0.007948251702846893, "qem": 0.7522396416573348, "qem_stderr": 0.007224355240883467, "f1": 0.8428757602152095, "f1_stderr": 0.005186300690881584, "f1_score_quasi": 0.9156170336744968, "f1_score_quasi_stderr": 0.003667700152375464, "bleu": 100.00000000000004, "bleu_stderr": 1.464411857851008 } } }
Exemplos de métricas de desempenho para um benchmark gen-qa personalizado visualizado no Studio SageMaker

MLFlow registro

Forneça o ARN SageMaker MLFlow do seu recurso

SageMaker O Studio usa o MLFlow aplicativo padrão que é provisionado em cada domínio do Studio quando você usa o recurso de personalização do modelo pela primeira vez. SageMaker O Studio usa o ARN associado ao MLflow aplicativo padrão no envio do trabalho de avaliação.

Você também pode enviar seu trabalho de avaliação e fornecer explicitamente um ARN de MLFlow recurso para transmitir métricas ao server/app rastreamento associado para análise em tempo real.

SageMaker SDK para Python

evaluator = BenchMarkEvaluator( benchmark=Benchmark.MMLU, model="arn:aws:sagemaker:<region>:<account-id>:model-package/<model-package-name>/<version>", s3_output_path="s3://<bucket-name>/<prefix>/eval/", mlflow_resource_arn="arn:aws:sagemaker:<region>:<account-id>:mlflow-tracking-server/<tracking-server-name>", evaluate_base_model=False ) execution = evaluator.evaluate()

Visualização métrica no nível do modelo e no nível do sistema:

Erro e precisão do nível do modelo de amostra para a tarefa de benchmarking MMLU
Exemplo de métricas integradas para a tarefa de benchmarking do LLMAJ
Amostra de métricas em nível de sistema para a tarefa de benchmarking do MMLU

TensorBoard

Envie seu trabalho de avaliação com um local de saída do AWS S3. SageMaker carrega automaticamente um TensorBoard arquivo para o local.

SageMaker carrega o TensorBoard arquivo para o AWS S3 no seguinte local:

s3://<your-provide-s3-location>/<training-job-name>/output/output/<evaluation-job-name>/tensorboard_results/eval/

Passe a localização AWS S3 da seguinte forma

SageMaker Studio
Passar para a localização do artefato de saída (URI AWS S3)
SageMaker Python SDK
evaluator = BenchMarkEvaluator( benchmark=Benchmark.MMLU, model="arn:aws:sagemaker:<region>:<account-id>:model-package/<model-package-name>/<version>", s3_output_path="s3://<bucket-name>/<prefix>/eval/", evaluate_base_model=False ) execution = evaluator.evaluate()

Amostra de métricas em nível de modelo

SageMaker TensorBoard exibindo resultados de um trabalho de benchmarking