As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá. # Formatos de métricas de avaliação Avaliando a qualidade do seu modelo nesses formatos métricos: + Resumo da avaliação do modelo + MLFlow + TensorBoard ## Resumo da avaliação do modelo Ao enviar seu trabalho de avaliação, você especifica um local de saída do AWS S3. SageMaker carrega automaticamente o arquivo.json de resumo da avaliação para o local. O caminho do resumo do benchmark para o S3 é o seguinte: ``` s3:////output/output//eval_results/ ``` **Passe a localização do AWS S3** ------ #### [ SageMaker Studio ] ![\[Passar para a localização do artefato de saída (URI AWS S3)\]](http://docs.aws.amazon.com/pt_br/sagemaker/latest/dg/images/s3-output-path-submission-sagemaker-studio.png) ------ #### [ SageMaker Python SDK ] ``` evaluator = BenchMarkEvaluator( benchmark=Benchmark.MMLU, model="arn:aws:sagemaker:::model-package//", s3_output_path="s3:////eval/", evaluate_base_model=False ) execution = evaluator.evaluate() ``` ------ Leia-o diretamente do local `.json` do AWS S3 ou visualizado automaticamente na interface do usuário: ``` { "results": { "custom|gen_qa_gen_qa|0": { "rouge1": 0.9152812653966208, "rouge1_stderr": 0.003536439199232507, "rouge2": 0.774569918517409, "rouge2_stderr": 0.006368825746765958, "rougeL": 0.9111255645823356, "rougeL_stderr": 0.003603841524881021, "em": 0.6562150055991042, "em_stderr": 0.007948251702846893, "qem": 0.7522396416573348, "qem_stderr": 0.007224355240883467, "f1": 0.8428757602152095, "f1_stderr": 0.005186300690881584, "f1_score_quasi": 0.9156170336744968, "f1_score_quasi_stderr": 0.003667700152375464, "bleu": 100.00000000000004, "bleu_stderr": 1.464411857851008 }, "all": { "rouge1": 0.9152812653966208, "rouge1_stderr": 0.003536439199232507, "rouge2": 0.774569918517409, "rouge2_stderr": 0.006368825746765958, "rougeL": 0.9111255645823356, "rougeL_stderr": 0.003603841524881021, "em": 0.6562150055991042, "em_stderr": 0.007948251702846893, "qem": 0.7522396416573348, "qem_stderr": 0.007224355240883467, "f1": 0.8428757602152095, "f1_stderr": 0.005186300690881584, "f1_score_quasi": 0.9156170336744968, "f1_score_quasi_stderr": 0.003667700152375464, "bleu": 100.00000000000004, "bleu_stderr": 1.464411857851008 } } } ``` ![\[Exemplos de métricas de desempenho para um benchmark gen-qa personalizado visualizado no Studio SageMaker\]](http://docs.aws.amazon.com/pt_br/sagemaker/latest/dg/images/gen-qa-metrics-visualization-sagemaker-studio.png) ## MLFlow registro **Forneça o ARN SageMaker MLFlow do seu recurso** SageMaker O Studio usa o MLFlow aplicativo padrão que é provisionado em cada domínio do Studio quando você usa o recurso de personalização do modelo pela primeira vez. SageMaker O Studio usa o ARN associado ao MLflow aplicativo padrão no envio do trabalho de avaliação. Você também pode enviar seu trabalho de avaliação e fornecer explicitamente um ARN de MLFlow recurso para transmitir métricas ao server/app rastreamento associado para análise em tempo real. **SageMaker SDK para Python** ``` evaluator = BenchMarkEvaluator( benchmark=Benchmark.MMLU, model="arn:aws:sagemaker:::model-package//", s3_output_path="s3:////eval/", mlflow_resource_arn="arn:aws:sagemaker:::mlflow-tracking-server/", evaluate_base_model=False ) execution = evaluator.evaluate() ``` Visualização métrica no nível do modelo e no nível do sistema: ![\[Erro e precisão do nível do modelo de amostra para a tarefa de benchmarking MMLU\]](http://docs.aws.amazon.com/pt_br/sagemaker/latest/dg/images/model-metrics-mlflow.png) ![\[Exemplo de métricas integradas para a tarefa de benchmarking do LLMAJ\]](http://docs.aws.amazon.com/pt_br/sagemaker/latest/dg/images/llmaj-metrics-mlflow.png) ![\[Amostra de métricas em nível de sistema para a tarefa de benchmarking do MMLU\]](http://docs.aws.amazon.com/pt_br/sagemaker/latest/dg/images/system-metrics-mlflow.png) ## TensorBoard Envie seu trabalho de avaliação com um local de saída do AWS S3. SageMaker carrega automaticamente um TensorBoard arquivo para o local. SageMaker carrega o TensorBoard arquivo para o AWS S3 no seguinte local: ``` s3:////output/output//tensorboard_results/eval/ ``` **Passe a localização AWS S3 da seguinte forma** ------ #### [ SageMaker Studio ] ![\[Passar para a localização do artefato de saída (URI AWS S3)\]](http://docs.aws.amazon.com/pt_br/sagemaker/latest/dg/images/s3-output-path-submission-sagemaker-studio.png) ------ #### [ SageMaker Python SDK ] ``` evaluator = BenchMarkEvaluator( benchmark=Benchmark.MMLU, model="arn:aws:sagemaker:::model-package//", s3_output_path="s3:////eval/", evaluate_base_model=False ) execution = evaluator.evaluate() ``` ------ **Amostra de métricas em nível de modelo** ![\[SageMaker TensorBoard exibindo resultados de um trabalho de benchmarking\]](http://docs.aws.amazon.com/pt_br/sagemaker/latest/dg/images/metrics-in-tensorboard.png)