Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés. # Formatos de métricas de evaluación Evaluar la calidad del modelo en los siguientes formatos de métricas: + Resumen de la evaluación del modelo + MLFlow + TensorBoard ## Resumen de la evaluación del modelo Cuando envía su trabajo de evaluación, especifica una ubicación de salida de AWS S3. SageMaker carga automáticamente el archivo.json con el resumen de la evaluación en la ubicación. La ruta S3 del resumen del punto de referencia es la siguiente: ``` s3:////output/output//eval_results/ ``` **Pase la ubicación AWS S3** ------ #### [ SageMaker Studio ] ![\[Pase a la ubicación del artefacto de salida (URI AWS S3)\]](http://docs.aws.amazon.com/es_es/sagemaker/latest/dg/images/s3-output-path-submission-sagemaker-studio.png) ------ #### [ SageMaker Python SDK ] ``` evaluator = BenchMarkEvaluator( benchmark=Benchmark.MMLU, model="arn:aws:sagemaker:::model-package//", s3_output_path="s3:////eval/", evaluate_base_model=False ) execution = evaluator.evaluate() ``` ------ Léelo directamente `.json` desde la ubicación de AWS S3 o visualízalo automáticamente en la interfaz de usuario: ``` { "results": { "custom|gen_qa_gen_qa|0": { "rouge1": 0.9152812653966208, "rouge1_stderr": 0.003536439199232507, "rouge2": 0.774569918517409, "rouge2_stderr": 0.006368825746765958, "rougeL": 0.9111255645823356, "rougeL_stderr": 0.003603841524881021, "em": 0.6562150055991042, "em_stderr": 0.007948251702846893, "qem": 0.7522396416573348, "qem_stderr": 0.007224355240883467, "f1": 0.8428757602152095, "f1_stderr": 0.005186300690881584, "f1_score_quasi": 0.9156170336744968, "f1_score_quasi_stderr": 0.003667700152375464, "bleu": 100.00000000000004, "bleu_stderr": 1.464411857851008 }, "all": { "rouge1": 0.9152812653966208, "rouge1_stderr": 0.003536439199232507, "rouge2": 0.774569918517409, "rouge2_stderr": 0.006368825746765958, "rougeL": 0.9111255645823356, "rougeL_stderr": 0.003603841524881021, "em": 0.6562150055991042, "em_stderr": 0.007948251702846893, "qem": 0.7522396416573348, "qem_stderr": 0.007224355240883467, "f1": 0.8428757602152095, "f1_stderr": 0.005186300690881584, "f1_score_quasi": 0.9156170336744968, "f1_score_quasi_stderr": 0.003667700152375464, "bleu": 100.00000000000004, "bleu_stderr": 1.464411857851008 } } } ``` ![\[Ejemplos de métricas de rendimiento para un benchmark personalizado de generación y control de calidad visualizadas en Studio SageMaker\]](http://docs.aws.amazon.com/es_es/sagemaker/latest/dg/images/gen-qa-metrics-visualization-sagemaker-studio.png) ## MLFlow registro **Proporcione el ARN SageMaker MLFlow de su recurso** SageMaker Studio usa la MLFlow aplicación predeterminada que se aprovisiona en cada dominio de Studio cuando usas la capacidad de personalización del modelo por primera vez. SageMaker Studio usa el ARN predeterminado asociado a MLflow la aplicación al enviar los trabajos de evaluación. También puede enviar su trabajo de evaluación y proporcionar explícitamente un ARN de MLFlow recurso para transmitir las métricas a dicho seguimiento asociado server/app para su análisis en tiempo real. **SageMaker SDK de Python** ``` evaluator = BenchMarkEvaluator( benchmark=Benchmark.MMLU, model="arn:aws:sagemaker:::model-package//", s3_output_path="s3:////eval/", mlflow_resource_arn="arn:aws:sagemaker:::mlflow-tracking-server/", evaluate_base_model=False ) execution = evaluator.evaluate() ``` Visualización de métricas a nivel de modelo y nivel de sistema: ![\[Ejemplo de error y precisión a nivel de modelo para una tarea de evaluación comparativa de MMLU\]](http://docs.aws.amazon.com/es_es/sagemaker/latest/dg/images/model-metrics-mlflow.png) ![\[Ejemplo de métricas integradas para la tarea de evaluación comparativa de LLMAJ\]](http://docs.aws.amazon.com/es_es/sagemaker/latest/dg/images/llmaj-metrics-mlflow.png) ![\[Ejemplos de métricas a nivel de sistema para una tarea de evaluación comparativa de MMLU\]](http://docs.aws.amazon.com/es_es/sagemaker/latest/dg/images/system-metrics-mlflow.png) ## TensorBoard Envíe su trabajo de evaluación con una ubicación de salida de AWS S3. SageMaker carga automáticamente un TensorBoard archivo en la ubicación. SageMaker carga el TensorBoard archivo a AWS S3 en la siguiente ubicación: ``` s3:////output/output//tensorboard_results/eval/ ``` **Pase la ubicación AWS S3 de la siguiente manera** ------ #### [ SageMaker Studio ] ![\[Pase a la ubicación del artefacto de salida (URI AWS S3)\]](http://docs.aws.amazon.com/es_es/sagemaker/latest/dg/images/s3-output-path-submission-sagemaker-studio.png) ------ #### [ SageMaker Python SDK ] ``` evaluator = BenchMarkEvaluator( benchmark=Benchmark.MMLU, model="arn:aws:sagemaker:::model-package//", s3_output_path="s3:////eval/", evaluate_base_model=False ) execution = evaluator.evaluate() ``` ------ **Ejemplo de métricas a nivel de modelo** ![\[SageMaker TensorBoard mostrar los resultados de un trabajo de evaluación comparativa\]](http://docs.aws.amazon.com/es_es/sagemaker/latest/dg/images/metrics-in-tensorboard.png)