View a markdown version of this page

Formatos de métricas de evaluación - Amazon SageMaker AI

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Formatos de métricas de evaluación

Evaluar la calidad del modelo en los siguientes formatos de métricas:

  • Resumen de la evaluación del modelo

  • MLflow

  • TensorBoard

Resumen de la evaluación del modelo

Cuando envía su trabajo de evaluación, especifica una ubicación de salida de AWS S3. SageMaker carga automáticamente el archivo.json con el resumen de la evaluación en la ubicación. La ruta S3 del resumen del punto de referencia es la siguiente:

s3://<your-provide-s3-location>/<training-job-name>/output/output/<evaluation-job-name>/eval_results/

Pase la ubicación AWS S3

SageMaker Studio
Pase a la ubicación del artefacto de salida (URI AWS S3)
SageMaker Python SDK
evaluator = BenchMarkEvaluator( benchmark=Benchmark.MMLU, model="arn:aws:sagemaker:<region>:<account-id>:model-package/<model-package-name>/<version>", s3_output_path="s3://<bucket-name>/<prefix>/eval/", evaluate_base_model=False ) execution = evaluator.evaluate()

Léelo directamente .json desde la ubicación de AWS S3 o visualízalo automáticamente en la interfaz de usuario:

{ "results": { "custom|gen_qa_gen_qa|0": { "rouge1": 0.9152812653966208, "rouge1_stderr": 0.003536439199232507, "rouge2": 0.774569918517409, "rouge2_stderr": 0.006368825746765958, "rougeL": 0.9111255645823356, "rougeL_stderr": 0.003603841524881021, "em": 0.6562150055991042, "em_stderr": 0.007948251702846893, "qem": 0.7522396416573348, "qem_stderr": 0.007224355240883467, "f1": 0.8428757602152095, "f1_stderr": 0.005186300690881584, "f1_score_quasi": 0.9156170336744968, "f1_score_quasi_stderr": 0.003667700152375464, "bleu": 100.00000000000004, "bleu_stderr": 1.464411857851008 }, "all": { "rouge1": 0.9152812653966208, "rouge1_stderr": 0.003536439199232507, "rouge2": 0.774569918517409, "rouge2_stderr": 0.006368825746765958, "rougeL": 0.9111255645823356, "rougeL_stderr": 0.003603841524881021, "em": 0.6562150055991042, "em_stderr": 0.007948251702846893, "qem": 0.7522396416573348, "qem_stderr": 0.007224355240883467, "f1": 0.8428757602152095, "f1_stderr": 0.005186300690881584, "f1_score_quasi": 0.9156170336744968, "f1_score_quasi_stderr": 0.003667700152375464, "bleu": 100.00000000000004, "bleu_stderr": 1.464411857851008 } } }
Ejemplos de métricas de rendimiento para un benchmark personalizado de generación y control de calidad visualizadas en Studio SageMaker

Registro de MLflow

Proporcione el ARN de su recurso SageMaker de MLflow

SageMaker Studio usa la aplicación MLflow predeterminada que se aprovisiona en cada dominio de Studio cuando utilizas la función de personalización del modelo por primera vez. SageMaker Studio usa el ARN predeterminado asociado a la aplicación MLflow al enviar los trabajos de evaluación.

También puede enviar su trabajo de evaluación y proporcionar explícitamente un ARN de recursos de MLflow para transmitir las métricas a dicho server/app seguimiento asociado para su análisis en tiempo real.

SageMaker SDK de Python

evaluator = BenchMarkEvaluator( benchmark=Benchmark.MMLU, model="arn:aws:sagemaker:<region>:<account-id>:model-package/<model-package-name>/<version>", s3_output_path="s3://<bucket-name>/<prefix>/eval/", mlflow_resource_arn="arn:aws:sagemaker:<region>:<account-id>:mlflow-tracking-server/<tracking-server-name>", evaluate_base_model=False ) execution = evaluator.evaluate()

Visualización de métricas a nivel de modelo y nivel de sistema:

Ejemplo de error y precisión a nivel de modelo para una tarea de evaluación comparativa de MMLU
Ejemplo de métricas integradas para la tarea de evaluación comparativa de LLMAJ
Ejemplos de métricas a nivel de sistema para una tarea de evaluación comparativa de MMLU

TensorBoard

Envíe su trabajo de evaluación con una ubicación de salida de AWS S3. SageMaker carga automáticamente un TensorBoard archivo en la ubicación.

SageMaker carga el TensorBoard archivo a AWS S3 en la siguiente ubicación:

s3://<your-provide-s3-location>/<training-job-name>/output/output/<evaluation-job-name>/tensorboard_results/eval/

Pase la ubicación AWS S3 de la siguiente manera

SageMaker Studio
Pase a la ubicación del artefacto de salida (URI AWS S3)
SageMaker Python SDK
evaluator = BenchMarkEvaluator( benchmark=Benchmark.MMLU, model="arn:aws:sagemaker:<region>:<account-id>:model-package/<model-package-name>/<version>", s3_output_path="s3://<bucket-name>/<prefix>/eval/", evaluate_base_model=False ) execution = evaluator.evaluate()

Ejemplo de métricas a nivel de modelo

SageMaker TensorBoard mostrar los resultados de un trabajo de evaluación comparativa