Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.
Formatos de métricas de evaluación
Evaluar la calidad del modelo en los siguientes formatos de métricas:
Resumen de la evaluación del modelo
MLflow
TensorBoard
Resumen de la evaluación del modelo
Cuando envía su trabajo de evaluación, especifica una ubicación de salida de AWS S3. SageMaker carga automáticamente el archivo.json con el resumen de la evaluación en la ubicación. La ruta S3 del resumen del punto de referencia es la siguiente:
s3://<your-provide-s3-location>/<training-job-name>/output/output/<evaluation-job-name>/eval_results/
Pase la ubicación AWS S3
Léelo directamente .json desde la ubicación de AWS S3 o visualízalo automáticamente en la interfaz de usuario:
{ "results": { "custom|gen_qa_gen_qa|0": { "rouge1": 0.9152812653966208, "rouge1_stderr": 0.003536439199232507, "rouge2": 0.774569918517409, "rouge2_stderr": 0.006368825746765958, "rougeL": 0.9111255645823356, "rougeL_stderr": 0.003603841524881021, "em": 0.6562150055991042, "em_stderr": 0.007948251702846893, "qem": 0.7522396416573348, "qem_stderr": 0.007224355240883467, "f1": 0.8428757602152095, "f1_stderr": 0.005186300690881584, "f1_score_quasi": 0.9156170336744968, "f1_score_quasi_stderr": 0.003667700152375464, "bleu": 100.00000000000004, "bleu_stderr": 1.464411857851008 }, "all": { "rouge1": 0.9152812653966208, "rouge1_stderr": 0.003536439199232507, "rouge2": 0.774569918517409, "rouge2_stderr": 0.006368825746765958, "rougeL": 0.9111255645823356, "rougeL_stderr": 0.003603841524881021, "em": 0.6562150055991042, "em_stderr": 0.007948251702846893, "qem": 0.7522396416573348, "qem_stderr": 0.007224355240883467, "f1": 0.8428757602152095, "f1_stderr": 0.005186300690881584, "f1_score_quasi": 0.9156170336744968, "f1_score_quasi_stderr": 0.003667700152375464, "bleu": 100.00000000000004, "bleu_stderr": 1.464411857851008 } } }
Registro de MLflow
Proporcione el ARN de su recurso SageMaker de MLflow
SageMaker Studio usa la aplicación MLflow predeterminada que se aprovisiona en cada dominio de Studio cuando utilizas la función de personalización del modelo por primera vez. SageMaker Studio usa el ARN predeterminado asociado a la aplicación MLflow al enviar los trabajos de evaluación.
También puede enviar su trabajo de evaluación y proporcionar explícitamente un ARN de recursos de MLflow para transmitir las métricas a dicho server/app seguimiento asociado para su análisis en tiempo real.
SageMaker SDK de Python
evaluator = BenchMarkEvaluator( benchmark=Benchmark.MMLU, model="arn:aws:sagemaker:<region>:<account-id>:model-package/<model-package-name>/<version>", s3_output_path="s3://<bucket-name>/<prefix>/eval/", mlflow_resource_arn="arn:aws:sagemaker:<region>:<account-id>:mlflow-tracking-server/<tracking-server-name>", evaluate_base_model=False ) execution = evaluator.evaluate()
Visualización de métricas a nivel de modelo y nivel de sistema:
TensorBoard
Envíe su trabajo de evaluación con una ubicación de salida de AWS S3. SageMaker carga automáticamente un TensorBoard archivo en la ubicación.
SageMaker carga el TensorBoard archivo a AWS S3 en la siguiente ubicación:
s3://<your-provide-s3-location>/<training-job-name>/output/output/<evaluation-job-name>/tensorboard_results/eval/
Pase la ubicación AWS S3 de la siguiente manera
Ejemplo de métricas a nivel de modelo