Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.
Formatos de métricas de evaluación
Evaluar la calidad del modelo en los siguientes formatos de métricas:
Resumen de la evaluación del modelo
MLFlow
TensorBoard
Resumen de la evaluación del modelo
Cuando envía su trabajo de evaluación, especifica una ubicación de salida de AWS S3. SageMaker carga automáticamente el archivo.json con el resumen de la evaluación en la ubicación. La ruta S3 del resumen del punto de referencia es la siguiente:
s3://<your-provide-s3-location>/<training-job-name>/output/output/<evaluation-job-name>/eval_results/
Pase la ubicación AWS S3
Léelo directamente .json desde la ubicación de AWS S3 o visualízalo automáticamente en la interfaz de usuario:
{ "results": { "custom|gen_qa_gen_qa|0": { "rouge1": 0.9152812653966208, "rouge1_stderr": 0.003536439199232507, "rouge2": 0.774569918517409, "rouge2_stderr": 0.006368825746765958, "rougeL": 0.9111255645823356, "rougeL_stderr": 0.003603841524881021, "em": 0.6562150055991042, "em_stderr": 0.007948251702846893, "qem": 0.7522396416573348, "qem_stderr": 0.007224355240883467, "f1": 0.8428757602152095, "f1_stderr": 0.005186300690881584, "f1_score_quasi": 0.9156170336744968, "f1_score_quasi_stderr": 0.003667700152375464, "bleu": 100.00000000000004, "bleu_stderr": 1.464411857851008 }, "all": { "rouge1": 0.9152812653966208, "rouge1_stderr": 0.003536439199232507, "rouge2": 0.774569918517409, "rouge2_stderr": 0.006368825746765958, "rougeL": 0.9111255645823356, "rougeL_stderr": 0.003603841524881021, "em": 0.6562150055991042, "em_stderr": 0.007948251702846893, "qem": 0.7522396416573348, "qem_stderr": 0.007224355240883467, "f1": 0.8428757602152095, "f1_stderr": 0.005186300690881584, "f1_score_quasi": 0.9156170336744968, "f1_score_quasi_stderr": 0.003667700152375464, "bleu": 100.00000000000004, "bleu_stderr": 1.464411857851008 } } }
MLFlow registro
Proporcione el ARN SageMaker MLFlow de su recurso
SageMaker Studio usa la MLFlow aplicación predeterminada que se aprovisiona en cada dominio de Studio cuando usas la capacidad de personalización del modelo por primera vez. SageMaker Studio usa el ARN predeterminado asociado a MLflow la aplicación al enviar los trabajos de evaluación.
También puede enviar su trabajo de evaluación y proporcionar explícitamente un ARN de MLFlow recurso para transmitir las métricas a dicho seguimiento asociado server/app para su análisis en tiempo real.
SageMaker SDK de Python
evaluator = BenchMarkEvaluator( benchmark=Benchmark.MMLU, model="arn:aws:sagemaker:<region>:<account-id>:model-package/<model-package-name>/<version>", s3_output_path="s3://<bucket-name>/<prefix>/eval/", mlflow_resource_arn="arn:aws:sagemaker:<region>:<account-id>:mlflow-tracking-server/<tracking-server-name>", evaluate_base_model=False ) execution = evaluator.evaluate()
Visualización de métricas a nivel de modelo y nivel de sistema:
TensorBoard
Envíe su trabajo de evaluación con una ubicación de salida de AWS S3. SageMaker carga automáticamente un TensorBoard archivo en la ubicación.
SageMaker carga el TensorBoard archivo a AWS S3 en la siguiente ubicación:
s3://<your-provide-s3-location>/<training-job-name>/output/output/<evaluation-job-name>/tensorboard_results/eval/
Pase la ubicación AWS S3 de la siguiente manera
Ejemplo de métricas a nivel de modelo