Resumen de la evaluación del modelo Registro de MLflow TensorBoard

Formatos de métricas de evaluación

Evaluar la calidad del modelo en los siguientes formatos de métricas:

Resumen de la evaluación del modelo
MLflow
TensorBoard

Resumen de la evaluación del modelo

Cuando envía su trabajo de evaluación, especifica una ubicación de salida de AWS S3. SageMaker carga automáticamente el archivo.json con el resumen de la evaluación en la ubicación. La ruta S3 del resumen del punto de referencia es la siguiente:


s3://<your-provide-s3-location>/<training-job-name>/output/output/<evaluation-job-name>/eval_results/

Pase la ubicación AWS S3

Léelo directamente .json desde la ubicación de AWS S3 o visualízalo automáticamente en la interfaz de usuario:


{
  "results": {
    "custom|gen_qa_gen_qa|0": {
      "rouge1": 0.9152812653966208,
      "rouge1_stderr": 0.003536439199232507,
      "rouge2": 0.774569918517409,
      "rouge2_stderr": 0.006368825746765958,
      "rougeL": 0.9111255645823356,
      "rougeL_stderr": 0.003603841524881021,
      "em": 0.6562150055991042,
      "em_stderr": 0.007948251702846893,
      "qem": 0.7522396416573348,
      "qem_stderr": 0.007224355240883467,
      "f1": 0.8428757602152095,
      "f1_stderr": 0.005186300690881584,
      "f1_score_quasi": 0.9156170336744968,
      "f1_score_quasi_stderr": 0.003667700152375464,
      "bleu": 100.00000000000004,
      "bleu_stderr": 1.464411857851008
    },
    "all": {
      "rouge1": 0.9152812653966208,
      "rouge1_stderr": 0.003536439199232507,
      "rouge2": 0.774569918517409,
      "rouge2_stderr": 0.006368825746765958,
      "rougeL": 0.9111255645823356,
      "rougeL_stderr": 0.003603841524881021,
      "em": 0.6562150055991042,
      "em_stderr": 0.007948251702846893,
      "qem": 0.7522396416573348,
      "qem_stderr": 0.007224355240883467,
      "f1": 0.8428757602152095,
      "f1_stderr": 0.005186300690881584,
      "f1_score_quasi": 0.9156170336744968,
      "f1_score_quasi_stderr": 0.003667700152375464,
      "bleu": 100.00000000000004,
      "bleu_stderr": 1.464411857851008
    }
  }
}

Ejemplos de métricas de rendimiento para un benchmark personalizado de generación y control de calidad visualizadas en Studio SageMaker

Registro de MLflow

Proporcione el ARN de su recurso SageMaker de MLflow

SageMaker Studio usa la aplicación MLflow predeterminada que se aprovisiona en cada dominio de Studio cuando utilizas la función de personalización del modelo por primera vez. SageMaker Studio usa el ARN predeterminado asociado a la aplicación MLflow al enviar los trabajos de evaluación.

También puede enviar su trabajo de evaluación y proporcionar explícitamente un ARN de recursos de MLflow para transmitir las métricas a dicho server/app seguimiento asociado para su análisis en tiempo real.

SageMaker SDK de Python


evaluator = BenchMarkEvaluator(
    benchmark=Benchmark.MMLU,
    model="arn:aws:sagemaker:<region>:<account-id>:model-package/<model-package-name>/<version>",
    s3_output_path="s3://<bucket-name>/<prefix>/eval/",
    mlflow_resource_arn="arn:aws:sagemaker:<region>:<account-id>:mlflow-tracking-server/<tracking-server-name>",
    evaluate_base_model=False
)

execution = evaluator.evaluate()

Visualización de métricas a nivel de modelo y nivel de sistema:

Ejemplo de error y precisión a nivel de modelo para una tarea de evaluación comparativa de MMLU

Ejemplo de métricas integradas para la tarea de evaluación comparativa de LLMAJ

Ejemplos de métricas a nivel de sistema para una tarea de evaluación comparativa de MMLU

TensorBoard

Envíe su trabajo de evaluación con una ubicación de salida de AWS S3. SageMaker carga automáticamente un TensorBoard archivo en la ubicación.

SageMaker carga el TensorBoard archivo a AWS S3 en la siguiente ubicación:


s3://<your-provide-s3-location>/<training-job-name>/output/output/<evaluation-job-name>/tensorboard_results/eval/

Pase la ubicación AWS S3 de la siguiente manera

Ejemplo de métricas a nivel de modelo

SageMaker TensorBoard mostrar los resultados de un trabajo de evaluación comparativa

Aviso JavaScript está desactivado o no está disponible en su navegador.

Para utilizar la documentación de AWS, debe estar habilitado JavaScript. Para obtener más información, consulte las páginas de ayuda de su navegador.

Convenciones del documento

Tipos de evaluación y presentación de trabajos

Formatos de conjuntos de datos compatibles para Bring-Your-Own-Dataset tareas (BYOD)