Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris. # Format Metrik Evaluasi Mengevaluasi kualitas model Anda di seluruh format metrik ini: + Ringkasan Evaluasi Model + MLFlow + TensorBoard ## Ringkasan Evaluasi Model Saat Anda mengirimkan pekerjaan evaluasi Anda, Anda menentukan lokasi keluaran AWS S3. SageMaker secara otomatis mengunggah ringkasan evaluasi file.json ke lokasi. Jalur S3 ringkasan benchmark adalah sebagai berikut: ``` s3:////output/output//eval_results/ ``` **Lewati lokasi AWS S3** ------ #### [ SageMaker Studio ] ![Masuk ke lokasi artefak keluaran (URI AWS S3)](http://docs.aws.amazon.com/id_id/sagemaker/latest/dg/images/s3-output-path-submission-sagemaker-studio.png) ------ #### [ SageMaker Python SDK ] ``` evaluator = BenchMarkEvaluator( benchmark=Benchmark.MMLU, model="arn:aws:sagemaker:::model-package//", s3_output_path="s3:////eval/", evaluate_base_model=False ) execution = evaluator.evaluate() ``` ------ Baca langsung sebagai `.json` dari lokasi AWS S3 atau divisualisasikan secara otomatis di UI: ``` { "results": { "custom|gen_qa_gen_qa|0": { "rouge1": 0.9152812653966208, "rouge1_stderr": 0.003536439199232507, "rouge2": 0.774569918517409, "rouge2_stderr": 0.006368825746765958, "rougeL": 0.9111255645823356, "rougeL_stderr": 0.003603841524881021, "em": 0.6562150055991042, "em_stderr": 0.007948251702846893, "qem": 0.7522396416573348, "qem_stderr": 0.007224355240883467, "f1": 0.8428757602152095, "f1_stderr": 0.005186300690881584, "f1_score_quasi": 0.9156170336744968, "f1_score_quasi_stderr": 0.003667700152375464, "bleu": 100.00000000000004, "bleu_stderr": 1.464411857851008 }, "all": { "rouge1": 0.9152812653966208, "rouge1_stderr": 0.003536439199232507, "rouge2": 0.774569918517409, "rouge2_stderr": 0.006368825746765958, "rougeL": 0.9111255645823356, "rougeL_stderr": 0.003603841524881021, "em": 0.6562150055991042, "em_stderr": 0.007948251702846893, "qem": 0.7522396416573348, "qem_stderr": 0.007224355240883467, "f1": 0.8428757602152095, "f1_stderr": 0.005186300690881584, "f1_score_quasi": 0.9156170336744968, "f1_score_quasi_stderr": 0.003667700152375464, "bleu": 100.00000000000004, "bleu_stderr": 1.464411857851008 } } } ``` ![Contoh metrik kinerja untuk benchmark gen-qa kustom yang divisualisasikan di Studio SageMaker](http://docs.aws.amazon.com/id_id/sagemaker/latest/dg/images/gen-qa-metrics-visualization-sagemaker-studio.png) ## Pencatatan MLFlow **Berikan ARN sumber daya SageMaker MLFlow Anda** SageMaker Studio menggunakan aplikasi MLFlow default yang disediakan di setiap domain Studio saat Anda menggunakan kemampuan penyesuaian model untuk pertama kalinya. SageMaker Studio menggunakan ARN terkait aplikasi MLFlow default dalam pengiriman pekerjaan evaluasi. Anda juga dapat mengirimkan pekerjaan evaluasi Anda dan secara eksplisit memberikan ARN Sumber Daya MLFlow untuk mengalirkan metrik ke pelacakan terkait tersebut untuk analisis waktu nyata. server/app **SageMaker SDK Python** ``` evaluator = BenchMarkEvaluator( benchmark=Benchmark.MMLU, model="arn:aws:sagemaker:::model-package//", s3_output_path="s3:////eval/", mlflow_resource_arn="arn:aws:sagemaker:::mlflow-tracking-server/", evaluate_base_model=False ) execution = evaluator.evaluate() ``` Visualisasi metrik tingkat model dan tingkat sistem: ![Kesalahan dan akurasi tingkat model sampel untuk tugas pembandingan MMLU](http://docs.aws.amazon.com/id_id/sagemaker/latest/dg/images/model-metrics-mlflow.png) ![Contoh metrik bawaan untuk tugas pembandingan LLMAJ](http://docs.aws.amazon.com/id_id/sagemaker/latest/dg/images/llmaj-metrics-mlflow.png) ![Contoh metrik tingkat sistem untuk tugas pembandingan MMLU](http://docs.aws.amazon.com/id_id/sagemaker/latest/dg/images/system-metrics-mlflow.png) ## TensorBoard Kirimkan pekerjaan evaluasi Anda dengan lokasi keluaran AWS S3. SageMaker secara otomatis mengunggah TensorBoard file ke lokasi. SageMaker mengunggah TensorBoard file ke AWS S3 di lokasi berikut: ``` s3:////output/output//tensorboard_results/eval/ ``` **Lewati lokasi AWS S3 sebagai berikut** ------ #### [ SageMaker Studio ] ![Masuk ke lokasi artefak keluaran (URI AWS S3)](http://docs.aws.amazon.com/id_id/sagemaker/latest/dg/images/s3-output-path-submission-sagemaker-studio.png) ------ #### [ SageMaker Python SDK ] ``` evaluator = BenchMarkEvaluator( benchmark=Benchmark.MMLU, model="arn:aws:sagemaker:::model-package//", s3_output_path="s3:////eval/", evaluate_base_model=False ) execution = evaluator.evaluate() ``` ------ **Contoh metrik tingkat model** ![SageMaker TensorBoard menampilkan hasil dari pekerjaan benchmarking](http://docs.aws.amazon.com/id_id/sagemaker/latest/dg/images/metrics-in-tensorboard.png)