本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
了解自動評估任務的結果
當您自動模型評估任務完成時,結果會儲存在 Amazon S3 中。以下各節描述產生的檔案以及如何解譯這些檔案。
解譯 output.json 檔案的結構
output.json 檔案包含所選資料集和指標的彙總分數。
以下為範例輸出。
{ "evaluations": [{ "evaluation_name": "factual_knowledge", "dataset_name": "trex", ## The structure of the prompt template changes based on the foundation model selected "prompt_template": "<s>[INST] <<SYS>>Answer the question at the end in as few words as possible. Do not repeat the question. Do not answer in complete sentences.<</SYS> Question: $feature [/INST]", "dataset_scores": [{ "name": "factual_knowledge", "value": 0.2966666666666667 }], "category_scores": [{ "name": "Author", "scores": [{ "name": "factual_knowledge", "value": 0.4117647058823529 }] }, .... { "name": "Capitals", "scores": [{ "name": "factual_knowledge", "value": 0.2857142857142857 }] } ] }] }
解譯執行個體結果檔案的結構
一個 evaluation_name_dataset_name.jsonl 檔案,其中包含每個 jsonlines 請求的執行個體結果。如果您的 jsonlines 輸入資料中有 300 個請求,此 jsonlines 輸出檔案會包含 300 個回應。輸出檔案包含對您模型提出的請求,後面接著該評估的分數。整個執行個體輸出範例如下。
解譯報告
評估報告包含基礎模型評估任務的結果。評估報告的內容取決於您用來評估模型的任務類型。每份報告包含下列區段:
-
評估任務下每個成功評估的整體分數。作為使用一個資料集進行一次評估的範例,如果您已針對準確性和語意穩健性的分類任務評估您的模型,則有一個資料表會出現在報告頂端,摘要說明準確性和準確性語意穩健性的評估結果。使用其他資料集進行其他評估可能會以不同的方式進行建構。
-
評估任務的組態,包括模型名稱、類型、使用的評估方法,以及針對其評估模型的資料集。
-
詳細評估結果區段,其中摘要說明評估演算法、提供任何內建資料集的相關資訊及其連結、如何計算分數,以及顯示一些範例資料及其相關聯分數的資料表。
-
失敗評估區段,其中包含未完成的評估清單。如果沒有評估失敗,則會省略報告的這個區段。