本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
驗證自動推理政策測試結果
測試完成時,會提供給您一組驗證結果,以了解自動推理政策的執行效果。
測試包含下列資訊:
-
查詢和內容:使用者可向 GenAI 應用程式詢問的問題,以及可能的回應。如果您手動建立測試,則您可以定義這些項目。如果您已產生測試情境,則自動推理會定義這些項目。
-
可信度閾值:您為測試設定的邏輯驗證其最低信任水準。此閾值決定自動推理如何處理將自然語言翻譯為正式邏輯時的不確定性。符合或超過閾值的內容會視為高可信度調查結果,可以使用最終結果 (VALID 或 INVALID) 進行驗證。低於閾值的內容是低可信度調查結果,會標記為 TRANSLATION_AMBIGUOUS,表示系統偵測到模棱兩可的情況,並選擇不提供可能不正確的驗證結果。
-
驗證結果:
-
預期結果:您預期執行測試的結果。
-
實際結果:執行測試的結果。
-
執行結果:指出是否通過測試。如果預期結果與實際結果相符,則測試通過。如果不相符,則測試失敗。
-
-
調查結果:自動推理政策測試的輸出是一組調查結果。調查結果代表測試問題和答案中包含的事實宣告。使用這些項目可協助您了解測試為什麼通過或失敗。
-
類型:翻譯可以包含宣告和前提的組合。
-
前提:提供會影響應如何評估宣告的內容、假設或條件。在 question-and-answer 格式中,前提通常是問題本身。答案也可以包含建立限制條件或條件的前提。例如,當問題是「什麼數字可被 2 整除?」,答案是「偶數」時,前提便是「可被 2 整除的數字」。在「當紅綠燈變為綠燈時,您必須前進」陳述式中,前提是「紅綠燈為綠燈」。
-
宣告:一種事實陳述式,自動推理會評估其準確性。在 question-and-answer 格式中,宣告通常是答案。在獨立陳述式中,宣告是正在聲明的事實。例如,當問題是「什麼數字可被 2 整除?」,答案是「偶數」時,宣告為「偶數」。
-
-
結果:指出調查結果其宣告的有效性。如需詳細資訊,請參閱測試驗證結果。
-
可信度:是指自動推理對從自然語言到正式邏輯之翻譯的可信度分數 (從 0.0 到 1.0),代表系統對正確解釋輸入文字的確定程度。分數越高表示翻譯的確定性越高。例如,如果翻譯可信度為「1.0」,表示自然語言已準確轉換為正式邏輯的最大確定性。可信度分數愈低,表示系統對於您可能想要審查的翻譯有一些不確定。
-
指派:政策中證明調查結果是否有效的變數指派。翻譯具有邏輯陳述式,顯示如何將自然語言轉換為正式邏輯。當有巢狀邏輯時,可能會更複雜。例如
hasDogHistoryOfAggression is false。 -
規則:從支援調查結果的政策中擷取的邏輯。測試會提供您政策中足夠的相關規則,以協助您了解調查結果。
-
測試驗證結果
下列清單詳細說明自動推理政策測試的可能驗證結果:
VALID-
模型回應中的內部部署和宣告在邏輯上與您的政策規則一致,可以在數學上證明正確,而且無法使用政策中的任何規則來拒絕。回應正確遵循所有適用的邏輯限制條件,且從前提到結論的推理是合理的。
範例:如果您的政策包含單一規則,指出「服務滿 1 年的員工取得親職休假」,而模型回應「您因在這裡工作 18 個月而符合親職休假的資格」,這會是 VALID,因為 18 個月超過 1 年的需求。
注意
VALID保證只有透過內部部署和VALID調查結果宣告中的政策變數擷取的輸入部分有效。例如,陳述式「我可以延遲提交家庭作業指派,因為我有仿造的醫生證明」可能會被視為有效,因為政策沒有變數來擷取醫生證明是否為仿造。在某些情況下,自動推理檢查可能可以在調查結果中將這些陳述式指出為未翻譯的現場部署或宣告。 INVALID-
模型回應中的宣告抵觸或違反您的政策規則。根據政策的正式邏輯限制條件,回應中包含的陳述在數學上可證明為不正確。
範例:如果您的政策規定「服務超過 1 年的員工可請育嬰休假」,而模型回應「即使您只在公司工作 3 個月,仍符合育嬰假的資格」,這會是 INVALID,因為 3 個月不符合 1 年的需求。
SATISFIABLE-
這些宣告符合政策規則的至少一種可能解釋,但可能未滿足所有相關規則。這表示回應未抵觸您的政策,但可能無法完全滿足所有適用的限制條件。
範例:如果您的政策規定「員工必須服務超過 1 年,且必須提交 HR-101 表單,才能請育嬰假」,而模型回應「因為您已在公司工作 2 年,所以符合育嬰假的資格」,這將是 SATISFIABLE,因為回應正確滿足服務需求,但未提及表單需求 (未抵觸)。
IMPOSSIBLE-
自動推理無法對宣告進行陳述。如果內部部署彼此衝突,或自動化理由政策本身發生衝突,就可能發生這種情況。
範例:如果您的政策包含矛盾的規則,例如「所有員工都獲得假期」和「沒有員工獲得假期」,或者如果測試問題包含不可能的現場,例如「我是全職員工,也是兼職員工,我有資格享有什麼好處?」,則結果會是 IMPOSSIBLE,因為邏輯基礎有瑕疵。
TRANSLATION_AMBIGUOUS-
偵測到翻譯中有模棱兩可處,表示繼續進行有效性檢查並不合理。可能需要其他內容或後續問題,才能讓翻譯成功。
範例:如果您的測試問題是「他們可以休假嗎?」 如果未指定「他們」是指誰,或如果模型回應使用模糊的代名詞,例如「這取決於他們的處境」,沒有明確的指稱,則結果會是 TRANSLATION_AMBIGUOUS,因為系統無法可靠地將模糊語言翻譯為正式邏輯。
TOO_COMPLEX-
輸入包含過多的自動推理資訊,無法在其延遲限制內處理。
範例:如果您的測試包含極長的模型回應,其中有數百個有關員工福利、年假政策、健康保險、退休計劃和績效審核等互連宣告,則結果可能是 TOO_COMPLEX,因為邏輯分析會超過處理時間限制。
NO_TRANSLATIONS-
識別出部分或全部的輸入提示未翻譯為邏輯。如果輸入與自動推理政策無關,或如果政策沒有變數可將相關輸入建模,就可能發生這種情況。如果自動推理無法翻譯任何內容,您會得到一個
NO_TRANSLATIONS調查結果。如果驗證的某些部分未翻譯,您也可能會看到NO_TRANSLATIONS(以及其他調查結果)。範例:如果您的人力資源政策旨在驗證員工福利,但您的測試問題詢問「今天天氣如何?」 或「如何煮義大利麵?」,結果會是 NO_TRANSLATIONS,因為內容與政策的領域和變數完全無關。