驗證您的自動推理政策測試結果 - Amazon Bedrock

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

驗證您的自動推理政策測試結果

當測試完成時,您會收到一組驗證結果,以了解自動化原因政策的執行方式。

測試包含下列資訊:

  • 查詢內容:使用者可能詢問 GenAI 應用程式的問題,以及可能的回應。如果您手動建立測試,您可以定義這些項目。如果您產生測試案例,自動化原因會定義這些項目。

  • 可信度閾值:您為測試設定的邏輯驗證的最低可信度層級。此閾值決定自動推理如何處理將自然語言轉換為正式邏輯時的不確定性。符合或超過閾值的內容會被視為高可信度的問題清單,可以使用最終結果 (VALID 或 INVALID) 進行驗證。低於閾值的內容是標記為 TRANSLATION_AMBIGUOUS 的低可信度調查結果,表示系統偵測到模棱兩可的情況,並選擇不提供可能不正確的驗證結果。

  • 驗證結果

    • 預期結果:您預期執行測試的結果。

    • 實際結果:執行測試的結果。

    • 執行結果:指出測試是否通過。如果預期和實際結果相符,則測試通過。如果沒有,則測試會失敗。

  • 調查結果:自動推理政策測試的輸出是一組調查結果。調查結果代表測試問題和答案中包含的事實聲明。使用這些來協助您了解測試通過或失敗的原因。

    • 類型:轉譯可以包含宣告內部部署的組合。

      • 內部部署:提供影響應如何評估宣告的內容、假設或條件。在question-and-answer格式中,內部部署通常是問題本身。答案也可以包含建立限制條件或條件的現場部署。例如,在問題中,「哪些數字可被 2 整除?」 和回答,「偶數」,內部部署是「數字除以 2」。在陳述式中,「當流量燈變為綠色時,您必須離開」,內部部署是「流量燈為綠色」。

      • 宣告:Automated Reasoning 評估準確性的事實陳述式。在question-and-answer格式中,宣告通常是答案。在獨立陳述式中,宣告是正在宣告的事實。例如,在問題中,「哪些數字可被 2 整除?」 和回答,「偶數」,宣告為「偶數」。

    • 結果:指出問題清單宣告的有效性。如需詳細資訊,請參閱測試驗證結果

    • 可信度:自動推理在自然語言到正式邏輯的翻譯中擁有的可信度分數 (從 0.0 到 1.0),代表系統對正確解譯輸入文字的確定程度。分數越高表示翻譯的確定性越高。例如,如果翻譯可信度為 "1.0",表示自然語言已準確轉換為正式邏輯的最大確定性。較低的可信度分數表示系統對於您可能想要檢閱的翻譯有一些不確定性。

    • 指派:來自政策的變數指派,證明問題清單有效與否。翻譯具有邏輯陳述式,示範如何將自然語言轉換為正式邏輯。當有巢狀邏輯時,這些可能更為複雜。例如 hasDogHistoryOfAggression is false

    • 規則:從支援調查結果的政策擷取的邏輯。測試提供您政策中足夠的相關規則,以協助您了解調查結果結果。

測試驗證結果

下列清單詳細說明自動化理由政策測試的可能驗證結果:

VALID

模型回應中的宣告邏輯上與您的政策規則一致,而且在數學上證明正確。回應正確遵循所有適用的邏輯限制,而且從內部部署到結論的推理是合理的。

範例:如果您的政策陳述「服務超過 1 年的員工取得親職休假」,且模型回應「因為您已在這裡工作 18 個月,所以您符合親職休假的資格」,這會是 VALID,因為 18 個月超過 1 年的需求。

INVALID

模型回應中的宣告與政策規則相衝突或違反政策規則。回應包含根據政策的正式邏輯限制,在數學上可證明為不正確的陳述式。

範例:如果您的政策陳述「服務超過 1 年的員工取得親職休假」,且模型回應「即使您只在這裡工作 3 個月,您仍符合親職休假的資格」,這會是 INVALID,因為 3 個月不符合 1 年的需求。

SATISFIABLE

宣告與您的政策規則至少有一個可能的解釋一致,但可能無法解決所有相關規則。這表示回應不會與您的政策相衝突,但可能無法完全解決所有適用的限制。

範例:如果您的政策指出「員工需要超過 1 年的親職休假服務,且必須提交 HR-101 表格」,且模型回應「您有資格申請親職休假,因為您已在這裡工作 2 年」,這將是 SATISFIABLE,因為回應正確解決了服務需求,但未提及表單需求 (未與其相衝突)。

IMPOSSIBLE

自動化理由無法對宣告進行陳述。如果內部部署在邏輯上不正確,或自動化原因政策本身發生衝突,就會發生這種情況。

範例:如果您的政策包含矛盾的規則,例如「所有員工都獲得假期」和「沒有員工獲得假期」,或者如果測試問題包含不可能的現場部署,例如「如果員工工作的時間是負數?」,則結果會是 IMPOSSIBLE,因為邏輯基礎有瑕疵。

TRANSLATION_AMBIGUOUS

偵測到翻譯中的模棱兩可處,表示繼續進行有效性檢查不會產生聲音。可能需要其他內容或後續問題,才能讓翻譯成功。

範例:如果您的測試問題是「他們可以休假嗎?」 如果不指定「他們」是指誰,或者如果模型回應使用模糊的代名詞,例如「它取決於他們的處境」而沒有明確的參考,則結果會是 TRANSLATION_AMBIGUOUS,因為系統無法可靠地將模糊語言翻譯為正式邏輯。

TOO_COMPLEX

輸入包含太多自動推理的資訊,無法在其延遲限制內處理。

範例:如果您的測試包含非常長的模型回應,其中包含數百個有關員工福利、假期政策、健康保險、退休計劃和績效審核的互連宣告,則結果可能是 TOO_COMPLEX,因為邏輯分析會超過處理時間限制。

NO_TRANSLATIONS

識別部分或全部輸入提示未翻譯為邏輯。如果輸入與自動化原因政策無關,或者如果政策沒有變數來建立相關輸入的模型,就可能發生這種情況。如果自動化理由無法翻譯任何內容,您會收到單一NO_TRANSLATIONS問題清單。如果驗證的某些部分未翻譯,您也可能會看到 NO_TRANSLATIONS(以及其他問題清單)。

範例:如果您的人力資源政策旨在驗證員工利益,但您的測試問題詢問「今天天氣如何?」 或「如何製作義大利麵?」,結果會是 NO_TRANSLATIONS,因為內容與您政策的網域和變數完全無關。