기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.
자동 추론 정책 테스트 결과 검증
테스트가 완료되면 자동 추론 정책이 어떻게 수행되고 있는지 이해하기 위한 검증 결과 세트가 제공됩니다.
테스트에는 다음 정보가 포함됩니다.
-
쿼리 및 콘텐츠: 사용자가 GenAI 애플리케이션에 질문할 수 있는 질문과 가능한 응답입니다. 테스트를 수동으로 생성하는 경우 이를 정의합니다. 자동 추론은 테스트 시나리오를 생성한 경우 이를 정의합니다.
-
신뢰도 임계값: 테스트에 설정한 로직 검증의 최소 신뢰도 수준입니다. 이 임계값은 자동 추론이 자연어를 공식 로직으로 변환할 때 불확실성을 처리하는 방법을 결정합니다. 임계값을 충족하거나 초과하는 콘텐츠는 최종 결과(VALID 또는 INVALID)로 검증할 수 있는 신뢰도가 높은 조사 결과로 간주됩니다. 임계값 미만인 콘텐츠는 TRANSLATION_AMBIGUOUS로 표시된 신뢰도가 낮은 결과이며, 이는 시스템이 모호성을 감지하고 잠재적으로 잘못된 검증 결과를 제공하지 않기로 선택했음을 나타냅니다.
-
검증 결과:
-
예상 결과: 테스트를 실행하여 예상한 결과입니다.
-
실제 결과: 테스트를 실행한 결과입니다.
-
실행 결과: 테스트 통과 여부를 나타냅니다. 예상 결과와 실제 결과가 일치하면 테스트가 통과된 것입니다. 그렇지 않으면 테스트가 실패했습니다.
-
-
조사 결과: 자동 추론 정책 테스트의 출력은 조사 결과 세트입니다. 결과는 테스트 질문 및 답변에 포함된 사실적 클레임을 나타냅니다. 이를 사용하여 테스트가 통과 또는 실패한 이유를 이해할 수 있습니다.
-
유형: 번역에는 클레임과 온프레미스의 조합이 포함될 수 있습니다.
-
온프레미스: 클레임을 평가하는 방법에 영향을 미치는 컨텍스트, 가정 또는 조건을 제공합니다. question-and-answer 형식에서 전제는 종종 질문 자체입니다. 답변에는 제약 조건 또는 조건을 설정하는 온프레미스도 포함될 수 있습니다. 예를 들어, 질문에서 "어떤 숫자를 2로 나눌 수 있습니까?" 및 답변은 "짝수"이며, 전제는 "2로 나눌 수 있는 숫자"입니다. 문에서 "신호등이 녹색으로 바뀌면 이동해야 합니다"는 "신호등이 녹색입니다"입니다.
-
클레임: 자동 추론이 정확도를 평가하는 실제 문입니다. question-and-answer 형식에서 클레임은 일반적으로 답변입니다. 독립 실행형 문에서 클레임은 어설션되는 사실입니다. 예를 들어, 질문에서 "어떤 숫자를 2로 나눌 수 있습니까?" 및 답변은 "짝수"이며 클레임은 "짝수"입니다.
-
-
결과: 결과의 클레임이 얼마나 유효한지 나타냅니다. 자세한 내용은 테스트 검증 결과 단원을 참조하십시오.
-
신뢰도: 자동 추론이 자연어에서 공식 로직으로 변환할 때 갖는 신뢰도 점수(0.0~1.0 범위)로, 시스템이 입력 텍스트를 올바르게 해석하는 것이 얼마나 확실한지 나타냅니다. 점수가 높을수록 번역의 확실성이 높음을 나타냅니다. 예를 들어 번역의 신뢰도가 "1.0"인 경우 자연어가 공식 로직으로 정확하게 변환되었다는 최대 확실성을 나타냅니다. 신뢰도 점수가 낮으면 시스템에 검토하려는 번역에 대한 불확실성이 있음을 나타냅니다.
-
할당: 조사 결과가 유효한지 여부를 입증하는 정책의 가변 할당입니다. 번역에는 자연어가 공식 로직으로 변환된 방법을 보여주는 로직 문이 있습니다. 중첩 로직이 있는 경우 더 복잡할 수 있습니다. 예를 들어
hasDogHistoryOfAggression is false
입니다. -
규칙: 조사 결과를 지원하는 정책에서 추출된 로직입니다. 테스트는 결과의 이해를 돕기 위해 정책의 관련 규칙을 충분히 제공합니다.
-
테스트 검증 결과
다음 목록은 자동 추론 정책 테스트에서 가능한 검증 결과를 자세히 설명합니다.
VALID
-
모델 응답의 클레임은 정책 규칙과 논리적으로 일치하며 수학적으로 올바르게 입증될 수 있습니다. 응답은 적용 가능한 모든 논리적 제약 조건을 올바르게 따르며 온프레미스에서 결론까지의 추론은 합리적입니다.
예: 정책에 "1년 이상 근무한 직원은 육아휴직을 받습니다"라고 명시되어 있고 모델이 "18개월 동안 근무한 이후 육아휴직을 받을 수 있습니다"라고 응답하면 18개월이 1년 요구 사항을 초과하기 때문에이 값은 VALID가 됩니다.
INVALID
-
모델 응답의 클레임은 정책 규칙과 모순되거나 위반됩니다. 응답에는 정책의 공식 로직 제약 조건에 따라 수학적으로 잘못된 것으로 증명될 수 있는 문이 포함되어 있습니다.
예: 정책에 "1년 이상 근무한 직원은 육아휴직을 받습니다"라고 명시되어 있고 모델은 "3개월 동안만 근무했더라도 육아휴직을 받을 수 있습니다"라고 응답하면 3개월이 1년 요구 사항을 충족하지 않기 때문에 유효하지 않습니다.
SATISFIABLE
-
클레임은 정책 규칙에 대한 하나 이상의 가능한 해석과 일치하지만 모든 관련 규칙을 다루지는 않을 수 있습니다. 즉, 응답이 정책과 모순되지는 않지만 적용 가능한 모든 제약 조건을 완전히 해결하지는 못할 수 있습니다.
예: 정책에 "직원은 육아휴직으로 1년 이상 근무해야 하며 HR-101 양식을 제출해야 합니다"라고 명시되어 있고 모델이 "여기에서 2년 동안 근무한 이후 육아휴직을 받을 수 있습니다"라고 응답하면 응답이 서비스 요구 사항을 올바르게 해결하지만 양식 요구 사항을 언급하지 않기 때문에 만족스러울 수 있습니다(반대하지 않음).
IMPOSSIBLE
-
자동 추론은 클레임에 대한 설명을 만들 수 없습니다. 이는 온프레미스가 논리적으로 올바르지 않거나 자동 추론 정책 자체 내에 충돌이 있는 경우에 발생할 수 있습니다.
예: 정책에 "모든 직원이 휴가 일수를 얻음" 및 "직원이 휴가 일수를 얻지 않음"과 같은 모순되는 규칙이 포함되어 있거나 테스트 질문에 "음수 시간에 근무하면 직원이 얻을 수 있는 이점은 무엇입니까?"와 같은 불가능한 온프레미스가 포함되어 있는 경우 논리적 기반이 결함이 있기 때문에 결과가 불가능할 수 있습니다.
TRANSLATION_AMBIGUOUS
-
번역에서 모호성이 감지되어 유효성 검사를 계속하는 것이 좋지 않을 수 있습니다. 번역이 성공하려면 추가 컨텍스트 또는 후속 질문이 필요할 수 있습니다.
예: 테스트 질문이 “떠날 수 있나요?”인 경우 '그 사람'이 누구를 참조하는지 지정하지 않거나 모델 응답이 명확한 참조 없이 '사정에 따라 다름'과 같은 모호한 대명사를 사용하는 경우 시스템이 모호한 언어를 공식 로직으로 안정적으로 변환할 수 없기 때문에 결과는 TRANSLATION_AMBIGUOUS가 됩니다.
TOO_COMPLEX
-
입력에 자동 추론이 지연 시간 제한 내에서 처리하기에 너무 많은 정보가 포함되어 있습니다.
예: 테스트에 직원 혜택, 휴가 정책, 건강 보험, 퇴직 플랜 및 성과 검토에 대한 수백 개의 상호 연결된 클레임이 포함된 매우 긴 모델 응답이 단일 응답으로 포함된 경우 논리적 분석이 처리 시간 제한을 초과하기 때문에 결과는 TOO_COMPLEX가 될 수 있습니다.
NO_TRANSLATIONS
-
입력 프롬프트의 일부 또는 전부가 로직으로 변환되지 않았음을 식별합니다. 이는 입력이 자동 추론 정책과 관련이 없거나 정책에 관련 입력을 모델링하는 변수가 없는 경우에 발생할 수 있습니다. 자동 추론이 아무것도 번역할 수 없는 경우 단일
NO_TRANSLATIONS
결과를 얻을 수 있습니다. 검증의 일부가 번역되지 않은 경우에도NO_TRANSLATIONS
(다른 결과와 함께)가 표시될 수 있습니다.예: HR 정책이 직원 혜택을 검증하도록 설계되었지만 테스트 질문에서 "오늘 날씨는 어떤가요?"라고 묻는 경우 또는 "파스타는 어떻게 만드나요?", 콘텐츠가 정책의 도메인 및 변수와 완전히 관련이 없기 때문에 결과는 NO_TRANSLATIONS가 됩니다.