기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.
자동 추론 정책 테스트 결과 검증
테스트가 완료되면 자동 추론 정책이 어떻게 수행되고 있는지 쉽게 파악할 수 있는 검증 결과 세트가 제공됩니다.
테스트에는 다음 정보가 포함되어 있습니다.
-
쿼리 및 콘텐츠: 사용자가 생성형 AI 애플리케이션에 물을 수 있는 질문과 나올 수 있는 응답입니다. 테스트를 수동으로 생성하는 경우 이를 직접 정의하게 됩니다. 테스트 시나리오를 생성한 경우 자동 추론이 이를 정의합니다.
-
신뢰도 임계값: 테스트에 설정한 로직 검증의 최소 신뢰도 수준입니다. 이 임계값은 자동 추론이 자연어를 공식 로직으로 변환할 때 불확실성을 처리하는 방법을 결정합니다. 임계값을 충족하거나 초과하는 콘텐츠는 최종 결과(VALID 또는 INVALID)로 검증할 수 있는 신뢰도가 높은 조사 결과로 간주됩니다. 임계값 미만인 콘텐츠는 조사 결과의 신뢰도가 낮아 TRANSLATION_AMBIGUOUS로 표시되며, 이는 시스템이 모호함을 감지하고 잠재적으로 잘못된 검증 결과를 제공하지 않기로 선택했음을 나타냅니다.
-
검증 결과:
-
예상 결과: 테스트를 실행할 때 예상되는 결과입니다.
-
실제 결과: 테스트를 실행한 결과입니다.
-
실행 결과: 테스트 통과 여부를 나타냅니다. 예상 결과와 실제 결과가 일치하면 테스트가 통과된 것입니다. 일치하지 않으면 테스트에 실패합니다.
-
-
조사 결과: 자동 추론 정책 테스트를 진행하면 조사 결과 세트가 출력됩니다. 조사 결과는 테스트 질문 및 답변에 포함된 사실적 주장을 나타냅니다. 이를 바탕으로 테스트가 통과하거나 실패한 이유를 이해할 수 있습니다.
-
유형: 변환에는 주장과 전제의 조합이 포함될 수 있습니다.
-
전제: 주장 평가 방법에 영향을 미치는 컨텍스트, 가정 또는 조건을 제공합니다. 질의응답 형식에서 전제는 질문 자체인 경우가 많습니다. 답변에는 제약 조건 또는 조건을 설정하는 전제도 포함될 수 있습니다. 가령 "어떤 숫자를 2로 나눌 수 있습니까?"라는 질문에서 답변은 '짝수'이고, 전제는 '2로 나눌 수 있는 숫자'입니다. "신호등이 녹색으로 바뀌면 건너야 합니다"라는 문에서 전제는 '녹색인 신호등'입니다.
-
주장: 자동 추론이 정확도를 평가하는 사실적 문입니다. 질의응답 형식에서 주장은 보통 답변입니다. 독립 실행형 문에서 주장은 단언할 수 있는 사실입니다. 가령 "어떤 숫자를 2로 나눌 수 있습니까?"라는 질문에서 답변은 '짝수'이고, 주장은 '짝수'입니다.
-
-
결과: 조사 결과의 주장이 얼마나 유효한지 나타냅니다. 자세한 내용은 테스트 검증 결과 단원을 참조하십시오.
-
신뢰도: 자동 추론이 자연어에서 공식 로직으로 변환할 때 갖는 신뢰도 점수(0.0~1.0 범위)로, 시스템이 얼마나 확실하게 입력 텍스트를 제대로 해석하는지 나타냅니다. 점수가 높을수록 변환의 확실성이 높다는 뜻입니다. 예를 들어, 변환의 신뢰도가 '1.0'인 경우 확실성이 가장 높으며 자연어가 공식 로직으로 정확하게 변환되었음을 의미합니다. 신뢰도 점수가 낮으면 시스템에서 검토하려는 변환에 불확실성이 있음을 나타냅니다.
-
할당: 조사 결과가 유효한지를 입증하는 정책의 변수 할당입니다. 변환에는 자연어가 공식 로직으로 변환된 방법을 보여주는 로직 문이 있습니다. 중첩 로직이 있는 경우 더 복잡할 수 있습니다. 예를 들어
hasDogHistoryOfAggression is false입니다. -
규칙: 조사 결과를 지원하는 정책에서 추출된 로직입니다. 테스트는 조사 결과를 더 잘 이해할 수 있도록 정책의 관련 규칙을 충분히 제공합니다.
-
테스트 검증 결과
다음 목록은 자동 추론 정책 테스트에서 나올 수 있는 검증 결과를 자세히 설명합니다.
VALID-
모델 응답의 온프레미스 및 클레임은 정책 규칙과 논리적으로 일치하고, 수학적으로 정확할 수 있으며, 정책의 규칙을 사용하여 증명할 수 없습니다. 응답은 적용 가능한 모든 논리적 제약 조건을 올바르게 따르며 전제에서 결론에 이르는 추론은 타당합니다.
예: 정책에 "1년 이상 근무한 직원은 육아휴직을 받습니다"라는 단일 규칙이 포함되어 있고 모델이 "18개월 동안 근무했으므로 육아휴직을 받을 수 있습니다"라고 응답하는 경우 18개월이 1년 요구 사항을 초과하기 때문에이 규칙은 VALID가 됩니다.
참고
VALID는 온프레미스의 정책 변수 및VALID결과의 클레임을 통해 캡처된 입력 부분의 유효성만 보장합니다. 예를 들어 "가짜 의사 메모가 있어 숙제 배정을 늦게 제출할 수 있습니다"라는 문은 정책에 의사 메모가 가짜인지 여부를 캡처하는 변수가 없기 때문에 유효한 것으로 간주될 수 있습니다. 경우에 따라 자동 추론 검사는 이러한 명령문을 결과에 번역되지 않은 온프레미스 또는 클레임으로 표시할 수 있습니다. INVALID-
모델 응답의 주장이 정책 규칙과 모순되거나 위반됩니다. 응답에 정책의 공식 로직 제약 조건에 따라 수학적으로 잘못되었다고 증명될 수 있는 문이 포함되어 있습니다.
예: 정책에 "1년 이상 근무한 직원은 육아휴직을 받습니다"라고 명시되어 있고 모델이 "3개월 동안만 근무했더라도 육아휴직을 받을 수 있습니다"라고 응답하는 경우, 3개월이 1년 요구 사항을 충족하지 않기 때문에 INVALID가 될 수 있습니다.
SATISFIABLE-
주장이 정책 규칙에 대해 하나 이상의 가능한 해석과 일치하지만, 모든 관련 규칙을 다루지는 않을 수 있습니다. 즉, 응답이 정책과 모순되지는 않아도 적용 가능한 모든 제약 조건을 완전히 해소하지는 못할 수 있습니다.
예: 정책에 "직원이 육아휴직을 받으려면 1년 이상 근무해야 하며 HR-101 양식을 제출해야 합니다"라고 명시되어 있고 모델이 "여기에서 2년 동안 근무했으므로 육아휴직을 받을 수 있습니다"라고 응답하면 응답이 근무 요구 사항을 올바르게 반영했지만, 양식 요구 사항을 언급하지 않기 때문에(모순 없음) SATISFIABLE이 될 수 있습니다.
IMPOSSIBLE-
자동 추론은 주장에 대해 진술할 수 없습니다. 이는 온프레미스가 서로 충돌하거나 자동 추론 정책 자체 내에 충돌이 있는 경우에 발생할 수 있습니다.
예: 정책에 "모든 직원이 휴가를 받습니다" 및 "직원이 휴가를 받지 않습니다"와 같은 모순되는 규칙이 포함되어 있거나 테스트 질문에 "정규직 직원이고 파트 타임이기도 합니다"와 같은 불가능한 건물이 포함되어 있는 경우 논리적 기반이 결함이 있기 때문에 어떤 혜택을 받을 자격이 있습니까?"와 같은 결과가 불가할 수 있습니다.
TRANSLATION_AMBIGUOUS-
변환에서 모호성이 감지되었으며, 이 경우 검증을 계속하는 것이 바람직하지 않을 수 있습니다. 변환에 성공하려면 추가 컨텍스트 또는 후속 질문이 필요할 수 있습니다.
예: 테스트 질문이 "휴가를 떠날 수 있나요?"인 경우 '누구'를 언급하는지 지정하지 않거나 모델 응답에서 명확한 언급 없이 "사정에 따라 다릅니다"와 같은 모호한 문구를 사용하는 경우, 시스템이 모호한 언어를 공식 로직으로 안정적으로 변환할 수 없기 때문에 결과가 TRANSLATION_AMBIGUOUS가 될 수 있습니다.
TOO_COMPLEX-
입력에 자동 추론이 지연 시간 한도 내에서 처리하기에 너무 많은 정보가 포함되어 있습니다.
예: 테스트에 직원 혜택, 휴가 정책, 건강 보험, 퇴직 연금, 성과 검토에 대한 수백 가지 상호 연결된 주장이 포함된 매우 긴 모델 응답이 단일 응답으로 포함된 경우, 논리적 분석이 처리 시간 한도를 초과하기 때문에 결과는 TOO_COMPLEX가 될 수 있습니다.
NO_TRANSLATIONS-
입력 프롬프트의 일부 또는 전부가 로직으로 변환되지 않았음을 식별합니다. 이는 입력이 자동 추론 정책과 관련이 없거나 정책에 관련 입력을 모델링할 변수가 없는 경우에 발생할 수 있습니다. 자동 추론이 무엇도 변환할 수 없는 경우 단일
NO_TRANSLATIONS조사 결과를 얻을 수 있습니다. 검증의 일부가 변환되지 않은 경우에도 다른 조사 결과와 함께NO_TRANSLATIONS가 표시될 수 있습니다.예: HR 정책이 직원 혜택을 검증하도록 설계되었는데 테스트 질문에서 "오늘 날씨는 어떤가요?" 또는 "파스타는 어떻게 만드나요?"라고 묻는 경우, 콘텐츠가 정책의 도메인 및 변수와 전혀 관련이 없기 때문에 결과는 NO_TRANSLATIONS가 될 수 있습니다.