결정론적 과신

Gal과 Ghahramani(2016)는 소프트맥스 확률을 신뢰 점수로 해석하지 말라고 경고했습니다. 그들은 소프트맥스 활성화 함수를 통해 점 추정치를 전달하면 큰 확률을 산출하는 반면, 소프트맥스를 통해 추정치 분포를 전달하면 더 합리적이고 낮은 신뢰 점수를 산출한다는 것을 경험적으로 보여주었습니다. 이러한 결정론적 과신은 단일 예측 Mathematical formula showing conditional probability of y given x. 이 아니라 예측 분포 Mathematical equation showing y as a function of x, represented as y = f(x). 를 학습하도록 유도하는 요인들에서 일부 비롯됩니다.

공식적으로 결정론적 과신 추측은 다음과 같은 불평등을 통해 자세히 설명할 수 있습니다.

Mathematical function H with parentheses, representing a hash function. 연산자는 섀넌의 엔트로피를 나타냅니다. 이 엔트로피는 입력 벡터의 요소가 더 비슷할 때 더 커지므로 균일 벡터의 경우 가장 큽니다. 따라서 이전 방정식에서는 베이지안 모델 Mathematical formula showing P(Bayesian) with superscript and subscript elements. 의 예상 소프트맥스 확률 벡터(분포의 평균)의 불확실성이 결정론적 모델 Mathematical equation showing deterministic probability as uppercase P with "deterministic" superscript. 의(단일 점 추정치를 생성하는 모델의) 소프트맥스 확률 벡터보다 크거나 같을 것이라고 섀넌의 엔트로피 Mathematical function H with parentheses, representing a hash function. 측면에서 설명합니다. 이전 방정식의 불평등을 증명하고 입증하려면 부록 A를 참조하세요.

결정론적 과신은 딥 러닝 모델의 신뢰성과 안전성에 영향을 미칩니다. 모델이 조립 라인의 품목에 결함이 없다고 자신 있게 예측하지만 실제로는 결함이 있어 품목이 품질 검토 프로세스를 건너뛰게 되는 경우를 생각해 보세요. 그러면 결함이 있는 이 품목이 더 큰 제품에 내장되어 무결성이 손상될 수 있습니다. 기껏해야 결함이 발견되면 비효율이 발생하고, 더 나쁜 경우에는 결함이 발견되지 않으면 제품이 완전히 고장나는 결과를 초래합니다. 따라서 프로젝트의 성공과 딥 러닝의 미래를 위해서는 결정론적 과신 문제를 이해하고 극복하는 것이 중요합니다.

불확실성 측정의 품질을 개선하고 과신을 극복하는 세 가지 방법은 다음과 같습니다.

온도 스케일링을 통한 사후 소프트맥스 확률 보정(Guo 외 2017)
MC 드롭아웃을 통한 베이지안 추론 근사화 (즉, 추론 중에 드롭아웃을 계속 유지) (Gal과 Ghahramani 2016)
심층 앙상블을 통한 베이지안 추론 근사화(Lakshminarayanan, Pritzel과 Blundell 2017)

결정론적 과신은 분포 내 데이터와 분포 외 데이터 모두에 적용되는 이론입니다. ¹ 다음 섹션에서는 정량화 가능한 총 불확실성 ^2를 인식적(모형) 불확실성과 예측적(데이터) 불확실성이라는 두 가지 구성 요소로 나누는 방법을 설명합니다(Kendall과 Gal 2017).

참고

¹ 특히 수정된 선형 단위(ReLU) 과신은 데이터가 의사 결정 경계에서 멀리 떨어져 있을 때, 특히 데이터가 분포를 벗어날 때 과신을 유발하는 주요 원인으로 최근 밝혀졌습니다(Hein, Andriushchenko와 Bitterwolf 2019). ReLU의 과신에 맞서기 위해 제안된 방법 중 하나는 우연한 불확실성에 대한 정보 이론적 개념을 모델링하는 것입니다(Gal과 Ghahramani 2016, Hein, Andriushchenko와 Bitterwolf 2019, van Amersfoort 외 2020). 이에 대해서는 이 가이드의 뒷부분에서 설명합니다.

² 일부 필드는 전체 불확실성을 정량화할 수 있는 불확실성과 정량화할 수 없는 불확실성으로 분해합니다. 이 안내서의 설명은 정량화 가능한 불확실성에만 국한되므로 총 불확실성과 총 정량화 가능 불확실성이라는 용어는 같은 의미로 사용됩니다.

javascript가 브라우저에서 비활성화되거나 사용이 불가합니다.

AWS 설명서를 사용하려면 Javascript가 활성화되어야 합니다. 지침을 보려면 브라우저의 도움말 페이지를 참조하십시오.

문서 규칙

소프트맥스 확률을 넘어서

불확실성 분해