기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.
결정론적 과신
Gal과 Ghahramani(2016)는 소프트맥스 확률을 신뢰 점수로 해석하지 말라고 경고했습니다. 그들은 소프트맥스 활성화 함수를 통해 점 추정치를 전달하면 큰 확률을 산출하는 반면, 소프트맥스를 통해 추정치 분포를 전달하면 더 합리적이고 낮은 신뢰 점수를 산출한다는 것을 경험적으로 보여주었습니다. 이러한 결정론적 과신은 단일 예측
이 아니라 예측 분포
를 학습하도록 유도하는 요인들에서 일부 비롯됩니다.
공식적으로 결정론적 과신 추측은 다음과 같은 불평등을 통해 자세히 설명할 수 있습니다.
연산자는 섀넌의 엔트로피를 나타냅니다. 이 엔트로피는 입력 벡터의 요소가 더 비슷할 때 더 커지므로 균일 벡터의 경우 가장 큽니다. 따라서 이전 방정식에서는 베이지안 모델
의 예상 소프트맥스 확률 벡터(분포의 평균)의 불확실성이 결정론적 모델
의(단일 점 추정치를 생성하는 모델의) 소프트맥스 확률 벡터보다 크거나 같을 것이라고 섀넌의 엔트로피
측면에서 설명합니다. 이전 방정식의 불평등을 증명하고 입증하려면 부록 A를 참조하세요.
결정론적 과신은 딥 러닝 모델의 신뢰성과 안전성에 영향을 미칩니다. 모델이 조립 라인의 품목에 결함이 없다고 자신 있게 예측하지만 실제로는 결함이 있어 품목이 품질 검토 프로세스를 건너뛰게 되는 경우를 생각해 보세요. 그러면 결함이 있는 이 품목이 더 큰 제품에 내장되어 무결성이 손상될 수 있습니다. 기껏해야 결함이 발견되면 비효율이 발생하고, 더 나쁜 경우에는 결함이 발견되지 않으면 제품이 완전히 고장나는 결과를 초래합니다. 따라서 프로젝트의 성공과 딥 러닝의 미래를 위해서는 결정론적 과신 문제를 이해하고 극복하는 것이 중요합니다.
불확실성 측정의 품질을 개선하고 과신을 극복하는 세 가지 방법은 다음과 같습니다.
-
온도 스케일링을 통한 사후 소프트맥스 확률 보정(Guo 외 2017)
-
MC 드롭아웃을 통한 베이지안 추론 근사화 (즉, 추론 중에 드롭아웃을 계속 유지) (Gal과 Ghahramani 2016)
-
심층 앙상블을 통한 베이지안 추론 근사화(Lakshminarayanan, Pritzel과 Blundell 2017)
결정론적 과신은 분포 내 데이터와 분포 외 데이터 모두에 적용되는 이론입니다. 1 다음 섹션에서는 정량화 가능한 총 불확실성 2를 인식적(모형) 불확실성과 예측적(데이터) 불확실성이라는 두 가지 구성 요소로 나누는 방법을 설명합니다(Kendall과 Gal 2017).
참고
1 특히 수정된 선형 단위(ReLU) 과신은 데이터가 의사 결정 경계에서 멀리 떨어져 있을 때, 특히 데이터가 분포를 벗어날 때 과신을 유발하는 주요 원인으로 최근 밝혀졌습니다(Hein, Andriushchenko와 Bitterwolf 2019). ReLU의 과신에 맞서기 위해 제안된 방법 중 하나는 우연한 불확실성에 대한 정보 이론적 개념을 모델링하는 것입니다(Gal과 Ghahramani 2016, Hein, Andriushchenko와 Bitterwolf 2019, van Amersfoort 외 2020). 이에 대해서는 이 가이드의 뒷부분에서 설명합니다.
2 일부 필드는 전체 불확실성을 정량화할 수 있는 불확실성과 정량화할 수 없는 불확실성으로 분해합니다. 이 안내서의 설명은 정량화 가능한 불확실성에만 국한되므로 총 불확실성과 총 정량화 가능 불확실성이라는 용어는 같은 의미로 사용됩니다.