기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.
딥 앙상블
앙상블링의 기본 개념은 모델로 구성된 위원회를 구성하면 서로 다른 강점이 서로를 보완하고 많은 약점이 서로를 상쇄한다는 것입니다. 이것이 18세기 프랑스 수학자 Nicolas de Condorcet의 유명한 배심원 정리(Estlund 1994)의 기본 원리입니다. 각 배심원이 실제 판결에 도달할 확률이 50% 이상이고 배심원이 독립적으로 결정을 내리면 배심원 수가 늘어날수록 올바른 집단 평결이 나올 확률은 100%로 증가합니다.
최근의 역사를 살펴보면, ML 모델을 합치는 프로세스에는 두 단계, 즉 다양한 모델을 학습시키고 예측을 결합하는 단계가 포함됩니다. 다양한 기능 하위 집합, 학습 데이터, 교육 체제 및 모델 아키텍처를 사용하여 다양한 모델을 얻을 수 있습니다. 평균을 구하거나, 예측을 기반으로 새 모델을 학습시키거나(모델 스태킹), 특정 상황에 맞게 조정할 수 있는 사용자 지정 투표 규칙을 사용하여 예측을 결합할 수 있습니다(이러한 예는 사례 연구 참조). 머신 러닝의 초기 앙상블링 기법 중 두 가지는 부스팅(Freund와 Schapire 1996)과 랜덤 포레스트(Breiman 2001)입니다. 이는 두 가지 상호 보완적인 접근 방식입니다.
부스팅의 기본 개념은 취약한 학습자를 순차적으로 교육시키는 것입니다. 이후의 각 모델은 데이터의 하위 집합에 초점을 맞추고 이전에 교육 중에 관찰된 오류로 인해 성능이 향상됩니다. 이러한 방식으로 이전에는 볼 수 없었던 새로운 학습 세트를 기반으로 각 순차 트리를 교육합니다. 교육이 끝나면 취약한 학습자의 예측 평균을 구합니다.
랜덤 포레스트의 기본 개념은 부트스트랩된 데이터 샘플을 대상으로 무작위 특징 하위 집합을 선택하여 가지치기 없이 여러 의사 결정 트리 모델을 학습시키는 것입니다. Breiman은 일반화 오차의 상한값이 개별 트리의 수와 역관계에 따라 결정된다는 것을 보여주었습니다.
딥 러닝에서 드롭아웃은 정규화 기법으로 설계되며 여러 모델의 앙상블로 해석될 수도 있습니다(Srivastava 외 2014). 드롭아웃을 사용하여 불확실성을 효과적으로 정량화할 수 있다는 사실을 깨닫자(Gal과 Ghahramani 2016), 이 동일한 목적을 위해 딥 러닝 모델의 앙상블이 심화 연구되었습니다. 딥 앙상블은 회귀 및 분류 분야의 다양한 데이터 세트와 작업에서 불확실성을 정량화하는 데 MC 드롭아웃을 능가하는 것으로 나타났습니다(Lakshminarayanan, Pritzel와 Blundell 2017). 또한 딥 앙상블은 분포를 벗어난 환경(예: 데이터의 변동이나 교육 중에 볼 수 없었던 새로운 클래스의 도입)에서도 최첨단의 성능을 발휘하는 것으로 나타났습니다. MC 드롭아웃 및 기타 방법보다 성능이 뛰어납니다(Ovadia 외 2019). 분포 외 환경에서 딥 앙상블이 좋은 성과를 내는 이유는 가중치 값과 손실 궤적이 서로 매우 다르기 때문에 다양한 예측으로 이어지기 때문입니다 (Fort, Hu와 Lakshminarayanan 2019).
신경망에는 교육 데이터 포인트보다 수억 개 더 많은 파라미터가 있는 경우가 많습니다. 즉, 데이터 생성 함수의 근사치를 충분히 계산할 수 있는 다양한 함수가 여기에 포함됩니다. 따라서 모두 양호하지만 서로 다른 기능에 해당하는 손실이 적은 영역과 영역이 많이 있습니다. Bayesian 관점에서 볼 때(Wilson과 Izmailov 2020), 이러한 후보 함수는 실제 기본 함수를 식별하는 다양한 가설에 해당합니다. 따라서 더 많은 후보 함수를 조합할수록 진실을 표현할 가능성이 높아지므로 추론을 분포 밖으로 확장할 때 신뢰도가 낮은 강력한 모형을 얻을 수 있습니다. 앙상블은 기본적으로 손실이 적은 멀리 떨어진 여러 골짜기에 자리 잡고 있어 다양한 함수의 분포를 산출합니다(Fort, Hu와 Lakshminarayanan 2019). 반면, MC 드롭아웃이나 대체 Bayesian 접근법과 같은 대체 방법은 한 계곡에만 집중하여 유사한 함수의 분포를 산출할 수 있습니다. 따라서 앙상블에서 독립적으로 교육된 신경망 몇 개((Lakshminarayanan, Pritzel과 Blundell 2017)와 (Ovadia 외 2019)에서는 5개 모델이면 충분하다고 제안함)만 사용해도 실제 한계 가능도(예측 분포)를 더 정확하게 복구할 수 있으며, 이는 단일 저손실 영역을 중심으로 샘플링하는 것과 비교할 때 많은 중복성을 수반하기 때문입니다(기능이 모두 유사하기 때문임).
요약하면 정확도를 높이고 불확실성의 신뢰성을 극대화하려면 모델을 앙상블해야 합니다.