結論 - AWS 方案指引

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

結論

本指南提供深度學習系統中不確定性的概念概觀。其中描述了延伸現有文獻的實驗,以涵蓋分發內和out-of-distribution設定中自然語言處理 (NLP) 的遷移學習案例。最後,它提供了一個案例研究,作為資料科學家如何在高度監管的產業工作中將這些概念套用的藍圖。

量化深度學習網路中的不確定性時,我們的一般建議是使用溫度擴展搭配深度集合。溫度擴展可在傳入資料分佈時提供可解釋的不確定性預估。因此,溫度擴展會透過調整 softmax 不確定性來解決總不確定性,使其不會太過自信。在驗證資料集上訓練模型之後,應該對驗證資料集執行溫度擴展。

深度集合目前提供當資料停止分發時state-of-the-art不確定性預估。當顯示與訓練資料不同的資料時,它們會提供較高的流行不確定性預估值。這是因為構成深度集合的基礎模型的多樣性強度。我們建議在大多數情況下,五個模型就足夠了。

在兩種情況下,我們建議您將 MC 退出視為深度整合的替代方案:託管多個模型時,由於基礎設施的額外負載和遷移學習 (即使用預先訓練的權重),這是考量的問題。當需要考慮多個模型的託管需求時,MC 退出是深度集合的有效替代方案。如果您使用 MC 退出取代深度集合,您應該準備好犧牲一些運算延遲,以便透過資料進行更多反覆運算。我們建議使用 30-100 次反覆運算作為適當的範圍。在遷移學習中,集合基礎學習者之間的分散程度將減少 (也就是說,基礎模型權重將彼此更相似)。這就是為什麼總預測不確定性在傳輸學習中可能很低的原因,特別是在out-of-distribution資料的設定中。因此,在遷移學習情況下,請考慮使用 MC 退出補充或取代深度集合。