結論

このガイドでは、深層学習システムにおける不確実性の概念の概要を説明しました。配布環境と非配布環境の両方における自然言語処理 (NLP) の転移学習シナリオをカバーするように既存の文献を拡張する実験について説明しました。最後に、データサイエンティストが規制の厳しい業界での業務にこれらの概念をどのように適用できるかについてのロードマップとなるケーススタディを提供しました。

深層学習ネットワークの不確実性を定量化する場合、一般的に推奨されているのはディープアンサンブルで温度スケーリングを使用することです。温度スケーリングでは、入力データが分布しているときに、解釈可能な不確実性の推定値が得られます。そのため、温度スケーリングでは、ソフトマックスの不確実性を調整して過信にならないようにすることで、不確実性全体に対処します。検証データセットでモデルをトレーニングした後で、検証データセットで温度スケーリングを実行する必要があります。

現在、ディープアンサンブルでは、データが分布から外れた場合の不確実性の最新推定値が提供されています。トレーニングデータとは異なるデータが提示された場合、認識論的不確実性の推定値が高くなります。これは、ディープアンサンブルを構成する基礎となるモデルが多様性に優れているためです。ほとんどの場合、5 つのモデルで十分であることをお勧めします。

2 つのシナリオでは、ディープアンサンブルの代わりに MC ドロップアウトを検討することをお勧めします。1 つは、インフラストラクチャーに追加の負荷がかかるために複数のモデルをホストすることが懸念される場合と、転移学習 (つまり、事前学習済みの重みを使用する場合) です。複数のモデルのホスティング要件が懸念される場合、MC ドロップアウトはディープアンサンブルの有効な代替手段です。MC ドロップアウトをディープアンサンブルの代わりに使用する場合は、データの反復回数を増やすために計算待ち時間をいくらか犠牲にすることを覚悟しておく必要があります。適切な範囲として 30 ～ 100 回の反復を行うことをお勧めします。転移学習では、アンサンブルされた基本学習器間のばらつきが少なくなります (つまり、基礎となるモデルの重みは互いに似通るようになります)。転移学習、特に分布外のデータがある環境では、全体的な予測の不確実性が低くなるのはこのためです。そのため、転移学習の状況では、ディープアンサンブルを MC ドロップアウトで補うか置き換えることを検討してください。

ブラウザで JavaScript が無効になっているか、使用できません。

AWS ドキュメントを使用するには、JavaScript を有効にする必要があります。手順については、使用するブラウザのヘルプページを参照してください。

ドキュメントの表記規則

ケーススタディ

リファレンス