Conclusion

Ce guide fournit un aperçu conceptuel de l'incertitude dans les systèmes d'apprentissage profond. Il a décrit des expériences qui étendent la littérature existante pour couvrir le scénario d'apprentissage par transfert pour le traitement du langage naturel (NLP) à la fois en distribution et out-of-distribution en contexte. Enfin, il a fourni une étude de cas qui sert de feuille de route expliquant comment les scientifiques des données peuvent appliquer ces concepts dans leur travail dans un secteur hautement réglementé.

Lors de la quantification de l'incertitude dans les réseaux d'apprentissage profond, notre recommandation générale est d'utiliser la mise à l'échelle de la température avec des ensembles profonds. La mise à l'échelle des températures fournit des estimations d'incertitude interprétables lorsque les données entrantes sont en cours de distribution. Par conséquent, la mise à l'échelle de la température tient compte de l'incertitude totale en ajustant les incertitudes softmax afin qu'elles ne soient pas trop confiantes. La mise à l'échelle de la température doit être effectuée sur l'ensemble de données de validation, une fois que le modèle a été entraîné sur l'ensemble de données de validation.

Les ensembles profonds fournissent actuellement des state-of-the-art estimations de l'incertitude lorsque les données sont hors distribution. Ils fournissent des estimations d'incertitude épistémique plus élevées lorsqu'ils sont présentés avec des données différentes des données d'entraînement. Cela est dû à la force de la diversité des modèles sous-jacents qui constituent l'ensemble profond. Nous suggérons que cinq modèles suffiront dans la plupart des cas.

Dans deux scénarios, nous vous recommandons d'envisager l'abandon de MC comme alternative aux ensembles profonds : lorsque l'hébergement de plusieurs modèles pose problème en raison d'une charge supplémentaire sur l'infrastructure, et dans le cas de l'apprentissage par transfert (c'est-à-dire lorsque vous utilisez des poids préentraînés). Lorsque les exigences d'hébergement de plusieurs modèles sont préoccupantes, MC dropout est une alternative valable aux ensembles profonds. Si vous utilisez MC dropout en remplacement d'ensembles profonds, vous devez être prêt à sacrifier une certaine latence de calcul au profit d'un plus grand nombre d'itérations dans les données. Nous recommandons 30 à 100 itérations comme plage appropriée. Dans le cadre de l'apprentissage par transfert, il y aura moins de diversification parmi les apprenants de base regroupés (c'est-à-dire que les pondérations sous-jacentes du modèle seront plus similaires les unes aux autres). C'est pourquoi l'incertitude prédictive totale peut être faible dans l'apprentissage par transfert, en particulier dans les environnements contenant out-of-distribution des données. Par conséquent, dans le cas de l'apprentissage par transfert, envisagez de compléter ou de remplacer les ensembles profonds par des MC abandonnant leurs études.

Avertissement JavaScript est désactivé ou n'est pas disponible dans votre navigateur.

Pour que vous puissiez utiliser la documentation AWS, Javascript doit être activé. Vous trouverez des instructions sur les pages d'aide de votre navigateur.

Conventions de rédaction

Étude de cas

Références