As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.
Conclusão
Este guia forneceu uma visão geral conceitual da incerteza em sistemas de aprendizado profundo. Ele descreveu experimentos que ampliam a literatura existente para cobrir o cenário de aprendizagem por transferência para processamento de linguagem natural (PLN) em ambientes de distribuição e fora da distribuição. Por fim, forneceu um estudo de caso que serve como um roteiro de como os cientistas de dados podem aplicar esses conceitos em seu trabalho em um setor altamente regulamentado.
Ao quantificar a incerteza em redes de aprendizado profundo, nossa recomendação geral é usar a escala de temperatura com conjuntos profundos. A escala de temperatura fornece estimativas de incerteza interpretáveis quando os dados recebidos estão distribuídos. Portanto, a escala de temperatura aborda a incerteza total ajustando as incertezas softmax para que elas não sejam tão confiantes demais. A escala de temperatura deve ser realizada no conjunto de dados de validação, após o modelo ter sido treinado no conjunto de dados de validação.
Atualmente, conjuntos profundos fornecem estimativas de incerteza de última geração quando os dados estão fora de distribuição. Eles fornecem estimativas de incerteza epistêmica mais altas quando apresentados a dados diferentes dos dados de treinamento. Isso se deve à força da diversidade dos modelos subjacentes que compõem o conjunto profundo. Sugerimos que cinco modelos sejam suficientes na maioria das situações.
Em dois cenários, recomendamos que você considere a integração de MC como uma alternativa aos conjuntos profundos: quando hospedar vários modelos é uma preocupação devido à carga adicional na infraestrutura e no aprendizado por transferência (ou seja, ao usar pesos pré-treinados). Quando os requisitos de hospedagem para vários modelos são uma preocupação, a integração de MC é uma alternativa válida aos conjuntos profundos. Se você estiver usando a integração de MC como substituto para conjuntos profundos, você deve estar preparado para sacrificar alguma latência computacional em prol de mais iterações nos dados. Recomendamos 30 a 100 iterações como um intervalo apropriado. No aprendizado por transferência, haverá menos diversificação entre os alunos da base agrupada (ou seja, os pesos do modelo subjacente serão mais semelhantes entre si). É por isso que a incerteza preditiva total pode ser baixa no aprendizado por transferência, especialmente em ambientes com dados fora da distribuição. Como resultado, na situação de aprendizado por transferência, considere complementar ou substituir conjuntos profundos por integração de MC.