Conclusioni

Questa guida ha fornito una panoramica concettuale dell'incertezza nei sistemi di deep learning. Ha descritto esperimenti che estendono la letteratura esistente allo scenario del transfer learning per l'elaborazione del linguaggio naturale (NLP) sia in ambito di distribuzione che in contesti. out-of-distribution Infine, ha fornito un caso di studio che funge da tabella di marcia su come i data scientist possono applicare questi concetti nel loro lavoro in un settore altamente regolamentato.

Per quantificare l'incertezza nelle reti di deep learning, la nostra raccomandazione generale è di utilizzare la scala della temperatura con insiemi profondi. La scalabilità della temperatura fornisce stime di incertezza interpretabili quando i dati in entrata sono in distribuzione. Pertanto, il ridimensionamento della temperatura risolve l'incertezza totale regolando le incertezze softmax in modo che non siano troppo sicure. La scalatura della temperatura deve essere eseguita sul set di dati di convalida, dopo che il modello è stato addestrato sul set di dati di convalida.

Gli insiemi profondi attualmente forniscono state-of-the-art stime dell'incertezza quando i dati non sono distribuiti. Forniscono stime di incertezza epistemica più elevate quando vengono presentati dati diversi dai dati di formazione. Ciò è dovuto alla forza della diversità dei modelli sottostanti che compongono l'insieme profondo. Suggeriamo che cinque modelli siano sufficienti nella maggior parte delle situazioni.

In due scenari, si consiglia di considerare MC dropout come alternativa ai deep ensemble: quando si ospitano più modelli a causa del carico aggiuntivo sull'infrastruttura e in caso di transfer learning (ovvero quando si utilizzano pesi preaddestrati). Quando i requisiti di hosting per più modelli sono un problema, MC dropout è una valida alternativa ai deep ensemble. Se utilizzate MC dropout in sostituzione degli ensemble profondi, dovreste essere pronti a sacrificare una certa latenza computazionale a favore di ulteriori iterazioni dei dati. Consigliamo 30-100 iterazioni come intervallo appropriato. Nell'apprendimento basato sul trasferimento, vi sarà una minore diversificazione tra gli studenti di base raggruppati (ossia, i pesi dei modelli sottostanti saranno più simili tra loro). Questo è il motivo per cui l'incertezza predittiva totale può essere bassa nell'apprendimento basato sul trasferimento, specialmente in ambienti con dati. out-of-distribution Di conseguenza, nella situazione del transfer learning, prendi in considerazione l'idea di integrare o sostituire gli ensemble profondi con MC dropout.

Avvertimento JavaScript è disabilitato o non è disponibile nel tuo browser.

Per usare la documentazione AWS, JavaScript deve essere abilitato. Consulta le pagine della guida del browser per le istruzioni.

Convenzioni dei documenti

Caso di studio

Riferimenti