Perfezionamento dei dati durante la formazione con Amazon SageMaker smart sifting

SageMaker lo smart sifting è una funzionalità di SageMaker formazione che aiuta a migliorare l'efficienza dei set di dati di formazione e a ridurre i tempi e i costi totali della formazione.

I moderni modelli di deep learning, come i modelli di linguaggio di grandi dimensioni (LLMs) o i modelli di trasformazione della visione, spesso richiedono enormi set di dati per ottenere una precisione accettabile. Ad esempio, per la convergenza LLMs spesso sono necessari trilioni di token o petabyte di dati. Le dimensioni crescenti dei set di dati di addestramento, insieme alle dimensioni dei state-of-the-art modelli, possono aumentare i tempi di elaborazione e i costi dell'addestramento dei modelli.

Invariabilmente, i campioni in un set di dati non contribuiscono in modo uguale al processo di apprendimento durante l’addestramento dei modelli. Una parte significativa delle risorse di calcolo fornite durante l’addestramento potrebbe essere impiegata per l’elaborazione di campioni semplici che non contribuiscono in modo sostanziale alla precisione complessiva di un modello. Idealmente, i set di dati di addestramento dovrebbero includere solo campioni che migliorano effettivamente la convergenza di un modello. Il filtraggio dei dati meno utili può ridurre i tempi di addestramento e i costi di calcolo. Tuttavia, identificare i dati meno utili può essere difficile e rischioso. È difficile a livello pratico identificare quali campioni siano meno informativi prima dell’addestramento e la precisione di un modello può risentirne se vengono esclusi i campioni sbagliati o un numero eccessivo di campioni.

Il setacciamento intelligente dei dati con Amazon SageMaker AI può aiutare a ridurre i tempi e i costi di formazione migliorando l'efficienza dei dati. L'algoritmo SageMaker smart sifting valuta il valore di perdita di ogni dato durante la fase di caricamento dei dati di un processo di formazione ed esclude i campioni che sono meno informativi per il modello. Utilizzando dati perfezionati per l’addestramento, si riducono i tempi e i costi totali dell’addestramento dei modelli, eliminando inutili passaggi avanti e indietro su dati non migliorativi. Pertanto, l’impatto sulla precisione del modello è minimo o nullo.

SageMaker smart sifting è disponibile tramite SageMaker Training Deep Learning Containers (DLCs) e supporta PyTorch carichi di lavoro tramite. PyTorch DataLoader Bastano poche righe di modifica del codice per implementare lo SageMaker smart sifting e non è necessario modificare i flussi di lavoro di formazione o elaborazione dei dati esistenti.

Argomenti

Avvertimento JavaScript è disabilitato o non è disponibile nel tuo browser.

Per usare la documentazione AWS, JavaScript deve essere abilitato. Consulta le pagine della guida del browser per le istruzioni.

Convenzioni dei documenti

Best practice per l'ottimizzazione iperparametri

Come funziona SageMaker lo smart sifting