Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.
Fase 1: Esegui EDA e sviluppa il modello iniziale
In questa fase, i data scientist eseguono l'analisi esplorativa dei dati (EDA) per comprendere il caso d'uso e i dati del machine learning. Quindi sviluppano i modelli ML (ad esempio modelli di classificazione e regressione) per risolvere il problema in un determinato caso d'uso. Durante lo sviluppo del modello, il data scientist fa spesso ipotesi su input e output, come i formati dei dati, il ciclo di vita dei dati e le posizioni degli output intermedi. Queste ipotesi devono essere documentate in modo che possano essere utilizzate per la verifica durante i test unitari della fase 2.
Sebbene questa fase si concentri sullo sviluppo di modelli, i data scientist devono spesso scrivere una quantità minima di codice di supporto per la preelaborazione, la formazione, la valutazione e l'inferenza. Il data scientist dovrebbe essere in grado di eseguire questo codice nell'ambiente di sviluppo. Consigliamo inoltre di fornire argomenti di runtime opzionali in modo che questo codice di supporto possa essere configurato dinamicamente per l'esecuzione in altri ambienti senza ampie modifiche manuali. Ciò accelererà l'integrazione tra il modello e la pipeline nei passaggi 2 e 3. Ad esempio, il codice per la lettura dei dati grezzi deve essere incapsulato in funzioni in modo che i dati possano essere preelaborati in modo coerente.
Ti consigliamo di iniziare con un framework come scikit-learn