Fase 1: Esegui EDA e sviluppa il modello iniziale

In questa fase, i data scientist eseguono l'analisi esplorativa dei dati (EDA) per comprendere il caso d'uso e i dati del machine learning. Quindi sviluppano i modelli ML (ad esempio modelli di classificazione e regressione) per risolvere il problema in un determinato caso d'uso. Durante lo sviluppo del modello, il data scientist fa spesso ipotesi su input e output, come i formati dei dati, il ciclo di vita dei dati e le posizioni degli output intermedi. Queste ipotesi devono essere documentate in modo che possano essere utilizzate per la verifica durante i test unitari della fase 2.

Sebbene questa fase si concentri sullo sviluppo di modelli, i data scientist devono spesso scrivere una quantità minima di codice di supporto per la preelaborazione, la formazione, la valutazione e l'inferenza. Il data scientist dovrebbe essere in grado di eseguire questo codice nell'ambiente di sviluppo. Consigliamo inoltre di fornire argomenti di runtime opzionali in modo che questo codice di supporto possa essere configurato dinamicamente per l'esecuzione in altri ambienti senza ampie modifiche manuali. Ciò accelererà l'integrazione tra il modello e la pipeline nei passaggi 2 e 3. Ad esempio, il codice per la lettura dei dati grezzi deve essere incapsulato in funzioni in modo che i dati possano essere preelaborati in modo coerente.

Ti consigliamo di iniziare con un framework come scikit-learn,, XGBoost PyTorch, Keras o di sviluppare il modello ML e il relativo TensorFlowcodice di supporto. Ad esempio, scikit-learn è una libreria ML gratuita scritta in Python. Fornisce una convenzione API uniforme per gli oggetti e include quattro oggetti principali, estimatore, predittore, trasformatore e modello, che coprono trasformazioni leggere dei dati, supportano la progettazione di etichette e funzionalità e incapsulano le fasi di preelaborazione e modellazione. Questi oggetti aiutano a evitare la proliferazione del codice standard e impediscono la fuoriuscita di dati di convalida e test nel set di dati di addestramento. Allo stesso modo, ogni framework ML ha la propria implementazione di artefatti ML chiave e ti consigliamo di rispettare le convenzioni API del framework selezionato quando sviluppi modelli ML.

Avvertimento JavaScript è disabilitato o non è disponibile nel tuo browser.

Per usare la documentazione AWS, JavaScript deve essere abilitato. Consulta le pagine della guida del browser per le istruzioni.

Convenzioni dei documenti

Introduzione