Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.
Tutorial: crea un flusso di lavoro di apprendimento end-to-end automatico in Canvas SageMaker
Questo tutorial ti guida attraverso un flusso di lavoro di end-to-end machine learning (ML) utilizzando Amazon SageMaker Canvas. SageMaker Canvas è un'interfaccia visiva senza codice che puoi utilizzare per preparare dati e addestrare e distribuire modelli ML. Per il tutorial, utilizzi un set di dati sui taxi di New York per addestrare un modello che prevede l’importo della tariffa per un determinato viaggio. Acquisisci esperienza pratica con attività di machine learning chiave come la valutazione della qualità dei dati e la risoluzione dei problemi relativi ai dati, la suddivisione dei dati in set di formazione e test, la formazione e la valutazione dei modelli, la creazione di previsioni e l'implementazione del modello addestrato, il tutto all'interno dell'applicazione Canvas. SageMaker
Importante
Questo tutorial presuppone che tu o il tuo amministratore abbiate creato un account. AWS Per informazioni sulla creazione di un AWS account, vedi Guida introduttiva: sei un AWS utente per la prima volta?
Configurazione
Un dominio Amazon SageMaker AI è un luogo centralizzato per gestire tutti gli ambienti e le risorse Amazon SageMaker AI. Un dominio funge da confine virtuale per il tuo lavoro nell' SageMaker intelligenza artificiale, fornendo isolamento e controllo degli accessi per le tue risorse di machine learning (ML).
Per iniziare a usare Amazon SageMaker Canvas, tu o il tuo amministratore dovete accedere alla console di SageMaker intelligenza artificiale e creare un dominio Amazon SageMaker AI. Un dominio dispone delle risorse di archiviazione e calcolo necessarie per eseguire SageMaker Canvas. All'interno del dominio, configuri SageMaker Canvas per accedere ai bucket Amazon S3 e distribuire modelli. Utilizza la seguente procedura per configurare un dominio rapido e creare un' SageMaker applicazione Canvas.
Per configurare SageMaker Canvas
-
Vai alla console SageMaker AI
. -
Nella barra di navigazione a sinistra, scegli SageMaker Canvas.
-
Scegli Crea un dominio SageMaker AI.
-
Scegliere Set up (Configura). La configurazione del dominio può richiedere alcuni minuti.
La procedura precedente utilizza una configurazione rapida del dominio, ma è possibile eseguire una configurazione avanzata per controllare tutti gli aspetti della configurazione dell’account, tra cui autorizzazioni, integrazioni e crittografia. Per ulteriori informazioni sulla configurazione personalizzata, consulta Usa una configurazione personalizzata per Amazon SageMaker AI.
Per impostazione predefinita, la configurazione rapida del dominio fornisce le autorizzazioni per implementare i modelli. Se le autorizzazioni personalizzate sono configurate tramite un dominio standard e devi concedere manualmente le autorizzazioni di implementazione dei modelli, consulta Gestione delle autorizzazioni.
Creazione di flussi
Amazon SageMaker Canvas è una piattaforma di apprendimento automatico che consente agli utenti di creare, addestrare e distribuire modelli di apprendimento automatico senza una vasta esperienza di programmazione o apprendimento automatico. Una delle potenti funzionalità di Amazon SageMaker Canvas è la capacità di importare e lavorare con set di dati di grandi dimensioni da varie fonti, come Amazon S3.
Per questo tutorial, utilizziamo il set di dati dei taxi di New York per prevedere l'importo della tariffa per ogni viaggio utilizzando un flusso di dati Amazon SageMaker Canvas Data Wrangler. La procedura seguente descrive le fasi per importare una versione modificata del set di dati dei taxi di New York in un flusso di dati.
Nota
Per migliorare l'elaborazione, SageMaker Canvas importa un campione dei tuoi dati. Per impostazione predefinita, estrae in modo casuale un campione di 50.000 righe.
Per importare il set di dati dei taxi di New York
-
Dalla home page di SageMaker Canvas, scegli Data Wrangler.
-
Scegli Import data (Importa dati).
-
Seleziona Tabulare.
-
Scegli la casella degli strumenti accanto all’origine dati.
-
Seleziona Amazon S3 dall’elenco a discesa.
-
In Inserisci endpoint S3, specifica
s3://.amazon-sagemaker-data-wrangler-documentation-artifacts/canvas-single-file-nyc-taxi-dataset.csv -
Scegli Vai.
-
Seleziona la casella di controllo accanto al set di dati.
-
Scegli Anteprima dati.
-
Scegli Save (Salva).
Report Qualità e informazioni approfondite sui dati 1 (campione)
Dopo aver importato un set di dati in Amazon SageMaker Canvas, puoi generare un rapporto Data Quality and Insights su un campione di dati. Utilizzalo per estrarre informazioni preziose dal set di dati. Il report:
-
Valuta la completezza del set di dati
-
Identifica i valori mancanti e anomali
Può identificare altri potenziali problemi che potrebbero influire sulle prestazioni del modello. Valuta inoltre il potere predittivo di ciascuna funzionalità rispetto alla variabile di destinazione, consentendo di identificare le funzionalità più rilevanti per il problema che stai cercando di risolvere.
Possiamo utilizzare le informazioni approfondite del report per prevedere l’importo della tariffa. Specificando la colonna “Importo della tariffa” come variabile di destinazione e selezionando Regressione come tipo di problema, il report analizzerà l’idoneità del set di dati per la previsione di valori continui come i prezzi delle tariffe. Il report dovrebbe indicare che funzionalità come year e hour_of_day hanno un basso potere predittivo per la variabile di destinazione scelta, fornendoti informazioni preziose.
Utilizza la procedura seguente per ottenere un report Qualità e informazioni approfondite sui dati su un campione di 50.000 righe del set di dati.
Per ottenere un report su un campione
-
Scegli Ottieni informazioni approfondite sui dati dalla finestra pop-up accanto al nodo Tipi di dati.
-
In Nome dell’analisi, specifica un nome per il report.
-
In Tipo di problema, scegli Regressione.
-
In Colonna di destinazione, scegli Importo della tariffa.
-
Scegli Create (Crea).
Puoi esaminare il report Qualità e informazioni approfondite sui dati basato su un campione di dati. Il report indica che le funzionalità year e hour_of_day non prevedono la variabile di destinazione, Importo della tariffa.
Nella parte superiore della navigazione, scegli il nome del flusso di dati per visualizzarlo di nuovo.
Eliminazione di anno e ora del giorno
Stiamo utilizzando le informazioni approfondite del report per eliminare le colonne year e hour_of_day per ottimizzare lo spazio delle funzionalità e migliorare potenzialmente le prestazioni del modello.
Amazon SageMaker Canvas offre un'interfaccia e strumenti intuitivi per eseguire tali trasformazioni di dati.
Utilizza la seguente procedura per eliminare le colonne anno e ora_giorno dal set di dati dei taxi di New York utilizzando lo strumento Data Wrangler in Amazon Canvas. SageMaker
-
Scegli l’icona accanto a Tipi di dati.
-
Scegli Aggiungi fase.
-
Nella barra di ricerca, scrivi Elimina colonna.
-
Scegli Gestisci colonne.
-
Scegli Elimina colonna.
-
In Colonne da eliminare, seleziona le colonne year e hour_of_day.
-
Scegli Anteprima per vedere in che modo questa trasformazione modifica i dati.
-
Scegliere Aggiungi.
Puoi utilizzare la procedura precedente come base per aggiungere tutte le altre trasformazioni in Canvas. SageMaker
Qualità e informazioni approfondite sui dati 2 (set di dati completo)
Nel report precedente, abbiamo utilizzato un campione del set di dati dei taxi di New York. Per il nostro secondo report, eseguiamo un’analisi completa sull’intero set di dati per identificare potenziali problemi che influiscono sulle prestazioni del modello.
Utilizza la procedura seguente per creare un report Qualità e informazioni approfondite sui dati per l’intero set di dati.
Per ottenere un report sull’intero set di dati
-
Scegli l’icona accanto al nodo Elimina colonne.
-
Scegli Ottieni informazioni approfondite sui dati.
-
In Nome dell’analisi, specifica un nome per il report.
-
In Tipo di problema, scegli Regressione.
-
In Colonna di destinazione, scegli Importo della tariffa.
-
In Dimensioni dei dati, scegli Set di dati completo.
-
Scegli Create (Crea).
Di seguito è riportata un’immagine tratta dal report delle informazioni approfondite:
Mostra i problemi seguenti:
-
Righe duplicate
-
Destinazione disallineata
Le righe duplicate possono portare a data leakage, perché il modello è esposto agli stessi dati durante l’addestramento e i test. Possono portare a metriche sulle prestazioni eccessivamente ottimistiche. La rimozione delle righe duplicate garantisce che il modello venga addestrato su istanze uniche, riducendo il rischio di data leakage e migliorando la capacità di generalizzazione del modello.
Una distribuzione disallineata delle variabili di destinazione, in questo caso la colonna Importo della tariffa, può produrre classi squilibrate, in cui il modello potrebbe orientarsi verso la classe maggioritaria. Questo può tradursi in prestazioni scadenti nelle classi minoritarie, un problema particolarmente sentito in scenari in cui è importante prevedere con precisione le istanze rare o sottorappresentate.
Risoluzione dei problemi di qualità dei dati
Per risolvere questi problemi e preparare il set di dati per la modellazione, puoi cercare le seguenti trasformazioni e applicarle:
-
Elimina i duplicati utilizzando la trasformazione Gestisci righe.
-
Gestisci i valori anomali nella colonna Importo della tariffa utilizzando i valori anomali numerici con deviazione standard robusta.
-
Gestisci i valori anomali nelle colonne Distanza della corsa e Durata della corsa utilizzando i valori anomali numerici con deviazione standard.
-
Utilizza la codifica categorica per codificare le colonne ID codice tariffa, Tipo di pagamento, Flag extra e Flag pedaggio come tipo in virgola mobile.
Se hai dubbi su come applicare una trasformazione, consulta Eliminazione di anno e ora del giorno.
Risolvendo questi problemi di qualità dei dati e applicando le trasformazioni appropriate, puoi migliorare l’idoneità del set di dati per la modellazione.
Verifica della qualità dei dati e accuratezza del modello rapido
Dopo aver applicato le trasformazioni per risolvere i problemi di qualità dei dati, come la rimozione delle righe duplicate, creiamo il nostro report finale Qualità e informazioni approfondite sui dati. Questo report aiuta a verificare che le trasformazioni applicate abbiano risolto i problemi e che il set di dati sia ora in uno stato adatto per la modellazione.
Durante la revisione del report finale Qualità e informazioni approfondite sui dati, non dovrebbero essere segnalati problemi importanti relativi alla qualità dei dati. Il report dovrebbe indicare che:
-
La variabile di destinazione non è più disallineata
-
Non ci sono valori anomali o righe duplicate
Inoltre, il report dovrebbe fornire un punteggio del modello rapido basato su un modello baseline addestrato sul set di dati trasformato. Questo punteggio funge da indicatore iniziale dell’accuratezza e delle prestazioni potenziali del modello.
Utilizza la procedura seguente per creare un report Qualità e informazioni approfondite sui dati.
Per creare un report Qualità e informazioni approfondite sui dati
-
Scegli l’icona accanto al nodo Elimina colonne.
-
Scegli Ottieni informazioni approfondite sui dati.
-
In Nome dell’analisi, specifica un nome per il report.
-
In Tipo di problema, scegli Regressione.
-
In Colonna di destinazione, scegli Importo della tariffa.
-
In Dimensioni dei dati, scegli Set di dati completo.
-
Scegli Create (Crea).
Suddivisione dei dati in set di dati di addestramento e di test
Per addestrare un modello e valutarne le prestazioni, utilizziamo la trasformazione Suddividi dati per suddividere i dati in set di addestramento e test.
Per impostazione predefinita, SageMaker Canvas utilizza una divisione randomizzata, ma puoi anche utilizzare i seguenti tipi di suddivisioni:
-
Ordinata
-
Stratificata
-
Suddivisione per chiave
Puoi modificare la percentuale di suddivisione o aggiungere suddivisioni.
Per questo tutorial, utilizza tutte le impostazioni predefinite nella suddivisione. Per visualizzarne il nome, fai doppio clic sul set di dati. Il nome del set di dati di addestramento è Set di dati (addestramento).
Accanto al nodo Codifica ordinale, applica la trasformazione Suddividi dati.
Addestramento del modello
Dopo aver suddiviso i dati, puoi addestrare un modello. Questo modello impara dai modelli presenti nei dati. Puoi utilizzarlo per generare previsioni o ottenere informazioni approfondite.
SageMaker Canvas ha sia build rapide che build standard. Utilizza una build standard per addestrare il modello con le migliori prestazioni in base ai tuoi dati.
Prima di iniziare ad addestrare un modello, devi prima esportare il set di dati di addestramento come set di dati Canvas. SageMaker
Per esportare il set di dati
-
Accanto al nodo per il set di dati di addestramento, scegli l’icona e seleziona Esporta.
-
Seleziona il set di dati SageMaker Canvas.
-
Scegli Esporta per esportare il set di dati.
Dopo aver creato un set di dati, puoi addestrare un modello sul set di dati SageMaker Canvas che hai creato. Per informazioni sul training di un modello, consulta Creazione di un modello di previsione numerico o categorico personalizzato.
Valutazione del modello e generazione di previsioni
Dopo aver addestrato il modello di machine learning, è fondamentale valutarne le prestazioni per assicurarsi che soddisfi i requisiti e funzioni correttamente sui dati non visibili. Amazon SageMaker Canvas offre un'interfaccia intuitiva per valutare l'accuratezza del modello, esaminarne le previsioni e ottenere informazioni sui suoi punti di forza e di debolezza. Puoi utilizzare queste informazioni approfondite per prendere decisioni informate sull’implementazione e sulle potenziali aree di miglioramento del modello.
Utilizza la procedura seguente per valutare un modello prima di distribuirlo.
Per valutare un modello
-
Scegli I miei modelli.
-
Scegli il modello che hai creato.
-
In Versioni, seleziona la versione corrispondente al modello.
Ora puoi visualizzare le metriche di valutazione del modello.
Dopo aver valutato il modello, puoi generare previsioni su nuovi dati. Stiamo utilizzando il set di dati di test che abbiamo creato.
Per utilizzare il set di dati di test per le previsioni, dobbiamo convertirlo in un set di dati Canvas. SageMaker Il set di dati SageMaker Canvas è in un formato interpretabile dal modello.
Utilizzate la seguente procedura per creare un set di dati SageMaker Canvas dal set di dati di test.
Per creare un set di dati Canvas SageMaker
-
Accanto al set di dati Set di dati (test), scegli l’icona di opzione.
-
Seleziona Esporta.
-
Seleziona il set di dati SageMaker Canvas.
-
In Nome set di dati, specifica il nome del set di dati.
-
Scegli Export (Esporta).
Utilizza la procedura seguente per generare previsioni. Si presuppone che tu sia ancora nella pagina Analizza.
Per generare previsioni sul set di dati di test
-
Scegli Prevedi.
-
Scegli Manuale.
-
Seleziona il set di dati che hai esportato.
-
Scegli Genera previsioni.
-
Quando SageMaker Canvas ha finito di generare previsioni, seleziona l'icona a destra del set di dati.
-
Scegli Anteprima per visualizzare le previsioni.
Distribuzione di un modello
Dopo aver valutato il modello, puoi implementarlo su un endpoint. Puoi inviare richieste all’endpoint per ottenere previsioni.
Utilizza la procedura seguente per implementare un modello. Si presuppone che tu sia ancora nella pagina Prevedi.
Per implementare un modello
-
Seleziona Implementa.
-
Scegli Create deployment (Crea distribuzione).
-
Seleziona Implementa.
Pulizia
Il tutorial è stato completato correttamente. Per evitare di incorrere in costi aggiuntivi, elimina le risorse che non stai utilizzando.
Utilizza la procedura seguente per eliminare l’endpoint creato. Si presuppone che tu sia ancora nella pagina Implementa.
Come eliminare un endpoint
-
Scegli il pulsante di opzione a destra dell’implementazione.
-
Seleziona Elimina implementazione.
-
Scegli Elimina.
Dopo aver eliminato la distribuzione, elimina i set di dati che hai creato all'interno di Canvas. SageMaker Utilizza la procedura seguente per eliminare i set di dati.
Per eliminare i set di dati
-
Nel pannello di navigazione a sinistra, scegli Set di dati.
-
Seleziona il set di dati che hai analizzato e il set di dati sintetico utilizzato per le previsioni.
-
Scegli Elimina.
Per evitare di incorrere in costi aggiuntivi, devi disconnetterti da Canvas. SageMaker Per ulteriori informazioni, consulta Disconnettersi da Amazon Canvas SageMaker .