Come funziona l’elaborazione dei dati in Data Wrangler - Amazon SageMaker AI

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Come funziona l’elaborazione dei dati in Data Wrangler

Mentre lavori con i dati in modo interattivo in un flusso di SageMaker dati Amazon Data Wrangler, Amazon SageMaker Canvas applica le trasformazioni solo a un set di dati di esempio per consentirti di visualizzarne l'anteprima. Dopo aver terminato il flusso di dati in SageMaker Canvas, puoi elaborare tutti i dati e salvarli in una posizione adatta ai flussi di lavoro di machine learning.

Dopo aver terminato la trasformazione dei dati in Data Wrangler, si può procedere in diversi modi:

  • Crea un modello. Puoi creare un modello Canvas, iniziando a creare direttamente un modello con i dati preparati. Puoi creare un modello dopo aver elaborato l’intero set di dati o esportando solo i dati di esempio che hai utilizzato in Data Wrangler. Canvas salva i dati elaborati (l’intero set di dati o i dati di esempio) come set di dati Canvas.

    Ti consigliamo di utilizzare i dati di esempio per le iterazioni rapide e tutti i dati per addestrare il modello finale. Quando si creano modelli tabulari, i set di dati di dimensioni superiori a 5 GB vengono automaticamente sottoposti a downsampling a 5 GB, mentre i set di dati per i modelli di previsione delle serie temporali di dimensioni superiori a 30 GB vengono sottoposti a downsampling a 30 GB.

    Per ulteriori informazioni sulla creazione di un modello, consulta Funzionamento dei modelli personalizzati.

  • Esporta i dati. Puoi esportare i dati per utilizzarli nei flussi di lavoro di machine learning. Quando scegli di esportare i dati, puoi procedere in diversi modi:

    • Puoi salvare i dati nell’applicazione Canvas come set di dati. Per ulteriori informazioni sui tipi di file supportati per i set di dati Canvas e sui requisiti aggiuntivi per l’importazione di dati in Canvas, consulta Creazione di un set di dati.

    • Puoi salvare i dati in Amazon S3. A seconda della disponibilità di memoria Canvas, i dati vengono elaborati nell’applicazione e quindi esportati in Amazon S3. Se la dimensione del set di dati supera quella gestibile da Canvas, per impostazione predefinita Canvas utilizza un processo EMR Serverless per scalare su più istanze di calcolo, elaborare il set di dati completo ed esportarlo in Amazon S3. Puoi anche configurare manualmente un processo di SageMaker elaborazione per avere un controllo più granulare sulle risorse di calcolo utilizzate per elaborare i dati.

  • Esporta un flusso di dati. Potresti voler salvare il codice per il tuo flusso di dati per modificare o eseguire le trasformazioni all’esterno di Canvas. Canvas consente di salvare le trasformazioni del flusso di dati come codice Python in un notebook Jupyter, che puoi quindi esportare in Amazon S3 per utilizzarlo altrove nei tuoi flussi di lavoro di machine learning.

Quando esporti i dati da un flusso di dati e li salvi come set di dati Canvas o su Amazon S3, Canvas crea un nuovo nodo di destinazione nel flusso di dati, ovvero un nodo finale che mostra dove sono archiviati i dati elaborati. Puoi aggiungere altri nodi di destinazione al flusso se intendi eseguire più operazioni di esportazione. Ad esempio, puoi esportare i dati da diversi punti del flusso di dati per applicare solo alcune trasformazioni oppure puoi esportare i dati trasformati in diverse posizioni Amazon S3. Per ulteriori informazioni su come aggiungere o modificare un nodo di destinazione, consulta Aggiunta di nodi di destinazione e Modifica di un nodo di destinazione.

Per ulteriori informazioni sulla configurazione di una pianificazione con Amazon EventBridge per elaborare ed esportare automaticamente i dati in base a una pianificazione, consultaCreazione di una pianificazione per elaborare automaticamente i nuovi dati.