Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.
Preparazione dei dati su larga scala utilizzando applicazioni Amazon EMR serverless o cluster Amazon EMR in Studio
Amazon SageMaker Studio e la sua versione precedente, Studio Classic, forniscono ai data scientist e agli ingegneri di machine learning (ML) strumenti per eseguire analisi e preparazione dei dati su larga scala. L'analisi, la trasformazione e la preparazione di grandi quantità di dati è una fase fondamentale di qualsiasi flusso di lavoro di data science e ML. Sia Studio che Studio Classic sono dotati di integrazione integrata con Amazon EMR, che consente agli utenti di gestire flussi di lavoro interattivi e su larga scala per la preparazione dei dati e l'apprendimento automatico all'interno dei propri notebook. JupyterLab
Amazon EMR è una piattaforma gestita di big data con risorse per aiutarti a eseguire processi di elaborazione dati distribuiti su scala petabyte utilizzando framework di analisi open source come Apache Spark, Apache
Puoi valutare anche i cluster Amazon EMR per i tuoi carichi di lavoro di preparazione dei dati se devi gestire elaborazioni di dati su larga scala, di lunga durata o complesse che coinvolgono enormi quantità di dati, se hai bisogno di un’ampia personalizzazione e dell’integrazione con altri servizi, se devi eseguire applicazioni personalizzate o se intendi utilizzare diversi framework di elaborazione dei dati distribuiti oltre ad Apache Spark.
Utilizzando l'immagine di SageMaker distribuzione 1.10 o superiore, puoi in alternativa connetterti alle applicazioni interattive EMR Serverless direttamente dai tuoi JupyterLab notebook in AI Studio. SageMaker L’integrazione di Studio con EMR Serverless consente di eseguire framework di analisi dei big data open source come Apache Spark
Puoi valutare EMR Serverless per i carichi di lavoro interattivi di preparazione dei dati se i tuoi carichi di lavoro sono di breve durata o intermittenti e non richiedono un cluster persistente, se preferisci un’esperienza serverless con provisioning e terminazione automatiche delle risorse, evitando il sovraccarico di gestione dell’infrastruttura oppure se le tue attività interattive di preparazione dei dati interessano principalmente Apache Spark.