

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

# Preparazione dei dati su larga scala utilizzando applicazioni Amazon EMR serverless o cluster Amazon EMR in Studio
<a name="studio-emr-data-preparation"></a>

Amazon SageMaker Studio e la sua versione precedente, Studio Classic, forniscono ai data scientist e agli ingegneri di machine learning (ML) strumenti per eseguire analisi e preparazione dei dati su larga scala. L'analisi, la trasformazione e la preparazione di grandi quantità di dati è una fase fondamentale di qualsiasi flusso di lavoro di data science e ML. Sia Studio che Studio Classic sono dotati di integrazione integrata con Amazon EMR, che consente agli utenti di gestire flussi di lavoro interattivi e su larga scala per la preparazione dei dati e l'apprendimento automatico all'interno dei propri notebook. JupyterLab 

[Amazon EMR](https://docs.aws.amazon.com/emr/latest/ManagementGuide/emr-what-is-emr.html) [https://aws.amazon.com/emr/features/hive](https://aws.amazon.com/emr/features/hive) HBase Con l'integrazione di Studio e Studio Classic con Amazon EMR, puoi creare, sfogliare, scoprire e connetterti ai cluster Amazon EMR senza lasciare i tuoi JupyterLab notebook o Studio Classic. Puoi anche monitorare ed eseguire il debug dei carichi di lavoro Spark accedendo con un solo clic all’interfaccia utente di Spark dall’interno del notebook.

Puoi valutare anche i cluster Amazon EMR per i tuoi carichi di lavoro di preparazione dei dati se devi gestire elaborazioni di dati su larga scala, di lunga durata o complesse che coinvolgono enormi quantità di dati, se hai bisogno di un’ampia personalizzazione e dell’integrazione con altri servizi, se devi eseguire applicazioni personalizzate o se intendi utilizzare diversi framework di elaborazione dei dati distribuiti oltre ad Apache Spark. 

Utilizzando l'[immagine di SageMaker distribuzione](sagemaker-distribution.md) `1.10` o superiore, puoi in alternativa connetterti alle applicazioni interattive [EMR Serverless](https://docs.aws.amazon.com/emr/latest/EMR-Serverless-UserGuide/emr-serverless.html) direttamente dai tuoi JupyterLab notebook in AI Studio. SageMaker L’integrazione di Studio con EMR Serverless consente di eseguire framework di analisi dei big data open source come [Apache Spark](https://aws.amazon.com/emr/features/spark) e [Apache Hive](https://aws.amazon.com/emr/features/hive) senza configurare, gestire o scalare i cluster Amazon EMR. EMR Serverless alloca e gestisce automaticamente le risorse di calcolo e memoria sottostanti in base alle esigenze dell’applicazione EMR Serverless. Aumenta e riduce le risorse in modo dinamico, addebitando all’utente la quantità di vCPU, memoria e risorse di archiviazione utilizzata dalle applicazioni. Questo approccio serverless consente di [eseguire carichi di lavoro interattivi di preparazione dei dati](https://docs.aws.amazon.com/emr/latest/EMR-Serverless-UserGuide/interactive-workloads.html) dai JupyterLab notebook senza preoccuparsi della gestione dei cluster, ottenendo al contempo un elevato utilizzo delle istanze e un'efficienza in termini di costi.

Puoi valutare EMR Serverless per i carichi di lavoro interattivi di preparazione dei dati se i tuoi carichi di lavoro sono di breve durata o intermittenti e non richiedono un cluster persistente, se preferisci un’esperienza serverless con provisioning e terminazione automatiche delle risorse, evitando il sovraccarico di gestione dell’infrastruttura oppure se le tue attività interattive di preparazione dei dati interessano principalmente Apache Spark. 

**Topics**
+ [Configurazione dell’accesso di rete per il cluster Amazon EMR](studio-notebooks-emr-networking.md)
+ [Preparazione dei dati con EMR Serverless](studio-notebooks-emr-serverless.md)
+ [Preparazione dei dati con Amazon EMR](studio-notebooks-emr-cluster.md)