Preparazione dei dati su larga scala utilizzando applicazioni Amazon EMR serverless o cluster Amazon EMR in Studio

Amazon SageMaker Studio e la sua versione precedente, Studio Classic, forniscono ai data scientist e agli ingegneri di machine learning (ML) strumenti per eseguire analisi e preparazione dei dati su larga scala. L'analisi, la trasformazione e la preparazione di grandi quantità di dati è una fase fondamentale di qualsiasi flusso di lavoro di data science e ML. Sia Studio che Studio Classic sono dotati di integrazione integrata con Amazon EMR, che consente agli utenti di gestire flussi di lavoro interattivi e su larga scala per la preparazione dei dati e l'apprendimento automatico all'interno dei propri notebook. JupyterLab

Amazon EMR è una piattaforma di big data gestita e dotata di risorse che ti aiutano a eseguire processi di elaborazione dati distribuiti nell’ordine dei petabyte utilizzando framework di analisi open source in AWS come Apache Spark, Apache Hive, Presto, HBase e Flink, tra gli altri. Con l'integrazione di Studio e Studio Classic con Amazon EMR, puoi creare, sfogliare, scoprire e connetterti ai cluster Amazon EMR senza lasciare i tuoi JupyterLab notebook o Studio Classic. Puoi anche monitorare ed eseguire il debug dei carichi di lavoro Spark accedendo con un solo clic all’interfaccia utente di Spark dall’interno del notebook.

Puoi valutare anche i cluster Amazon EMR per i tuoi carichi di lavoro di preparazione dei dati se devi gestire elaborazioni di dati su larga scala, di lunga durata o complesse che coinvolgono enormi quantità di dati, se hai bisogno di un’ampia personalizzazione e dell’integrazione con altri servizi, se devi eseguire applicazioni personalizzate o se intendi utilizzare diversi framework di elaborazione dei dati distribuiti oltre ad Apache Spark.

Utilizzando l'immagine di SageMaker distribuzione 1.10 o superiore, puoi in alternativa connetterti alle applicazioni interattive EMR Serverless direttamente dai tuoi JupyterLab notebook in AI Studio. SageMaker L’integrazione di Studio con EMR Serverless consente di eseguire framework di analisi dei big data open source come Apache Spark e Apache Hive senza configurare, gestire o scalare i cluster Amazon EMR. EMR Serverless alloca e gestisce automaticamente le risorse di calcolo e memoria sottostanti in base alle esigenze dell’applicazione EMR Serverless. Aumenta e riduce le risorse in modo dinamico, addebitando all’utente la quantità di vCPU, memoria e risorse di archiviazione utilizzata dalle applicazioni. Questo approccio serverless consente di eseguire carichi di lavoro interattivi di preparazione dei dati dai JupyterLab notebook senza preoccuparsi della gestione dei cluster, ottenendo al contempo un elevato utilizzo delle istanze e un'efficienza in termini di costi.

Puoi valutare EMR Serverless per i carichi di lavoro interattivi di preparazione dei dati se i tuoi carichi di lavoro sono di breve durata o intermittenti e non richiedono un cluster persistente, se preferisci un’esperienza serverless con provisioning e terminazione automatiche delle risorse, evitando il sovraccarico di gestione dell’infrastruttura oppure se le tue attività interattive di preparazione dei dati interessano principalmente Apache Spark.

Contenuti

Avvertimento JavaScript è disabilitato o non è disponibile nel tuo browser.

Per usare la documentazione AWS, JavaScript deve essere abilitato. Consulta le pagine della guida del browser per le istruzioni.

Convenzioni dei documenti

Parametri di connessione

Configurazione dell’accesso di rete