Preparazione dei dati su larga scala utilizzando applicazioni Amazon EMR serverless o cluster Amazon EMR in Studio - Amazon SageMaker AI

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Preparazione dei dati su larga scala utilizzando applicazioni Amazon EMR serverless o cluster Amazon EMR in Studio

Amazon SageMaker Studio e la sua versione precedente, Studio Classic, forniscono ai data scientist e agli ingegneri di machine learning (ML) strumenti per eseguire analisi e preparazione dei dati su larga scala. L'analisi, la trasformazione e la preparazione di grandi quantità di dati è una fase fondamentale di qualsiasi flusso di lavoro di data science e ML. Sia Studio che Studio Classic sono dotati di integrazione integrata con Amazon EMR, che consente agli utenti di gestire flussi di lavoro interattivi e su larga scala per la preparazione dei dati e l'apprendimento automatico all'interno dei propri notebook. JupyterLab

Amazon EMR è una piattaforma gestita di big data con risorse per aiutarti a eseguire processi di elaborazione dati distribuiti su scala petabyte utilizzando framework di analisi open source come Apache Spark, Apache Hive, Presto e Flink, AWS tra gli altri. HBase Con l'integrazione di Studio e Studio Classic con Amazon EMR, puoi creare, sfogliare, scoprire e connetterti ai cluster Amazon EMR senza lasciare i tuoi JupyterLab notebook o Studio Classic. Puoi anche monitorare ed eseguire il debug dei carichi di lavoro Spark accedendo con un solo clic all’interfaccia utente di Spark dall’interno del notebook.

Puoi valutare anche i cluster Amazon EMR per i tuoi carichi di lavoro di preparazione dei dati se devi gestire elaborazioni di dati su larga scala, di lunga durata o complesse che coinvolgono enormi quantità di dati, se hai bisogno di un’ampia personalizzazione e dell’integrazione con altri servizi, se devi eseguire applicazioni personalizzate o se intendi utilizzare diversi framework di elaborazione dei dati distribuiti oltre ad Apache Spark.

Utilizzando l'immagine di SageMaker distribuzione 1.10 o superiore, puoi in alternativa connetterti alle applicazioni interattive EMR Serverless direttamente dai tuoi JupyterLab notebook in AI Studio. SageMaker L’integrazione di Studio con EMR Serverless consente di eseguire framework di analisi dei big data open source come Apache Spark e Apache Hive senza configurare, gestire o scalare i cluster Amazon EMR. EMR Serverless alloca e gestisce automaticamente le risorse di calcolo e memoria sottostanti in base alle esigenze dell’applicazione EMR Serverless. Aumenta e riduce le risorse in modo dinamico, addebitando all’utente la quantità di vCPU, memoria e risorse di archiviazione utilizzata dalle applicazioni. Questo approccio serverless consente di eseguire carichi di lavoro interattivi di preparazione dei dati dai JupyterLab notebook senza preoccuparsi della gestione dei cluster, ottenendo al contempo un elevato utilizzo delle istanze e un'efficienza in termini di costi.

Puoi valutare EMR Serverless per i carichi di lavoro interattivi di preparazione dei dati se i tuoi carichi di lavoro sono di breve durata o intermittenti e non richiedono un cluster persistente, se preferisci un’esperienza serverless con provisioning e terminazione automatiche delle risorse, evitando il sovraccarico di gestione dell’infrastruttura oppure se le tue attività interattive di preparazione dei dati interessano principalmente Apache Spark.