Utilizzare Apache Spark in Amazon Athena - Amazon Athena

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Utilizzare Apache Spark in Amazon Athena

Amazon Athena facilita l'esecuzione di analisi e l'esplorazione dei dati in modo interattivo mediante Apache Spark senza la necessità di pianificare, configurare o gestire le risorse. Eseguire le applicazioni Apache Spark su Athena significa inviare il codice Spark per l'elaborazione e ricevere direttamente i risultati senza la necessità di configurazioni aggiuntive. Apache Spark su Amazon Athena è serverless e offre il dimensionamento automatico e on demand per l'elaborazione istantanea, in modo da far fronte ai cambiamenti dei volumi di dati e dei requisiti di elaborazione.

Nella versione di rilascioPySpark versione del motore 3, puoi utilizzare l'esperienza notebook semplificata nella console Amazon Athena per sviluppare applicazioni Apache Spark utilizzando Python o notebook Athena. APIs

Nella versione releaseApache Spark versione 3.5, puoi eseguire il codice Spark dai notebook Amazon SageMaker Unified Studio o dai tuoi client preferiti compatibili con Spark Connect.

Amazon Athena offre le seguenti funzionalità:

  • Utilizzo della console: invia le tue applicazioni Spark dalla console Amazon Athena (solo Pyspark enginer versione 3).

  • Scripting: crea ed esegui il debug di applicazioni Apache Spark in Python in modo rapido e interattivo.

  • Dimensionamento dinamico: Amazon Athena determina automaticamente le risorse di elaborazione e memoria necessarie per eseguire un processo e dimensiona continuamente tali risorse di conseguenza fino ai massimi specificati. Questo dimensionamento dinamico riduce i costi senza influire sulla velocità.

  • Esperienza notebook: usa i notebook Amazon SageMaker AI Unified Studio per creare, modificare ed eseguire calcoli utilizzando un'interfaccia familiare. Nella versione 3 del motore Pyspark, puoi utilizzare notebook in-console Athena compatibili con i notebook Jupyter e contenenti un elenco di celle che vengono eseguite in ordine come calcoli. Il contenuto delle celle può includere codice, testo, Markdown, matematica, grafici e rich media.

Per ulteriori informazioni, consultare Eseguire Spark SQL su Amazon Athena Spark ed Esplora il tuo data lake usando Amazon Athena per Apache Spark nel Blog sui Big Data di AWS.