

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

# Apache Spark
<a name="emr-spark"></a>

[Apache Spark](https://aws.amazon.com/emr/features/spark/) adalah kerangka kerja pemrosesan terdistribusi dan model pemrograman yang membantu Anda melakukan pembelajaran mesin, pemrosesan streaming, atau analisis grafik dengan kluster EMR Amazon. Mirip dengan Apache Hadoop, Spark merupakan sistem pemrosesan terdistribusi sumber terbuka, yang biasa digunakan untuk beban kerja big data. Namun, Spark memiliki beberapa perbedaan penting dari Hadoop. MapReduce Spark memiliki dioptimalkan diarahkan asiklik mesin eksekusi graf (DAG) dan aktif cache data dalam memori, yang dapat meningkatkan kinerja, terutama untuk algoritma tertentu dan query interaktif.

Spark native mendukung aplikasi yang ditulis dalam Scala, Python, dan Java. [Ini juga mencakup beberapa perpustakaan yang terintegrasi erat untuk SQL ([Spark](https://spark.apache.org/sql/)), pembelajaran mesin (), pemrosesan aliran ([streaming Spark [MLlib](https://spark.apache.org/mllib/)](https://spark.apache.org/streaming/)), dan pemrosesan grafik (GraphX).](https://spark.apache.org/graphx/) Alat-alat ini membuatnya lebih mudah untuk memanfaatkan kerangka Spark untuk berbagai kasus penggunaan. 

Anda dapat menginstal Spark pada cluster EMR Amazon bersama dengan aplikasi Hadoop lainnya, dan juga dapat memanfaatkan sistem file Amazon EMR (EMRFS) untuk langsung mengakses data di Amazon S3. Hive juga terintegrasi dengan Spark sehingga Anda dapat menggunakan HiveContext objek untuk menjalankan skrip Hive menggunakan Spark. Sebuah konteks Hive termasuk dalam percikan-shell sebagai `sqlContext`. 

Untuk contoh tutorial tentang menyiapkan cluster EMR dengan Spark dan menganalisis kumpulan data sampel, lihat [Tutorial: Memulai Amazon EMR](https://docs.aws.amazon.com/emr/latest/ManagementGuide/emr-gs.html) di blog Berita. AWS 

Anda dapat menggunakan Agen Pemecahan Masalah Apache Spark untuk memecahkan masalah aplikasi Apache Spark Anda di EMR di EC2 dan EMR Tanpa Server. Untuk mempelajari lebih lanjut, silakan merujuk ke[Apa itu Agen Pemecahan Masalah Apache Spark untuk Amazon EMR](spark-troubleshoot.md).

**penting**  
[https://nvd.nist.gov/vuln/detail/CVE-2018-8024](https://nvd.nist.gov/vuln/detail/CVE-2018-8024) Kami merekomendasikan Anda memigrasi versi Spark sebelumnya ke Spark versi 2.3.1 atau versi yang lebih baru.

Tabel berikut mencantumkan versi Spark yang termasuk dalam rilis terbaru seri Amazon EMR 7.x, bersama dengan komponen yang dipasang Amazon EMR dengan Spark.

Untuk versi komponen yang diinstal dengan Spark dalam rilis ini, lihat Rilis Versi Komponen [7.12.0](emr-7120-release.md).


**Informasi versi Spark untuk emr-7.12.0**  

| Label Rilis Amazon EMR | Versi Spark | Komponen Dipasang Dengan Spark | 
| --- | --- | --- | 
| emr-7.12.0 | Spark 3.5.6-amzn-1 | delta, emrfs, emr-goodies, emr-ddb, emr-s3-select, hadoop-client, hadoop-hdfs-datanode, hadoop-hdfs-library, hadoop-hdfs-namenode, hadoop-hdfs-zkfc, hadoop-httpfs-server, hadoop-kms-server, hadoop-yarn-nodemanager, hadoop-yarn-resourcemanager, hadoop-yarn-timeline-server, hudi, hudi-spark, iceberg, livy-server, nginx, r, spark-client, spark-history-server, spark-on-yarn, spark-yarn-slave | 

Tabel berikut mencantumkan versi Spark yang termasuk dalam rilis terbaru seri Amazon EMR 6.x, bersama dengan komponen yang dipasang Amazon EMR dengan Spark.

Untuk versi komponen yang diinstal dengan Spark dalam rilis ini, lihat Rilis Versi Komponen [6.15.0](emr-6150-release.md).


**Informasi versi Spark untuk emr-6.15.0**  

| Label Rilis Amazon EMR | Versi Spark | Komponen Dipasang Dengan Spark | 
| --- | --- | --- | 
| emr-6.15.0 | Spark 3.4.1-amzn-2 | aws-sagemaker-spark-sdk, delta, emrfs, emr-goodies, emr-ddb, emr-s3-select, hadoop-client, hadoop-hdfs-datanode, hadoop-hdfs-library, hadoop-hdfs-namenode, hadoop-httpfs-server, hadoop-kms-server, hadoop-yarn-nodemanager, hadoop-yarn-resourcemanager, hadoop-yarn-timeline-server, hudi, hudi-spark, iceberg, livy-server, nginx, r, spark-client, spark-history-server, spark-on-yarn, spark-yarn-slave | 

**catatan**  
Amazon EMR rilis 6.8.0 hadir dengan Apache Spark 3.3.0. Rilis Spark ini menggunakan Apache Log4j 2 dan `log4j2.properties` file untuk mengkonfigurasi Log4j dalam proses Spark. Jika Anda menggunakan Spark di cluster atau membuat kluster EMR dengan parameter konfigurasi kustom, dan Anda ingin meningkatkan ke Amazon EMR rilis 6.8.0, Anda harus bermigrasi ke klasifikasi konfigurasi `spark-log4j2` baru dan format kunci untuk Apache Log4j 2. Untuk informasi selengkapnya, lihat [Migrasi dari Apache Log4j 1.x ke Log4j 2.x](emr-spark-configure.md#spark-migrate-logj42).

Tabel berikut mencantumkan versi Spark yang termasuk dalam rilis terbaru seri Amazon EMR 5.x, bersama dengan komponen yang dipasang Amazon EMR dengan Spark.

Untuk versi komponen yang diinstal dengan Spark dalam rilis ini, lihat [Rilis 5.36.2](emr-5362-release.md) Versi Komponen.


**Informasi versi Spark untuk emr-5.36.2**  

| Label Rilis Amazon EMR | Versi Spark | Komponen Dipasang Dengan Spark | 
| --- | --- | --- | 
| emr-5.36.2 | Spark 2.4.8-amzn-2 | aws-sagemaker-spark-sdk, emrfs, emr-goodies, emr-ddb, emr-s3-select, hadoop-client, hadoop-hdfs-datanode, hadoop-hdfs-library, hadoop-hdfs-namenode, hadoop-httpfs-server, hadoop-kms-server, hadoop-yarn-nodemanager, hadoop-yarn-resourcemanager, hadoop-yarn-timeline-server, hudi, hudi-spark, livy-server, nginx, r, spark-client, spark-history-server, spark-on-yarn, spark-yarn-slave | 

**Topics**
+ [Buat cluster dengan Apache Spark](emr-spark-launch.md)
+ [Jalankan aplikasi Spark dengan Docker di Amazon EMR 6.x](emr-spark-docker.md)
+ [Gunakan katalog Katalog Data AWS Glue dengan Spark di Amazon EMR](emr-spark-glue.md)
+ [Bekerja dengan hierarki multi-katalog di Katalog Data AWS Glue dengan Spark di Amazon EMR](emr-multi-catalog.md)
+ [Konfigurasi Spark](emr-spark-configure.md)
+ [Apa itu Agen Pemecahan Masalah Apache Spark untuk Amazon EMR](spark-troubleshoot.md)
+ [Optimalkan kinerja Spark](emr-spark-performance.md)
+ [Caching Fragmen Hasil Percikan](emr-spark-fragment-result-caching.md)
+ [Gunakan Akselerator Nvidia RAPIDS untuk Apache Spark](emr-spark-rapids.md)
+ [Akses shell Spark](emr-spark-shell.md)
+ [Gunakan Amazon SageMaker Spark untuk pembelajaran mesin](emr-spark-sagemaker.md)
+ [Menulis aplikasi Spark](emr-spark-application.md)
+ [Tingkatkan kinerja Spark dengan Amazon S3](emr-spark-s3-performance.md)
+ [Tambahkan langkah Spark](emr-spark-submit-step.md)
+ [Lihat riwayat aplikasi Spark](emr-spark-application-history.md)
+ [Akses web Spark UIs](emr-spark-webui.md)
+ [Menggunakan konektor Amazon Kinesis Data Streams streaming terstruktur Spark](emr-spark-structured-streaming-kinesis.md)
+ [Menggunakan integrasi Amazon Redshift untuk Apache Spark dengan Amazon EMR](emr-spark-redshift.md)
+ [Riwayat rilis Spark](Spark-release-history.md)
+ [Menggunakan tampilan terwujud dengan Amazon EMR](emr-spark-materialized-views.md)