將無伺服器儲存用於 Amazon EMR Serverless

使用 Amazon EMR 7.12 版及更高版本時，請在執行 Apache Spark 任務時使用無伺服器儲存體，以消除本機磁碟佈建並降低資料處理成本，並防止任務失敗造成磁碟容量限制。無伺服器儲存會自動處理任務的隨機播放、磁碟溢出和磁碟快取操作，而不需要容量組態，並免費存放中繼資料。Amazon EMR Serverless 會將中繼資料存放在全受管無伺服器儲存體中，該儲存體會根據工作負載需求自動擴展，並可讓 Spark 在閒置時立即釋放運算工作者，進而降低運算成本。

主要優點

EMR Serverless 的無伺服器儲存提供下列優點。

零組態儲存 – 無伺服器儲存不需要為每個應用程式或任務設定本機磁碟類型和大小。EMR Serverless 會自動管理中繼資料操作，無需規劃容量。
透過自動擴展來防止任務失敗 – 儲存容量會根據工作負載需求自動擴展，防止任務失敗導致磁碟容量不足。
降低資料處理成本 – 無伺服器儲存體透過兩種機制降低處理成本。首先，免費提供中繼資料儲存，您只需支付運算和記憶體資源的費用。其次，具有 Spark 動態資源配置的解耦儲存可讓 Spark 在閒置時立即釋放工作者，而不是保留工作者，以保留本機磁碟上的中繼資料。這可加快每個 Spark 階段的向外擴展和向內擴展速度，降低較新階段需要較少工作者的任務運算成本。
具有任務層級隔離的加密儲存 – 所有中繼資料都會在傳輸中和靜態時以嚴格的任務層級隔離進行加密。
精細存取控制支援 – 無伺服器儲存支援透過 AWS Lake Formation 整合進行精細存取控制。

開始使用

請參閱下列步驟，以在 Spark 工作流程中使用 EMR Serverless 的無伺服器儲存。

建立 EMR Serverless 應用程式

在 spark-defaults 分類中將 spark 屬性設定為 spark.aws.serverlessStorage.enabled true，以建立已啟用無伺服器儲存的 EMR Serverless 7.12 版（或更新版本）應用程式。


aws emr-serverless create-application \
  --type "SPARK" \
  --name my-application \
  --release-label emr-7.12.0 \
  --runtime-configuration '[{
      "classification": "spark-defaults",
        "properties": {
          "spark.aws.serverlessStorage.enabled": "true"
        }
    }]' \
  --region <AWS_REGION>

啟動 Spark 任務

在您的應用程式上啟動任務執行。EMR Serverless 的無伺服器儲存會自動處理中繼資料操作，例如任務的隨機播放。


aws emr-serverless start-job-run \
  --application-id <application-id> \
  --execution-role-arn <job-role-arn> \
  --job-driver '{
    "sparkSubmit": {
      "entryPoint": "s3://<bucket>/script.py",
      "sparkSubmitParameters": "--conf spark.executor.cores=4 
        --conf spark.executor.memory=20g 
        --conf spark.driver.cores=4 
        --conf spark.driver.memory=8g 
        --conf spark.executor.instances=10"
    }
  }'

您也可以在任務層級為 EMR Serverless 啟用無伺服器儲存，即使應用程式層級未啟用也一樣。這將啟動已啟用無伺服器儲存的工作者節點，以處理您的任務。您也可以將相同的 Spark 屬性設定為 spark.aws.serverlessStorage.enabled false，以停用特定任務的無伺服器儲存。


# Turn on serverless storage for EMR serverless for a specific job
aws emr-serverless start-job-run \
    --application-id <application-id> \
    --execution-role-arn <job-role-arn> \
    --job-driver '{
"sparkSubmit": {
"entryPoint": "/usr/lib/spark/examples/jars/spark-examples.jar",
            "entryPointArguments": ["1"],
            "sparkSubmitParameters": "--class org.apache.spark.examples.SparkPi
            --conf spark.aws.serverlessStorage.enabled": "true"
        }
    }'

注意

若要繼續使用傳統的本機磁碟佈建，請省略spark.aws.serverlessStorage.enabled組態或將其設定為 false。

考量和限制

發行版本 – Amazon EMR 7.12 版及更新版本支援無伺服器儲存。
資料量限制 – 每個任務每次任務執行最多可讀取和寫入總計 200 GB 的中繼資料。超過此限制的任務將會失敗，並顯示錯誤訊息，指出已達到無伺服器儲存限制。
任務執行逾時 – 無伺服器儲存支援執行逾時長達 24 小時的任務。針對較長執行逾時設定的任務將會失敗，並顯示錯誤訊息。
預先初始化的容量 – 預先初始化的容量工作者不支援無伺服器儲存。當您設定預先初始化的容量時，它只會由在任務層級明確停用無伺服器儲存的任務使用。啟用無伺服器儲存的任務一律會隨需佈建新工作者，而且不會使用任何預先初始化的容量，無論應用程式層級中的組態為何。
工作負載類型 – 串流和互動式任務不支援無伺服器儲存。
工作者組態 – 具有 1 或 2 個 vCPUs工作者不支援無伺服器儲存。

支援的 AWS 區域

EMR Serverless 在下列區域中支援無伺服器儲存：

美國東部 (維吉尼亞北部)
美國東部 (俄亥俄)
美國西部 (加利佛尼亞北部)
美國西部 (奧勒岡)
非洲 (開普敦)
亞太地區 (香港)
亞太地區 (雅加達)
亞太地區 (墨爾本)
亞太地區 (孟買)
亞太區域 (大阪)
亞太區域 (首爾)
亞太區域 (新加坡)
亞太地區 (雪梨)
亞太區域 (東京)
加拿大 (中部)
加拿大西部 (卡加利)
歐洲 (法蘭克福)
歐洲 (愛爾蘭)
歐洲 (倫敦)
歐洲 (米蘭)
Europe (Paris)
歐洲 (西班牙)
歐洲 (斯德哥爾摩)
歐洲 (蘇黎世)
南美洲 (聖保羅)

您的瀏覽器已停用或無法使用 Javascript。

您必須啟用 Javascript，才能使用 AWS 文件。請參閱您的瀏覽器說明頁以取得說明。

文件慣用形式

使用隨機最佳化磁碟

處理持續串流資料的串流任務