Amazon EMR Studio - Amazon EMR

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

Amazon EMR Studio

Amazon EMR Studio 是 Web 型整合式開發環境 (IDE),適用於在 Amazon EMR 叢集上執行的全受管 Jupyter 筆記本。可以為您的團隊設定 EMR Studio,以開發、可視化和偵錯使用 R、Python、Scala 和 PySpark 編寫的應用程式。EMR Studio 已與 AWS Identity and Access Management (IAM) 和 IAM Identity Center 整合,讓使用者可以使用其公司登入資料登入。

可以免費建立 EMR Studio。使用 EMR Studio 時,會採用 Amazon S3 儲存和 Amazon EMR 叢集的適用費用。如需產品詳細資訊和重點資訊,請參閱 Amazon EMR Studio 的服務頁面。

EMR Studio 的主要功能

Amazon EMR Studio 提供以下功能:

  • 使用 AWS Identity and Access Management (IAM) 來驗證使用者,或使用 來驗證 AWS IAM Identity Center 具有或沒有信任身分傳播和您的企業身分提供者的使用者。

  • 視需求存取並啟動 Amazon EMR 叢集,以執行 Jupyter 筆記本作業。

  • 連接到 Amazon EMR on EKS 叢集,以便在作業執行時提交作業。

  • 探索並儲存範例筆記本。如需範例筆記本的詳細資訊,請參閱 EMR Studio Notebook 範例 GitHub 儲存庫

  • 使用 Python、PySpark、Spark Scala、Spark R 或 SparkSQL 分析資料,並安裝自訂核心和程式庫。

  • 與相同 Workspace 中的其他使用者即時協作。如需詳細資訊,請參閱在 EMR Studio 中設定工作區協同合作

  • 在使用筆記本中的資料之前,請先使用 EMR Studio SQL Explorer 來瀏覽資料型錄、執行 SQL 查詢及下載結果。

  • 使用 Apache Airflow 或 Amazon Managed Workflows for Apache Airflow 等協同運作工具,將參數化筆記本作為排程工作流程的一部分執行。如需詳細資訊,請參閱 AWS 大數據部落格中的使用 MWAA 在 EMR 筆記本上協調分析任務

  • 連結程式碼儲存庫,例如 GitHub 和 BitBucket。

  • 使用 Spark History Server、Tez UI 或 YARN Timeline Server 來追蹤和偵錯作業。

EMR Studio 符合 HIPAA 資格,並通過 HITRUST CSF 和 SOC 2 認證。如需 AWS 服務 HIPAA 合規的詳細資訊,請參閱 https://aws.amazon.com/compliance/hipaa-compliance/。若要進一步了解 AWS 服務的 HITRUST CSF 合規,請參閱 https://aws.amazon.com/compliance/hitrust/

EMR Studio 也符合 FedRamp 標準。如需 Amazon EMR 合規計劃的詳細資訊,請參閱 Amazon EMR 的合規驗證。如需 AWS 服務的其他合規計劃的詳細資訊,請參閱AWS 合規計劃範圍內的服務

Amazon SageMaker Unified Studio 整合開發環境

Amazon SageMaker Unified Studio 為在 EC2 叢集上的 Amazon EMR 或使用 EMR Serverless 運算連線執行的 Jupyter 筆記本提供整合式開發環境 (IDE)。透過結合 Amazon EMR 的強大功能與 Amazon SageMaker Unified Studio 的end-to-end工作流程功能,團隊可以在單一環境中簡化資料準備、管道開發和 ML 實驗。SageMaker 中的 Amazon EMR 支援 Apache Spark、Trino 和 Apache Flink 等開放原始碼架構,徹底改變了大數據處理。消除基礎設施管理複雜性,同時輕鬆擴展分析工作負載。若要進一步了解,請參閱 Amazon EMR

Amazon EMR Studio 功能歷史記錄

此資料表列出 Amazon EMR 受管擴展功能的更新。

版本日期 功能
2024 年 1 月 5 日

新增對 EMR Studio in AWS GovCloud (美國東部) 和 AWS GovCloud (美國西部) 的支援。

2023 年 11 月 26 日

新增了對使用 IAM Identity Center 身分驗證之 EMR Studio Trusted Identity Propagation 的支援。

2023 年 10 月 26 日

提升了能力,可建立具有互動功能的 EMR Serverless 應用程式。

2023 年 2 月 28 日

新增支援 EMR Serverless 應用程式應用程式日誌儲存 AWS KMS 的客戶受管金鑰。

2023 年 2 月 23 日

為 EMR Serverless 作業提交新增了一鍵式 IAM 角色建立功能。為 EMR Serverless 應用程式選取自訂映像時,新增了 ECR 查找功能。

2023 年 1 月 27 日

無頭執行筆記本可以使用 %execute_notebook 魔術命令跟蹤每個單元執行的進度。

2023 年 1 月 23 日

持續性應用程式經過優化,可加快啟動時間。