Amazon EMR Serverless での信頼された ID の伝播 - Amazon EMR

Amazon EMR Serverless での信頼された ID の伝播

Amazon EMR リリース 7.8.0 以降では、Apache Livy Endpoint を通じて EMR Serverless を使用して、AWS IAM Identity Center からインタラクティブなワークロードにユーザー ID を伝達できます。Apache Livy インタラクティブワークロードは、提供された ID をさらに Amazon S3、Lake Formation、Amazon Redshift などのダウンストリームサービスに伝播し、これらのダウンストリームでユーザー ID を介した安全なデータアクセスを可能にします。以下のセクションでは、Apache Livy Endpoint を介して EMR Serverless で ID を起動してインタラクティブワークロードに伝達するために必要な概念的な概要、前提条件、および手順について説明します。

概要

IAM Identity Center は、組織の規模や種類を問わず、AWS 上でのワークフォースの認証と承認に推奨されるアプローチです。Identity Center を使用することにより、AWS でユーザー ID を作成・管理したり、あるいは Microsoft Active Directory、Okta、Ping Identity、JumpCloud、Google Workspace、Microsoft Entra ID (旧 Azure AD) などの既存の ID ソースを接続します。

信頼された ID の伝播は、接続された AWS サービスの管理者がサービスデータへのアクセスを許可および監査するために使用できる AWS IAM Identity Center の機能です。このデータへのアクセスは、グループの関連付けなどのユーザー属性に基づいています。信頼された ID の伝播を設定するには、接続された AWS サービスの管理者と IAM アイデンティティセンターの管理者とのコラボレーションが必要です。詳細については、「IAM Identity Center ユーザーガイド」の「Prerequisites and considerations」を参照してください。

機能と利点

EMR Serverless Apache Livy Endpoint と IAM Identity Center の統合による信頼された ID の伝播には、次の利点があります。

  • AWS Lake Formation で管理される AWS Glue データカタログテーブル上で、Identity Center ID を使用してテーブルレベルの認可を適用できます。

  • Amazon Redshift クラスターでアイデンティセンター ID による認可を適用する能力。

  • 監査用のユーザーアクションのエンドツーエンドの追跡の有効化。

  • S3 Access Grants が管理する S3 プレフィックスの Identity Center ID を使用して Amazon S3 プレフィックスレベルの認可を執行できます。

仕組み

EMR Serverless フローチャート。

ユースケースの例

データの準備と特徴量エンジニアリング

複数の研究チームのデータサイエンティストが、統合されたデータプラットフォームを使用して複雑なプロジェクトで共同作業を行います。社内の認証情報を使用して SageMaker AI にログインし、複数の AWS アカウントにまたがる膨大な共有データレイクに即座にアクセスします。新しい機械学習モデルの特徴量エンジニアリングを開始することにより、EMR Serverless を通じて起動された Spark セッションは、伝播された ID に基づいて Lake Formation の列および行レベルのセキュリティポリシーを適用します。サイエンティストは使い慣れたツールを使用してデータやエンジニアリング機能を効率的に準備でき、コンプライアンスチームはすべてのデータインタラクションが確実に自動的に追跡および監査される体制が得られます。この安全で協調的な環境は、規制の厳しい業界で必要とされる厳格なデータ保護標準を維持しながら、研究パイプラインを加速します。