考慮事項と制限事項 - Amazon EMR

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

考慮事項と制限事項

General

EMR Serverless で Lake Formation を使用する場合は、次の制限事項を確認してください。

注記

EMR Serverless で Spark ジョブの Lake Formation を有効にすると、ジョブはシステムドライバーとユーザードライバーを起動します。起動時に事前初期化された容量を指定した場合、ドライバーは事前初期化された容量からプロビジョニングし、システムドライバーの数は指定したユーザードライバーの数と等しくなります。オンデマンドキャパシティを選択すると、EMR Serverless はユーザードライバーに加えてシステムドライバーを起動します。Lake Formation ジョブで EMR Serverless に関連するコストを見積もるには、AWS 料金見積りツール を使用します。

  • Lake Formation を使用した Amazon EMR Serverless は、サポートされているすべての EMR Serverless リージョンで使用できます。

  • Lake Formation 対応アプリケーションは、カスタマイズされた EMR Serverless イメージの使用をサポートしていません。

  • Lake Formation ジョブの DynamicResourceAllocation をオフにすることはできません。

  • Lake Formation は Spark ジョブでのみ使用できます。

  • Lake Formation を使用した EMR Serverless は、ジョブ全体で 1 つの Spark セッションのみをサポートします。

  • Lake Formation を使用した EMR Serverless は、リソースリンクを介して共有されるクロスアカウントテーブルクエリのみをサポートします。

  • 次のサポートはありません。

    • 耐障害性のある分散データセット (RDD)

    • Spark ストリーミング

    • ネストされた列のアクセスコントロール

  • EMR Serverless は、以下を含むシステムドライバーの完全な分離を損なう可能性のある機能をブロックします。

    • UDT、HiveUDF およびカスタムクラスを含むユーザー定義関数

    • カスタムデータソース

    • Spark 拡張機能、コネクタ、メタストア用の追加の jar の提供

    • ANALYZE TABLE コマンド

  • EMR Serverless アプリケーションが Amazon S3 の VPC エンドポイントを持つプライベートサブネットにあり、アクセスを制御するエンドポイントポリシーをアタッチしている場合、ジョブが AWS Managed Amazon S3 にログデータを送信する前に、VPC ポリシーの Managed Storage に詳述されているアクセス許可を S3 ゲートウェイエンドポイントに含めます。リクエストのトラブルシューティングについては、 AWS サポートにお問い合わせください。

  • Amazon EMR 7.9.0 以降、Spark FGAC は s3a:// スキームで使用すると S3AFileSystem をサポートします。

  • Amazon EMR 7.11 は、CTAS を使用したマネージドテーブルの作成をサポートしています。

  • Amazon EMR 7.12 は、CTAS を使用したマネージドテーブルと外部テーブルの作成をサポートしています。

権限

  • アクセスコントロールを適用するために、EXPLAIN PLAN および DESCRIBE TABLE などの DDL オペレーションでは、制限された情報は公開されません。

  • Lake Formation にテーブルの場所を登録すると、データアクセスは EMR Serverless ジョブランタイムロールの IAM アクセス許可の代わりに Lake Formation の保存された認証情報を使用します。ランタイムロールにその場所の S3 IAM アクセス許可がある場合でも、テーブルの場所の登録済みロールが正しく設定されていない場合、ジョブは失敗します。

  • Amazon EMR 7.12 以降では、DataFrameWriter (V2) と Lake Formation 認証情報を追加モードで使用して、既存の Hive テーブルと Iceberg テーブルに書き込むことができます。上書きオペレーションの場合、または新しいテーブルを作成する場合、EMR はランタイムロール認証情報を使用してテーブルデータを変更します。

  • ビューまたはキャッシュされたテーブルをソースデータとして使用する場合は、次の制限が適用されます (これらの制限は Glue Data Catalog AWS ビューには適用されません)。

    • MERGE、DELETE、および UPDATE オペレーションの場合

      • サポートされている: ビューとキャッシュされたテーブルをソーステーブルとして使用します。

      • サポート対象外: 割り当て句と条件句でビューとキャッシュされたテーブルを使用する。

    • CREATE OR REPLACE および REPLACE TABLE AS SELECT オペレーションの場合:

      • サポート対象外: ビューとキャッシュされたテーブルをソーステーブルとして使用します。

  • ソースデータに UDFsを持つ Delta Lake テーブルは、削除ベクトルが有効になっている場合にのみ MERGE、DELETE、および UPDATE オペレーションをサポートします。

ログとデバッグ

  • EMR Serverless は、Lake Formation 対応アプリケーションのシステムドライバー Spark ログへのアクセスを制限します。システムドライバーは昇格アクセス許可を使用して実行されるため、システムドライバーが生成するイベントとログには機密情報が含まれる可能性があります。許可されていないユーザーまたはコードがこの機密データにアクセスできないように、EMR Serverless はシステムドライバーログへのアクセスを無効にしました。

  • システムプロファイルログは常にマネージドストレージに保持されます。これは無効にできない必須の設定です。これらのログは、カスタマーマネージド KMS キーまたは AWS マネージド KMS キーを使用して安全に保存され、暗号化されます。

Iceberg

Apache Iceberg を使用するときは、以下の考慮事項を確認してください。

  • Apache Iceberg はセッションカタログでのみ使用でき、任意の名前のカタログでは使用できません。

  • Lake Formation に登録されている Iceberg テーブルは、メタデータテーブル historymetadata_log_entriessnapshotsfilesmanifests、および refs のみをサポートします。Amazon EMR は partitionspathsummaries などの機密データを持つ可能性のある列を非表示にします。この制限は、Lake Formation に登録されていない Iceberg テーブルには適用されません。

  • Lake Formation に登録されていないテーブルは、すべての Iceberg ストアドプロシージャをサポートします。register_table プロシージャと migrate プロシージャは、どのテーブルでもサポートされていません。

  • V1 の代わりに Iceberg DataFrameWriterV2 を使用することを提案します。