Pertimbangan dan batasan - Amazon EMR

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Pertimbangan dan batasan

Umum

Tinjau batasan berikut saat menggunakan Lake Formation dengan EMR Serverless.

catatan

Saat Anda mengaktifkan Lake Formation untuk pekerjaan Spark di EMR Tanpa Server, pekerjaan tersebut meluncurkan driver sistem dan driver pengguna. Jika Anda menentukan kapasitas pra-inisialisasi saat peluncuran, ketentuan driver dari kapasitas pra-inisialisasi, dan jumlah driver sistem sama dengan jumlah driver pengguna yang Anda tentukan. Jika Anda memilih kapasitas On Demand, EMR Serverless meluncurkan driver sistem selain driver pengguna. Untuk memperkirakan biaya yang terkait dengan pekerjaan EMR Tanpa Server dengan Lake Formation Anda, gunakan. AWS Kalkulator Harga

Izin

  • Untuk menegakkan kontrol akses, EXPLORE PLAN dan operasi DDL seperti DESCRIBE TABLE tidak mengekspos informasi terbatas.

  • Saat Anda mendaftarkan lokasi tabel dengan Lake Formation, akses data menggunakan kredensil tersimpan Lake Formation, bukan izin IAM peran runtime pekerjaan EMR Tanpa Server. Pekerjaan akan gagal jika peran terdaftar untuk lokasi tabel salah dikonfigurasi, bahkan ketika peran runtime memiliki izin IAM S3 untuk lokasi tersebut.

  • Dimulai dengan Amazon EMR 7.12, Anda dapat menulis ke tabel Hive dan Iceberg yang ada menggunakan DataFrameWriter (V2) dengan kredensyal Lake Formation dalam mode append. Untuk operasi menimpa atau saat membuat tabel baru, EMR menggunakan kredenal peran runtime untuk memodifikasi data tabel.

  • Batasan berikut berlaku saat menggunakan tampilan atau tabel cache sebagai data sumber (batasan ini tidak berlaku untuk tampilan AWS Glue Data Catalog):

    • Untuk operasi MERGE, DELETE, dan UPDATE

      • Didukung: Menggunakan tampilan dan tabel cache sebagai tabel sumber.

      • Tidak didukung: Menggunakan tampilan dan tabel cache dalam klausa penetapan dan kondisi.

    • Untuk CREATE OR REPLACE dan REPLACE TABLE AS SELECT operasi:

      • Tidak didukung: Menggunakan tampilan dan tabel cache sebagai tabel sumber.

  • Tabel Delta Lake dengan UDFs data sumber mendukung operasi MERGE, DELETE, dan UPDATE hanya ketika vektor penghapusan diaktifkan.

Log dan debugging

  • EMR Tanpa Server membatasi akses ke driver sistem Log Spark pada aplikasi yang mendukung Lake Formation. Karena driver sistem berjalan dengan izin tinggi, peristiwa dan log yang dihasilkan driver sistem dapat mencakup informasi sensitif. Untuk mencegah pengguna atau kode yang tidak sah mengakses data sensitif ini, EMR Serverless menonaktifkan akses ke log driver sistem.

  • Log profil sistem selalu disimpan dalam penyimpanan terkelola - ini adalah pengaturan wajib yang tidak dapat dinonaktifkan. Log ini disimpan dengan aman dan dienkripsi menggunakan kunci KMS yang Dikelola Pelanggan atau kunci KMS Terkelola AWS .

Gunung es

Tinjau pertimbangan berikut saat menggunakan Apache Iceberg:

  • Anda hanya dapat menggunakan Apache Iceberg dengan katalog sesi dan tidak sewenang-wenang bernama katalog.

  • Tabel gunung es yang terdaftar di Lake Formation hanya mendukung tabel metadatahistory,,,, metadata_log_entriessnapshots, files dan. manifests refs Amazon EMR menyembunyikan kolom yang mungkin memiliki data sensitif, sepertipartitions,, dan. path summaries Batasan ini tidak berlaku untuk tabel Gunung Es yang tidak terdaftar di Lake Formation.

  • Tabel yang tidak terdaftar di Lake Formation mendukung semua prosedur yang disimpan Gunung Es. Prosedur register_table dan migrate prosedur tidak didukung untuk tabel apa pun.

  • Kami menyarankan Anda menggunakan Iceberg DataFrameWriter V2 alih-alih V1.