Menggunakan Presto dengan Katalog Data AWS Glue - Amazon EMR

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Menggunakan Presto dengan Katalog Data AWS Glue

Menggunakan Amazon EMR rilis versi 5.10.0 dan versi yang lebih baru, Anda dapat menentukan AWS Glue Katalog Data sebagai metastore Hive default untuk Presto. Kami merekomendasikan konfigurasi ini ketika Anda memerlukan metastore persisten atau metastore bersama oleh kelompok yang berbeda, layanan, aplikasi, atau. Akun AWS

AWS Glue adalah layanan ekstrak, transformasi, dan beban (ETL) yang dikelola sepenuhnya yang membuatnya sederhana dan hemat biaya untuk mengkategorikan data Anda, membersihkannya, memperkayanya, dan memindahkannya dengan andal di antara berbagai penyimpanan data. Parameter Katalog Data AWS Glue menyediakan repositori metadata terpadu di berbagai sumber data dan format data, mengintegrasikan dengan Amazon EMR serta Amazon RDS, Amazon Redshift, Redshift Spectrum Redena, Athena, dan aplikasi yang kompatibel dengan metastore Apache Hive. AWS Glue crawler dapat secara otomatis menyimpulkan skema dari sumber data di Amazon S3 dan menyimpan metadata terkait dalam Katalog Data. Untuk informasi selengkapnya tentang Katalog Data Glue, lihat Mengisi Katalog Data AWS Glue dalam Panduan Developer AWS Glue.

Biaya terpisah berlaku untuk AWS Glue. Ada tarif bulanan untuk menyimpan dan mengakses metadata di Katalog Data, tarif per jam ditagih per menit untuk AWS Glue pekerjaan ETL dan runtime crawler, dan tarif per jam ditagih per menit untuk setiap endpoint pengembangan ditetapkan. Katalog Data memungkinkan Anda untuk menyimpan hingga satu juta objek tanpa biaya. Jika Anda menyimpan lebih dari satu juta objek, Anda dikenakan biaya USD$1 untuk setiap 100.000 objek lebih dari satu juta. Sebuah objek dalam Katalog Data adalah tabel, partisi, atau database. Untuk informasi lebih lanjut, lihat Harga Glue.

penting

Jika Anda membuat tabel menggunakan Amazon Athena atau Amazon Redshift Spectrum sebelum 14 Agustus 2017, database dan tabel disimpan dalam katalog yang dikelola Athena, yang terpisah dari Katalog Data Glue. AWS Untuk mengintegrasikan Amazon EMR dengan tabel ini, Anda harus meng-upgrade ke Katalog Data AWS Glue. Untuk informasi selengkapnya, lihat Mengupgrade ke Katalog Data AWS Glue di Panduan Pengguna Amazon Athena.

Menentukan Katalog Data AWS Glue sebagai metastore

Anda dapat menentukan AWS Glue Katalog Data sebagai metastore menggunakan AWS Management Console, AWS CLI, atau Amazon EMR API. Ketika Anda menggunakan CLI atau API, Anda menggunakan klasifikasi konfigurasi untuk Presto untuk menentukan Katalog Data. Selain itu, dengan Amazon EMR 5.16.0 dan versi yang lebih tinggi, Anda dapat menggunakan klasifikasi konfigurasi untuk menentukan Katalog Data yang berbeda. Akun AWS Bila menggunakan konsol, Anda dapat menentukan Katalog Data menggunakan Opsi lanjutan atau Opsi cepat.

Console
Untuk menentukan AWS Glue Katalog Data sebagai metastore Hive dengan konsol baru
  1. Masuklah ke AWS Management Console, dan buka konsol Amazon EMR di https://console.aws.amazon.com /emr.

  2. Di bawah EMR EC2 di panel navigasi kiri, pilih Clusters, lalu pilih Create cluster.

  3. Di bawah Bundel aplikasi, pilih Presto.

  4. Di bawah Pengaturan AWS Glue Data Catalog, pilih kotak centang Gunakan untuk metadata tabel Presto.

  5. Pilih opsi lain yang berlaku untuk cluster Anda.

  6. Untuk meluncurkan klaster Anda, pilih Buat klaster.

CLI
Untuk menentukan AWS Glue Katalog Data sebagai default Hive metastore menggunakan AWS CLI

Untuk contoh cara menentukan klasifikasi konfigurasi berikut ketika Anda membuat sebuah cluster, lihat Konfigurasikan aplikasi.

Amazon EMR 5.16.0 dan versi yang lebih tinggi

  • Mengatur hive.metastore Properti ke glue Seperti yang ditunjukkan dalam contoh JSON berikut.

    [ { "Classification": "presto-connector-hive", "Properties": { "hive.metastore": "glue" } } ]

    Untuk menentukan Katalog Data yang berbeda Akun AWS, tambahkan hive.metastore.glue.catalogid properti seperti yang ditunjukkan dalam contoh JSON berikut. Ganti acct-id dengan AWS akun Katalog Data. Menggunakan Katalog Data di lain tidak Akun AWS tersedia menggunakan Amazon EMR versi 5.15.0 dan sebelumnya.

    [ { "Classification": "presto-connector-hive", "Properties": { "hive.metastore": "glue", "hive.metastore.glue.catalogid": "acct-id" } } ]

    Amazon EMR 5.10.0 melalui 5.15.0

    Mengatur hive.metastore.glue.datacatalog.enabled Properti ke true, seperti yang ditunjukkan dalam contoh JSON berikut:

    [ { "Classification": "presto-connector-hive", "Properties": { "hive.metastore.glue.datacatalog.enabled": "true" } } ]

    Amazon EMR 6.1.0 dan versi lebih baru menggunakan PrestoSQL (Trino)

    Dimulai dengan EMR versi 6.1.0, PrestoSQL juga mendukung Glue sebagai default Hive metastore. Penggunaan prestosql-connector-hive klasifikasi konfigurasi dan mengatur hive.metastore Properti ke glue, seperti yang ditunjukkan dalam contoh JSON berikut.

    Amazon EMR versi 6.4.0 dan yang lebih baru menggunakan nama baru Trino alih-alih PrestosQL. Jika Anda menggunakan Trino, ganti prestosql-connector-hive dalam klasifikasi konfigurasi berikut dengantrino-connector-hive.

    [ { "Classification": "prestosql-connector-hive", "Properties": { "hive.metastore": "glue" } } ]

Untuk beralih metastores pada cluster berjalan lama, Anda dapat secara manual menetapkan nilai-nilai ini sesuai untuk versi rilis Anda dengan menghubungkan ke node master, mengedit nilai properti di /etc/presto/conf/catalog/hive.properties file secara langsung, dan restart Presto server (sudo restart presto-server). Jika Anda menggunakan metode ini dengan Amazon EMR 5.15.0 dan sebelumnya, pastikan bahwa hive.table-statistics-enabled diatur ke false. Pengaturan ini tidak diperlukan ketika menggunakan versi rilis 5.16.0 dan yang lebih baru; namun demikian, tabel dan partisi statistik tidak didukung.

Izin IAM

Profil EC2 instans untuk sebuah klaster harus memiliki izin IAM untuk Tindakan AWS Glue. Selain itu, jika Anda mengaktifkan enkripsi untuk AWS Glue Katalog Data objek, peran juga harus diizinkan untuk mengenkripsi, mendekripsi dan menghasilkan yang AWS KMS key digunakan untuk enkripsi.

Izin tindakan AWS Glue

Jika Anda menggunakan profil EC2 instans default untuk Amazon EMR, tidak ada tindakan yang diperlukan. Kebijakan AmazonElasticMapReduceforEC2Role terkelola yang dilampirkan pada EMR_EC2_DefaultRole memungkinkan semua tindakan AWS Glue yang diperlukan. Namun, jika Anda menentukan profil EC2 instans kustom dan izin, Anda harus mengonfigurasi Tindakan AWS Glue yang sesuai. Gunakan AmazonElasticMapReduceforEC2Role Kebijakan yang dikelola sebagai titik awal. Untuk informasi selengkapnya, lihat Peran layanan untuk EC2 instance klaster (profil EC2 instance) di Panduan Manajemen EMR Amazon.

Izin untuk mengenkripsi dan mendekripsi Katalog Data Glue AWS

Profil instans Anda memerlukan izin untuk mengenkripsi dan mendekripsi data menggunakan kunci Anda. Anda tidak perlu mengonfigurasi izin ini jika kedua pernyataan berikut berlaku:

  • Anda mengaktifkan enkripsi untuk objek AWS Glue Data Catalog menggunakan kunci AWS terkelola untuk Glue.

  • Anda menggunakan cluster yang Akun AWS sama dengan AWS Glue Data Catalog.

Jika tidak, Anda harus menambahkan pernyataan berikut ke kebijakan izin yang dilampirkan ke profil EC2 instans Anda.

[ { "Version": "2012-10-17", "Statement": [ { "Effect": "Allow", "Action": [ "kms:Decrypt", "kms:Encrypt", "kms:GenerateDataKey" ], "Resource": "arn:aws:kms:region:acct-id:key/12345678-1234-1234-1234-123456789012" } ] } ]

Untuk informasi lebih lanjut tentang Enkripsi Katalog Data AWS Glue, lihat Mengenkripsi katalog data Anda dalam Panduan Developer AWS Glue.

Izin berbasiskan sumber daya

Jika Anda menggunakan AWS Glue di hubungannya dengan Hive, Spark, atau Presto di Amazon EMR AWS , Glue mendukung kebijakan berbasis sumber daya untuk mengontrol akses ke sumber daya Katalog Data. Sumber daya ini termasuk database, tabel, koneksi, dan fungsi yang ditetapkan pengguna. Untuk informasi lebih lanjut, lihat AWS Kebijakan sumber daya Glue di AWS Panduan Developer Glue.

Saat menggunakan kebijakan berbasis sumber daya untuk membatasi akses ke Glue AWS dari dalam Amazon EMR, kepala sekolah yang Anda tentukan dalam kebijakan izin harus peran ARN terkait dengan profil EC2 contoh yang ditentukan ketika cluster dibuat. Misalnya, untuk kebijakan berbasis sumber daya yang dilampirkan ke katalog, Anda dapat menentukan peran ARN untuk peran layanan default untuk EC2 contoh cluster, EMR_EC2_DefaultRole sepertiPrincipal, menggunakan format yang ditunjukkan dalam contoh berikut:

arn:aws:iam::acct-id:role/EMR_EC2_DefaultRole

acct-idBisa berbeda dari ID Akun AWS Glue. Hal ini memungkinkan akses dari cluster EMR di account yang berbeda. Anda dapat menentukan beberapa kepala sekolah, masing-masing dari akun yang berbeda.

Pertimbangan ketika menggunakan AWS Katalog data Glue

Pertimbangkan item berikut saat menggunakan Katalog Data AWS Glue sebagai metastore dengan Presto:

  • Mengganti nama tabel dari dalam AWS Glue tidak didukung.

  • Bila Anda membuat tabel Hive tanpa menentukan LOCATION, data tabel disimpan di lokasi yang ditentukan oleh hive.metastore.warehouse.dir properti. Secara default, ini adalah lokasi di HDFS. Jika gugus lain perlu mengakses tabel, gagal kecuali memiliki izin yang memadai untuk gugus yang dibuat tabel. Selain itu, karena penyimpanan HDFS sementara, jika gugus berakhir, data tabel hilang, dan tabel harus diciptakan kembali. Kami sarankan Anda menentukan LOCATION di Amazon S3 saat Anda membuat tabel Hive menggunakan Glue. AWS Atau, Anda dapat menggunakan hive-site klasifikasi konfigurasi untuk menentukan lokasi di Amazon S3 untuk hive.metastore.warehouse.dir, yang berlaku untuk semua tabel Hive. Jika tabel dibuat di lokasi HDFS dan cluster yang dibuat itu masih berjalan, Anda dapat memperbarui lokasi tabel untuk Amazon S3 dari dalam AWS Glue. Untuk informasi selengkapnya, lihat Bekerja dengan Tabel pada Konsol AWS Glue dalam Panduan Developer AWS Glue.

  • Nilai partisi yang berisi tanda kutip dan apostrof tidak didukung, misalnya, PARTITION (owner="Doe's").

  • Statistik kolom didukung untuk emr-5.31.0 dan yang lebih baru.

  • Menggunakan Otorisasi hive tidak didukung. Sebagai alternatif, pertimbangkan untuk menggunakan AWS Kebijakan Berbasis Sumber Daya Glue. Untuk informasi selengkapnya, lihat Menggunakan Kebijakan Berbasis Sumber Daya untuk Amazon EMR Access ke Katalog Data Glue. AWS