Menggunakan konektor Hive untuk membuat data tersedia untuk kueri Buat cluster dengan Trino

Luncurkan cluster EMR Amazon dengan Trino

Berikut ini menjelaskan pilihan konfigurasi yang benar saat Anda membuat cluster dengan Trino.

Menggunakan konektor Hive untuk membuat data tersedia untuk kueri

Anda dapat mengonfigurasi konektor Trino untuk metastore Hive untuk tujuan kueri data metastore dari cluster Anda. Metastore adalah lapisan abstraksi yang membuat konten berbasis file atau data tersedia sebagai tabel, sehingga mudah untuk query. Anda harus mengonfigurasi konektor di Amazon EMR untuk membuat tabel metastore Hive tersedia untuk cluster. Prosedur berikut menunjukkan kepada Anda bagaimana melakukan ini:

Pilih AWS Glue di konsol dan buat tabel, berdasarkan data sumber Anda di Amazon S3. Tabel dalam AWS Glue Data Catalog adalah definisi metadata untuk data. Masuk akal dalam konteks ini untuk membuat tabel secara manual, membuat kolom sesuka Anda, dari data sumber Anda. Untuk informasi selengkapnya tentang membuat tabel di AWS Glue dari data semi-terstruktur di Amazon S3, lihat Membuat tabel menggunakan konsol di Panduan Pengguna AWS Glue.
Tetapkan konfigurasi Anda sebagai bagian dari pembuatan cluster. Pilih tab Konfigurasi. Konfigurasi adalah spesifikasi opsional untuk cluster Anda. Saat Anda memasukkan konfigurasi, tambahkan JSON seperti contoh berikut, yang menginstruksikan Trino untuk menggunakan AWS Glue Data Catalog sebagai metastore Hive eksternal untuk metadata tabel:
```
{
    "classification": "trino-connector-hive",
    "properties": {
        "hive.metastore": "glue"
    }
}
```
Atau, Anda dapat menerapkan konfigurasi di bagian Pengaturan perangkat lunak saat Anda membuat klaster.

Selain itu, Anda dapat mengatur jenis konektor lainnya, seperti untuk menghubungkan dengan Apache Iceberg. Untuk informasi selengkapnya, lihat Menggunakan klaster Gunung Es dengan Trino di Panduan Rilis Amazon EMR. Mengkonfigurasi pengaturan tambahan adalah opsional.

Untuk melanjutkan langkah memulai, lihat. Connect ke node utama untuk kluster Amazon EMR dan jalankan kueri

Buat cluster dengan Trino

Berikut ini menjelaskan pilihan konfigurasi yang benar saat Anda membuat cluster yang ingin Anda gunakan dengan Trino.

penting

Sebelum Anda membuat cluster Anda, selesaikan konfigurasi AWS Glue Data Catalog sebagai metastore Hive Anda, yang kami rekomendasikan untuk memulai. Untuk informasi selengkapnya, lihat Menggunakan konektor Hive untuk membuat data tersedia untuk kueri.

Di AWS konsol, pilih Amazon EMR dari layanan. Ketika Anda memilih Amazon EMR, jika Anda memiliki cluster yang ada, EMR Anda pada cluster terdaftar. EC2
Pilih Buat klaster. Dari sini, Anda memulai proses untuk membangun sebuah cluster.
Beri nama cluster Anda dan pilih rilis EMR Amazon. Anda dapat memilih rilis terbaru untuk tutorial.
Pilih bundel Trino, yang memiliki aplikasi Trino yang telah dipilih sebelumnya. Bundel disiapkan untuk kenyamanan saat Anda mengetahui tujuan cluster sebelumnya. Jika tidak, Anda cukup memilih kotak centang untuk Trino.
Untuk konfigurasi Cluster, pilih Uniform instance groups. Silakan dan hapus grup instance tambahan.
Pilih jenis Instance. Umumnya kami menyarankan Anda memilih jenis instans dengan setidaknya 16 memori GiB. Juga, untuk penskalaan dan penyediaan Cluster pilih Atur ukuran cluster secara manual.
Pada titik ini, atur konfigurasi metastore Hive Anda untuk menunjuk ke Glue. AWS Ini dirinci di bagian iniMenggunakan konektor Hive untuk membuat data tersedia untuk kueri. Selesaikan ini sebelum Anda membangun cluster.
Pilih Buat klaster. Butuh beberapa menit untuk menyelesaikannya.

Langkah-langkah di sini tidak mencakup semua langkah konfigurasi secara rinci. Informasi lebih lanjut tentang menyiapkan klaster tersedia di Rencana, konfigurasi, dan luncurkan klaster EMR Amazon.

catatan

Jangan pilih Presto dan Trino untuk digunakan pada cluster yang sama. Menjalankannya bersama tidak didukung. Juga disarankan bahwa jika Anda menjalankan Trino, Anda tidak menjalankan aplikasi lain di cluster, seperti Spark.

Awas Javascript dinonaktifkan atau tidak tersedia di browser Anda.

Untuk menggunakan Dokumentasi AWS, Javascript harus diaktifkan. Lihat halaman Bantuan browser Anda untuk petunjuk.

Konvensi Dokumen

Lengkapi langkah-langkah prasyarat untuk menggunakan Amazon EMR dengan Trino

Connect ke node utama dan jalankan query