本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
連線至 Amazon EMR 叢集的主要節點並執行查詢
佈建測試資料並設定許可
您可以使用 Glue Data Catalog 及其 Hive 中繼存放區,透過 Trino AWS 測試 Amazon EMR。如果您尚未設定測試資料,這些先決條件步驟會說明如何設定測試資料:
如果您尚未建立用於通訊加密的 SSH 金鑰,請建立 SSH 金鑰。
您可以選擇多個檔案系統來存放資料和日誌檔案。若要開始,請建立 Amazon S3 儲存貯體。為儲存貯體命名唯一名稱。建立加密金鑰時,請指定您建立的加密金鑰。
注意
選擇相同的區域來建立儲存貯體和 Amazon EMR 叢集。
選擇您建立的儲存貯體。選擇建立資料夾,並為資料夾命名為可記住的名稱。當您建立 資料夾時,請選擇安全組態。您可以選擇父系的安全設定,或讓安全設定更專業。
將測試資料新增至您的資料夾。基於本教學的目的,使用逗號分隔記錄的 .csv 非常適合完成此使用案例。
將資料新增至 Amazon S3 儲存貯體之後,請在 Glue AWS 中設定資料表,以提供用於查詢資料的抽象層。
連接並執行查詢
以下說明如何在執行 Trino 的叢集上連接和執行查詢。執行此操作之前,請確定您已設定 Hive 中繼存放區連接器,如先前程序中所述,如此中繼存放區資料表才會顯示。
我們建議您使用 EC2 Instance Connect 連線到您的叢集,因為它提供安全的連線。從叢集摘要中選擇使用 SSH 連線至主節點。連線需要安全群組具有傳入規則,以允許透過連接埠 22 連線至子網路中的用戶端。您也必須在連線時使用 使用者 hadoop。
執行 以啟動 Trino CLI
trino-cli
。這可讓您使用 Trino 執行命令和查詢資料。執行
show catalogs;
。檢查 hive 目錄是否已列出。這提供可用的目錄清單,其中包含資料存放區或系統設定。若要查看可用的結構描述,請執行
show schemas in hive;
。從這裡,您可以執行use
並包含結構描述的名稱。然後,您可以執行schema-name
;show tables;
來列出資料表。使用結構描述中的資料表名稱
SELECT * FROM
,執行類似 的命令來查詢資料表。如果您已執行table-name
USE
陳述式以連線到特定結構描述,則不需要使用兩個部分的標記法,例如schema
.table
。