本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
使用編目程式新增資料表
AWS Glue 爬蟲程式可協助探索 AWS Glue Data Catalog 中資料集的結構描述,並將其和註冊為資料表。爬蟲程式可逐一瀏覽您的資料,並判斷結構描述。此外,爬蟲程式可偵測和登錄分割區。如需詳細資訊,請參閱《AWS Glue 開發人員指南》中的定義爬蟲程式。可從 Athena 查詢來自已成功編目的資料的資料表。
注意
Athena 無法辨識您為 AWS Glue 爬蟲程式指定的排除模式。例如,如果您的 Amazon S3 儲存貯體同時包含 .csv 和 .json 檔案,並且您將 .json 檔案從爬蟲程式中排除,Athena 會查詢這兩個檔案群組。若要避免這種情況,請將您要排除的檔案放在不同的位置。
建立 AWS Glue 編目程式
您可以從 Athena 主控台開始建立爬蟲程式,然後以整合方式使用 AWS Glue 主控台。建立爬蟲程式時,需要在 Amazon S3 中指定要網路爬取的資料位置。
在 AWS Glue 中從 Athena 主控台開始建立爬蟲程式
前往 https://console.aws.amazon.com/athena/
開啟 Athena 主控台。 -
在查詢編輯器中,選擇位於資料表和檢視旁的建立,然後選擇 AWS Glue 爬蟲程式。
-
在 AWS Glue 主控台的 Add crawler (新增爬蟲程式) 頁面上,依照步驟建立爬蟲程式。如需詳細資訊,請參閱本指南中的使用 AWS Glue 爬蟲程式和《AWS Glue 開發人員指南》中的填入 AWS Glue Data Catalog。
注意
Athena 無法辨識您為 AWS Glue 爬蟲程式指定的排除模式。例如,如果您的 Amazon S3 儲存貯體同時包含 .csv 和 .json 檔案,並且您將 .json 檔案從爬蟲程式中排除,Athena 會查詢這兩個檔案群組。若要避免這種情況,請將您要排除的檔案放在不同的位置。
在編目之後,AWS Glue 爬蟲程式會自動指派某些資料表中繼資料,以協助讓它與其他外部技術 (如 Apache Hive、Presto 和 Spark) 相容。有時爬蟲程式可能不正確地指派中繼資料屬性。在使用 Athena 查詢資料表之前,請於 AWS Glue 中手動更正屬性。如需詳細資訊,請參閱《AWS Glue 開發人員指南》中的檢視與編輯資料表詳細資訊。
當 CSV 檔案的每個資料欄有引號時,AWS Glue 可能會錯誤地指派中繼資料,使得 serializationLib 屬性出現錯誤。如需更多詳細資訊,請參閱 處理以引號括住的 CSV 資料。