

本文為英文版的機器翻譯版本，如內容有任何歧義或不一致之處，概以英文版為準。

# 建立並執行 的 Amazon DataZone 資料來源 AWS Glue Data Catalog
<a name="create-glue-data-source"></a>

在 Amazon DataZone 中，您可以建立 AWS Glue Data Catalog 資料來源，以便從中匯入資料庫資料表的技術中繼資料 AWS Glue。若要新增 的資料來源 AWS Glue Data Catalog，來源資料庫必須已存在於 中 AWS Glue。

當您建立和執行 AWS Glue 資料來源時，您可以將來源 AWS Glue 資料庫中的資產新增至 Amazon DataZone 專案的庫存。您可以依設定的排程或隨需執行 AWS Glue 資料來源，以建立或更新資產的技術中繼資料。在資料來源執行期間，您可以選擇將資產發佈至 Amazon DataZone 目錄，讓所有網域使用者都能探索它們。您也可以在編輯專案庫存資產的業務中繼資料之後發佈它們。網域使用者可以搜尋和探索您發佈的資產，並請求訂閱這些資產。

**新增 AWS Glue 資料來源**

1. 導覽至 Amazon DataZone 資料入口網站 URL，並使用單一登入 (SSO) 或您的 AWS 登入資料登入。如果您是 Amazon DataZone 管理員，您可以在 [https://console.aws.amazon.com/datazone](https://console.aws.amazon.com/datazone)：// 導覽至 Amazon DataZone 主控台，並使用建立網域 AWS 帳戶 的 登入，然後選擇**開啟資料入口網站**。

1. 從頂端導覽窗格中選擇**選取專案**，然後選取您要新增資料來源的專案。

1. 導覽至專案**的資料**索引標籤。

1. 從左側導覽窗格中選擇**資料來源**，然後選擇**建立資料來源**。

1. 設定下列欄位：
   + **名稱** – 資料來源名稱。
   + **描述** – 資料來源描述。

1. 在**資料來源類型**下，選擇 **AWS Glue**。

1. 在**選取環境**下，指定要在其中發佈 AWS Glue 資料表的環境。

1. 在**資料選擇**下，提供 AWS Glue 資料庫並輸入您的資料表選擇條件。例如，如果您選擇**包含**並輸入 `*corporate`，資料庫將包含以文字 結尾的所有來源資料表`corporate`。

   您可以選擇下拉式清單中的 AWS Glue 資料庫，或輸入資料庫名稱。下拉式清單包含兩個資料庫：發佈資料庫和環境的訂閱資料庫。如果您想要讓資產形成並非由環境建立的資料庫，則必須輸入資料庫的名稱，而不是從下拉式清單中選取。

   您可以為單一資料庫中的資料表新增多個包含和排除規則。您也可以使用新增另一個資料庫按鈕來**新增多個資料庫**。

   

1. 在**資料品質**下，您可以選擇為此**資料來源啟用資料品質**。如果您這樣做，Amazon DataZone 會將現有的 AWS Glue 資料品質輸出匯入您的 Amazon DataZone 目錄。根據預設，Amazon DataZone 會從 Glue AWS 匯入沒有過期日期的最新現有 100 品質報告。

   Amazon DataZone 中的資料品質指標可協助您了解資料來源的完整性和準確性。Amazon DataZone 會從 AWS Glue 提取這些資料品質指標，以便在某個時間點提供內容，例如在商業資料目錄搜尋期間。資料使用者可以查看其訂閱資產的資料品質指標如何隨時間變化。資料生產者可以按排程擷取 AWS Glue 資料品質分數。Amazon DataZone 商業資料目錄也可以透過資料品質 APIs 顯示第三方系統的資料品質指標。如需詳細資訊，請參閱[Amazon DataZone 中的資料品質](datazone-data-quality.md) 

1. 選擇**下一步**。

1. 針對**發佈設定**，選擇資產是否可立即在業務資料目錄中探索。如果您只將它們新增至清查，稍後可以選擇訂閱條款並將其發佈至商業資料目錄。

1. 對於**自動產生商業名稱**，選擇是否要在從來源匯入資產時自動產生資產的中繼資料。

1. （選用） 對於**中繼資料表單**，新增表單以定義在將資產匯入 Amazon DataZone 時收集和儲存的中繼資料。如需詳細資訊，請參閱[在 Amazon DataZone 中建立中繼資料表單](create-metadata-form.md)。

1. 針對**執行偏好設定**，選擇何時執行資料來源。
   + **依排程執行** – 指定執行資料來源的日期和時間。
   + **隨需執行** – 您可以手動啟動資料來源執行。

1. 選擇**下一步**。

1. 檢閱您的資料來源組態，然後選擇**建立**。

**注意**  
建立 AWS Glue 資料來源時，Amazon DataZone 會為環境的 IAM 角色建立 Lake Formation 「唯讀」許可，用於建立資料來源，以存取資料來源中使用的 AWS Glue 資料庫中的所有資料表。您可以在環境詳細資訊頁面的資料來源下監控這些授權的狀態。授予發佈環境 IAM 角色的存取權時， AWS Amazon DataZone 會將下列 AWS 標籤新增至 Glue 資料庫： `DataZoneDiscoverable_${domainId}: true`  
對於目前發行 Amazon DataZone 之前建立的環境，專案成員將無法在 Amazon Athena 中看到授予的資料表。