使用資產 (使用者指南) - Amazon SageMaker AI

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

使用資產 (使用者指南)

使用 SageMaker Assets 與您組織中的其他個人無縫協作機器學習專案。使用 SageMaker Assets,您和您的協作者會建立模型和資料表,並彼此共用。在 SageMaker Assets 內,這些模型和資料表稱為資產

SageMaker Assets 是 Amazon SageMaker Studio 內的特徵。您或您的管理員會在 Amazon DataZone 專案內建立 Studio 環境。如需設定 Amazon DataZone 的詳細資訊,請參閱設定 SageMaker 資產 (管理員指南)

資產是 ML 資產或資料資產。ML 資產是指向下列項目的中繼資料:

  • 特徵存放區特徵群組

  • SageMaker AI 模型群組

基礎模型群組和特徵群組是資料來源。如果您更新特徵群組或模型群組,則模型群組或特徵群組的資產會在當天更新。

資料資產是指向下列項目的中繼資料:

  • Amazon Redshift 資料表

  • AWS Glue資料表

對於資料資產,資料來源是將中繼資料從 AWS Glue 資料表和 Amazon Redshift 資料表提取到資產的機制。例如,資料來源會從 AWS Glue資料表將中繼資料提取至該資料表的資產。

您可以發佈資產,讓組織中的每個人都能看見該資產。個人可以檢閱資產中的中繼資料並請求存取。如果您提供存取權,他們可以存取資料或資料表的基礎機器學習來源。

您的管理員可能已給與您特徵群組、模型群組和資料表的存取權。如果沒有,請參閱設定 SageMaker 資產 (管理員指南) 中的資訊以協助您開始使用。

下列各節提供特徵群組和模型群組的參考資訊。

Amazon SageMaker Feature Store 會提供集中位置,協助您存放和管理特徵。它是一個高效能儲存庫,您可以將其用於特徵工程。

在特徵存放區內,特徵會存放在特徵群組中。特徵群組是與您正在處理的專案相關的特徵集合。例如,如果您正在處理與預測房價相關的專案,特徵群組可能包含位置或臥室數量等特徵。

如需如何使用特徵群組來簡化特徵工程程序的詳細資訊,請參閱使用 Feature Store 建立、存放和共用功能

您可以使用 SageMaker 模型註冊庫內的 SageMaker AI 模型群組,來組織和管理不同版本的模型。您可以比較不同版本的模型,以查看哪個模型的執行效果最適合您的使用案例。若要取得 SageMaker 模型註冊庫的詳細資訊,請參閱使用模型註冊庫進行模型註冊部署

以下是 Amazon Redshift 和 AWS Glue 的背景資訊。

Amazon Redshift 是一種大規模資料倉儲服務,可對大型資料集提供快速查詢效能。如需 Amazon Redshift 的詳細資訊,請參閱 Amazon Redshift Serverless

AWS Glue是一種擷取、轉換、載入 (ETL) 服務,可用來簡化資料準備的程序。如需 的詳細資訊AWS Glue,請參閱什麼是 AWS Glue?

您可以使用 SQL 編輯器來連接 AWS Glue和 Amazon Redshift 資料庫並執行查詢。您可以在 SageMaker Assets 內共用您在編輯器中建立的任何資料表。如需詳細資訊,請參閱在 Studio 中使用 SQL 進行資料準備

術語與概念

在您開始使用 SageMaker Assets 之前,熟悉以下術語和概念會很有幫助:

  • 資產 - 指向您正在共用的模型或資料表的中繼資料。您可以請求存取其他人擁有的資產,或與其他人共用您的資產。您和您的團隊成員會存取資產,以及與其相關聯的基礎資料表或模型。

  • 已訂閱資產 - 若要請求存取資產,請提交訂閱請求。如果您的請求獲得核准,則資產會出現在您訂閱的資產下。

  • 擁有的資產 - 您已與團隊成員共用的資產。

  • 資產目錄 - 您在整個組織中共用的資產。

步驟 1:存取 SageMaker Assets

存取 SageMaker Assets 以檢視您的資產並與他人共用它們。使用以下資訊,協助您開始使用它。

您可以從 Amazon DataZone 網域內的專案存取 SageMaker Assets。專案是您和團隊成員之間的協作。在專案內,您和專案的其他成員可以存取清查目錄內您和其他團隊成員建立的資產。您可以將資產發佈至已發佈的目錄,讓組織中的其他人員可以看到這些資產。

這些人員可以請求存取您的資產。如果您為他們提供存取權,他們就可以存取已更新的資料來源。例如,如果個人訂閱您更新的AWS Glue資料表,他們可以即時存取更新的AWS Glue資料表。

使用下列程序來存取 SageMaker Assets。

存取 SageMaker Assets
  1. 開啟 Amazon DataZone 主控台。

  2. 選擇檢視網域

  3. 在包含您專案的網域旁邊,選擇開啟資料入口網站

  4. 分析工具下,選擇 SageMaker AI Studio

  5. 選擇開啟 Amazon SageMaker AI

  6. 選擇 Assets (資產)。

與您共用的資產位於已訂閱資產下。您和專案成員建立的資產位於擁有的資產下。您和組織其他成員已發佈的資產位於資產目錄中。

步驟 2:共用資產和管理對資產的存取

建立機器學習模型、特徵群組或資料表後,您可以讓與您在專案或組織中更廣泛地協作的個人看到它們。您可以回應存取資產的請求。如果您核准個人的請求,他們可以修改資產的基礎資料來源。

共用資產時,您有兩個選項:

  • 發佈至資產目錄 - 讓組織中的每個人都能看見資產

  • 發佈至庫存 - 讓處理您專案的每個人都能看見資產

如果您已將資產發佈至資產目錄,您組織中的個人可以在資產目錄中找到它。他們可以檢視您資產的中繼資料,並決定是否要請求存取它們。如果您核准其請求,他們可以存取基礎資料來源。

如果您發佈到庫存,您和專案的其他成員可以存取資產,而無需任何其他動作。

發佈至庫存的資產只會出現在擁有的資產下。發佈至目錄的資產會出現在擁有的資產資產目錄下。

當您發佈資料表時,必須建立資料來源,將中繼資料從基礎AWS Glue資料表或 Amazon Redshift 資料表提取至資產。使用下列程序發佈 AWS Glue或 Amazon Redshift 資料表。

Publish anAWS Gluetable

若要發佈AWS Glue資料表的資產,請為其建立資料來源並進行發佈。資料來源是將中繼資料從AWS Glue資料表提取至資產的機制。

使用下列程序來發佈 AWS Glue資料表。

發佈AWS Glue資料表
  1. 導覽至 SageMaker 資產登陸頁面。

  2. 選取擁有的資產

  3. 選擇檢視資料來源

  4. 選擇 Create data source (建立資料來源)

  5. 針對名稱,指定資料來源的名稱。

  6. 針對描述,提供一個描述。

  7. 針對類型,選取 AWS Glue

  8. 針對資料選擇,選取包含AWS Glue資料表的資料庫。

  9. 針對資料表選取條件,指定資料表的名稱。

    注意

    即使您可以指定多個資料表,我們強烈建議您只提供一個資料表名稱。

  10. 選擇下一步

    • 針對將資產發佈至目錄,選取以發佈至資產目錄。

    • 針對將資產發佈至目錄,選取以發佈至資產目錄。

  11. 選擇下一步

  12. 資產詳細資訊下,選擇按排程執行隨需執行,以確定來自 AWS Glue 資料表的中繼資料如何提取至資產。

  13. (選用) 如果您選擇依排程執行,請指定將中繼資料提取至資產的排程。

  14. 選擇下一步

  15. 選擇建立

  16. (選用) 如果您尚未建立排程,請選擇執行,將中繼資料從 AWS Glue 資料表帶入資產中。

Publish an Amazon Redshift table

若要發佈 Amazon Redshift 資料表的資產,請為其建立資料來源並將其發佈。資料來源是將中繼資料從 Amazon Redshift 資料表提取至資產的機制。

使用下列程序發佈 Amazon Redshift 資料表。

發佈 Amazon Redshift 資料表
  1. 導覽至 SageMaker 資產登陸頁面。

  2. 選取擁有的資產

  3. 選擇檢視資料來源

  4. 選擇 Create data source (建立資料來源)

  5. 針對名稱,指定資料來源的名稱。

  6. 針對描述,提供一個描述。

  7. 針對類型,選取 Amazon Redshift

    • 選取 Redshift 叢集

      1. 針對 Redshift 叢集,指定包含資料表資料庫的 Amazon Redshift 叢集名稱。

      2. 針對機密,指定包含叢集憑證的AWS Secrets Manager機密名稱。

    • 選取 Redshift 無伺服器

      1. 針對 Redshift 工作群組,指定包含資料表資料庫的 Amazon Redshift 工作群組名稱。

      2. 針對秘密,指定包含工作群組登入資料的AWS Secrets Manager秘密名稱。

  8. 針對發佈來源選擇,選取包含 Amazon Redshift 資料表的資料庫。

  9. 針對資料表選取條件,指定資料表的名稱。

    注意

    即使您可以指定多個資料表,我們強烈建議您只提供一個資料表名稱。

  10. 選擇下一步

    • 針對將資產發佈至目錄,選取以發佈至資產目錄。

    • 針對將資產發佈至目錄,選取以發佈至資產目錄。

  11. 選擇下一步

  12. 資產詳細資訊下,選擇按排程執行隨需執行,以確定如何將來自 Amazon Redshift 資料表的中繼資料提取至資產。

  13. (選用) 如果您選擇依排程執行,請指定將中繼資料提取至資產的排程。

  14. 選擇下一步

  15. 選擇建立

  16. (選用) 如果您尚未建立排程,請選擇執行,將中繼資料從 Amazon Redshift 資料表帶入資產中。

使用下列程序來發佈特徵群組或模型套件群組的資產。

Publish a feature group

使用下列程序來導覽至您已建立的特徵群組,並將其發佈至您擁有的資產或資產目錄。

將特徵群組發佈至您擁有的資產或資產目錄
  1. 在 Studio 中,選取左側導覽上的資料

  2. 選取您要發佈的特徵群組。

  3. 選擇 Three dots next to the feature group. 圖示。

    • 選取發佈至資產目錄以發佈至資產目錄。

    • 選取發佈至庫存以發佈至群組擁有的資產。

Publish a model group

使用下列程序來導覽至您已建立的模型群組,並將其發佈至您擁有的資產或資產目錄。

將模型群組發佈至您擁有的資產或資產目錄
  1. 在 Studio 內,選取左側導覽上的模型

  2. 選取您要發佈的模型群組。

  3. 選擇 Three dots next to the model group. 圖示。

    • 選取發佈至資產目錄以發佈至資產目錄。

    • 選取發佈至庫存以發佈至群組擁有的資產。

使用下列程序,將資產從您擁有的資產發佈至資產目錄。

從 SageMaker Assets 頁面發佈資產
  1. 在 Studio 內,導覽至資產

  2. 選取擁有的資產

  3. 在搜尋列中指定資產的名稱。

  4. 選擇資產。

  5. 選擇發布

您可以使用下列 SageMaker Python SDK 程式碼來發佈特徵群組或模型套件群組。此程式碼假設您已建立特徵群組或模型套件群組。

from sagemaker.asset import AssetManager publisher = AssetPublisher() publisher.publish_to_catalog(name-of-your-feature-group-or-model-package)

步驟 3:管理存取請求

在您發佈了資產之後,專案以外的使用者可能會想要存取該資源。您可以提供、拒絕或撤銷存取請求。您也可以刪除資產,只讓基礎資料來源僅供您自己使用。

使用下列程序來回應訂閱請求。

核准訂閱請求
  1. 導覽至 SageMaker Assets 頁面。

  2. 選擇管理資產

  3. 選取傳入訂閱請求

    • (選用) 選擇核准並提供原因。

    • (選用) 選擇拒絕

您可以撤銷對先前所核准資產的存取。如果您選擇撤銷存取,使用者將無法存取資產和基礎資產。請使用下列程序來撤銷存取。

撤銷存取
  1. 導覽至 SageMaker Assets 頁面。

  2. 選擇管理資產

  3. 選取傳入訂閱請求

  4. 選取已核准索引標籤。

  5. 選擇資產旁邊的撤銷

您也可以取消發佈資產,使其僅顯示為擁有的資產。資產不會顯示在資源目錄中,但您已核准其訂閱請求的個人仍然可以存取它們。

取消發佈資產
  1. 導覽至 SageMaker Assets 頁面。

  2. 擁有的資產下,選取您要取消發佈的資產。

  3. 選擇 Unpublish (取消發佈)。

您也可以從取消發佈資產的相同頁面刪除資產。刪除資產不會刪除資料來源。資產刪除只會讓專案或組織的其他成員看不到資產。

步驟 4:尋找資產並請求存取它們

您可以請求存取其他使用者已發佈至資源目錄的資產。如果他們核准訂閱請求,您可以存取基礎資料來源。

在 SageMaker Assets 頁面頂端,您可以指定搜尋查詢,以尋找組織中其他使用者已發佈的資產。您也可以選取資產類型,以檢視該類型的所有已發佈資產。例如,您可以選取 Glue 資料表以檢視所有已發佈的 AWS Glue。資料表。

您也可以直接在資產的名稱下檢視資產類型。以下是資產類型的可用名稱:

  • Redshift 資料表

  • Glue 資料表

  •   模型

  • 特徵群組

注意

下列存放區中的特徵群組具有 Glue 資料表的類型:

  • 離線

  • 離線和線上

提出訂閱請求
  1. 導覽至 SageMaker Assets 頁面。

    • 在搜尋列中,指定資產的名稱,然後選擇搜尋

    • 針對類型,選取資產類型,並在資源目錄中尋找您要存取的資產。

  2. 選擇資產。

  3. 選擇 Subscribe (訂閱)

  4. 提供請求的原因。

  5. 選擇提交

您的訂閱請求會出現在管理資產請求下的傳出訂閱請求下。如果資產的發布者核准您的請求,它會顯示在已訂閱資產下。您現在可以在機器學習工作流程中使用 Amazon Redshift、AWS Glue資料表或 ML 資料來源。

步驟 5:在機器學習工作流程中使用共用資產

如果您的資產訂閱請求獲得核准,您可以在機器學習工作流程中使用該資產。

您獲得存取權的特徵群組會出現在 Studio 的特徵群組清單中。

您獲得存取權的模型群組會出現在 Studio 的模型群組清單中。您可以從 SageMaker Assets 開啟模型註冊庫中您的模型群組。使用下列程序在模型註冊庫內開啟模型群組。已訂閱資產

從 SageMaker Assets 開啟模型群組
  1. 選取模型群組。

  2. 選擇在模型註冊庫中開啟

您可以在 SageMaker Canvas 中的 Data Wrangler 中存取 AWS Glue或 Amazon Redshift 資料表。SageMaker Canvas 是一種應用程式,可讓您執行探索性資料分析 (EDA) 並訓練模型,無需程式碼。如需 SageMaker Canvas 的詳細資訊,請參閱 Amazon SageMaker Canvas

您也可以使用 SQL 擴充功能,將來自 AWS Glue或 Amazon Redshift 資料表的資料帶入 Jupyter 筆記本。您可以將資料轉換為適用於機器學習工作流程的 pandas 資料框架。如需詳細資訊,請參閱在 Studio 中使用 SQL 進行資料準備