本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
建立 Amazon SageMaker 筆記本執行個體
重要
允許 Amazon SageMaker Studio 或 Amazon SageMaker Studio Classic 建立 Amazon SageMaker 資源的自訂 IAM 政策也必須授與許可,才能將標籤新增至這些資源。需要將標籤新增至資源的許可,因為 Studio 和 Studio Classic 會自動標記它們建立的任何資源。如果 IAM 政策允許 Studio 和 Studio Classic 建立資源,但不允許標記,則在嘗試建立資源時可能會出現「AccessDenied」錯誤。如需詳細資訊,請參閱提供標記 SageMaker AI 資源的許可。
提供許可來建立 SageMaker 資源的 AWSAmazon SageMaker AI 的 受管政策 已包含建立這些資源時新增標籤的許可。
Amazon SageMaker 筆記本執行個體是執行 Jupyter 筆記本應用程式的 ML 運算執行個體。SageMaker AI 會管理建立執行個體與相關資源。在筆記本執行個體中使用 Jupyter 筆記本:
-
準備和處理資料
-
編寫程式碼來訓練模型
-
將模型部署至 SageMaker AI 託管
-
測試或驗證模型
您可以使用 SageMaker AI 主控台或 CreateNotebookInstance API 來建立筆記本執行個體。
您選擇的筆記本執行個體類型取決於您使用筆記本執行個體的方式。確保您的筆記本執行個體不受記憶體、CPU 或 IO 限制。若要將資料集載入至筆記本執行個體上的記憶體,以進行探索或預先處理,請為您的資料集選擇具有足夠 RAM 記憶體的執行個體類型。這需要至少具有 16 GB 記憶體 (特大型或大型) 的執行個體。如果您打算使用筆記本進行運算密集的預先處理,我們建議您選擇運算最佳化執行個體,例如 c4 或 c5。
使用 SageMaker 筆記本時的最佳實務是使用筆記本執行個體來協調其他服務AWS。例如,您可以使用筆記本執行個體來管理大型資料集處理。若要這樣做,請使用 Hadoop AWS呼叫 Glue for ETL (擷取、轉換和載入) 服務或 Amazon EMR 進行映射和資料縮減。您可以使用 AWS服務做為資料的臨時運算或儲存形式。
您可以使用 Amazon Simple Storage Service 儲存貯體,來存放和擷取您的訓練和測試資料。然後,您可以使用 SageMaker AI 來訓練和建置模型。因此,筆記本的執行個體類型與模型訓練和測試的速度無關。
收到請求後,SageMaker AI 會執行下列動作:
-
建立網路介面 - 如果您選擇選用 VPC 組態,則 SageMaker AI 會在您的 VPC 中建立網路介面。並透過您在請求中提供的子網路 ID,判斷能夠建立子網路的可用區域。SageMaker AI 亦會將您在請求中提供的安全群組與子網路建立關聯。如需詳細資訊,請參閱將 VPC 中的筆記本執行個體連接外部資源。
-
啟動 ML 運算執行個體 - SageMaker AI 會在 SageMaker AI VPC 中啟動 ML 運算執行個體。SageMaker AI 會執行組態任務,允許它管理您的筆記本執行個體。如果您指定 VPC,SageMaker AI 會啟用 VPC 與筆記本執行個體之間的流量。
-
安裝適用於常用深度學習平台的 Anaconda 套件與程式庫 - SageMaker AI 會安裝所有包含在安裝程式的 Anaconda 套件。如更多資訊,請參閱 Anaconda package list
。SageMaker AI 亦會安裝 TensorFlow 和 Apache MXNet 深度學習程式庫。 -
連接 ML 儲存磁碟區 - SageMaker AI 會將 ML 儲存磁碟區連接至 ML 運算執行個體。您可以利用該磁碟區做為工作區,清除訓練資料集或暫存驗證、測試和其他資料。選擇任何大小介於 5 GB 到 16384 GB 之間的磁碟區,增量為 1 GB。預設值為 5 GB。ML 儲存磁碟區已加密,所以 SageMaker AI 無法判斷磁碟區上可用的免費空間。因此,您可以在更新筆記本執行個體時增加磁碟區大小,但無法減少磁碟區大小。如果您想降低使用中機器學習 (ML) 儲存磁碟區的大小,請建立具有所需大小的新筆記本執行個體。
只有儲存在
/home/ec2-user/SageMaker資料夾內的檔案和資料,才會在筆記本執行個體工作階段間保留。當筆記本執行個體停止和重新啟動時,會覆寫儲存在此目錄外的檔案和資料。每個筆記本執行個體的/tmp目錄在執行個體存放區中提供至少 10 GB 的儲存空間。執行個體存放區是非持久性的暫時區塊層級儲存。當執行個體停止或重新啟動時,SageMaker AI 會刪除目錄的內容和任何作業系統自訂。此暫時性儲存是筆記本執行個體的根磁碟區的一部分。如果筆記本執行個體未更新且執行不安全的軟體,SageMaker AI 可能會定期更新執行個體,作為定期維護的一部分。在這些更新期間,
/home/ec2-user/SageMaker不會保留 資料夾外的資料。如需維護和安全性修補程式的詳細資訊,請參閱 Maintenance (維護)。如果筆記本執行個體使用的執行個體類型支援 NVMe,客戶可以使用該執行個體類型可用的 NVMe 執行個體儲存體磁碟區。對於具有 NVMe 存放磁碟區的執行個體類型,所有執行個體儲存體磁碟區都會在啟動時自動連接至執行個體。如需執行個體類型及其相關聯 NVMe 存放區磁碟區的詳細資訊,請參閱 Amazon Elastic Compute Cloud 執行個體類型詳細資訊
。 若要讓連接的 NVMe 存放磁碟區可供您的筆記本執行個體使用,請完成在執行個體上提供執行個體存放磁碟區中的步驟。使用根存取或使用生命週期組態指令碼來完成步驟。
注意
NVMe 執行個體儲存體磁碟區不是持久性儲存體。此儲存體隨執行個體短暫存在,而且每次啟動具有此儲存體的執行個體時都必須重新設定。
若要建立 SageMaker AI 筆記本執行個體:
-
開啟位在 https://console.aws.amazon.com/sagemaker/
的 SageMaker AI 主控台。 -
選擇筆記本執行個體,然後選擇建立筆記本執行個體。
-
在建立筆記本執行個體頁面上,提供下列資訊:
-
對於筆記本執行個體名稱,輸入筆記本執行個體的名稱。
-
針對筆記本執行個體類型,請選擇適合您使用案例的執行個體大小。如需支援的執行個體類型和配額清單,請參閱 Amazon SageMaker AI Service Quotas。
-
針對平台識別碼,選擇要在其上建立筆記本執行個體的平台類型。此平台類型決定了您的筆記本執行個體所使用的作業系統和 JupyterLab 版本。適用於 Amazon Linux 2023 筆記本執行個體的最新建議版本為
notebook-al2023-v1。自 2025 年 6 月 30 日起,新執行個體僅支援 JupyterLab 4。如需平台識別符類型的資訊,請參閱 AL2023 筆記本執行個體和 Amazon Linux 2 筆記本執行個體。如需 JupyterLab 版本的詳細資訊,請參閱JupyterLab 版本控制。重要
自 2025 年 6 月 30 日起,不再支援 JupyterLab 1 和 JupyterLab 3。您無法再使用這些版本,建立新的筆記本執行個體或重新啟動已停止的筆記本執行個體。現有的服務中執行個體可能會繼續運作,但不會收到安全性更新或錯誤修正。遷移至 JupyterLab 4 筆記本執行個體,以獲得持續支援。如需詳細資訊,請參閱JupyterLab 版本維護。
-
(選用) 其他組態可讓進階使用者建立可在建立或啟動執行個體時執行的 shell 指令碼。此指令碼稱為生命週期組態指令碼,可用來設定筆記本的環境或執行其他功能。如需相關資訊,請參閱使用 LCC 指令碼自訂 SageMaker 筆記本執行個體。
-
(選用) 其他組態 也可讓您指定連接至筆記本執行個體之機器學習 (ML) 儲存磁碟區的容量 (以 GB 為單位)。您可以選擇 5 GB 到 16,384 GB 之間的大小,增量為 1 GB。您可以使用該磁碟區,以清除訓練資料集,或暫存驗證或其他資料。
-
(選擇性) 針對最低 IMDS 版本,請從下拉式清單中選取版本。如果此值設為 v1,則兩個版本都可以搭配筆記本執行個體使用。如果選取 v2,則只能筆記本執行個體僅能搭配使用 IMDSv2。如需有關 IMDSv2 的資訊,請參閱使用 ImDSv2。
注意
自 2022 年 10 月 31 日起,SageMaker 筆記本執行個體的預設最低 IMDS 版本會從 IMDSv1 變更為 IMDSv2。
自 2023 年 2 月 1 日起,IMDSv1 不再可用於建立新的筆記本執行個體。在此日期之後,您可以建立最低 IMDS 版本為 2 的筆記本執行個體。
-
對於 IAM 角色,選擇帳戶中具有存取 SageMaker 資源所需許可的現有 IAM 角色,或選擇建立新角色。如果您選擇建立新角色,則 SageMaker AI 會建立名為
AmazonSageMaker-ExecutionRole-的 IAM 角色。AWS受管政策YYYYMMDDTHHmmSSAmazonSageMakerFullAccess會連接到角色。該角色提供許可,允許筆記本執行個體呼叫 SageMaker AI 和 Amazon S3。 -
對於根存取,若要為所有筆記本執行個體使用者提供根存取,請選擇啟用。若要移除使用者的根存取,請選擇停用。如果您提供根存取,則所有筆記本執行個體使用者都有管理員權限,而且可以存取和編輯所有檔案。
-
(選用) 加密金鑰可讓您使用 AWS Key Management Service (AWS KMS) 金鑰來加密連接至筆記本執行個體的機器學習 (ML) 儲存磁碟區上的資料。如果要在機器學習 (ML) 儲存磁碟區上儲存敏感資訊,請考慮加密資訊。
-
(選用) 網路可讓您將筆記本執行個體放在虛擬私有雲端 (VPC)中。VPC 提供額外的安全性,並限制從 VPC 以外的來源存取 VPC 中的資源。如需關於 VPC 更多資訊,請參閱 Amazon VPC 使用者指南。
若要將您的筆記本執行個體新增至 VPC:
-
選擇 VPC 和 SubnetId。
-
針對安全群組,選擇您的 VPC 的預設安全群組。
-
如果您需要筆記本執行個體才能存取網際網路,請啟用直接網際網路存取。針對直接網際網路存取,選擇啟用。網際網路存取可能會使您的筆記本執行個體較不安全。如需更多資訊,請參閱將 VPC 中的筆記本執行個體連接外部資源。
-
-
(選用) 若要建立 Git 儲存庫與筆記本執行個體的關聯性,請選擇預設儲存庫和最多三個其他儲存庫。如需更多資訊,請參閱Git 儲存器與 SageMaker AI 筆記本執行個體。
-
選擇建立筆記本執行個體。
Amazon SageMaker AI 隨即會在幾分鐘之內啟動 ML 運算執行個體 (在此情況下為筆記本執行個體),並將 ML 儲存磁碟區連接至其中。筆記本執行個體具備預先設定的 Jupyter 筆記本伺服器和一組 Anaconda 程式庫。如需更多資訊,請參閱
CreateNotebookInstanceAPI。
-
-
當筆記本執行個體的狀態在
InService時,就可以在主控台中使用筆記本執行個體。選擇筆記本名稱旁邊的開啟 Jupyter,以開啟傳統 Jupyter 儀表板。注意
為了增強 Amazon SageMaker 筆記本執行個體的安全性,所有區域
網域都會在網際網路公有尾碼清單 (PSL)notebook.region.sagemaker.aws中註冊。如需進一步的安全性,建議您使用字首為 __Host-的 Cookie,為 SageMaker 筆記本執行個體的網域設定敏感 Cookie。這將有助於保護您的網域免受跨站請求偽造 (CSRF) 攻擊。如需詳細資訊,請參閱 mozilla.org開發人員文件網站中的 Set-Cookie 頁面。 您可以選擇開啟 JupyterLab來開啟傳統 JupyterLab 儀表板。儀表板可讓您存取筆記本執行個體。
如需 Jupyter 筆記本的更多相關資訊,請參閱 Jupyter 筆記本
。