大規模部署您的模型 - Amazon SageMaker AI

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

大規模部署您的模型

為您的 SageMaker AI 端點設定自動擴展和 CloudWatch 監控,使其可以進行生產。

為什麼生產監控對文字分類很重要

文字分類工作負載需要監控,因為它們:

  • 體驗處理爆量時流量模式的變化。

  • 需要亞秒級回應時間。

  • 需要透過自動擴展進行成本最佳化。

先決條件

開始之前,請確定您具有下列先決條件:

  • 您從上一節部署的 SageMaker AI 端點。

  • 您的端點名稱 (例如,jumpstart-dft-hf-tc)。

  • Your AWS 區域(例如 us-east-2)。

如需端點建立或疑難排解,請參閱即時推論

設定生產監控

設定 CloudWatch 監控以追蹤模型在生產中的效能。

  1. 在您的 JupyterLab 空間中,從您先前上傳的評估套件開啟 sagemaker_production_monitoring.ipynb 筆記本。

  2. 在組態區段中更新您的端點名稱和區域。

  3. 請遵循筆記本指示來設定:

    • 自動擴展 (1-10 個執行個體,視流量而定)。

    • 延遲和調用閾值的 CloudWatch 警示。

    • 用於視覺化監控的指標儀表板。

驗證您的設定

完成筆記本步驟後,請確認您具有:

  • 端點狀態InService

  • 自動擴展:已設定 1-10 個執行個體。

  • CloudWatch 警示:2 個警示監控。

  • 指標:已註冊 15 個以上指標。

注意

警示一開始可能會顯示 INSUFFICIENT_DATA - 這是正常的,並且會隨著用量而變更為 OK

監控您的端點

透過 AWS管理主控台存取視覺化監控:

如需詳細資訊,請參閱監控 SageMaker AI

管理成本和清除資源

您的監控設定提供寶貴的生產洞見,但也會透過 CloudWatch 指標、警示和自動擴展政策持續產生AWS費用。了解如何管理這些成本對於符合成本效益的操作至關重要。清除不再需要的專案資源。

警告

即使不處理請求,您的端點仍會繼續產生費用。若要停止所有費用,必須刪除您的端點。如需指示,請參閱刪除端點和資源

如需進階監控組態,請參閱 SageMaker AI 的 CloudWatch 指標