協助改進此頁面
若要為本使用者指南貢獻內容,請點選每個頁面右側面板中的在 GitHub 上編輯此頁面連結。
Amazon EKS 上的人工智慧 (AI) 和機器學習 (ML) 概觀
Amazon Elastic Kubernetes Service (EKS) 是受管 Kubernetes 平台,讓組織能夠部署、管理和擴展 AI 和機器學習 (ML) 工作負載,並擁有前所未有的彈性和控制。EKS 以開放原始碼 Kubernetes 生態系統為建置基礎,讓您能夠利用現有的 Kubernetes 專業知識,同時無縫整合開放原始碼工具和 AWS 服務。
無論您是訓練大規模模型、執行即時線上推論,還是部署生成式 AI 應用程式,EKS 都能滿足您的 AI/ML 專案所需的效能、可擴展性和成本效益。
為什麼選擇適用於 AI/ML 的 EKS?
EKS 是受管 Kubernetes 平台,可協助您部署和管理複雜的 AI/ML 工作負載。其以開放原始碼 Kubernetes 生態系統為建置基礎,可與 AWS 服務整合,進而提供進階專案所需的控制和可擴展性。對於初次使用 AI/ML 部署的團隊,現有的 Kubernetes 技能會直接轉移,以便實現多個工作負載的高效協同運作。
EKS 支援從作業系統自訂到運算擴展的所有內容,且其開放原始碼基礎可提升技術彈性,為未來基礎結構決策保留選擇餘地。該平台提供 AI/ML 工作負載所需的效能和調校選項,並可支援下列功能:
-
完整叢集控制,可微調成本和組態,而不會隱藏抽象概念
-
生產中即時推論工作負載的次秒延遲
-
進階自訂,例如多執行個體 GPU、多重雲端策略和作業系統層級調校
-
能夠使用 EKS 作為跨 AI/ML 管道的統一協調器來集中工作負載
金鑰使用案例
Amazon EKS 為各種 AI/ML 工作負載提供了強大的平台,支援各種技術和部署模式:
-
即時 (線上) 推論:EKS 使用 Amazon EC2 Inf1
和 Inf2 執行個體上的 TorchServe、Triton Inference Server 和 KServe 等工具,來支援對傳入資料的即時預測,例如詐騙偵測,且提供次秒延遲。這些工作負載受益於使用 Karpenter 和 KEDA 的動態擴展,同時利用 Amazon EFS 進行跨 Pod 的模型碎片化。Amazon ECR 提取快取 (PTC) 可加速模型更新,而具有 Amazon EBS 最佳化磁碟區的 Bottlerocket 資料磁碟區可確保快速存取資料。 -
一般模型訓練:組織使用 Amazon EC2 P4d
和 Amazon EC2 Trn1 執行個體上的 Kubeflow Training Operator (KRO) 、Ray Serve 和 Torch Distributed Elastic ,利用 EKS 在大型資料集上長期訓練複雜的模型。Volcano 、Yunikorn 和 Kueue 等工具的批次排程可支援這些工作負載。Amazon EFS 可共用模型檢查點,而 Amazon S3 會使用版本管理的生命週期政策來處理模型匯入/匯出。 -
檢索增強生成 (RAG) 管道:EKS 可透過整合檢索和產生程序來管理客戶支援聊天機器人和類似的應用程式。這些工作負載通常會使用 Argo Workflows
和 Kubeflow 等工具進行協同運作,使用 Pinecone 、Weaviate 或 Amazon OpenSearch 等向量資料庫,並透過 Application Load Balancer 控制器 (LBC) 向使用者公開應用程式。NVIDIA NIM 可最佳化 GPU 使用率,而 Prometheus 和 Grafana 則可監控資源用量。 -
生成式 AI 模型部署:公司可使用 Amazon EC2 G5
和 Inferentia 加速器上的 Ray Serve 、vLLM 和 Triton Inference Server 在 EKS 上部署即時內容建立服務,例如文字或影像產生。這些部署可最佳化大規模模型的效能和記憶體使用率。JupyterHub 支援迭代開發,Gradio 提供簡單的 Web 介面,而 S3 掛載點 CSI 驅動程式則允許將 S3 儲存貯體掛載為檔案系統,以存取大型模型檔案。 -
批次 (離線) 推論:Organizations 可透過 AWS Batch 或 Volcano
的排程任務,高效處理大型資料集。這些工作負載通常會將 Inf1 和 Inf2 EC2 執行個體用於 AWS Inferentia 晶片,將 Amazon EC2 G4dn 執行個體用於 NVIDIA T4 GPU,或使用 c5 和 c6i CPU 執行個體,從而最大化分析任務的離峰時間的資源使用率。AWS Neuron SDK 和 NVIDIA GPU 驅動程式可最佳化效能,而 MIG/TS 則會啟用 GPU 共用。儲存解決方案包括 Amazon S3 、Amazon EFS 和 FSx for Lustre ,以及適用於各種儲存類別的 CSI 驅動程式。模型管理可利用 Kubeflow 管道 、Argo Workflows 和 Ray 叢集 等工具,而監控則由 Prometheus、Grafana 和自訂模型監控工具來處理。
案例研究
客戶因為各種原因而選擇 Amazon EKS,例如最佳化 GPU 用量,或以次秒延遲執行即時推論工作負載,如下列案例研究所示範。如需 Amazon EKS 的所有案例研究清單,請參閱 AWS 客戶成功案例
-
Unitary
每天要處理 2,600 萬部影片,使用 AI 進行內容審核,需要高輸送量、低延遲推論,並將容器開機時間縮短了 80%,從而確保在流量波動時可快速回應擴展事件。 -
Miro
是可支援全球 7,000 萬使用者的視覺化協作平台,且據報告,相較於其先前的自我管理 Kubernetes 叢集,運算成本降低了 80%。 -
Synthesia
可提供生成式 AI 影片建立服務,讓客戶能夠從文字提示建立逼真的影片,進而在 ML 模型訓練輸送量方面實現 30 倍的改進。 -
Harri
為旅館業提供人力資源技術,透過移轉至 AWS Graviton 處理器 ,實現了 90% 的時間縮減,以回應需求激增,同時降低了 30% 的運算成本。 -
Ada Support
是採用 AI 技術的客戶服務自動化公司,實現了 15% 的運算成本降低以及 30% 的運算效率提升。 -
Snorkel AI
讓企業能夠建置和調整基礎模型和大型語言模型,透過為其 GPU 資源實作智慧型擴展機制,實現了 40% 以上的成本節省。
開始使用 EKS 上的機器學習
若要在 AWS 雲端上開始規劃和使用 EKS 上的機器學習平台和工作負載,請繼續參閱 開始使用 Amazon EKS 上的 AI/ML 的資源 一節。