開始使用 Amazon EKS 上的 AI/ML 的資源 - Amazon EKS

協助改進此頁面

若要為本使用者指南貢獻內容,請點選每個頁面右側面板中的在 GitHub 上編輯此頁面連結。

開始使用 Amazon EKS 上的 AI/ML 的資源

若要進入 EKS 上的機器學習,請先從這些規範性模式中進行選擇,以快速取得 EKS 叢集和 ML 軟體與硬體,進而準備好開始執行 ML 工作負載。

研討會

Amazon EKS 上的生成式 AI 工作坊

了解如何開始使用 Amazon EKS 上的大型語言模型 (LLM) 應用程式和推論。探索如何部署和管理生產級 LLM 工作負載。透過實作實驗室,您將探索如何利用 Amazon EKS 以及 AWS 服務和開放原始碼工具來建立健全的 LLM 解決方案。工作坊環境會提供所有必要的基礎結構和工具,讓您能夠專注於學習和實作。

Amazon EKS 上的生成式 AI,使用 Neuron

了解如何開始使用 Amazon EKS 上的大型語言模型 (LLM) 應用程式和推論。探索如何部署和管理生產級 LLM 工作負載、使用向量資料庫實作進階 RAG 模式,以及使用開放原始碼架構建置資料後端 LLM 應用程式。透過實作實驗室,您將探索如何利用 Amazon EKS 以及 AWS 服務和開放原始碼工具來建立健全的 LLM 解決方案。工作坊環境會提供所有必要的基礎結構和工具,讓您能夠專注於學習和實作。

最佳實務

Amazon EKS 最佳實務指南中的 AI/ML 重點主題提供下列領域的詳細建議,可最佳化 Amazon EKS 上的 AI/ML 工作負載。

AI/ML 運算和自動擴展

本節概述了在 Amazon EKS 中最佳化 AI/ML 運算和自動擴展的最佳實務,其中重點關注 GPU 資源管理、節點彈性和應用程式擴展。它提供了諸多策略,例如使用已知的標籤和節點親和性來排程工作負載、使用 ML 容量區塊或隨需容量保留,以及使用 EKS 節點監控代理程式等工具實作節點運作狀態檢查。

AI/ML 聯網

本節概述了在 Amazon EKS 中最佳化 AI/ML 聯網以增強效能和可擴展性的最佳實務,包括選取具有較高網路頻寬或 Elastic Fabric Adapter (EFA) 的執行個體以進行分散式訓練、安裝 MPI 和 NCCL 等工具,以及啟用字首委派以增加 IP 位址並改善 Pod 啟動時間等策略。

AI/ML 安全

本節重點介紹了保護資料儲存以及確保 Amazon EKS 上 AI/ML 工作負載的合規性,包括使用 Amazon S3 搭配 AWS Key Management Service (KMS) 進行伺服器端加密 (SSE-KMS)、使用區域 KMS 金鑰和 S3 儲存貯體金鑰設定儲存貯體以降低成本、授予 IAM 許可以進行 KMS 動作 (例如解密 EKS Pod),以及使用 AWS CloudTrail 日誌進行稽核等實務。

AI/ML 儲存

本節提供最佳化 Amazon EKS 上 AI/ML 工作負載中儲存的最佳實務,包括使用 CSI 驅動程式部署模型以掛載 S3、FSx for Lustre 或 EFS 等服務作為持久性磁碟區、基於工作負載需求選取儲存 (例如 FSx for Lustre 用於使用 Scratch-SSD 或 Persistent-SSD 等選項進行分散式訓練),以及啟用資料壓縮和分割等功能。

AI/ML 可觀測性

本節著重點介紹監控和最佳化 Amazon EKS 上 AI/ML 工作負載的 GPU 使用率,以提高效率和降低成本,包括使用各種工具 (例如 CloudWatch Container Insights 及整合了 Prometheus 和 Grafana 的 NVIDIA DCGM-Exporter) 來提高 GPU 使用率的策略,以及我們建議您針對 AI/ML 工作負載進行分析的指標。

AI/ML 效能

本節重點介紹透過容器映像管理和啟動最佳化,增強 Amazon EKS 上 AI/ML 工作負載的應用程式擴展和效能,包括使用小型輕量型基礎映像或具有多階段組建的 AWS 深度學習容器、透過 EBS 快照預先載入映像,或使用 DaemonSets 或部署預先提取至執行時期快取等實務。

參考架構

探索這些 GitHub 儲存庫的參考架構、範例程式碼和公用程式,以在 Amazon EKS 和其他 AWS 服務上實作 AI/ML 工作負載的分散式訓練和推論。

AWSome 分散式訓練

此儲存庫提供在 AWS 上訓練大型模型的最佳實務、參考架構、模型訓練範例和公用程式的集合。它可支援 Amazon EKS 的分散式訓練,包括適用於 EKS 叢集的 CloudFormation 範本、自訂 AMI 和容器建置、適用於 PyTorch (DDP/FSDP、MegatronLM、NeMo) 和 JAX 等架構的測試案例,以及各種驗證、可觀測性和效能監控工具,例如 EFA Prometheus 匯出程式和 Nvidia Nsight Systems。

AWSome 推論

此儲存庫會提供參考架構和測試案例,以最佳化 AWS 上的推論解決方案,其中重點介紹了 Amazon EKS 和加速的 EC2 執行個體。它包含 VPC 和 EKS 叢集的基礎結構設定、NVIDIA NIM、TensorRT-LLM、Triton 推論伺服器和 RayService 等架構的專案,以及 Llama3-8B 和 Llama 3.1 405B 等模型的範例。功能特色包括:使用 K8s LeaderWorkerSet 進行多節點部署、EKS 自動擴展、多執行個體 GPU (MIG),以及用於 ASR、推論和 TTS 的音訊機器人等實際使用案例。

教學課程

如果您有興趣在 EKS 中設定機器學習平台和架構,請探索本節所述的教學課程。這些教學課程涵蓋了各種內容,從充分利用 GPU 處理器的模式到選擇建模工具,再到為專業產業建置架構。

在 EKS 上建置生成式 AI 平台

在 EKS 上執行專用的生成式 AI 架構

最大化 EKS 上 ML 的 NVIDIA GPU 效能

在 EKS 上執行影片編碼工作負載

加速推論工作負載的影像載入

監控 ML 工作負載