

 **協助改進此頁面** 

本文為英文版的機器翻譯版本，如內容有任何歧義或不一致之處，概以英文版為準。

若要為本使用者指南貢獻內容，請點選每個頁面右側面板中的**在 GitHub 上編輯此頁面**連結。

本文為英文版的機器翻譯版本，如內容有任何歧義或不一致之處，概以英文版為準。

# 開始使用 Amazon EKS 上的 AI/ML 的資源
<a name="ml-resources"></a>

若要進入 EKS 上的機器學習，請先從這些規範性模式中進行選擇，以快速取得 EKS 叢集和 ML 軟體與硬體，進而準備好開始執行 ML 工作負載。

## 研討會
<a name="aiml-workshops"></a>

### [Amazon EKS 上的生成式 AI 工作坊](https://genai.eksworkshop.com/)
<a name="_generative_ai_on_amazon_eks_workshop"></a>

了解如何開始使用 Amazon EKS 上的大型語言模型 (LLM) 應用程式和推論。探索如何部署和管理生產級 LLM 工作負載。透過實作實驗室，您將探索如何利用 Amazon EKS 以及 AWS 服務和開放原始碼工具來建立健全的 LLM 解決方案。工作坊環境會提供所有必要的基礎結構和工具，讓您能夠專注於學習和實作。

### [Amazon EKS 上的生成式 AI，使用 Neuron](https://catalog.us-east-1.prod.workshops.aws/workshops/e21aadbd-23cb-4207-bd09-625e6de08a6c/en-US)
<a name="_generative_ai_on_amazon_eks_using_neuron"></a>

了解如何開始使用 Amazon EKS 上的大型語言模型 (LLM) 應用程式和推論。探索如何部署和管理生產級 LLM 工作負載、使用向量資料庫實作進階 RAG 模式，以及使用開放原始碼架構建置資料後端 LLM 應用程式。透過實作實驗室，您將探索如何利用 Amazon EKS 以及 AWS 服務和開放原始碼工具來建立健全的 LLM 解決方案。工作坊環境會提供所有必要的基礎結構和工具，讓您能夠專注於學習和實作。

## [最佳實務](https://docs.aws.amazon.com/eks/latest/best-practices/aiml.html)
<a name="aiml-best-practices"></a>

Amazon EKS 最佳實務指南中的 AI/ML 重點主題提供下列領域的詳細建議，可最佳化 Amazon EKS 上的 AI/ML 工作負載。

### [AI/ML 運算和自動擴展](https://docs.aws.amazon.com/eks/latest/best-practices/aiml-compute.html)
<a name="_aiml_compute_and_autoscaling"></a>

本節概述了在 Amazon EKS 中最佳化 AI/ML 運算和自動擴展的最佳實務，其中重點關注 GPU 資源管理、節點彈性和應用程式擴展。它提供了諸多策略，例如使用已知的標籤和節點親和性來排程工作負載、使用 ML 容量區塊或隨需容量保留，以及使用 EKS 節點監控代理程式等工具實作節點運作狀態檢查。

### [AI/ML 聯網](https://docs.aws.amazon.com/eks/latest/best-practices/aiml-networking.html)
<a name="_aiml_networking"></a>

本節概述了在 Amazon EKS 中最佳化 AI/ML 聯網以增強效能和可擴展性的最佳實務，包括選取具有較高網路頻寬或 Elastic Fabric Adapter (EFA) 的執行個體以進行分散式訓練、安裝 MPI 和 NCCL 等工具，以及啟用字首委派以增加 IP 位址並改善 Pod 啟動時間等策略。

### [AI/ML 安全](https://docs.aws.amazon.com/eks/latest/best-practices/aiml-security.html)
<a name="_aiml_security"></a>

本節重點介紹了保護資料儲存以及確保 Amazon EKS 上 AI/ML 工作負載的合規性，包括使用 Amazon S3 搭配 AWS Key Management Service (KMS) 進行伺服器端加密 (SSE-KMS)、使用區域 KMS 金鑰和 S3 儲存貯體金鑰設定儲存貯體以降低成本、授予 IAM 許可以進行 KMS 動作 (例如解密 EKS Pod)，以及使用 AWS CloudTrail 日誌進行稽核等實務。

### [AI/ML 儲存](https://docs.aws.amazon.com/eks/latest/best-practices/aiml-storage.html)
<a name="_aiml_storage"></a>

本節提供最佳化 Amazon EKS 上 AI/ML 工作負載中儲存的最佳實務，包括使用 CSI 驅動程式部署模型以掛載 S3、FSx for Lustre 或 EFS 等服務作為持久性磁碟區、基於工作負載需求選取儲存 (例如 FSx for Lustre 用於使用 Scratch-SSD 或 Persistent-SSD 等選項進行分散式訓練)，以及啟用資料壓縮和分割等功能。

### [AI/ML 可觀測性](https://docs.aws.amazon.com/eks/latest/best-practices/aiml-observability.html)
<a name="_aiml_observability"></a>

本節著重點介紹監控和最佳化 Amazon EKS 上 AI/ML 工作負載的 GPU 使用率，以提高效率和降低成本，包括使用各種工具 (例如 CloudWatch Container Insights 及整合了 Prometheus 和 Grafana 的 NVIDIA DCGM-Exporter) 來提高 GPU 使用率的策略，以及我們建議您針對 AI/ML 工作負載進行分析的指標。

### [AI/ML 效能](https://docs.aws.amazon.com/eks/latest/best-practices/aiml-performance.html)
<a name="_aiml_performance"></a>

本節重點介紹透過容器映像管理和啟動最佳化，增強 Amazon EKS 上 AI/ML 工作負載的應用程式擴展和效能，包括使用小型輕量型基礎映像或具有多階段組建的 AWS 深度學習容器、透過 EBS 快照預先載入映像，或使用 DaemonSets 或部署預先提取至執行時期快取等實務。

## 參考架構
<a name="aiml-reference-architectures"></a>

探索這些 GitHub 儲存庫的參考架構、範例程式碼和公用程式，以在 Amazon EKS 和其他 AWS 服務上實作 AI/ML 工作負載的分散式訓練和推論。

### [AWSome 分散式訓練](https://github.com/aws-samples/awsome-distributed-training)
<a name="_awsome_distributed_training"></a>

此儲存庫提供在 AWS 上訓練大型模型的最佳實務、參考架構、模型訓練範例和公用程式的集合。它可支援 Amazon EKS 的分散式訓練，包括適用於 EKS 叢集的 CloudFormation 範本、自訂 AMI 和容器建置、適用於 PyTorch (DDP/FSDP、MegatronLM、NeMo) 和 JAX 等架構的測試案例，以及各種驗證、可觀測性和效能監控工具，例如 EFA Prometheus 匯出程式和 Nvidia Nsight Systems。

### [AWSome 推論](https://github.com/aws-samples/awsome-inference)
<a name="_awsome_inference"></a>

此儲存庫會提供參考架構和測試案例，以最佳化 AWS 上的推論解決方案，其中重點介紹了 Amazon EKS 和加速的 EC2 執行個體。它包含 VPC 和 EKS 叢集的基礎結構設定、NVIDIA NIM、TensorRT-LLM、Triton 推論伺服器和 RayService 等架構的專案，以及 Llama3-8B 和 Llama 3.1 405B 等模型的範例。功能特色包括：使用 K8s LeaderWorkerSet 進行多節點部署、EKS 自動擴展、多執行個體 GPU (MIG)，以及用於 ASR、推論和 TTS 的音訊機器人等實際使用案例。

## 教學課程
<a name="aiml-tutorials"></a>

如果您有興趣在 EKS 中設定機器學習平台和架構，請探索本節所述的教學課程。這些教學課程涵蓋了各種內容，從充分利用 GPU 處理器的模式到選擇建模工具，再到為專業產業建置架構。

### 在 EKS 上建置生成式 AI 平台
<a name="_build_generative_ai_platforms_on_eks"></a>
+  [在 Amazon EKS 上部署生成式 AI 模型](https://aws.amazon.com/blogs/containers/deploy-generative-ai-models-on-amazon-eks/) 
+  [在 Amazon EKS 上建置多租戶 JupyterHub 平台](https://aws.amazon.com/blogs/containers/building-multi-tenant-jupyterhub-platforms-on-amazon-eks/) 

### 在 EKS 上執行專用的生成式 AI 架構
<a name="_run_specialized_generative_ai_frameworks_on_eks"></a>
+  [使用 Amazon EKS 上的 NVIDIA NeMo Framework 加速生成式 AI 分散式訓練工作負載](https://aws.amazon.com/blogs/machine-learning/accelerate-your-generative-ai-distributed-training-workloads-with-the-nvidia-nemo-framework-on-amazon-eks/) 
+  [執行 Amazon Elastic Kubernetes Service 上的 TorchServe](https://aws.amazon.com/blogs/opensource/running-torchserve-on-amazon-elastic-kubernetes-service/) 

### 最大化 EKS 上 ML 的 NVIDIA GPU 效能
<a name="_maximize_nvidia_gpu_performance_for_ml_on_eks"></a>
+ 實作 GPU 共用，以便高效地為 EKS 叢集使用 NVIDIA GPU：

   [在 Amazon EKS 上，使用 NVIDIA 時間分割和加速的 EC2 執行個體實現 GPU 共用](https://aws.amazon.com/blogs/containers/gpu-sharing-on-amazon-eks-with-nvidia-time-slicing-and-accelerated-ec2-instances/) 
+ 使用多執行個體 GPU (MIG) 和 NIM 微服務，在 EKS 叢集上按 GPU 執行更多 Pod：

   [在 Amazon EKS 上，使用 NVIDIA 的多執行個體 GPU (MIG) 最大限度地提高 GPU 使用率：按 GPU 執行更多 Pod 以增強效能](https://aws.amazon.com/blogs/containers/maximizing-gpu-utilization-with-nvidias-multi-instance-gpu-mig-on-amazon-eks-running-more-pods-per-gpu-for-enhanced-performance/) 
+  [在 Kubernetes 上使用 AWS 上的 Kubeflow 建置和部署可擴展的機器學習系統](https://aws.amazon.com/blogs/machine-learning/build-and-deploy-a-scalable-machine-learning-system-on-kubernetes-with-kubeflow-on-aws/) 

### 在 EKS 上執行影片編碼工作負載
<a name="_run_video_encoding_workloads_on_eks"></a>
+  [在 Amazon EKS 上的容器中，使用分數 GPU 交付影片內容](https://aws.amazon.com/blogs/containers/delivering-video-content-with-fractional-gpus-in-containers-on-amazon-eks/) 

### 加速推論工作負載的影像載入
<a name="_accelerate_image_loading_for_inference_workloads"></a>
+  [H2O.ai 如何使用 Karpenter 和 Bottlerocket 最佳化及保護其 AI/ML 基礎結構](https://aws.amazon.com/blogs/containers/how-h2o-ai-optimized-and-secured-their-ai-ml-infrastructure-with-karpenter-and-bottlerocket/) 

### 監控 ML 工作負載
<a name="_monitoring_ml_workloads"></a>
+  [使用 AWS 受管開放原始碼服務，監控 Amazon EKS 上的 GPU 工作負載](https://aws.amazon.com/blogs/mt/monitoring-gpu-workloads-on-amazon-eks-using-aws-managed-open-source-services/) 
+  [在 Amazon CloudWatch 中啟用 Pod 型 GPU 指標](https://aws.amazon.com/blogs/machine-learning/enable-pod-based-gpu-metrics-in-amazon-cloudwatch/) 