**帮助改进此页面** 

要帮助改进本用户指南，请选择位于每个页面右侧窗格中的**在 GitHub 上编辑此页面**链接。

# 在 Amazon EKS 上开始使用人工智能/机器学习的资源
<a name="ml-resources"></a>

要在 EKS 上部署机器学习，首先要从这些规范模式中进行选择，让 EKS 集群和机器学习软件和硬件快速准备就绪，以开始运行机器学习工作负载。

## 研讨会
<a name="aiml-workshops"></a>

### [Amazon EKS 上的生成式人工智能讲习会](https://genai.eksworkshop.com/)
<a name="_generative_ai_on_amazon_eks_workshop"></a>

了解如何在 Amazon EKS 上开始使用大语言模型（LLM）应用程序和推理。探索如何部署和管理生产级 LLM 工作负载。通过动手实验，您将探索如何利用 Amazon EKS 以及 AWS 服务和开源工具来创建强大的 LLM 解决方案。讲习会环境提供了所有必要的基础设施和工具，使您可以专注于学习和实施。

### [使用神经元在 Amazon EKS 上实现生成式人工智能](https://catalog.us-east-1.prod.workshops.aws/workshops/e21aadbd-23cb-4207-bd09-625e6de08a6c/en-US)
<a name="_generative_ai_on_amazon_eks_using_neuron"></a>

了解如何在 Amazon EKS 上开始使用大语言模型（LLM）应用程序和推理。探索如何部署和管理生产级 LLM 工作负载，使用向量数据库实现高级 RAG 模式，以及如何使用开源框架构建数据支持的 LLM 应用程序。通过动手实验，您将探索如何利用 Amazon EKS 以及 AWS 服务和开源工具来创建强大的 LLM 解决方案。讲习会环境提供了所有必要的基础设施和工具，使您可以专注于学习和实施。

## [最佳实践](https://docs.aws.amazon.com/eks/latest/best-practices/aiml.html)
<a name="aiml-best-practices"></a>

Amazon EKS 最佳实践指南中重点介绍人工智能/机器学习的主题提供了以下领域的详细建议，以优化您在 Amazon EKS 上的人工智能/机器学习工作负载。

### [人工智能/机器学习计算和自动扩展](https://docs.aws.amazon.com/eks/latest/best-practices/aiml-compute.html)
<a name="_aiml_compute_and_autoscaling"></a>

本节概述了在 Amazon EKS 中优化人工智能/机器学习计算和自动扩展的最佳实践，重点介绍 GPU 资源管理、节点恢复能力和应用程序扩展。内容包括各种策略，例如调度带有知名标签和节点亲和性的工作负载、使用机器学习容量块或按需容量预留，以及使用 EKS 节点监控代理等工具实施节点运行状况检查。

### [人工智能/机器学习联网](https://docs.aws.amazon.com/eks/latest/best-practices/aiml-networking.html)
<a name="_aiml_networking"></a>

本节概述了优化 Amazon EKS 中的人工智能/机器学习联网以提高性能和可扩展性的最佳实践，包括选择网络带宽更高或支持 Elastic Fabric Adapter（EFA）的实例进行分布式训练、安装 MPI 和 NCCL 等工具，以及启用前缀委派以增加 IP 地址和缩短容器组（pod）启动时间等策略。

### [人工智能/机器学习安全性](https://docs.aws.amazon.com/eks/latest/best-practices/aiml-security.html)
<a name="_aiml_security"></a>

本节重点介绍如何保护数据存储和确保 Amazon EKS 上人工智能/机器学习工作负载的合规性，包括以下实践：使用带有 AWS Key Management Service（KMS）的 Amazon S3 进行服务器端加密（SSE-KMS），使用区域 KMS 密钥和 S3 存储桶密钥配置存储桶以降低成本，授予 EKS 容器组（pod）解密等 KMS 操作的 IAM 权限，以及使用 AWS CloudTrail 日志进行审计。

### [人工智能/机器学习存储](https://docs.aws.amazon.com/eks/latest/best-practices/aiml-storage.html)
<a name="_aiml_storage"></a>

本节提供在 Amazon EKS 上的人工智能/机器学习工作负载中优化存储的最佳实践，包括以下实践：使用 CSI 驱动程序部署模型以将 S3、FSx for Lustre 或 EFS 等服务挂载为持久性卷，根据工作负载需求选择存储（例如，使用 FSx for Lustre 进行分布式训练，并提供 Scratch-SSD 或 Persistent-SSD 等选项），以及启用数据压缩和条带化等功能。

### [人工智能/机器学习可观测性](https://docs.aws.amazon.com/eks/latest/best-practices/aiml-observability.html)
<a name="_aiml_observability"></a>

本节重点介绍如何监控和优化 Amazon EKS 上人工智能/机器学习工作负载的 GPU 利用率以提高效率和降低成本，包括针对高 GPU 使用率使用 CloudWatch Container Insights 以及与 Prometheus 和 Grafana 集成的 NVIDIA DCGM-Exporter 等工具的策略，以及我们建议您为人工智能/机器学习工作负载分析的指标。

### [人工智能/机器学习性能](https://docs.aws.amazon.com/eks/latest/best-practices/aiml-performance.html)
<a name="_aiml_performance"></a>

本节重点介绍如何通过容器映像管理和启动优化来增强 Amazon EKS 上人工智能/机器学习工作负载的应用程序扩展和性能，包括以下实践：使用小型轻量级基础映像或具有多阶段构建的 AWS Deep Learning Containers，通过 EBS 快照预加载映像或使用 DaemonSet 或部署将映像预拉入运行时缓存。

## 参考架构
<a name="aiml-reference-architectures"></a>

探索这些 GitHub 存储库，获取参考架构、示例代码和实用工具，以便在 Amazon EKS 和其他 AWS 服务上对人工智能/机器学习工作负载实现分布式训练和推理。

### [AWSome 分布式训练](https://github.com/aws-samples/awsome-distributed-training)
<a name="_awsome_distributed_training"></a>

该存储库提供了一系列最佳实践、参考架构、模型训练示例和实用工具，用于在 AWS 上训练大型模型。它支持使用 Amazon EKS 进行分布式训练，包括 EKS 集群的 CloudFormation 模板、自定义 AMI 和容器构建、PyTorch（DDP/FSDP、MegaTronLM、NeMo）和 JAX 等框架的测试用例，以及用于验证、可观测性和性能监控的工具，例如 EFA Prometheus 导出器和 Nvidia Nsight Systems。

### [AWSome 推理](https://github.com/aws-samples/awsome-inference)
<a name="_awsome_inference"></a>

该存储库提供在 AWS 上用于优化推理解决方案的参考架构和测试用例，重点介绍 Amazon EKS 和加速 EC2 实例。它包括 VPC 和 EKS 集群的基础设施设置；NVIDIA NIM、TensorRT-LLM、Triton Inference Server 和 RayService 等框架的项目，以及 Llama3-8B 和 Llama 3.1 405B 等模型的示例。具有使用 K8s LeaderWorkerSet、EKS 自动扩展、多实例 GPU（MIG）的多节点部署功能，以及用于 ASR、推理和 TTS 的音频机器人等实际使用案例。

## 教程
<a name="aiml-tutorials"></a>

如果您有兴趣在 EKS 中设置机器学习平台和框架，请浏览本节中所述的教程。此类教程涵盖了所有内容，包括充分利用 GPU 处理器的模式、选择建模工具以及为专业行业构建框架。

### 在 EKS 上构建生成式人工智能平台
<a name="_build_generative_ai_platforms_on_eks"></a>
+  [在 Amazon EKS 上部署生成式人工智能模型](https://aws.amazon.com/blogs/containers/deploy-generative-ai-models-on-amazon-eks/) 
+  [在 Amazon EKS 上构建多租户 JupyterHub 平台](https://aws.amazon.com/blogs/containers/building-multi-tenant-jupyterhub-platforms-on-amazon-eks/) 

### 在 EKS 上运行专用的生成式人工智能框架
<a name="_run_specialized_generative_ai_frameworks_on_eks"></a>
+  [使用 Amazon EKS 上的 NVIDIA NeMo Framework 加速生成式人工智能分布式训练工作负载](https://aws.amazon.com/blogs/machine-learning/accelerate-your-generative-ai-distributed-training-workloads-with-the-nvidia-nemo-framework-on-amazon-eks/) 
+  [在 Amazon Elastic Kubernetes Service 上运行 TorchServe](https://aws.amazon.com/blogs/opensource/running-torchserve-on-amazon-elastic-kubernetes-service/) 

### 最大限度提高 NVIDIA GPU 在 EKS 上部署机器学习的性能
<a name="_maximize_nvidia_gpu_performance_for_ml_on_eks"></a>
+ 实现 GPU 共享，以便为 EKS 集群高效使用 NVIDIA GPU：

   [使用 NVIDIA 时间切片和加速 EC2 实例，在 Amazon EKS 上实现 GPU 共享](https://aws.amazon.com/blogs/containers/gpu-sharing-on-amazon-eks-with-nvidia-time-slicing-and-accelerated-ec2-instances/) 
+ 使用多实例 GPU（MIG）和 NIM 微服务，让每个 EKS 集群上的 GPU 运行更多容器组（pod）：

   [在 Amazon EKS 上使用 NVIDIA 的多实例 GPU（MIG），最大限度地提高 GPU 利用率：让每个 GPU 运行更多容器组（pod）以增强性能](https://aws.amazon.com/blogs/containers/maximizing-gpu-utilization-with-nvidias-multi-instance-gpu-mig-on-amazon-eks-running-more-pods-per-gpu-for-enhanced-performance/) 
+  [在 Kubernetes 上使用 AWS 上的 Kubeflow 构建和部署可扩展机器学习系统](https://aws.amazon.com/blogs/machine-learning/build-and-deploy-a-scalable-machine-learning-system-on-kubernetes-with-kubeflow-on-aws/) 

### 在 EKS 上运行视频编码工作负载
<a name="_run_video_encoding_workloads_on_eks"></a>
+  [在 Amazon EKS 上使用容器中的少量 GPU 传输视频内容](https://aws.amazon.com/blogs/containers/delivering-video-content-with-fractional-gpus-in-containers-on-amazon-eks/) 

### 加快推理工作负载的映像加载
<a name="_accelerate_image_loading_for_inference_workloads"></a>
+  [H2O.ai 如何使用 Karpenter 和 Bottlerocket 优化和保护其人工智能/机器学习基础架构](https://aws.amazon.com/blogs/containers/how-h2o-ai-optimized-and-secured-their-ai-ml-infrastructure-with-karpenter-and-bottlerocket/) 

### 监控机器学习工作负载
<a name="_monitoring_ml_workloads"></a>
+  [使用 AWS 托管的开源服务监控 Amazon EKS 上的 GPU 工作负载](https://aws.amazon.com/blogs/mt/monitoring-gpu-workloads-on-amazon-eks-using-aws-managed-open-source-services/) 
+  [在 Amazon CloudWatch 中启用基于容器组（pod）的 GPU 指标](https://aws.amazon.com/blogs/machine-learning/enable-pod-based-gpu-metrics-in-amazon-cloudwatch/)