

# SUS05-BP04 將硬體型運算加速器的使用方式最佳化
<a name="sus_sus_hardware_a5"></a>

將加速運算執行個體的使用方式最佳化，以降低工作負載的實體基礎設施需求。

 **常見的反模式：**
+  未監控 GPU 使用率。
+  針對工作負載使用一般用途執行個體，但專用執行個體可以提供更高的效能、較低的成本，以及更優異的效能功耗比。
+  您使用硬體型運算加速器來執行任務，但使用 CPU 型運算加速器來執行時會更有效率。

 **建立此最佳實務的優勢：**藉由將硬體型加速器的使用方式最佳化，您可以降低工作負載的實體基礎設施需求。

 **未建立此最佳實務時的曝險等級：**中 

## 實作指引
<a name="implementation-guidance"></a>

 如果需要高處理能力，使用加速運算執行個體可讓您獲得好處，因為其可讓您存取硬體型運算加速器，例如圖形處理單元 (GPU) 和現場可程式化閘道陣列 (FPGA)。這些硬體加速器比基於 CPU 的替代品更有效地執行某些功能，例如圖形處理或資料模式匹配。許多加速的工作負載 (例如轉譯、轉碼和機器學習) 在資源使用方面變化很大。只在需要時執行此硬體，不需要時便將其自動除役，以將資源消耗降至最低。

## 實作步驟
<a name="implementation-steps"></a>
+  **探索運算加速器：**確定哪些[加速運算執行個體](https://docs.aws.amazon.com/AWSEC2/latest/UserGuide/accelerated-computing-instances.html)可以滿足您的需求。
+  **使用專用硬體：**針對機器學習工作負載，請利用專供工作負載使用的專用硬體，例如 [AWS Trainium](https://aws.amazon.com/machine-learning/trainium/)、[AWS Inferentia](https://aws.amazon.com/machine-learning/inferentia/) 和 [Amazon EC2 DL1](https://aws.amazon.com/ec2/instance-types/dl1/)。AWSInferentia 執行個體 (例如 Inf2 執行個體) 所提供的[效能功耗比最多會比同類 Amazon EC2 執行個體高出 50%](https://aws.amazon.com/machine-learning/inferentia/)。
+  **監控用量指標：**收集加速運算執行個體的用量指標。例如，可以使用 CloudWatch 代理程式為您的 GPU 收集 `utilization_gpu` 和 `utilization_memory` 等指標，如[使用 Amazon CloudWatch 收集 NVIDIA GPU 指標](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CloudWatch-Agent-NVIDIA-GPU.html)中所示。
+  **大小調整：**優化硬體加速器的程式碼、網路運作和設定，以確保系統會充分利用基礎硬體。
  +  [最佳化 GPU 設定](https://docs.aws.amazon.com/AWSEC2/latest/UserGuide/optimize_gpu.html) 
  +  [深度學習 AMI 中的 GPU 監控和最佳化](https://docs.aws.amazon.com/dlami/latest/devguide/tutorial-gpu.html) 
  +  [將 I/O 最佳化以針對 Amazon SageMaker AI 中的深度學習訓練進行 GPU 效能調校](https://aws.amazon.com/blogs/machine-learning/optimizing-i-o-for-gpu-performance-tuning-of-deep-learning-training-in-amazon-sagemaker/) 
+  **保持最新狀態：**使用最新的高效能程式庫和 GPU 驅動程式。
+  **發布不需要的執行個體：**使用自動化來發布未使用的 GPU 執行個體。

## 資源
<a name="resources"></a>

 **相關文件：**
+  [加速運算](https://aws.amazon.com/ec2/instance-types/#Accelerated_Computing) 
+ [開始建構吧！使用自訂晶片和加速器來進行建構](https://aws.amazon.com/blogs/architecture/lets-architect-custom-chips-and-accelerators/)
+ [ 如何為工作負載選擇適當的 Amazon EC2 執行個體類型？](https://aws.amazon.com/premiumsupport/knowledge-center/ec2-instance-choose-type-for-workload/)
+  [Amazon EC2 VT1 執行個體](https://aws.amazon.com/ec2/instance-types/vt1/) 
+ [ 選擇最佳 AI 加速器和模型編譯來以 Amazon SageMaker AI 推斷電腦視覺](https://aws.amazon.com/blogs/machine-learning/choose-the-best-ai-accelerator-and-model-compilation-for-computer-vision-inference-with-amazon-sagemaker/)

 **相關影片：**
+ [AWS re:Invent 2021 - 如何為深度學習選取 Amazon EC2 GPU 執行個體](https://www.youtube.com/watch?v=4bVrIbgGWEA)
+  [AWS 線上技術講座 - 部署具成本效益的深度學習推論](https://www.youtube.com/watch?v=WiCougIDRsw) 
+ [AWS re:Invent 2023 - 搭配 AWS 和 NVIDIA 的尖端 AI](https://www.youtube.com/watch?v=ud4-z_sb_ps)
+ [AWS re:Invent 2022 - [最新發佈！] 介紹基於 AWS Inferentia2 的 Amazon EC2 Inf2 執行個體](https://www.youtube.com/watch?v=jpqiG02Y2H4)
+ [AWS re:Invent 2022 - 使用 AWS Trainium 加速深度學習和創新](https://www.youtube.com/watch?v=YRqvfNwqUIA)
+ [AWS re:Invent 2022 - 透過 NVIDIA 在 AWS 上進行深度學習：從訓練到部署](https://www.youtube.com/watch?v=l8AFfaCkp0E)