Menggunakan UltraServers di Amazon SageMaker HyperPod

SageMaker HyperPod dukungan untuk Ultraservers menyediakan kemampuan komputasi GPU berkinerja tinggi untuk AI dan beban kerja pembelajaran mesin. Dibangun di atas NVIDIA GB2 00 dan NVL72 arsitektur, Ultraservers ini menyediakan NVLink konektivitas di GB2 1800 instans dalam konfigurasi dual-rack, dengan total 72 B200. GPUs NVLink Kain ini memungkinkan beban kerja untuk menggunakan komunikasi GPU yang meningkatkan kapasitas GPU yang dapat digunakan dan memori yang dapat dialamatkan di luar apa yang mungkin dilakukan dengan instance diskrit, mendukung model AI yang lebih kompleks dan intensif sumber daya. NVLink Konektivitas ini diaktifkan oleh teknologi NVIDIA IMEX, yang menangani konfigurasi tingkat rendah untuk koneksi kain GPU yang aman di seluruh instance dalam rak yang sama.

HyperPod menyederhanakan penyebaran dan pengelolaan cluster GPU ini melalui kesadaran topologi cerdas dan konfigurasi otomatis. Platform secara otomatis menemukan dan memberi label node dengan lokasi fisik dan informasi blok kapasitasnya, yang mendukung penjadwalan sadar topologi untuk beban kerja terdistribusi. HyperPod mengabstraksi persyaratan konfigurasi IMEX yang kompleks, memungkinkan Anda untuk fokus pada penerapan beban kerja daripada pengaturan kain GPU tingkat rendah. Anda dapat memilih opsi penerapan fleksibel termasuk node yang dikelola sendiri dan grup node terkelola EKS. Amazon EKS menyediakan dioptimalkan AMIs yang mencakup driver NVIDIA yang telah dikonfigurasi sebelumnya, Fabric Manager, driver IMEX, dan semua perangkat lunak sistem yang diperlukan untuk pengoperasian yang mulus.

Integrasi ini mencakup kemampuan penempatan pod yang memastikan beban kerja terdistribusi dijadwalkan secara optimal di seluruh NVL72 domain menggunakan label topologi Kubernetes standar. Pemantauan bawaan dan fitur pemulihan otomatis memberikan dukungan operasional, di mana agen kesehatan AMI mendeteksi kesalahan GPU dari log kernel dan dapat secara otomatis memperbaiki masalah atau mengganti node yang salah dalam grup node terkelola. Kombinasi skala GPU, penempatan beban kerja cerdas, dan operasi otomatis ini membantu Anda fokus pada AI/ML inovasi Anda daripada kompleksitas infrastruktur, sekaligus mencapai kinerja maksimum dari investasi GPU Anda.

Untuk mengatur penggunaan UltraServers dengan HyperPod cluster Anda, lihat langkah-langkah berikut:

Buat cluster berbasis EKS HyperPod . Ketika Anda memilih grup instans, pastikan Anda memilih UltraServer.

Setelah cluster Anda dibuat, gunakan perintah berikut instal plugin operasional:

Plugin perangkat NVIDIA v0.17.2


kubectl apply -f https://raw.githubusercontent.com/NVIDIA/k8s-device-plugin/v0.17.2/deployments/static/nvidia-device-plugin.yml

FD v0.17.3 DaemonSet


kubectl apply -k "https://github.com/kubernetes-sigs/node-feature-discovery/deployment/overlays/default?ref=v0.17.3"

Penemuan fitur GPU


kubectl apply -f https://raw.githubusercontent.com/NVIDIA/k8s-device-plugin/v0.17.2/deployments/static/gpu-feature-discovery-daemonset.yaml

Sekarang, Anda dapat menjalankan pekerjaan. Contoh berikut menunjukkan cara membuat domain, mengonfigurasi domain IMEX, dan mengaktifkan alokasi saluran. Langkah-langkah ini juga memungkinkan Anda membuat pod untuk menyediakan saluran untuk komunikasi NCCL.

Buat file spesifikasi sumber daya untuk digunakan dengan Kubectl.


cat <<EOF > imex-channel-injection.yaml
---
apiVersion: resource.nvidia.com/v1beta1
kind: ComputeDomain
metadata:
  name: imex-channel-injection
spec:
  numNodes: 1
  channel:
    resourceClaimTemplate:
      name: imex-channel-0
---
apiVersion: v1
kind: Pod
metadata:
  name: imex-channel-injection
spec:
  affinity:
    nodeAffinity:
      requiredDuringSchedulingIgnoredDuringExecution:
        nodeSelectorTerms:
        - matchExpressions:
          - key: nvidia.com/gpu.clique
            operator: Exists
          - key: topology.k8s.aws/ultraserver-id
            operator: In
            values: 
            - <UltraServer-ID>
  containers:
  - name: ctr
    image: ubuntu:22.04
    command: ["bash", "-c"]
    args: ["ls -la /dev/nvidia-caps-imex-channels; trap 'exit 0' TERM; sleep 9999 & wait"]
    resources:
      claims:
      - name: imex-channel-0
  resourceClaims:
  - name: imex-channel-0
    resourceClaimTemplateName: imex-channel-0
EOF

Terapkan konfigurasi yang Anda buat.


kubectl apply -f imex-channel-injection.yaml

Untuk memverifikasi bahwa pod Anda dibuat, jalankan get pods perintah.


kubectl get pods
kubectl get pods -n nvidia-dra-driver-gpu -l resource.nvidia.com/computeDomain

Anda juga dapat memeriksa log dari pod untuk melihat apakah itu mengalokasikan saluran komunikasi.


kubectl logs imex-channel-injection


total 0
drwxr-xr-x 2 root root     60 Feb 19 10:43 .
drwxr-xr-x 6 root root    380 Feb 19 10:43 ..
crw-rw-rw- 1 root root 507, 0 Feb 19 10:43 channel0

Anda juga dapat memeriksa log untuk memverifikasi bahwa konfigurasi IMEX otomatis berjalan dengan saluran yang dialokasikan.


kubectl logs -n nvidia-dra-driver-gpu -l resource.nvidia.com/computeDomain --tail=-1
/etc/nvidia-imex/nodes_config.cfg:


IMEX Log initializing at: 8/8/2025 14:23:12.081
[Aug 8 2025 14:23:12] [INFO] [tid 39] IMEX version 570.124.06 is running with the following configuration options

[Aug 8 2025 14:23:12] [INFO] [tid 39] Logging level = 4

[Aug 8 2025 14:23:12] [INFO] [tid 39] Logging file name/path = /var/log/nvidia-imex.log

[Aug 8 2025 14:23:12] [INFO] [tid 39] Append to log file = 0

[Aug 8 2025 14:23:12] [INFO] [tid 39] Max Log file size = 1024 (MBs)

[Aug 8 2025 14:23:12] [INFO] [tid 39] Use Syslog file = 0

[Aug 8 2025 14:23:12] [INFO] [tid 39] IMEX Library communication bind interface =

[JAug 8 2025 14:23:12] [INFO] [tid 39] IMEX library communication bind port = 50000

[Aug 8 2025 14:23:12] [INFO] [tid 39] Identified this node as ID 0, using bind IP of '10.115.131.8', and network interface of enP5p9s0
[Aug 8 2025 14:23:120] [INFO] [tid 39] nvidia-imex persistence file /var/run/nvidia-imex/persist.dat does not exist.  Assuming no previous importers.
[Aug 8 2025 14:23:12] [INFO] [tid 39] NvGpu Library version matched with GPU Driver version
[Aug 8 2025 14:23:12] [INFO] [tid 63] Started processing of incoming messages.
[Aug 8 2025 14:23:12] [INFO] [tid 64] Started processing of incoming messages.
[Aug 8 2025 14:23:12] [INFO] [tid 65] Started processing of incoming messages.
[Aug 8 2025 14:23:12] [INFO] [tid 39] Creating gRPC channels to all peers (nPeers = 1).
[Aug 8 2025 14:23:12] [INFO] [tid 66] Started processing of incoming messages.
[Aug 8 2025 14:23:12] [INFO] [tid 39] IMEX_WAIT_FOR_QUORUM != FULL, continuing initialization without waiting for connections to all nodes.
[Aug 8 2025 14:23:12] [INFO] [tid 67] Connection established to node 0 with ip address 10.115.131.8. Number of times connected: 1
[Aug 8 2025 14:23:12] [INFO] [tid 39] GPU event successfully subscribed

Setelah Anda memverifikasi semuanya, hapus beban kerja dan hapus konfigurasi.
```
kubectl delete -f imex-channel-injection.yaml
```

Awas Javascript dinonaktifkan atau tidak tersedia di browser Anda.

Untuk menggunakan Dokumentasi AWS, Javascript harus diaktifkan. Lihat halaman Bantuan browser Anda untuk petunjuk.

Konvensi Dokumen

Konfigurasi ketahanan yang disarankan

Melatih dan menyebarkan model