Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.
Adaptor Kain Elastis untuk AI/ML dan beban kerja HPC di Amazon EC2
Elastic Fabric Adapter (EFA) adalah perangkat jaringan yang dapat Anda lampirkan ke EC2 instans Amazon untuk mempercepat aplikasi Artificial Intelligence (AI), Machine Learning (ML), dan High Performance Computing (HPC). EFA memungkinkan Anda mencapai kinerja aplikasi klaster AI/ML/HPC lokal, dengan skalabilitas, fleksibilitas, dan elastisitas yang disediakan oleh Cloud. AWS
EFA memberikan latensi yang lebih rendah dan lebih konsisten serta throughput yang lebih tinggi dibandingkan transportasi TCP yang secara tradisional digunakan dalam sistem HPC berbasis cloud. Ini meningkatkan kinerja komunikasi antar-instance yang sangat penting untuk penskalaan AI/ML dan aplikasi HPC. Hal ini dioptimalkan untuk bekerja pada infrastruktur AWS jaringan yang ada dan dapat skala tergantung pada persyaratan aplikasi.
EFA terintegrasi dengan Libfabric 1.7.0 dan yang lebih baru, dan mendukung Nvidia Collective Communications Library (NCCL) untuk aplikasi AI dan ML. dan Open MPI 4.1 dan yang lebih baru dan Intel MPI 2019 Update 5 dan yang lebih baru untuk aplikasi HPC.
EFA mendukung penulisan RDMA (Remote Direct Memory Access) pada sebagian besar jenis instans yang didukung yang memiliki Nitro versi 4 dan yang lebih baru. Pembacaan RDMA didukung pada semua instance dengan Nitro versi 4 dan yang lebih baru. Untuk informasi selengkapnya, lihat Tipe instans yang didukung.
Daftar Isi
Dasar-dasar EFA
Perangkat EFA dapat dilampirkan ke EC2 instance dengan dua cara:
-
Menggunakan antarmuka EFA tradisional, juga disebut EFA dengan ENA, yang menciptakan perangkat EFA dan perangkat ENA.
-
Menggunakan antarmuka khusus EFA, yang hanya menciptakan perangkat EFA.
Perangkat EFA menyediakan kemampuan seperti built-in OS-bypass dan kontrol kemacetan melalui protokol Scalable Reliable Datagram (SRD). Fitur perangkat EFA memungkinkan fungsionalitas transportasi latensi rendah dan andal yang memungkinkan antarmuka EFA memberikan kinerja aplikasi yang lebih baik untuk aplikasi HPC dan ML di Amazon. EC2 Sedangkan perangkat ENA menawarkan jaringan IP tradisional.

Secara tradisional, AI/ML aplikasi menggunakan aplikasi NCCL dan HPC menggunakan Message Passing Interface (MPI) untuk berinteraksi dengan transportasi jaringan sistem. Di AWS cloud, ini berarti bahwa antarmuka aplikasi dengan NCCL atau MPI, yang kemudian menggunakan TCP/IP tumpukan sistem operasi dan driver perangkat ENA untuk memungkinkan komunikasi jaringan antar instance.
Dengan EFA tradisional (EFA dengan ENA) atau antarmuka khusus EFA, AI/ML aplikasi menggunakan aplikasi NCCL dan HPC menggunakan MPI, untuk berinteraksi langsung dengan API Libfabric. API Libfabric memintas kernel sistem operasi dan berkomunikasi secara langsung dengan perangkat ITEFA untuk menempatkan paket pada jaringan. Ini mengurangi overhead dan memungkinkan AI/ML dan aplikasi HPC berjalan lebih efisien.
catatan
Libfabric adalah komponen inti dari kerangka OpenFabrics Interfaces (OFI), yang mendefinisikan dan mengekspor API ruang pengguna OFI. Untuk informasi lebih lanjut, lihat situs web Libfabric OpenFabrics
Perbedaan antara antarmuka jaringan ENA, EFA, dan EFA
Amazon EC2 menyediakan dua jenis antarmuka jaringan:
-
Antarmuka ENA menyediakan semua jaringan IP tradisional dan fitur routing yang diperlukan untuk mendukung jaringan IP untuk VPC. Untuk informasi selengkapnya, lihat Aktifkan jaringan yang disempurnakan dengan ENA pada EC2 instans Anda.
-
Antarmuka EFA (EFA dengan ENA) menyediakan perangkat ENA untuk jaringan IP dan perangkat EFA untuk komunikasi latensi rendah dan throughput tinggi.
-
Antarmuka khusus EFA hanya mendukung kemampuan perangkat EFA, tanpa perangkat ENA untuk jaringan IP tradisional.
Tabel berikut memberikan perbandingan antarmuka jaringan ENA, EFA, dan EFA saja.
ENA | EFA (EFA dengan ENA) | Khusus EFA | |
---|---|---|---|
Mendukung fungsionalitas jaringan IP | Ya | Ya | Tidak |
Dapat ditugaskan IPv4 atau IPv6 alamat | Ya | Ya | Tidak |
Dapat digunakan sebagai antarmuka jaringan utama misalnya | Ya | Ya | Tidak |
Menghitung batas lampiran ENI misalnya | Ya | Ya | Ya |
Dukungan tipe instans | Didukung pada semua jenis instans berbasis Nitro | Jenis instans yang didukung | Jenis instans yang didukung |
Penamaan parameter di EC2 APIs | interface |
efa |
efa-only |
Penamaan bidang di EC2 konsol | Tidak ada pilihan | EFA dengan ENA | Khusus EFA |
Antarmuka dan pustaka yang didukung
EFAs mendukung antarmuka dan pustaka berikut:
-
Buka MPI 4.1 dan yang lebih baru
-
Pembaruan 5 Intel MPI 2019 dan versi yang lebih baru
-
NVIDIA Collective Communications Library (NCCL) 2.4.2 dan yang lebih baru
-
AWS Neuron SDK versi 2.3 dan yang lebih baru
Tipe instans yang didukung
Semua jenis contoh berikut mendukung EFA. Selain itu, tabel menunjukkan dukungan baca RDMA dan penulisan RDMA untuk jenis instance.
Untuk melihat jenis instans yang tersedia yang mendukung EFAs di Wilayah tertentu
Tipe instans yang tersedia berbeda-beda menurut Wilayah. Untuk melihat jenis instance yang tersedia yang mendukung EFAs di Region, gunakan describe-instance-types--region
parameter. Sertakan parameter --filters
untuk cakupan hasil ke tipe instans yang mendukung EFA dan --query
parameter untuk cakupan output ke nilai InstanceType
.
aws ec2 describe-instance-types \ --region
us-east-1
\ --filters Name=network-info.efa-supported,Values=true \ --query "InstanceTypes[*].[InstanceType]" \ --output text | sort
Sistem operasi yang didukung
Dukungan sistem operasi berbeda tergantung pada jenis prosesor. Tabel berikut menunjukkan sistem operasi yang didukung.
Sistem operasi | Intel/AMD (x86_64 ) jenis instans |
AWS Graviton (arm64 ) jenis contoh |
---|---|---|
Amazon Linux 2023 | ✓ | ✓ |
Amazon Linux 2 | ✓ | ✓ |
RHEL 8 dan 9 | ✓ | ✓ |
Debian 11 dan 12 | ✓ | ✓ |
Rocky Linux 8 dan 9 | ✓ | ✓ |
Ubuntu 22.04 dan 24.04 | ✓ | ✓ |
SUSE Linux Enterprise 15 SP2 dan yang lebih baru | ✓ | ✓ |
openSUSE Leap 15.5 dan yang lebih baru | ✓ |
catatan
Beberapa sistem operasi yang terdaftar mungkin tidak didukung dengan Intel MPI. Jika Anda menggunakan Intel MPI, lihat dokumentasi Intel MPI
Batasan EFA
EFAs memiliki batasan sebagai berikut:
catatan
Lalu lintas EFA mengacu pada lalu lintas yang ditransmisikan melalui perangkat EFA baik EFA (EFA dengan ENA) atau antarmuka khusus EFA.
-
Penulisan RDMA tidak didukung dengan semua jenis instance. Untuk informasi selengkapnya, lihat Tipe instans yang didukung.
-
Lalu lintas EFA antara instans P4 d/P4de/DL 1 dan jenis instans lainnya saat ini tidak didukung.
-
Tipe instans yang mendukung beberapa kartu jaringan dapat dikonfigurasi dengan satu EFA per kartu jaringan. Semua tipe instans yang didukung hanya mendukung satu EFA per instans.
-
Untuk
c7g.16xlarge
,m7g.16xlarge
dan Instansr7g.16xlarge
Khusus dan Host Khusus tidak didukung saat EFA dilampirkan. -
Lalu lintas EFA tidak dapat melintasi Availability Zone atau VPCs. Ini tidak berlaku untuk lalu lintas IP normal dari perangkat ENA antarmuka EFA.
-
Lalu lintas EFA tidak dapat dirutekan. Lalu lintas IP normal dari perangkat ENA antarmuka EFA tetap dapat dirutekan.
-
EFA tidak didukung di AWS Outposts.
-
Perangkat EFA dari antarmuka EFA (EFA dengan ENA) didukung pada instance Windows hanya untuk AWS Cloud Digital Interface aplikasi berbasis Software Development Kit (AWS CDI SDK). Jika Anda melampirkan antarmuka EFA (EFA dengan ENA) ke instance Windows untuk aplikasi berbasis SDK non-CDI, itu berfungsi sebagai antarmuka ENA, tanpa kemampuan perangkat EFA tambahan. Antarmuka khusus EFA tidak didukung oleh aplikasi AWS CDI berbasis pada Windows atau Linux. Untuk informasi selengkapnya, lihat Panduan Pengguna Kit Pengembangan AWS Cloud Digital Interface Perangkat Lunak (AWS CDI SDK).
Harga EFA
EFA tersedia sebagai fitur EC2 jaringan Amazon opsional yang dapat Anda aktifkan pada instans apa pun yang didukung tanpa biaya tambahan.