View a markdown version of this page

SageMaker Inferensi - Amazon Nova

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

SageMaker Inferensi

Model Amazon Nova khusus sekarang tersedia pada SageMaker inferensi. Dengan Amazon Nova aktif SageMaker, Anda dapat mulai mendapatkan prediksi, atau kesimpulan, dari model Amazon Nova kustom Anda yang terlatih. SageMaker menyediakan berbagai pilihan infrastruktur dan opsi penerapan model ML untuk membantu memenuhi semua kebutuhan inferensi ML Anda. Dengan SageMaker inferensi, Anda dapat menskalakan penerapan model, mengelola model secara lebih efektif dalam produksi, dan mengurangi beban operasional.

SageMaker memberi Anda berbagai opsi inferensi, seperti titik akhir waktu nyata untuk mendapatkan inferensi latensi rendah, dan titik akhir asinkron untuk kumpulan permintaan. Dengan memanfaatkan opsi inferensi yang sesuai untuk kasus penggunaan Anda, Anda dapat memastikan penerapan dan inferensi model yang efisien. Untuk informasi lebih lanjut tentang SageMaker inferensi, lihat Menerapkan model untuk inferensi.

penting

Hanya model kustom peringkat penuh dan model gabungan LoRa yang didukung pada inferensi. SageMaker Untuk model LoRa yang tidak digabungkan dan model dasar, gunakan Amazon Bedrock.

Fitur

Fitur-fitur berikut tersedia untuk model Amazon Nova pada SageMaker inferensi:

Kemampuan Model

  • Pembuatan teks

Penerapan dan Penskalaan

  • Titik akhir real-time dengan pemilihan instans kustom

  • Auto Scaling — Secara otomatis menyesuaikan kapasitas berdasarkan pola lalu lintas untuk mengoptimalkan biaya dan pemanfaatan GPU. Untuk informasi selengkapnya, lihat Menskalakan SageMaker Model Amazon secara otomatis.

  • Dukungan API streaming untuk pembuatan token waktu nyata

Pemantauan dan Optimalisasi

  • CloudWatch Integrasi Amazon untuk pemantauan dan peringatan

  • Ketersediaan Optimalisasi latensi sadar zona melalui konfigurasi VPC

Alat Pengembangan

  • AWS CLI dukungan - Untuk informasi selengkapnya, lihat Referensi Perintah AWS CLI untuk. SageMaker

  • Integrasi notebook melalui dukungan SDK

Model dan instance yang didukung

Saat membuat titik akhir SageMaker inferensi, Anda dapat mengatur dua variabel lingkungan untuk mengonfigurasi penerapan: dan. CONTEXT_LENGTH MAX_CONCURRENCY

  • CONTEXT_LENGTH— Total panjang token maksimum (input+output) per permintaan

  • MAX_CONCURRENCY— Jumlah maksimum permintaan bersamaan yang akan dilayani oleh titik akhir

Tabel berikut mencantumkan model Amazon Nova yang didukung, jenis instans, dan konfigurasi yang didukung. Nilai MAX_CONCURRENCY mewakili konkurensi maksimum yang didukung untuk setiap pengaturan CONTEXT_LENGTH:

Model Tipe Instans Konfigurasi yang Didukung FP8 Kuantisasi Diperlukan
Amazon Nova Mikro ml.g5.12xbesar

CONTEXT_LENGTH: 4000, MAX_CONCURRENCY: 12

CONTEXT_LENGTH: 8000, MAX_CONCURRENCY: 6

Tidak
ml.g5.24xbesar CONTEXT_LENGTH: 8000, MAX_CONCURRENCY: 8 Tidak
ml.g6e.xlarge

CONTEXT_LENGTH: 8000, MAX_CONCURRENCY: 2

Tidak
ml.g6e.2xlarge

CONTEXT_LENGTH: 8000, MAX_CONCURRENCY: 2

Tidak
ml.g6e.4xlarge

CONTEXT_LENGTH: 8000, MAX_CONCURRENCY: 4

Tidak
ml.g6.12xlarge

CONTEXT_LENGTH: 4000, MAX_CONCURRENCY: 12

CONTEXT_LENGTH: 8000, MAX_CONCURRENCY: 6

Tidak
ml.g6.24xbesar CONTEXT_LENGTH: 8000, MAX_CONCURRENCY: 8 Tidak
ml.g6.48xlarge CONTEXT_LENGTH: 8000, MAX_CONCURRENCY: 12 Tidak
ml.p5.48xbesar

CONTEXT_LENGTH: 16000, MAX_CONCURRENCY: 128

CONTEXT_LENGTH: 64000, MAX_CONCURRENCY: 32

CONTEXT_LENGTH: 128000, MAX_CONCURRENCY: 8

Tidak
Amazon Nova Lite ml.g6.12xlarge

CONTEXT_LENGTH: 8000, MAX_CONCURRENCY: 2

Ya - Diaktifkan Secara Default
ml.g6.24xbesar

CONTEXT_LENGTH: 8000, MAX_CONCURRENCY: 4

Ya - Diaktifkan Secara Default
ml.g6.48xlarge

CONTEXT_LENGTH: 4000, MAX_CONCURRENCY: 16

CONTEXT_LENGTH: 8000, MAX_CONCURRENCY: 8

Tidak
ml.p5.48xbesar

CONTEXT_LENGTH: 16000, MAX_CONCURRENCY: 128

CONTEXT_LENGTH: 60000, MAX_CONCURRENCY: 8

Tidak
Nova 2 Lite ml.g6.48xlarge

CONTEXT_LENGTH: 8000, MAX_CONCURRENCY: 8

Ya - Diaktifkan Secara Default
ml.p5.48xbesar

CONTEXT_LENGTH: 16000, MAX_CONCURRENCY: 128

CONTEXT_LENGTH: 64000, MAX_CONCURRENCY: 32

CONTEXT_LENGTH: 128000, MAX_CONCURRENCY: 8

Tidak
catatan

Untuk contoh di mana FP8 kuantisasi diperlukan, itu akan diaktifkan secara default.

Nilai MAX_CONCURRENCY yang ditampilkan adalah batas atas untuk setiap pengaturan CONTEXT_LENGTH. Anda dapat menggunakan panjang konteks yang lebih rendah dengan konkurensi yang sama, tetapi melebihi nilai ini akan menyebabkan pembuatan SageMaker titik akhir gagal.

Misalnya, di Amazon Nova Micro dengan ml.g5.12xlarge:

  • CONTEXT_LENGTH=2000, MAX_CONCURRENCY=12 → Berlaku

  • CONTEXT_LENGTH=8000, MAX_CONCURRENCY=12 → Ditolak (batas konkurensi adalah 6 pada panjang konteks 8000)

  • CONTEXT_LENGTH=8000, MAX_CONCURRENCY=4 → Berlaku

  • CONTEXT_LENGTH=8000, MAX_CONCURRENCY=6 → Berlaku

  • CONTEXT_LENGTH=10000→ Ditolak (panjang konteks maks adalah 8000 pada contoh ini)

AWS Wilayah yang Didukung

Tabel berikut mencantumkan AWS Wilayah tempat model Amazon Nova tersedia pada SageMaker inferensi:

Nama wilayah Kode Wilayah Ketersediaan
US East (Northern Virginia) us-east-1 Available
AS Barat (Oregon) us-west-2 Available

Gambar Kontainer yang Didukung

Tabel berikut mencantumkan gambar kontainer URIs untuk model Amazon Nova pada SageMaker inferensi berdasarkan wilayah.

Region Gambar Kontainer URIs
us-east-1 708977205387.dkr.ecr.us-east-1.amazonaws.com/nova-inference-repo:SM-Inference-latest
us-west-2 176779409107.dkr.ecr.us-west-2.amazonaws.com/nova-inference-repo:SM-Inference-latest

Praktik Terbaik

Untuk praktik terbaik dalam menerapkan dan mengelola model SageMaker, lihat Praktik Terbaik untuk SageMaker.

Support

Untuk masalah dan dukungan dengan model Amazon Nova pada SageMaker inferensi, hubungi AWS Support melalui Konsol atau manajer AWS akun Anda.