Tingkat Cadangan Tingkat Prioritas Tingkat Standar Tingkat Fleksibel Menggunakan kemampuan tingkat layanan

Tingkat layanan untuk mengoptimalkan kinerja dan biaya

Amazon Bedrock menawarkan empat tingkatan layanan untuk inferensi model: Reserved, Priority, Standard, dan Flex. Dengan tingkatan layanan, Anda dapat mengoptimalkan ketersediaan, biaya, dan kinerja.

Tingkat Cadangan

Tingkat Cadangan menyediakan kemampuan untuk mencadangkan kapasitas komputasi yang diprioritaskan untuk aplikasi penting misi Anda yang tidak dapat mentolerir waktu henti apa pun. Anda memiliki fleksibilitas untuk mengalokasikan kapasitas input dan output token-per-menit yang berbeda agar sesuai dengan persyaratan yang tepat dari beban kerja dan biaya kontrol Anda. Ketika aplikasi Anda membutuhkan lebih banyak kapasitas token per menit daripada yang Anda pesan, layanan secara otomatis meluap ke tingkat Standar, memastikan operasi tidak terganggu. Tingkat Cadangan menargetkan waktu aktif 99,5% untuk respons model. Pelanggan dapat memesan kapasitas untuk durasi 1 bulan atau 3 bulan. Pelanggan membayar harga tetap per 1K token per menit dan ditagih setiap bulan.

Tingkat Cadangan memiliki persyaratan kapasitas minimum berikut:

Token masukan minimum per menit (TPM): 100.000
Token keluaran minimum per menit (TPM): 10.000

Untuk mendapatkan akses ke tingkat Cadangan, silakan hubungi tim akun AWS Anda.

penting

Saat mengukur kapasitas tingkat Cadangan Anda, perhatikan bahwa konsumsi token per menit Anda mencakup keduanya dan. InputTokenCount CacheWriteInputTokens Jika Anda menggunakan caching cepat, Anda harus menjumlahkan kedua metrik di Amazon CloudWatch untuk memperkirakan reservasi yang diperlukan secara akurat. Untuk informasi selengkapnya tentang bagaimana token dihitung terhadap kuota Anda, lihat. Memahami manajemen kuota token

catatan

Penagihan berlanjut hingga Anda menghapus reservasi Tingkat Cadangan dengan bantuan Akun AWS manajer Anda.

Tingkat Prioritas

Tingkat Prioritas memberikan waktu respons tercepat untuk harga premium dibandingkan harga sesuai permintaan standar. Ini paling cocok untuk aplikasi penting misi dengan alur kerja bisnis yang dihadapi pelanggan yang tidak menjamin reservasi kapasitas 24X7. Tingkat prioritas tidak memerlukan reservasi sebelumnya. Anda cukup mengatur parameter opsional “service_tier” ke “priority” untuk memanfaatkan prioritas tingkat permintaan. Permintaan tingkat prioritas diprioritaskan di atas permintaan tingkat Standar dan Flex.

Tingkat Standar

Tingkat Standar memberikan kinerja yang konsisten untuk tugas AI sehari-hari seperti pembuatan konten, analisis teks, dan pemrosesan dokumen rutin. Secara default semua permintaan inferensi dirutekan ke tingkat Standar ketika parameter “service_tier” hilang. Anda juga dapat menyetel parameter opsional “service_tier” ke “default” agar permintaan inferensi Anda disajikan dengan tingkat Standar.

Tingkat Fleksibel

Untuk beban kerja yang dapat menangani waktu pemrosesan lebih lama, tingkat Flex menawarkan pemrosesan hemat biaya untuk diskon harga. Ini membantu Anda mengoptimalkan biaya untuk beban kerja seperti evaluasi model, ringkasan konten, dan alur kerja agen. Anda dapat menyetel parameter opsional “service_tier” ke “flex” agar permintaan inferensi Anda dilayani dengan tingkat Flex dan memanfaatkan diskon harga.

Menggunakan kemampuan tingkat layanan

Untuk mengakses kemampuan tingkat layanan, Anda dapat menyetel parameter opsional “service_tier” ke “reserved”, “priority”, “default”, atau “flex” saat memanggil API runtime Amazon Bedrock.


"service_tier" : "reserved | priority | default | flex"

Kuota sesuai permintaan untuk model dibagikan di seluruh tingkatan layanan “prioritas”, “default”, dan “fleksibel”. Reservasi kapasitas tingkat “reservasi” Anda terpisah dari kuota sesuai permintaan Anda. Konfigurasi tingkat layanan untuk permintaan yang ditayangkan dapat dilihat dalam respons API dan CloudTrail Acara AWS. Anda juga dapat melihat metrik tingkat layanan di Metrik Amazon CloudWatch di bawah ModelId,, dan ServiceTier ResolvedServiceTier, di mana ResolvedServiceTier menampilkan tingkat aktual yang melayani permintaan Anda.

Untuk informasi lebih lanjut tentang harga, kunjungi halaman harga.

Silakan buka Model sekilas dan pilih model yang Anda minati untuk melihat tingkat layanan mana yang didukung model.

Untuk mengontrol akses ke tingkatan layanan, lihat Kontrol akses ke tingkatan layanan

Awas Javascript dinonaktifkan atau tidak tersedia di browser Anda.

Untuk menggunakan Dokumentasi AWS, Javascript harus diaktifkan. Lihat halaman Bantuan browser Anda untuk petunjuk.

Konvensi Dokumen

Kapasitas dan Kinerja

Inferensi Batch