View a markdown version of this page

Tingkat layanan untuk mengoptimalkan kinerja dan biaya - Amazon Bedrock

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Tingkat layanan untuk mengoptimalkan kinerja dan biaya

Amazon Bedrock menawarkan empat tingkatan layanan untuk inferensi model: Reserved, Priority, Standard, dan Flex. Dengan tingkatan layanan, Anda dapat mengoptimalkan ketersediaan, biaya, dan kinerja.

Tingkat Cadangan

Tingkat Cadangan menyediakan kemampuan untuk mencadangkan kapasitas komputasi yang diprioritaskan untuk aplikasi penting misi Anda yang tidak dapat mentolerir waktu henti apa pun. Anda memiliki fleksibilitas untuk mengalokasikan tokens-per-minute kapasitas input dan output yang berbeda agar sesuai dengan persyaratan yang tepat dari beban kerja dan biaya kontrol Anda. Ketika aplikasi Anda membutuhkan tokens-per-minute kapasitas lebih dari yang Anda pesan, layanan secara otomatis meluap ke tingkat Standar, memastikan operasi tidak terganggu. Tingkat Cadangan menargetkan waktu aktif 99,5% untuk respons model. Pelanggan dapat memesan kapasitas untuk durasi 1 bulan atau 3 bulan. Pelanggan membayar harga tetap per 1K tokens-per-minute dan ditagih setiap bulan.

Tingkat Cadangan memiliki persyaratan kapasitas minimum berikut:

  • Masukan minimum tokens-per-minute (TPM): 100.000

  • Output minimum tokens-per-minute (TPM): 10.000

Untuk mendapatkan akses ke tingkat Cadangan, silakan hubungi tim akun AWS Anda.

catatan

Penagihan berlanjut hingga Anda menghapus reservasi Tingkat Cadangan dengan bantuan Akun AWS manajer Anda.

Tingkat Prioritas

Tingkat Prioritas memberikan waktu respons tercepat untuk harga premium dibandingkan harga sesuai permintaan standar. Ini paling cocok untuk aplikasi penting misi dengan alur kerja bisnis yang dihadapi pelanggan yang tidak menjamin reservasi kapasitas 24X7. Tingkat prioritas tidak memerlukan reservasi sebelumnya. Anda cukup mengatur parameter opsional “service_tier” ke “priority” untuk memanfaatkan prioritas tingkat permintaan. Permintaan tingkat prioritas diprioritaskan di atas permintaan tingkat Standar dan Flex.

Tingkat Standar

Tingkat Standar memberikan kinerja yang konsisten untuk tugas AI sehari-hari seperti pembuatan konten, analisis teks, dan pemrosesan dokumen rutin. Secara default semua permintaan inferensi dirutekan ke tingkat Standar ketika parameter “service_tier” hilang. Anda juga dapat mengatur parameter opsional “service_tier” ke “default” agar permintaan inferensi Anda disajikan dengan tingkat Standar.

Tingkat Flex

Untuk beban kerja yang dapat menangani waktu pemrosesan lebih lama, tingkat Flex menawarkan pemrosesan hemat biaya untuk diskon harga. Ini membantu Anda mengoptimalkan biaya untuk beban kerja seperti evaluasi model, ringkasan konten, dan alur kerja agen. Anda dapat mengatur parameter opsional “service_tier” ke “flex” agar permintaan inferensi Anda dapat disajikan dengan tingkat Flex dan memanfaatkan diskon harga.

Menggunakan kemampuan tingkat layanan

Untuk mengakses kemampuan tingkat layanan, Anda dapat menyetel parameter opsional “service_tier” ke “reserved”, “priority”, “default”, atau “flex” saat memanggil API runtime Amazon Bedrock.

"service_tier" : "reserved | priority | default | flex"

Kuota sesuai permintaan untuk model dibagikan di seluruh tingkatan layanan “prioritas”, “default”, dan “fleksibel”. Reservasi kapasitas tingkat “reservasi” Anda terpisah dari kuota sesuai permintaan Anda. Konfigurasi tingkat layanan untuk permintaan yang ditayangkan dapat dilihat dalam respons API dan CloudTrail Acara AWS. Anda juga dapat melihat metrik tingkat layanan di Metrik Amazon CloudWatch di bawah ModelId,, dan ServiceTier ResolvedServiceTier, di mana ResolvedServiceTier menampilkan tingkat aktual yang melayani permintaan Anda.

Untuk informasi lebih lanjut tentang harga, kunjungi halaman harga.

Silakan buka Model sekilas dan pilih model yang Anda minati untuk melihat tingkat layanan mana yang didukung model.

Untuk mengontrol akses ke tingkatan layanan, lihat Kontrol akses ke tingkatan layanan