Kuota untuk Amazon Bedrock - Amazon Bedrock

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Kuota untuk Amazon Bedrock

Anda Akun AWS memiliki kuota default, sebelumnya disebut sebagai batas, untuk Amazon Bedrock. Untuk melihat kuota layanan untuk Amazon Bedrock, lakukan salah satu hal berikut:

Untuk menjaga kinerja layanan dan memastikan penggunaan Amazon Bedrock yang tepat, kuota default yang ditetapkan ke akun dapat diperbarui tergantung pada faktor regional, riwayat pembayaran, penggunaan penipuan, and/or persetujuan permintaan peningkatan kuota.

catatan

Untuk menjaga kinerja dan memastikan penggunaan Amazon Bedrock yang tepat, AWS batasi penggunaan Anda sesuai dengan kuota akun Anda untuk Permintaan per Menit (RPM), Token per Menit (TPM), dan Token per Hari (TPD). Batas Token per Hari default adalah Token per Menit* 24 * 60. Namun, baru Akun AWS telah mengurangi kuota untuk Token per Hari. Anda dapat meminta peningkatan kuota seperti yang dijelaskan di bagian berikut.

Untuk melihat batas Token per Hari akun Anda, pilih Amazon Bedrock di halaman AWS Management Console Service Quotas dan cari “Token maksimum pemanggilan model per hari untuk $ {MODEL}”.

Minta kenaikan kuota Amazon Bedrock

Langkah-langkah untuk meminta kenaikan kuota untuk akun Anda bergantung pada nilai di kolom Adjustable dalam tabel kuota di kuota layanan Amazon Bedrock:

  • Jika kuota ditandai sebagai Ya, Anda dapat menyesuaikannya dengan mengikuti langkah-langkah di Meminta Peningkatan Kuota pada Panduan Pengguna Service Quotas.

  • Untuk model apa pun, Anda dapat meminta peningkatan untuk kuota berikut bersama-sama:

    • InvokeModel Token Lintas Wilayah per menit untuk ${model}

    • InvokeModel Permintaan Lintas Wilayah per menit untuk ${model}

    • InvokeModel Token sesuai permintaan per menit untuk ${model}

    • Permintaan sesuai InvokeModel permintaan per menit untuk ${model}

    • Token maks pemanggilan model per hari untuk ${model}

    Untuk meminta peningkatan kombinasi kuota ini, mintalah peningkatan InvokeModel token Lintas Wilayah per menit untuk ${model} kuota dengan mengikuti langkah-langkah di Meminta Peningkatan Kuota dalam Panduan Pengguna Service Quotas. Setelah Anda melakukannya, tim dukungan akan menjangkau dan menawarkan Anda opsi untuk juga meningkatkan empat kuota lainnya.

    catatan

    Karena permintaan yang luar biasa, prioritas akan diberikan kepada pelanggan yang menghasilkan lalu lintas yang mengkonsumsi alokasi kuota yang ada. Permintaan Anda mungkin ditolak jika Anda tidak memenuhi persyaratan ini.

Tingkat burndown token untuk 4 model AnthropicClaude

Kuota Inferensi untuk model dengan tingkat burndown token non-standar.

Kuota inferensi model Amazon Bedrock diukur dalam dua dimensi: RPM (permintaan per menit) dan TPM (token per menit). Kuota dapat dicapai di salah satu dimensi tergantung pada apa yang terjadi pertama kali.

Tingkat burndown adalah rasio yang mengubah token input dan output menjadi penggunaan kuota token oleh sistem throttling. Rasio ini mewakili tingkat di mana token input dan output dihitung terhadap kuota token.

Sebagian besar model memiliki tingkat burndown 1 token per 1 input atau 1 output token, kecuali untuk Anthropic Claude 4 model. Lihat tabel di bawah untuk Anthropic Claude 4 tingkat burndown. Untuk informasi selengkapnya tentang penggunaan token dan harga di Amazon Bedrock, lihat Harga Amazon Bedrock.

Kami menggunakan max_tokens nilai yang ditentukan dalam permintaan API untuk memperkirakan burndown keluaran terhadap kuota token saat kami menerima permintaan Anda. Kami menyesuaikan burndown output dengan penggunaan aktual pada penyelesaian permintaan. Untuk menghindari pelambatan awal, pilih max_tokens nilai yang mendekati token keluaran yang Anda harapkan.

Tarif burndown non-standar token model

Model

Masukan token

Token keluaran

Claude Opus 4

1 token per token masukan

5 token per token keluaran

Claude Sonnet 4

1 token per token masukan

5 token per token keluaran