As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.
Throughput provisionado
Ao configurar o throughput provisionado para um modelo, você recebe um nível de throughput por um custo fixo.
Você pode usar o throughput provisionado com modelos de base da Amazon e de terceiros e com modelos personalizados.
Os preços da throughput provisionado variam de acordo com o modelo que você usa e o nível de comprometimento escolhido. Você recebe uma taxa de desconto ao se comprometer com um período mais longo. Para obter detalhes sobre os preços de cada modelo, consulte a página Provedores de modelos
Suas opções de throughput para um modelo diferem dependendo se você executa inferência em um modelo de base ou em um modelo personalizado.
nota
Na AWS GovCloud (US) região, você só pode comprar o Provisioned Throughput para modelos personalizados sem compromisso.
| Opções de definição de preço | Modelo de base | Modelo personalizado |
|---|---|---|
| Throughput provisionado, sem compromisso (preço por hora) | Indisponível | Disponível (máximo de 2 throughputs provisionados por conta) |
| Throughput provisionado, compromisso de 1 mês | Disponível | Disponível |
| Throughput provisionado, compromisso de 6 meses | Disponível | Disponível |
Você especifica o throughput provisionado em unidades de modelo (MU). Uma unidade modelo fornece um nível de produtividade específico para o modelo especificado. O nível de throughput de uma MU para um determinado modelo de texto especifica o seguinte:
O número total de tokens de entrada por minuto: o número de tokens de entrada que uma MU pode processar em todas as solicitações em um período de um minuto.
O número total de tokens de saída por minuto: o número de tokens de saída que uma MU pode gerar em todas as solicitações em um período de um minuto.
As cotas unitárias do modelo dependem do nível de comprometimento que você especifica para o throughput provisionado.
-
Para modelos personalizados sem compromisso, uma cota de uma unidade de modelo está disponível para cada throughput provisionado. Você pode criar até dois throughputs provisionados por conta.
-
Para modelos de base ou personalizados com compromisso, há uma cota padrão de 0 unidades de modelo. Para solicitar um aumento, use o formulário de aumento de limite
.