Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.
Velocità di trasmissione effettiva assegnata
Quando configuri la velocità di trasmissione effettiva assegnata per un modello, ricevi un livello di velocità di trasmissione effettiva a un costo fisso.
Puoi utilizzare la velocità di trasmissione effettiva assegnata sia con modelli base di Amazon e di terze parti sia con modelli personalizzati.
I prezzi della velocità di trasmissione effettiva assegnata variano a seconda del modello utilizzato e del livello di impegno scelto. Ricevi una tariffa scontata se ti impegni per un periodo di tempo più lungo. Per informazioni dettagliate sui prezzi di ciascun modello, consulta la pagina Provider di modelli
Le opzioni di velocità di trasmissione effettiva per un modello variano a seconda che l'inferenza venga eseguita su un modello base o su uno personalizzato.
Nota
Nella AWS GovCloud (US) regione, puoi acquistare Provisioned Throughput solo per modelli personalizzati senza impegno.
Opzione di prezzo | Modelli base | Modelli personalizzati |
---|---|---|
Velocità di trasmissione effettiva assegnata, nessun impegno (tariffa oraria) | Non disponibile | Disponibile (massimo 2 velocità di trasmissione effettiva assegnate per account) |
Velocità di trasmissione effettiva assegnata, impegno di 1 mese | Disponibilità | Disponibilità |
Velocità di trasmissione effettiva assegnata, impegno di 6 mesi | Disponibilità | Disponibilità |
La velocità di trasmissione effettiva assegnata va specificata in unità modello (UM). Un'unità modello offre un livello specifico di velocità di trasmissione effettiva per il modello indicato. Il livello di velocità di trasmissione effettiva di una MU per un determinato modello di testo specifica quanto segue:
Il numero totale di token di input al minuto: il numero di token di input che una UM può elaborare per tutte le richieste nell'arco di un minuto.
Il numero totale di token di output al minuto: il numero di token di output che una UM può elaborare per tutte le richieste nell'arco di un minuto.
Le quote delle unità modello dipendono dal livello di impegno specificato per la velocità di trasmissione effettiva assegnata.
-
Per i modelli personalizzati senza impegno, è disponibile una quota di un'unità modello per ogni velocità di trasmissione effettiva assegnata. Puoi creare fino a due velocità di trasmissione effettiva assegnate per account.
-
Per i modelli base o personalizzati con impegno, è prevista una quota predefinita di 0 unità modello. Per richiedere un aumento, utilizza il modulo per l'aumento dei limiti
.