Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.
Gemma 4 E2B
Google — Gemma 4 E2B
Dettagli del modello
Gemma 4 E2B è il modello compatto di Google con 5,1 miliardi di parametri totali e 2,3 miliardi di parametri effettivi che utilizza Per-Layer Embeddings (PLE), progettato per carichi di lavoro a bassa latenza con ragionamento integrato, chiamata di funzioni native e input multimodale tra testo e immagine, che supporta una finestra contestuale di 128K token. Per ulteriori informazioni sullo sviluppo e sulle prestazioni del modello, consulta la scheda. model/service
Data di lancio del modello: 10 giugno 2025
Data EOL del modello: N/A
Contratti di licenza con l'utente finale e condizioni d'uso: Visualizza
Ciclo di vita del modello: attivo
Finestra contestuale: 128K token
| Modalità di input | Modalità di output | API supportate | Endpoint supportati |
|---|---|---|---|
Responses | bedrock-runtime | ||
Chat Completions | bedrock-mantle | ||
Invoke | |||
Converse | |||
Messages |
Nota
I modelli Gemma 4 sono disponibili solo sull'bedrock-mantleendpoint.
Questo modello è disponibile sul openai/v1/responses percorso sull'endpoint. bedrock-mantle Questo è diverso dal v1/responses percorso utilizzato da altri modelli sull'endpoint delle risposte.
Funzionalità e caratteristiche
Caratteristiche Bedrock
Funzionalità supportate tramite endpoint bedrock-mantle
| Supportato | Non supportato |
|---|---|
|
— |
Prezzi
Per i prezzi, consulta la pagina dei prezzi di Amazon Bedrock
Accesso programmatico
Utilizza i seguenti ID di modello e URL degli endpoint per accedere a questo modello a livello di codice. Per ulteriori informazioni sulle API e sugli endpoint disponibili, consulta API supportate e Endpoint supportati.
| Endpoint | ID del modello | In-Region URL dell'endpoint | ID di inferenza geografica | ID di inferenza globale |
|---|---|---|---|---|
bedrock-mantle |
google.gemma-4-e2b |
https://bedrock-mantle.{region}.api.aws/openai/v1 |
Non supportata | Non supportata |
Ad esempio, se la regione è us-east-1 (Virginia settentrionale), l'URL dell'endpoint bedrock-mantle sarà "». https://bedrock-mantle.us-east-1.api.aws/openai/v1
Livelli di servizio
Amazon Bedrock offre diversi livelli di servizio per soddisfare i tuoi requisiti di carico di lavoro. Standard offre un accesso pay-per-token senza impegno. Priority offre un throughput più elevato con un impegno basato sul tempo. Flex offre un accesso a basso costo per carichi di lavoro flessibili e non urgenti. Reserved offre un throughput dedicato con un impegno a termine per carichi di lavoro prevedibili. Per ulteriori informazioni, consulta i livelli di servizio.
| Standard | Priorità | Flex | riservato |
|---|---|---|---|
Disponibilità regionale
Disponibilità regionale a colpo d'occhio
Bedrock offre tre opzioni di inferenza: In-Regionmantiene le richieste all'interno di una singola regione per garantire la massima conformità, instradamenti Cross-Regiongeografici tra regioni all'interno di un'area geografica (Stati Uniti, UE, ecc.) per una maggiore velocità di trasmissione nel rispetto della residenza dei dati e Cross-Region percorsi globali ovunque in tutto il mondo per la massima velocità di trasmissione quando non ci sono vincoli di residenza. Consulta la pagina per maggiori dettagli. Disponibilità regionale
| Region | In-Region | Geo | Globale |
|---|---|---|---|
us-east-1(Virginia settentrionale) | |||
us-east-2(Ohio) | |||
us-west-2(Oregon) | |||
eu-central-1(Francoforte) |
Quote e limiti
Il tuo account AWS dispone di quote predefinite per mantenere le prestazioni del servizio e garantire un uso appropriato di Amazon Bedrock. Le quote predefinite assegnate a un account potrebbero essere aggiornate in base a fattori regionali, alla cronologia dei pagamenti, all'utilizzo fraudolento, all' and/or approvazione di una richiesta di aumento delle quote. Per maggiori dettagli, consulta la Quote per Amazon Bedrock documentazione e consulta i limiti del modello.
Quando si utilizza il throughput on-demand sull'bedrock-mantleendpoint, il throughput disponibile aumenta nel tempo. Non è garantito il successo di tutte le richieste che rientrano nella quota stabilita durante i periodi di forte domanda, quindi è importante aumentare gradualmente. Per questo modello, i limiti predefiniti non vengono indicati direttamente tramite Service Quotas, quindi ti consigliamo di seguire la rampa come guida.
Codice di esempio
Fase 1 - Account AWS: se hai già un account AWS, salta questo passaggio. Se non conosci AWS, registrati per un account AWS
Fase 2 - Chiave API: vai alla console Amazon Bedrock
Passaggio 3 - Scarica l'SDK: per utilizzare questa guida introduttiva, devi avere Python già installato. Quindi installa il software pertinente in base alle API che stai utilizzando.
pip install openai
Passaggio 4 - Imposta le variabili di ambiente: configura l'ambiente per utilizzare la chiave API per l'autenticazione.
OPENAI_API_KEY="<provide your Bedrock API key>" OPENAI_BASE_URL="https://bedrock-mantle.<your-region>.api.aws/openai/v1"
Passaggio 5 - Esegui la tua prima richiesta di inferenza: salva il file come bedrock-first-request.py
Considerazioni e limitazioni sull'utilizzo
Modalità di ragionamento: lo sforzo di ragionamento viene rispettato sia nelle API Chat Completions che nelle API Responses e il modello esegue il ragionamento esteso in entrambi i casi. Tuttavia, il contenuto del ragionamento viene restituito solo dall'API Responses. L'API Chat Completions non restituisce i token di ragionamento, poiché la specifica OpenAI Chat Completions non supporta la restituzione.
Sforzo di ragionamento: per Gemma 4 E2B, consigliamo di impostare su, che abilita la modalità di pensiero.
reasoning_efforthighPer impostazione predefinita, questa variante tende a ragionare in modo estensivo e un elevato sforzo di ragionamento mantiene tale ragionamento nel canale di ragionamento dedicato, il che migliora la qualità dell'output e impedisce che il testo di ragionamento compaia nella risposta finale.Chiamate parallele all'utensile: la richiesta di più di una chiamata allo strumento in un singolo turno non è attualmente supportata. Richiedete le chiamate allo strumento una alla volta.
Dimensione del payload della richiesta: il payload totale del corpo della richiesta per Gemma 4 E2B, inclusi immagini e video, supporta una dimensione massima di 3,5 MB.