Logo Google con icona a forma di lettera G multicolore. Google — Gemma 4 E2B Dettagli del modello Funzionalità e caratteristiche Prezzi Accesso programmatico Livelli di servizio Disponibilità regionale Quote e limiti Codice di esempio Considerazioni e limitazioni sull'utilizzo

Gemma 4 E2B

Google — Gemma 4 E2B

Dettagli del modello

Gemma 4 E2B è il modello compatto di Google con 5,1 miliardi di parametri totali e 2,3 miliardi di parametri effettivi che utilizza Per-Layer Embeddings (PLE), progettato per carichi di lavoro a bassa latenza con ragionamento integrato, chiamata di funzioni native e input multimodale tra testo e immagine, che supporta una finestra contestuale di 128K token. Per ulteriori informazioni sullo sviluppo e sulle prestazioni del modello, consulta la scheda. model/service

Data di lancio del modello: 10 giugno 2025
Data EOL del modello: N/A
Contratti di licenza con l'utente finale e condizioni d'uso: Visualizza
Ciclo di vita del modello: attivo
Finestra contestuale: 128K token

Modalità di input	Modalità di output	API supportate	Endpoint supportati
Audio	Incorporamento	`Responses`	`bedrock-runtime`
Immagine	Immagine	`Chat Completions`	`bedrock-mantle`
Discorso	Discorso	`Invoke`
Testo	Testo	`Converse`
Video	Video	`Messages`

Nota

I modelli Gemma 4 sono disponibili solo sull'bedrock-mantleendpoint.

Questo modello è disponibile sul openai/v1/responses percorso sull'endpoint. bedrock-mantle Questo è diverso dal v1/responses percorso utilizzato da altri modelli sull'endpoint delle risposte.

Funzionalità e caratteristiche

Caratteristiche Bedrock

Funzionalità supportate tramite endpoint bedrock-mantle

Supportato	Non supportato
Client-side chiamata allo strumento Ragionamento Progetti	—

Prezzi

Per i prezzi, consulta la pagina dei prezzi di Amazon Bedrock.

Accesso programmatico

Utilizza i seguenti ID di modello e URL degli endpoint per accedere a questo modello a livello di codice. Per ulteriori informazioni sulle API e sugli endpoint disponibili, consulta API supportate e Endpoint supportati.

Endpoint	ID del modello	In-Region URL dell'endpoint	ID di inferenza geografica	ID di inferenza globale
`bedrock-mantle`	`google.gemma-4-e2b`	`https://bedrock-mantle.{region}.api.aws/openai/v1`	Non supportata	Non supportata

Ad esempio, se la regione è us-east-1 (Virginia settentrionale), l'URL dell'endpoint bedrock-mantle sarà "». https://bedrock-mantle.us-east-1.api.aws/openai/v1

Livelli di servizio

Amazon Bedrock offre diversi livelli di servizio per soddisfare i tuoi requisiti di carico di lavoro. Standard offre un accesso pay-per-token senza impegno. Priority offre un throughput più elevato con un impegno basato sul tempo. Flex offre un accesso a basso costo per carichi di lavoro flessibili e non urgenti. Reserved offre un throughput dedicato con un impegno a termine per carichi di lavoro prevedibili. Per ulteriori informazioni, consulta i livelli di servizio.

Standard	Priorità	Flex	riservato

Disponibilità regionale

Disponibilità regionale a colpo d'occhio

Bedrock offre tre opzioni di inferenza: In-Regionmantiene le richieste all'interno di una singola regione per garantire la massima conformità, instradamenti Cross-Regiongeografici tra regioni all'interno di un'area geografica (Stati Uniti, UE, ecc.) per una maggiore velocità di trasmissione nel rispetto della residenza dei dati e Cross-Region percorsi globali ovunque in tutto il mondo per la massima velocità di trasmissione quando non ci sono vincoli di residenza. Consulta la pagina per maggiori dettagli. Disponibilità regionale

Region	In-Region	Geo	Globale
`us-east-1`(Virginia settentrionale)
`us-east-2`(Ohio)
`us-west-2`(Oregon)
`eu-central-1`(Francoforte)

Quote e limiti

Il tuo account AWS dispone di quote predefinite per mantenere le prestazioni del servizio e garantire un uso appropriato di Amazon Bedrock. Le quote predefinite assegnate a un account potrebbero essere aggiornate in base a fattori regionali, alla cronologia dei pagamenti, all'utilizzo fraudolento, all' and/or approvazione di una richiesta di aumento delle quote. Per maggiori dettagli, consulta la Quote per Amazon Bedrock documentazione e consulta i limiti del modello.

Quando si utilizza il throughput on-demand sull'bedrock-mantleendpoint, il throughput disponibile aumenta nel tempo. Non è garantito il successo di tutte le richieste che rientrano nella quota stabilita durante i periodi di forte domanda, quindi è importante aumentare gradualmente. Per questo modello, i limiti predefiniti non vengono indicati direttamente tramite Service Quotas, quindi ti consigliamo di seguire la rampa come guida.

Codice di esempio

Fase 1 - Account AWS: se hai già un account AWS, salta questo passaggio. Se non conosci AWS, registrati per un account AWS.

Fase 2 - Chiave API: vai alla console Amazon Bedrock e genera una chiave API a lungo termine.

Passaggio 3 - Scarica l'SDK: per utilizzare questa guida introduttiva, devi avere Python già installato. Quindi installa il software pertinente in base alle API che stai utilizzando.


pip install openai

Passaggio 4 - Imposta le variabili di ambiente: configura l'ambiente per utilizzare la chiave API per l'autenticazione.


OPENAI_API_KEY="<provide your Bedrock API key>"
OPENAI_BASE_URL="https://bedrock-mantle.<your-region>.api.aws/openai/v1"

Passaggio 5 - Esegui la tua prima richiesta di inferenza: salva il file come bedrock-first-request.py

Considerazioni e limitazioni sull'utilizzo

Modalità di ragionamento: lo sforzo di ragionamento viene rispettato sia nelle API Chat Completions che nelle API Responses e il modello esegue il ragionamento esteso in entrambi i casi. Tuttavia, il contenuto del ragionamento viene restituito solo dall'API Responses. L'API Chat Completions non restituisce i token di ragionamento, poiché la specifica OpenAI Chat Completions non supporta la restituzione.
Sforzo di ragionamento: per Gemma 4 E2B, consigliamo di impostare su, che abilita la modalità di pensiero. reasoning_effort high Per impostazione predefinita, questa variante tende a ragionare in modo estensivo e un elevato sforzo di ragionamento mantiene tale ragionamento nel canale di ragionamento dedicato, il che migliora la qualità dell'output e impedisce che il testo di ragionamento compaia nella risposta finale.
Chiamate parallele all'utensile: la richiesta di più di una chiamata allo strumento in un singolo turno non è attualmente supportata. Richiedete le chiamate allo strumento una alla volta.
Dimensione del payload della richiesta: il payload totale del corpo della richiesta per Gemma 4 E2B, inclusi immagini e video, supporta una dimensione massima di 3,5 MB.

Avvertimento JavaScript è disabilitato o non è disponibile nel tuo browser.

Per usare la documentazione AWS, JavaScript deve essere abilitato. Consulta le pagine della guida del browser per le istruzioni.

Convenzioni dei documenti

Gemma 4 26 B-A4B

Gemma 3 12B IT