Logotipo do Google com ícone de letra G multicolorido. Google — Gemma 4 31B Detalhes do modelo Capacidades e recursos Preços Acesso programático Níveis de serviço Disponibilidade regional Cotas e limites Código de exemplo Considerações e limitações de uso

Gemma 4 31B

Google — Gemma 4 31B

Detalhes do modelo

O Gemma 4 31B é o modelo denso de 30,7 bilhões de parâmetros do Google com raciocínio integrado, chamada de função nativa e entrada multimodal em texto e imagem, suportando uma janela de contexto de token de 256K. Para obter mais informações sobre desenvolvimento e desempenho de modelos, consulte o model/service cartão.

Data de lançamento do modelo: 10 de junho de 2025
Data de EOL do modelo: N/A
Contratos de licença de usuário final e termos de uso: Exibir
Ciclo de vida do modelo: Ativo
Janela de contexto: 256 mil tokens

Modalidades de entrada	Modalidades de saída	APIs suportadas	Endpoints suportados
Áudio	Incorporação	`Responses`	`bedrock-runtime`
Imagem	Imagem	`Chat Completions`	`bedrock-mantle`
Discurso	Discurso	`Invoke`
Texto	Texto	`Converse`
Vídeo	Vídeo	`Messages`

nota

Os modelos Gemma 4 estão disponíveis somente no bedrock-mantle endpoint.

Esse modelo está disponível no openai/v1/responses caminho do bedrock-mantle endpoint. Isso é diferente do v1/responses caminho usado por outros modelos no endpoint de respostas.

Capacidades e recursos

Características do Bedrock

Recursos compatíveis com o bedrock-mantle endpoint

Suportado	Não suportado
Client-side chamada de ferramentas Raciocínio Projetos	—

Preços

Para obter os preços, consulte a página de preços do Amazon Bedrock.

Acesso programático

Use os seguintes IDs de modelo e URLs de endpoint para acessar esse modelo programaticamente. Para obter mais informações sobre as APIs e os endpoints disponíveis, consulte APIs suportadas e Endpoints suportados.

Endpoint	ID do modelo	In-Region URL do endpoint	ID de inferência geográfica	ID de inferência global
`bedrock-mantle`	`google.gemma-4-31b`	`https://bedrock-mantle.{region}.api.aws/openai/v1`	Sem compatibilidade	Sem compatibilidade

Por exemplo, se a região for us-east-1 (Norte da Virgínia), o URL do endpoint bedrock-mantle será "“. https://bedrock-mantle.us-east-1.api.aws/openai/v1

Níveis de serviço

O Amazon Bedrock oferece vários níveis de serviço para atender às suas necessidades de carga de trabalho. O Standard fornece acesso pago por token sem compromisso. O Priority oferece maior produtividade com um compromisso baseado em tempo. O Flex fornece acesso de baixo custo para cargas de trabalho flexíveis e não urgentes. O Reserved fornece taxa de transferência dedicada com um compromisso de longo prazo para cargas de trabalho previsíveis. Para obter mais informações, consulte níveis de serviço.

Padrão	Priority	Flexionar	Reservado

Disponibilidade regional

Visão geral da disponibilidade regional

O Bedrock oferece três opções de inferência: In-Regionmantém as solicitações em uma única região para conformidade estrita, Cross-Region rotas geográficas entre regiões dentro de uma geografia (EUA, UE etc.) para maior produtividade, respeitando a residência dos dados, e Cross-Region rotas globais em qualquer lugar do mundo para obter a máxima produtividade quando não há restrições de residência. Consulte a Disponibilidade regional página para obter mais detalhes.

Região	In-Region	Geo	Global
`us-east-1`(Norte da Virgínia)
`us-east-2`(Ohio)
`us-west-2`(Oregon)
`eu-central-1`(Frankfurt)

Cotas e limites

Sua conta da AWS tem cotas padrão para manter o desempenho do serviço e garantir o uso adequado do Amazon Bedrock. As cotas padrão atribuídas a uma conta podem ser atualizadas dependendo de fatores regionais, histórico de pagamentos, uso fraudulento e and/or aprovação de uma solicitação de aumento de cota. Para obter mais detalhes, consulte a Cotas do Amazon Bedrock documentação e veja os limites do modelo.

Ao consumir a taxa de transferência sob demanda no bedrock-mantle endpoint, a taxa de transferência disponível aumenta com o tempo. Nem todas as solicitações dentro de sua cota têm garantia de sucesso durante períodos de alta demanda, portanto, aumentar gradualmente é importante. Para esse modelo, os limites padrão não são apresentados diretamente por meio de Quotas de Serviço, então recomendamos seguir a rampa como guia.

Código de exemplo

Etapa 1 - Conta da AWS: se você já tem uma conta da AWS, pule esta etapa. Se você é novo na AWS, cadastre-se em uma conta da AWS.

Etapa 2 - Chave de API: acesse o console do Amazon Bedrock e gere uma chave de API de longo prazo.

Etapa 3 - Obtenha o SDK: para usar este guia de introdução, você deve ter o Python já instalado. Em seguida, instale o software relevante, dependendo das APIs que você está usando.


pip install openai

Etapa 4 - Definir variáveis de ambiente: configure seu ambiente para usar a chave de API para autenticação.


OPENAI_API_KEY="<provide your Bedrock API key>"
OPENAI_BASE_URL="https://bedrock-mantle.<your-region>.api.aws/openai/v1"

Etapa 5 - Execute sua primeira solicitação de inferência: salve o arquivo como bedrock-first-request.py

Considerações e limitações de uso

Modo de raciocínio — O esforço de raciocínio é respeitado nas APIs de conclusão e respostas de bate-papo, e o modelo executa o raciocínio estendido em ambos os casos. No entanto, o conteúdo do raciocínio é retornado somente pela API de respostas. A API Chat Completions não retorna os tokens de raciocínio, porque a especificação OpenAI Chat Completions não oferece suporte para devolvê-los.
Chamadas de ferramentas paralelas — A solicitação de mais de uma chamada de ferramenta em um único turno não é suportada atualmente. Solicite chamadas da ferramenta uma de cada vez.
Tamanho da carga útil da solicitação — A carga útil total do corpo da solicitação para Gemma 4 31B, incluindo imagens e vídeo, suporta um tamanho máximo de 3,5 MB.

Atenção O Javascript está desativado ou não está disponível no seu navegador.

Para usar a documentação da AWS, o Javascript deve estar ativado. Consulte as páginas de Ajuda do navegador para obter instruções.

Convenções do documento

Google

Gemma 4 26 B-A4B