Logotipo de Google con icono de letra G multicolor. Google: Gemma 4 31B Detalles del modelo Capacidades y características Precios Acceso programático Niveles de servicio Disponibilidad regional Cuotas y límites Código de muestra Consideraciones y limitaciones de uso

Gemma 4 31B

Google: Gemma 4 31B

Detalles del modelo

El Gemma 4 31B es el modelo de Google con una densidad de 30 700 millones de parámetros, con razonamiento integrado, llamadas a funciones nativas y entrada multimodal de texto e imagen, y admite una ventana de contexto de 256 000 fichas. Para obtener más información sobre el desarrollo y el rendimiento del modelo, consulta la tarjeta. model/service

Fecha de lanzamiento del modelo: 10 de junio de 2025
Fecha de caducidad del modelo: N/A
Acuerdos de licencia de usuario final y condiciones de uso: Ver
Ciclo de vida del modelo: activo
Ventana de contexto: 256 000 fichas

Modalidades de entrada	Modalidades de salida	APIs compatibles	Puntos finales compatibles
Audio	Incrustación	`Responses`	`bedrock-runtime`
Imagen	Imagen	`Chat Completions`	`bedrock-mantle`
Discurso	Discurso	`Invoke`
Texto	Texto	`Converse`
Vídeo	Vídeo	`Messages`

nota

Los modelos Gemma 4 solo están disponibles en el bedrock-mantle terminal.

Este modelo está disponible en la openai/v1/responses ruta del bedrock-mantle punto final. Es diferente de la v1/responses ruta utilizada por otros modelos en el punto final de las respuestas.

Capacidades y características

Características de Bedrock

Funciones compatibles con el uso bedrock-mantle de un punto final

Soportado	No se admite
Client-side llamada de herramientas Razonamiento Proyectos	—

Precios

Para conocer los precios, consulta la página de precios de Amazon Bedrock.

Acceso programático

Utilice los siguientes ID de modelo y URL de punto final para acceder a este modelo mediante programación. Para obtener más información sobre las API y los puntos de enlace disponibles, consulte API compatibles y puntos de enlace compatibles.

Punto de conexión	ID del modelo	In-Region URL del punto final	ID de geoinferencia	ID de inferencia global
`bedrock-mantle`	`google.gemma-4-31b`	`https://bedrock-mantle.{region}.api.aws/openai/v1`	No admitido	No admitido

Por ejemplo, si la región es us-east-1 (Virginia del Norte), la URL del punto final de bedrock-mantle será "». https://bedrock-mantle.us-east-1.api.aws/openai/v1

Niveles de servicio

Amazon Bedrock ofrece varios niveles de servicio para adaptarse a sus requisitos de carga de trabajo. El estándar proporciona acceso de pago por token sin compromiso. Priority ofrece un mayor rendimiento con un compromiso basado en el tiempo. Flex proporciona un acceso de menor costo para cargas de trabajo flexibles y no urgentes. Reserved ofrece un rendimiento específico con un compromiso a largo plazo para cargas de trabajo predecibles. Para obtener más información, consulte los niveles de servicio.

Estándar	Priority (Prioridad)	Flexible	Reservado

Disponibilidad regional

La disponibilidad regional de un vistazo

Bedrock ofrece tres opciones de inferencia: In-Regionmantiene las solicitudes dentro de una sola región para garantizar un cumplimiento estricto, las Cross-Region rutas geográficas entre regiones de una misma geografía (EE. UU., UE, etc.) para obtener un mayor rendimiento y respetar la residencia de los datos, y Cross-Region las rutas globales a cualquier parte del mundo para obtener el máximo rendimiento cuando no hay restricciones de residencia. Consulte la Disponibilidad regional página para obtener más información.

Region	In-Region	Geo	Global
`us-east-1`(Virginia del Norte)
`us-east-2`(Ohio)
`us-west-2`(Oregón)
`eu-central-1`(Fráncfort)

Cuotas y límites

Su cuenta de AWS tiene cuotas predeterminadas para mantener el rendimiento del servicio y garantizar el uso adecuado de Amazon Bedrock. Las cuotas predeterminadas asignadas a una cuenta pueden actualizarse en función de factores regionales, el historial de pagos, el uso fraudulento o la and/or aprobación de una solicitud de aumento de cuota. Para obtener más información, consulte la Cuotas para Amazon Bedrock documentación y consulte los límites del modelo.

Cuando se consume el rendimiento bajo demanda en el bedrock-mantle punto final, el rendimiento disponible aumenta con el tiempo. No se garantiza que todas las solicitudes que se ajusten a su cuota se ejecuten correctamente durante los períodos de alta demanda, por lo que es importante aumentarlas gradualmente. Para este modelo, los límites predeterminados no se muestran directamente a través de Service Quotas, por lo que te recomendamos seguir la pauta como guía.

Código de muestra

Paso 1: Cuenta de AWS: si ya tiene una cuenta de AWS, omita este paso. Si es la primera vez que utiliza AWS, regístrese para obtener una cuenta de AWS.

Paso 2: Clave de API: vaya a la consola de Amazon Bedrock y genere una clave de API a largo plazo.

Paso 3: Obtenga el SDK: para usar esta guía de introducción, debe tener Python ya instalado. A continuación, instale el software correspondiente en función de las API que utilice.


pip install openai

Paso 4: Defina las variables de entorno: configure su entorno para que utilice la clave de API para la autenticación.


OPENAI_API_KEY="<provide your Bedrock API key>"
OPENAI_BASE_URL="https://bedrock-mantle.<your-region>.api.aws/openai/v1"

Paso 5: Ejecute su primera solicitud de inferencia: guarde el archivo como bedrock-first-request.py

Consideraciones y limitaciones de uso

Modo de razonamiento: el esfuerzo de razonamiento se basa en las API de finalización y respuesta de los chats, y el modelo lleva a cabo el razonamiento extendido en ambos casos. Sin embargo, el contenido del razonamiento solo lo devuelve la API de respuestas. La API Chat Completions no devuelve los tokens de razonamiento, ya que la especificación Chat Completions de OpenAI no permite devolverlos.
Llamadas a herramientas paralelas: actualmente no se admite solicitar más de una llamada a una herramienta en un solo turno. Solicite las llamadas a las herramientas de una en una.
Tamaño de la carga útil solicitada: la carga útil total del cuerpo de la solicitud para el Gemma 4 31B, incluidas las imágenes y el vídeo, admite un tamaño máximo de 3,5 MB.

Aviso JavaScript está desactivado o no está disponible en su navegador.

Para utilizar la documentación de AWS, debe estar habilitado JavaScript. Para obtener más información, consulte las páginas de ayuda de su navegador.

Convenciones del documento

Google

Gemma 4 26 B-A4B