Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.
Gemma 4 31B
Google: Gemma 4 31B
Detalles del modelo
El Gemma 4 31B es el modelo de Google con una densidad de 30 700 millones de parámetros, con razonamiento integrado, llamadas a funciones nativas y entrada multimodal de texto e imagen, y admite una ventana de contexto de 256 000 fichas. Para obtener más información sobre el desarrollo y el rendimiento del modelo, consulta la tarjeta. model/service
Fecha de lanzamiento del modelo: 10 de junio de 2025
Fecha de caducidad del modelo: N/A
Acuerdos de licencia de usuario final y condiciones de uso: Ver
Ciclo de vida del modelo: activo
Ventana de contexto: 256 000 fichas
| Modalidades de entrada | Modalidades de salida | APIs compatibles | Puntos finales compatibles |
|---|---|---|---|
Responses | bedrock-runtime | ||
Chat Completions | bedrock-mantle | ||
Invoke | |||
Converse | |||
Messages |
nota
Los modelos Gemma 4 solo están disponibles en el bedrock-mantle terminal.
Este modelo está disponible en la openai/v1/responses ruta del bedrock-mantle punto final. Es diferente de la v1/responses ruta utilizada por otros modelos en el punto final de las respuestas.
Capacidades y características
Características de Bedrock
Funciones compatibles con el uso bedrock-mantle de un punto final
| Soportado | No se admite |
|---|---|
|
— |
Precios
Para conocer los precios, consulta la página de precios de Amazon Bedrock
Acceso programático
Utilice los siguientes ID de modelo y URL de punto final para acceder a este modelo mediante programación. Para obtener más información sobre las API y los puntos de enlace disponibles, consulte API compatibles y puntos de enlace compatibles.
| Punto de conexión | ID del modelo | In-Region URL del punto final | ID de geoinferencia | ID de inferencia global |
|---|---|---|---|---|
bedrock-mantle |
google.gemma-4-31b |
https://bedrock-mantle.{region}.api.aws/openai/v1 |
No admitido | No admitido |
Por ejemplo, si la región es us-east-1 (Virginia del Norte), la URL del punto final de bedrock-mantle será "». https://bedrock-mantle.us-east-1.api.aws/openai/v1
Niveles de servicio
Amazon Bedrock ofrece varios niveles de servicio para adaptarse a sus requisitos de carga de trabajo. El estándar proporciona acceso de pago por token sin compromiso. Priority ofrece un mayor rendimiento con un compromiso basado en el tiempo. Flex proporciona un acceso de menor costo para cargas de trabajo flexibles y no urgentes. Reserved ofrece un rendimiento específico con un compromiso a largo plazo para cargas de trabajo predecibles. Para obtener más información, consulte los niveles de servicio.
| Estándar | Priority (Prioridad) | Flexible | Reservado |
|---|---|---|---|
Disponibilidad regional
La disponibilidad regional de un vistazo
Bedrock ofrece tres opciones de inferencia: In-Regionmantiene las solicitudes dentro de una sola región para garantizar un cumplimiento estricto, las Cross-Region rutas geográficas entre regiones de una misma geografía (EE. UU., UE, etc.) para obtener un mayor rendimiento y respetar la residencia de los datos, y Cross-Region las rutas globales a cualquier parte del mundo para obtener el máximo rendimiento cuando no hay restricciones de residencia. Consulte la Disponibilidad regional página para obtener más información.
| Region | In-Region | Geo | Global |
|---|---|---|---|
us-east-1(Virginia del Norte) | |||
us-east-2(Ohio) | |||
us-west-2(Oregón) | |||
eu-central-1(Fráncfort) |
Cuotas y límites
Su cuenta de AWS tiene cuotas predeterminadas para mantener el rendimiento del servicio y garantizar el uso adecuado de Amazon Bedrock. Las cuotas predeterminadas asignadas a una cuenta pueden actualizarse en función de factores regionales, el historial de pagos, el uso fraudulento o la and/or aprobación de una solicitud de aumento de cuota. Para obtener más información, consulte la Cuotas para Amazon Bedrock documentación y consulte los límites del modelo.
Cuando se consume el rendimiento bajo demanda en el bedrock-mantle punto final, el rendimiento disponible aumenta con el tiempo. No se garantiza que todas las solicitudes que se ajusten a su cuota se ejecuten correctamente durante los períodos de alta demanda, por lo que es importante aumentarlas gradualmente. Para este modelo, los límites predeterminados no se muestran directamente a través de Service Quotas, por lo que te recomendamos seguir la pauta como guía.
Código de muestra
Paso 1: Cuenta de AWS: si ya tiene una cuenta de AWS, omita este paso. Si es la primera vez que utiliza AWS, regístrese para obtener una cuenta de AWS
Paso 2: Clave de API: vaya a la consola de Amazon Bedrock
Paso 3: Obtenga el SDK: para usar esta guía de introducción, debe tener Python ya instalado. A continuación, instale el software correspondiente en función de las API que utilice.
pip install openai
Paso 4: Defina las variables de entorno: configure su entorno para que utilice la clave de API para la autenticación.
OPENAI_API_KEY="<provide your Bedrock API key>" OPENAI_BASE_URL="https://bedrock-mantle.<your-region>.api.aws/openai/v1"
Paso 5: Ejecute su primera solicitud de inferencia: guarde el archivo como bedrock-first-request.py
Consideraciones y limitaciones de uso
Modo de razonamiento: el esfuerzo de razonamiento se basa en las API de finalización y respuesta de los chats, y el modelo lleva a cabo el razonamiento extendido en ambos casos. Sin embargo, el contenido del razonamiento solo lo devuelve la API de respuestas. La API Chat Completions no devuelve los tokens de razonamiento, ya que la especificación Chat Completions de OpenAI no permite devolverlos.
Llamadas a herramientas paralelas: actualmente no se admite solicitar más de una llamada a una herramienta en un solo turno. Solicite las llamadas a las herramientas de una en una.
Tamaño de la carga útil solicitada: la carga útil total del cuerpo de la solicitud para el Gemma 4 31B, incluidas las imágenes y el vídeo, admite un tamaño máximo de 3,5 MB.