View a markdown version of this page

Gemma 4 31B - Amazon Bedrock

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

Gemma 4 31B

带有五彩 G 字母图标的 Google 徽标。 谷歌 — Gemma 4 31B

模型详细信息

Gemma 4 31B 是 Google 的 307 亿个参数密集模型,具有内置推理、原生函数调用以及跨文本和图像的多模态输入,支持 25.6K 令牌上下文窗口。有关模型开发和性能的更多信息,请参阅model/service 卡片

  • 车型发布日期:2025年6月10日

  • 型号停产日期: N/A

  • 最终用户许可协议和使用条款:查看

  • 模型生命周期:活跃

  • 上下文窗口:25.6K 个代币

输入模式 输出模式 支持的 API 支持的终端节点
Red circle with white X icon indicating error, cancel, or close action.音频Red circle with white X icon indicating error, cancel, or close action.嵌入Green circle with white checkmark icon. ResponsesRed circle with white X icon indicating error, cancel, or close action. bedrock-runtime
Green circle with white checkmark icon.图片Red circle with white X icon indicating error, cancel, or close action.图片Green circle with white checkmark icon. Chat CompletionsGreen circle with white checkmark icon. bedrock-mantle
Red circle with white X icon indicating error, cancel, or close action.演讲Red circle with white X icon indicating error, cancel, or close action.演讲Red circle with white X icon indicating error, cancel, or close action. Invoke
Green circle with white checkmark icon.文本Green circle with white checkmark icon.文本Red circle with white X icon indicating error, cancel, or close action. Converse
Green circle with white checkmark icon.视频Red circle with white X icon indicating error, cancel, or close action.视频Red circle with white X icon indicating error, cancel, or close action. Messages
注意

Gemma 4 模型仅在bedrock-mantle端点上可用。

此模型可在bedrock-mantle端点上的openai/v1/responses路径上使用。这与其他模型在响应端点上使用的v1/responses路径不同。

功能和特点

基岩特征

使用bedrock-mantle端点支持的功能

支持的 不支持

定价

有关定价,请参阅 Amazon Bedrock 定价页面。

以编程方式访问

使用以下模型 ID 和端点 URL 以编程方式访问此模型。有关可用 API 和终端节点的更多信息,请参阅支持的 API 和支持的终端节点

Endpoint 型号标识 In-Region 端点网址 地理推理 ID 全局推理 ID
bedrock-mantle google.gemma-4-31b https://bedrock-mantle.{region}.api.aws/openai/v1 不支持 不支持

例如,如果区域为 us-east-1(弗吉尼亚北部),则基岩地幔端点 URL 将是 “”。https://bedrock-mantle.us-east-1.api.aws/openai/v1

服务等级

Amazon Bedrock 提供多个服务等级,以满足您的工作负载要求。标准版提供按令牌付费的访问权限,无需任何承诺。P@@ ri ority 通过基于时间的承诺提供更高的吞吐量。Flex 为灵活、非时间敏感型工作负载提供更低成本的访问权限。Reserved 为可预测的工作负载提供@@ 专用吞吐量和定期承诺。有关更多信息,请参阅服务等级

Standard 优先级 Flex 已保留
Green circle with white checkmark icon. Green circle with white checkmark icon. Green circle with white checkmark icon. Red circle with white X icon indicating error, cancel, or close action.

区域可用性

地区供应情况一览

Bedrock 提供三种推断选项:In-Region将请求保留在单个区域内以实现严格合规;在尊重数据驻留的情况下跨地理区域(美国、欧盟等)进行地理路 Cross-Region由,以提高吞吐量;以及全球任何地方的全球 Cross-Region路由,在没有居住限制的情况下实现最大吞吐量。有关更多详细信息,请参阅该区域可用性页面。

区域 In-Region Geo Global
us-east-1(弗吉尼亚北部)Green circle with white checkmark icon.Red circle with white X icon indicating error, cancel, or close action.Red circle with white X icon indicating error, cancel, or close action.
us-east-2(俄亥俄州)Green circle with white checkmark icon.Red circle with white X icon indicating error, cancel, or close action.Red circle with white X icon indicating error, cancel, or close action.
us-west-2(俄勒冈州)Green circle with white checkmark icon.Red circle with white X icon indicating error, cancel, or close action.Red circle with white X icon indicating error, cancel, or close action.
eu-central-1(法兰克福)Green circle with white checkmark icon.Red circle with white X icon indicating error, cancel, or close action.Red circle with white X icon indicating error, cancel, or close action.

配额和限制

您的 AWS 账户具有默认配额,用于维持服务性能并确保适当使用 Amazon Bedrock。分配给账户的默认配额可能会根据地区因素、付款历史记录、欺诈性使用情况、增加配额请求的 and/or 批准而更新。有关更多详细信息,请参阅Amazon Bedrock 的配额文档并查看该模型的限制

bedrock-mantle终端上使用按需吞吐量时,可用吞吐量会随着时间的推移而扩展。在需求旺盛时期,并非所有在配额内的请求都能保证成功,因此逐步增加请求非常重要。对于此模型,默认限制不会直接通过 Service Quotas 浮出水面,因此我们建议您以此为指导。

示例代码

第 1 步-AWS 账户:如果您已经拥有 AWS 账户,请跳过此步骤。如果您不熟悉 AWS,请注册一个 A WS 账户

第 2 步-API 密钥:前往 Amazon Bedrock 控制台生成长期 API 密钥。

第 3 步-获取 SDK:要使用本入门指南,必须已安装 Python。然后根据您使用的 API 安装相关软件。

pip install openai

步骤 4-设置环境变量:将您的环境配置为使用 API 密钥进行身份验证。

OPENAI_API_KEY="<provide your Bedrock API key>" OPENAI_BASE_URL="https://bedrock-mantle.<your-region>.api.aws/openai/v1"

第 5 步-运行您的第一个推理请求:将文件另存为 bedrock-first-request.py

Chat Completions API
from openai import OpenAI client = OpenAI() response = client.chat.completions.create( model="google.gemma-4-31b", messages=[{"role": "user", "content": "Can you explain the features of Amazon Bedrock?"}] ) print(response)
Responses API
from openai import OpenAI client = OpenAI() response = client.responses.create( model="google.gemma-4-31b", input="Explain the benefits of mixture-of-experts architectures for production inference.", max_output_tokens=512, ) print(response.output_text)

使用注意事项和限制

  • 推理模式 — 聊天完成和回复 API 都支持推理工作,并且模型在这两种情况下都执行扩展推理。但是,推理内容只能由响应 API 返回。聊天完成 API 不返回推理令牌,因为 OpenAI 聊天完成规范不支持返回推理标记。

  • 并行工具调用 — 目前不支持在一个回合中请求多个工具调用。请求工具一次调用一个。

  • 请求有效载荷大小 — Gemma 4 31B 的请求正文总有效负载(包括图像和视频)支持的最大大小为 3.5 MB。