翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。
Gemma 4 E2B
Google — Gemma 4 E2B
モデルの詳細
Gemma 4 E2B は Google のコンパクトモデルで、合計 51 億個のパラメータと 23 億個の有効なパラメータをレイヤーごとの埋め込み (PLE) で使用しています。推論、ネイティブ関数呼び出し、テキストとイメージ間のマルチモーダル入力が組み込まれた低レイテンシーのワークロード向けに設計されており、128K トークンコンテキストウィンドウをサポートしています。モデルの開発とパフォーマンスの詳細については、モデル/サービスカード
モデル開始日: 2025 年 6 月 10 日
モデル終了日: 該当なし
エンドユーザーライセンス契約と利用規約: 表示
モデルライフサイクル: アクティブ
コンテキストウィンドウ: 128K000 トークン
| 入力モダリティ | 出力モダリティ | サポートされている APIs | サポートされているエンドポイント |
|---|---|---|---|
Responses | bedrock-runtime | ||
Chat Completions | bedrock-mantle | ||
Invoke | |||
Converse | |||
Messages |
注記
Gemma 4 モデルはエンドポイントでのみ使用できますbedrock-mantle。
このモデルは、bedrock-mantleエンドポイントのopenai/v1/responsesパスで使用できます。これは、レスポンスエンドポイントの他のモデルで使用されるv1/responsesパスとは異なります。
機能と機能
Bedrock の機能
bedrock-mantleエンドポイントを使用してサポートされる機能
| サポート | サポートされていない |
|---|---|
|
— |
料金
料金については、Amazon Bedrock の料金
プログラムによるアクセス
次のモデル IDs とエンドポイント URLsを使用して、このモデルにプログラムでアクセスします。使用可能な APIs「サポートされている APIsとサポートされているエンドポイント」を参照してください。
| Endpoint | モデル ID | リージョン内エンドポイント URL | 地理推論 ID | グローバル推論 ID |
|---|---|---|---|---|
bedrock-mantle |
google.gemma-4-e2b |
https://bedrock-mantle.{region}.api.aws/openai/v1 |
サポートされません | サポートされません |
たとえば、region が us-east-1 (バージニア北部) の場合、bedrock-mantle エンドポイント URL は「https://bedrock-mantle.us-east-1.api.aws/openai/v1」になります。
サービス階層
Amazon Bedrock は、ワークロードの要件に合わせて複数のサービス層を提供します。Standard はpay-per-tokenアクセスを提供します。Priority は、時間ベースのコミットメントでより高いスループットを提供します。Flex は、柔軟でnon-time-sensitiveワークロードに対して低コストのアクセスを提供します。リザーブドは、予測可能なワークロードに対するコミットメントという用語で、専用のスループットを提供します。詳細については、「 サービス層」を参照してください。
| スタンダード | 優先度 | Flex | 予約済み |
|---|---|---|---|
リージョン別の利用可能性
リージョンの可用性の概要
Bedrock には 3 つの推論オプションがあります。In-Region は厳格なコンプライアンスのために 1 つのリージョン内にリクエストを保持し、Geo Cross-Region ルートは 1 つの地域 (米国、欧州など) 内のリージョン間でより高いスループットを実現し、Global Cross-Region ルートは世界中どこでもデータレジデンシーを尊重して、レジデンシーの制約がない場合に最大スループットを実現します。詳細については、リージョン別の可用性「」ページを参照してください。
| リージョン | リージョン内 | 地域 | グローバル |
|---|---|---|---|
us-east-1 (バージニア北部) | |||
us-east-2 (オハイオ) | |||
us-west-2 (オレゴン) | |||
eu-central-1 (フランクフルト) |
クォータと制限
AWS アカウントには、サービスのパフォーマンスを維持し、Amazon Bedrock の適切な使用を確保するためのデフォルトのクォータがあります。アカウントに割り当てられたデフォルトのクォータは、リージョンの要因、支払い履歴、不正使用、および/またはクォータ引き上げリクエストの承認に応じて更新される場合があります。詳細については、 Amazon Bedrock のクォータドキュメントを参照し、モデルの制限を参照してください。
bedrock-mantle エンドポイントでオンデマンドスループットを消費すると、使用可能なスループットは時間の経過とともにスケールされます。クォータ内のすべてのリクエストが需要の高い期間に成功することが保証されるわけではないため、徐々に増やすことが重要です。このモデルでは、デフォルトの制限は Service Quotas から直接表示されないため、ガイドとしてランプに従うことをお勧めします。
サンプルコード
ステップ 1 - AWS アカウント: AWS アカウントがすでにある場合は、このステップをスキップします。AWS を初めて使用する場合は、AWS アカウントに
ステップ 2 - API キー: Amazon Bedrock コンソール
ステップ 3 - SDK を取得する: この入門ガイドを使用するには、Python がすでにインストールされている必要があります。次に、使用している APIs に応じて、関連するソフトウェアをインストールします。
pip install openai
ステップ 4 - 環境変数を設定する: API キーを認証に使用するように環境を設定します。
OPENAI_API_KEY="<provide your Bedrock API key>" OPENAI_BASE_URL="https://bedrock-mantle.<your-region>.api.aws/openai/v1"
ステップ 5 - 最初の推論リクエストを実行する: ファイルを として保存する bedrock-first-request.py
使用上の考慮事項と制限事項
推論モード — 推論の労力は Chat Completions API と Responses APIs の両方で尊重され、モデルはどちらの場合も拡張推論を実行します。ただし、推論コンテンツは Responses API によってのみ返されます。Chat Completions API は推論トークンを返しません。これは、OpenAI Chat Completions 仕様が推論トークンの返しをサポートしていないためです。
推論の労力 — Gemma 4 E2B では、
reasoning_effortを に設定することをお勧めします。これによりhigh、思考モードが有効になります。このバリアントはデフォルトでは広範囲に推論する傾向があり、推論の労力が大きいと、その推論が専用の推論チャネルに保持されるため、出力品質が向上し、推論テキストが最終レスポンスに表示されなくなります。並列ツール呼び出し — 1 回のターンで複数のツール呼び出しをリクエストすることは、現在サポートされていません。リクエストツールは一度に 1 つずつ呼び出します。
リクエストペイロードサイズ — イメージやビデオを含む Gemma 4 E2B のリクエストボディペイロードの合計は、最大サイズ 3.5 MB をサポートします。