기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.
Gemma 4 31B
Google - Gemma 4 31B
모델 세부 정보
Gemma 4 31B는 내장 추론, 네이티브 함수 호출, 텍스트 및 이미지 전반의 멀티모달 입력을 갖춘 Google의 307억 파라미터 밀도 모델로, 256K 토큰 컨텍스트 창을 지원합니다. 모델 개발 및 성능에 대한 자세한 내용은 모델/서비스 카드를
모델 시작 날짜: 2025년 6월 10일
모델 EOL 날짜: 해당 사항 없음
최종 사용자 라이선스 계약 및 이용 약관: 보기
모델 수명 주기: 활성
컨텍스트 창: 256K 토큰
| 입력 모달리티 | 출력 모달리티 | 지원되는 APIs | 지원되는 엔드포인트 |
|---|---|---|---|
Responses | bedrock-runtime | ||
Chat Completions | bedrock-mantle | ||
Invoke | |||
Converse | |||
Messages |
참고
Gemma 4 모델은 bedrock-mantle 엔드포인트에서만 사용할 수 있습니다.
이 모델은 bedrock-mantle 엔드포인트의 openai/v1/responses 경로에서 사용할 수 있습니다. 이는 응답 엔드포인트에서 다른 모델이 사용하는 v1/responses 경로와 다릅니다.
기능 및 기능
Bedrock 기능
bedrock-mantle 엔드포인트를 사용하여 지원되는 기능
| 지원됨 | 지원되지 않음 |
|---|---|
|
— |
가격 책정
요금은 Amazon Bedrock 요금
프로그래밍 방식 액세스
다음 모델 IDs 및 엔드포인트 URLs 사용하여이 모델에 프로그래밍 방식으로 액세스합니다. 사용 가능한 APIs 및 엔드포인트에 대한 자세한 내용은 APIs 및 지원되는 엔드포인트를 참조하세요.
| Endpoint | 모델 ID | 리전 내 엔드포인트 URL | 지리 추론 ID | 글로벌 추론 ID |
|---|---|---|---|---|
bedrock-mantle |
google.gemma-4-31b |
https://bedrock-mantle.{region}.api.aws/openai/v1 |
지원되지 않음 | 지원되지 않음 |
예를 들어 리전이 us-east-1(버지니아 북부)인 경우 bedrock-mantle 엔드포인트 URL은 "https://bedrock-mantle.us-east-1.api.aws/openai/v1"이 됩니다.
서비스 티어
Amazon Bedrock은 워크로드 요구 사항에 맞는 여러 서비스 계층을 제공합니다. 표준은 약정 없이 pay-per-token 액세스를 제공합니다. Priority는 시간 기반 약정으로 더 높은 처리량을 제공합니다. Flex는 유연하고 non-time-sensitive 워크로드에 대해 저렴한 액세스를 제공합니다. 예약은 예측 가능한 워크로드에 대한 기간 약정과 함께 전용 처리량을 제공합니다. 자세한 내용은 서비스 계층을 참조하세요.
| 표준 | 우선 순위 | Flex | 예약됨 |
|---|---|---|---|
리전별 가용성
리전별 가용성 개요
Bedrock은 세 가지 추론 옵션을 제공합니다. 리전 내는 엄격한 규정 준수를 위해 단일 리전 내에 요청을 유지하고, 리전(미국, EU 등) 내 리전 간 지리적 교차 리전 경로는 데이터 레지던시를 준수하면서 처리량을 높이며, 글로벌 교차 리전 경로는 레지던시 제약이 없는 경우 최대 처리량을 위해 전 세계 어디서나 라우팅됩니다. 자세한 내용은 리전별 가용성 페이지를 참조하세요.
| 리전 | 리전 내 | 지리 | [Global] |
|---|---|---|---|
us-east-1 (버지니아 북부) | |||
us-east-2 (오하이오) | |||
us-west-2 (오레곤) | |||
eu-central-1 (프랑크푸르트) |
할당량과 제한
AWS 계정에는 서비스의 성능을 유지하고 Amazon Bedrock의 적절한 사용을 보장하기 위한 기본 할당량이 있습니다. 계정에 할당된 기본 할당량은 리전 요인, 결제 기록, 사기 사용 및/또는 할당량 증가 요청 승인에 따라 업데이트될 수 있습니다. 자세한 내용은 Amazon Bedrock의 할당량 설명서를 참조하고 모델의 제한을 참조하세요.
bedrock-mantle 엔드포인트에서 온디맨드 처리량을 사용하는 경우 사용 가능한 처리량은 시간이 지남에 따라 확장됩니다. 할당량 내의 모든 요청이 수요가 많은 기간 동안 성공한다는 보장은 없으므로 점진적으로 확장하는 것이 중요합니다. 이 모델의 경우 기본 한도는 Service Quotas를 통해 직접 표시되지 않으므로 가이드로 램프를 따르는 것이 좋습니다.
샘플 코드
1단계 - AWS 계정: AWS 계정이 이미 있는 경우이 단계를 건너뜁니다. AWS를 처음 사용하는 경우 AWS 계정에
2단계 - API 키: Amazon Bedrock 콘솔
3단계 - SDK 가져오기:이 시작 안내서를 사용하려면 Python이 이미 설치되어 있어야 합니다. 그런 다음 사용 중인 APIs에 따라 관련 소프트웨어를 설치합니다.
pip install openai
4단계 - 환경 변수 설정: 인증에 API 키를 사용하도록 환경을 구성합니다.
OPENAI_API_KEY="<provide your Bedrock API key>" OPENAI_BASE_URL="https://bedrock-mantle.<your-region>.api.aws/openai/v1"
5단계 - 첫 번째 추론 요청 실행: 파일을 로 저장 bedrock-first-request.py
사용 고려 사항 및 제한 사항
추론 모드 - 채팅 완료 및 응답 APIs 모두에 대해 추론 노력을 기울이며, 모델은 두 경우 모두 확장된 추론을 수행합니다. 그러나 추론 콘텐츠는 응답 API에서만 반환됩니다. OpenAI Chat Completions 사양은 토큰 반환을 지원하지 않으므로 Chat Completions API는 추론 토큰을 반환하지 않습니다.
병렬 도구 호출 - 한 번에 둘 이상의 도구 호출을 요청하는 것은 현재 지원되지 않습니다. 요청 도구는 한 번에 하나씩 호출합니다.
요청 페이로드 크기 - 이미지 및 비디오를 포함하여 Gemma 4 31B의 총 요청 본문 페이로드는 최대 3.5MB를 지원합니다.