Google logo with multicolored G letter icon. Google - Gemma 4 31B 모델 세부 정보 기능 및 기능 가격 책정 프로그래밍 방식 액세스 서비스 티어 리전별 가용성 할당량과 제한 샘플 코드 사용 고려 사항 및 제한 사항

Gemma 4 31B

Google - Gemma 4 31B

모델 세부 정보

Gemma 4 31B는 내장 추론, 네이티브 함수 호출, 텍스트 및 이미지 전반의 멀티모달 입력을 갖춘 Google의 307억 파라미터 밀도 모델로, 256K 토큰 컨텍스트 창을 지원합니다. 모델 개발 및 성능에 대한 자세한 내용은 모델/서비스 카드를 참조하세요.

모델 시작 날짜: 2025년 6월 10일
모델 EOL 날짜: 해당 사항 없음
최종 사용자 라이선스 계약 및 이용 약관: 보기
모델 수명 주기: 활성
컨텍스트 창: 256K 토큰

입력 모달리티	출력 모달리티	지원되는 APIs	지원되는 엔드포인트
오디오	임베딩	`Responses`	`bedrock-runtime`
이미지	이미지	`Chat Completions`	`bedrock-mantle`
음성	음성	`Invoke`
텍스트	텍스트	`Converse`
비디오	비디오	`Messages`

참고

Gemma 4 모델은 bedrock-mantle 엔드포인트에서만 사용할 수 있습니다.

이 모델은 bedrock-mantle 엔드포인트의 openai/v1/responses 경로에서 사용할 수 있습니다. 이는 응답 엔드포인트에서 다른 모델이 사용하는 v1/responses 경로와 다릅니다.

기능 및 기능

Bedrock 기능

bedrock-mantle 엔드포인트를 사용하여 지원되는 기능

지원됨	지원되지 않음
클라이언트 측 도구 호출 추론 프로젝트	—

가격 책정

요금은 Amazon Bedrock 요금 페이지를 참조하세요.

프로그래밍 방식 액세스

다음 모델 IDs 및 엔드포인트 URLs 사용하여이 모델에 프로그래밍 방식으로 액세스합니다. 사용 가능한 APIs 및 엔드포인트에 대한 자세한 내용은 APIs 및 지원되는 엔드포인트를 참조하세요.

Endpoint	모델 ID	리전 내 엔드포인트 URL	지리 추론 ID	글로벌 추론 ID
`bedrock-mantle`	`google.gemma-4-31b`	`https://bedrock-mantle.{region}.api.aws/openai/v1`	지원되지 않음	지원되지 않음

예를 들어 리전이 us-east-1(버지니아 북부)인 경우 bedrock-mantle 엔드포인트 URL은 "https://bedrock-mantle.us-east-1.api.aws/openai/v1"이 됩니다.

서비스 티어

Amazon Bedrock은 워크로드 요구 사항에 맞는 여러 서비스 계층을 제공합니다. 표준은 약정 없이 pay-per-token 액세스를 제공합니다. Priority는 시간 기반 약정으로 더 높은 처리량을 제공합니다. Flex는 유연하고 non-time-sensitive 워크로드에 대해 저렴한 액세스를 제공합니다. 예약은 예측 가능한 워크로드에 대한 기간 약정과 함께 전용 처리량을 제공합니다. 자세한 내용은 서비스 계층을 참조하세요.

표준	우선 순위	Flex	예약됨

리전별 가용성

리전별 가용성 개요

Bedrock은 세 가지 추론 옵션을 제공합니다. 리전 내는 엄격한 규정 준수를 위해 단일 리전 내에 요청을 유지하고, 리전(미국, EU 등) 내 리전 간 지리적 교차 리전 경로는 데이터 레지던시를 준수하면서 처리량을 높이며, 글로벌 교차 리전 경로는 레지던시 제약이 없는 경우 최대 처리량을 위해 전 세계 어디서나 라우팅됩니다. 자세한 내용은 리전별 가용성 페이지를 참조하세요.

리전	리전 내	지리	[Global]
`us-east-1` (버지니아 북부)
`us-east-2` (오하이오)
`us-west-2` (오레곤)
`eu-central-1` (프랑크푸르트)

할당량과 제한

AWS 계정에는 서비스의 성능을 유지하고 Amazon Bedrock의 적절한 사용을 보장하기 위한 기본 할당량이 있습니다. 계정에 할당된 기본 할당량은 리전 요인, 결제 기록, 사기 사용 및/또는 할당량 증가 요청 승인에 따라 업데이트될 수 있습니다. 자세한 내용은 Amazon Bedrock의 할당량 설명서를 참조하고 모델의 제한을 참조하세요.

bedrock-mantle 엔드포인트에서 온디맨드 처리량을 사용하는 경우 사용 가능한 처리량은 시간이 지남에 따라 확장됩니다. 할당량 내의 모든 요청이 수요가 많은 기간 동안 성공한다는 보장은 없으므로 점진적으로 확장하는 것이 중요합니다. 이 모델의 경우 기본 한도는 Service Quotas를 통해 직접 표시되지 않으므로 가이드로 램프를 따르는 것이 좋습니다.

샘플 코드

1단계 - AWS 계정: AWS 계정이 이미 있는 경우이 단계를 건너뜁니다. AWS를 처음 사용하는 경우 AWS 계정에 가입합니다.

2단계 - API 키: Amazon Bedrock 콘솔로 이동하여 장기 API 키를 생성합니다.

3단계 - SDK 가져오기:이 시작 안내서를 사용하려면 Python이 이미 설치되어 있어야 합니다. 그런 다음 사용 중인 APIs에 따라 관련 소프트웨어를 설치합니다.


pip install openai

4단계 - 환경 변수 설정: 인증에 API 키를 사용하도록 환경을 구성합니다.


OPENAI_API_KEY="<provide your Bedrock API key>"
OPENAI_BASE_URL="https://bedrock-mantle.<your-region>.api.aws/openai/v1"

5단계 - 첫 번째 추론 요청 실행: 파일을 로 저장 bedrock-first-request.py

사용 고려 사항 및 제한 사항

추론 모드 - 채팅 완료 및 응답 APIs 모두에 대해 추론 노력을 기울이며, 모델은 두 경우 모두 확장된 추론을 수행합니다. 그러나 추론 콘텐츠는 응답 API에서만 반환됩니다. OpenAI Chat Completions 사양은 토큰 반환을 지원하지 않으므로 Chat Completions API는 추론 토큰을 반환하지 않습니다.
병렬 도구 호출 - 한 번에 둘 이상의 도구 호출을 요청하는 것은 현재 지원되지 않습니다. 요청 도구는 한 번에 하나씩 호출합니다.
요청 페이로드 크기 - 이미지 및 비디오를 포함하여 Gemma 4 31B의 총 요청 본문 페이로드는 최대 3.5MB를 지원합니다.

javascript가 브라우저에서 비활성화되거나 사용이 불가합니다.

AWS 설명서를 사용하려면 Javascript가 활성화되어야 합니다. 지침을 보려면 브라우저의 도움말 페이지를 참조하십시오.

문서 규칙

Google

Gemma 4 26B-A4B