View a markdown version of this page

Flash GLM 4.7 - Amazon Bedrock

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Flash GLM 4.7

Z.AI — Flash GLM 4.7

Détails du modèle

GLM 4.7 Flash Z.AI est un modèle léger optimisé pour les tâches d'inférence rapide et à faible latence tout en conservant de solides capacités générales. Pour plus d'informations sur le développement et les performances des modèles, consultez la model/service fiche.

  • Date de lancement du modèle : 19 janvier 2026

  • Date EOL du modèle : N/A

  • Contrats de licence utilisateur final et conditions d'utilisation : Afficher

  • Cycle de vie du modèle : actif

  • Fenêtre contextuelle : 203 000 jetons

  • Nombre maximum de jetons de sortie : 4K

Modalités de saisie Modalités de sortie API prises en charge Endpoints pris en charge
AudioIntégration Responses bedrock-runtime
ImageImage Chat Completions bedrock-mantle
DiscoursDiscours Invoke
TexteTexte Converse
VidéoVidéo
Note

Dans la mesure du possible, nous vous recommandons d'utiliser le bedrock-mantle point de terminaison.

Capacités et fonctionnalités

Caractéristiques de Bedrock

Fonctionnalités prises en charge avec bedrock-mantle Endpoint

Fonctionnalités prises en charge avec bedrock-runtime Endpoint

Tarification

Pour connaître les tarifs, consultez la page de tarification d'Amazon Bedrock.

Accès programmatique

Utilisez les ID de modèle et les URL de point de terminaison suivants pour accéder à ce modèle par programmation. Pour plus d'informations sur les API et les points de terminaison disponibles, consultez les sections API prises en charge et Points de terminaison pris en charge.

Point de terminaison ID du modèle In-Region URL du terminal Identifiant d'inférence géographique ID d'inférence global
bedrock-runtime zai.glm-4.7-flash https://bedrock-runtime.{region}.amazonaws.com Non pris en charge Non pris en charge
bedrock-mantle zai.glm-4.7-flash https://bedrock-mantle.{region}.api.aws/v1 Non pris en charge Non pris en charge

Par exemple, si la région est us-east-1 (Virginie du Nord), l'URL du point de terminaison bedrock-runtime sera « » et celle de bedrock-mantle sera https://bedrock-runtime.us-east-1.amazonaws.com « ». https://bedrock-mantle.us-east-1.api.aws/v1

Niveaux de service

Amazon Bedrock propose plusieurs niveaux de service pour répondre à vos exigences en matière de charge de travail. Standard fournit un accès au paiement par jeton sans engagement. Priority offre un débit plus élevé avec un engagement basé sur le temps. Flex fournit un accès à moindre coût pour les charges de travail flexibles et non urgentes. Reserved fournit un débit dédié avec un engagement à terme pour des charges de travail prévisibles. Pour plus d'informations, consultez la section niveaux de service.

Standard Priorité Flex Réservé

Disponibilité par région

La disponibilité régionale en un coup d'œil

Bedrock propose trois options d'inférence : In-Regionconserver les demandes dans une seule région pour une conformité stricte, Cross-Regiongéo-itinéraires entre les régions d'une même zone géographique (États-Unis, UE, etc.) pour un débit plus élevé tout en respectant la résidence des données, et Cross-Region itinéraires mondiaux partout dans le monde pour un débit maximal en l'absence de contraintes de résidence. Reportez-vous à la Disponibilité par région page pour plus de détails.

Région In-Region Géo Solution internationale
us-east-1(Virginie du Nord)
us-east-2(Ohio)
us-west-2(Oregon)
eu-central-1(Francfort)
eu-north-1(Stockholm)
eu-south-1(Milan)
eu-west-1(Irlande)
eu-west-2(Londres)
ap-northeast-1(Tokyo)
ap-south-1(Bombay)
ap-southeast-2(Sydney)
ap-southeast-3(Jakarta)
sa-east-1(Sao Paulo)
ap-southeast-4(Melbourne)

Quotas et limites

Votre compte AWS dispose de quotas par défaut pour maintenir les performances du service et garantir une utilisation appropriée d'Amazon Bedrock. Les quotas par défaut attribués à un compte peuvent être mis à jour en fonction de facteurs régionaux, de l'historique des paiements, de l'utilisation frauduleuse ou de and/or l'approbation d'une demande d'augmentation de quota. Pour plus de détails, reportez-vous à Quotas pour Amazon Bedrock la documentation et aux limites du modèle.

Exemple de code

Étape 1 - Compte AWS : si vous possédez déjà un compte AWS, ignorez cette étape. Si vous utilisez AWS pour la première fois, créez un compte AWS.

Étape 2 - Clé d'API : accédez à la console Amazon Bedrock et générez une clé d'API à long terme.

Étape 3 - Téléchargez le SDK : pour utiliser ce guide de démarrage, Python doit déjà être installé. Installez ensuite le logiciel approprié en fonction des API que vous utilisez.

Chat Completions API
pip install boto3 openai
Invoke/Converse API
pip install boto3

Étape 4 - Définissez les variables d'environnement : configurez votre environnement pour utiliser la clé API pour l'authentification.

Chat Completions API
OPENAI_API_KEY="<provide your Bedrock API key>" OPENAI_BASE_URL="https://bedrock-mantle.<your-region>.api.aws/v1"
Invoke/Converse API
AWS_BEARER_TOKEN_BEDROCK="<provide your Bedrock API key>"

Étape 5 - Exécutez votre première demande d'inférence : enregistrez le fichier sous bedrock-first-request.py

Chat Completions API
from openai import OpenAI client = OpenAI() response = client.chat.completions.create( model="zai.glm-4.7-flash", messages=[{"role": "user", "content": "Can you explain the features of Amazon Bedrock?"}] ) print(response)
Invoke API
import json import boto3 client = boto3.client('bedrock-runtime', region_name='us-east-1') response = client.invoke_model( modelId='zai.glm-4.7-flash', body=json.dumps({ 'messages': [{ 'role': 'user', 'content': 'Can you explain the features of Amazon Bedrock?'}], 'max_tokens': 1024 }) ) print(json.loads(response['body'].read()))
Converse API
import boto3 client = boto3.client('bedrock-runtime', region_name='us-east-1') response = client.converse( modelId='zai.glm-4.7-flash', messages=[ { 'role': 'user', 'content': [{'text': 'Can you explain the features of Amazon Bedrock?'}] } ] ) print(response)