Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.
MetaModèlesLlama
Cette section décrit les paramètres de demande et les champs de réponse pour les Meta Llama modèles. Utilisez ces informations pour effectuer des appels d'inférence vers Meta Llama des modèles avec les opérations InvokeModeland InvokeModelWithResponseStream(streaming). Cette section inclut également des exemples de Python code qui montrent comment appeler Meta Llama des modèles. Pour utiliser un modèle dans une opération d'inférence, vous avez besoin de son identifiant. Pour obtenir l'ID du modèle, voirModèles de fondation pris en charge dans Amazon Bedrock. Certains modèles fonctionnent également avec l'ConverseAPI. Pour vérifier si l'ConverseAPI prend en charge un Meta Llama modèle spécifique, consultezModèles pris en charge et caractéristiques des modèles. Pour plus d'exemples de code, consultezExemples de code pour Amazon Bedrock utilisant AWS SDKs.
Les modèles de base d'Amazon Bedrock prennent en charge les modalités d'entrée et de sortie, qui varient d'un modèle à l'autre. Pour vérifier les modalités prises en charge par Meta Llama les modèles, voirModèles de fondation pris en charge dans Amazon Bedrock. Pour savoir quels Meta Llama modèles Amazon Bedrock sont compatibles, consultezModèles de fondation pris en charge dans Amazon Bedrock. Pour vérifier AWS dans quelles régions les Meta Llama modèles sont disponibles, consultezModèles de fondation pris en charge dans Amazon Bedrock.
Lorsque vous effectuez des appels d'inférence avec Meta Llama des modèles, vous incluez une invite pour le modèle. Pour obtenir des informations générales sur la création d'invites pour les modèles pris en charge par Amazon Bedrock, consultez. Concepts d'ingénierie rapides Pour obtenir Meta Llama des informations spécifiques sur les commandes rapides, consultez le guide d'ingénierie des MetaLlama commandes rapides
Note
Llama 3.2 Instructet les Llama 3.3 Instruct modèles utilisent le géofencing. Cela signifie que ces modèles ne peuvent pas être utilisés en dehors des AWS régions disponibles pour les modèles répertoriés dans le tableau des régions.
Cette section fournit des informations sur l'utilisation des modèles suivants à partir deMeta.
Llama 3 Instruct
Llama 3.1 Instruct
Llama 3.2 Instruct
Llama 3.3 Instruct
Llama 4 Instruct
Rubriques
Demande et réponse
Le corps de la demande est transmis dans le body
champ d'une demande à InvokeModelou InvokeModelWithResponseStream.
Note
Vous ne pouvez pas utiliser les opérations InvokeModelWithResponseStreamou ConverseStream(streaming) avecLlama 4 Instruct.
Exemple de code
Cet exemple montre comment appeler le Llama 3 Instructmodèle.
# Use the native inference API to send a text message to Meta Llama 3. import boto3 import json from botocore.exceptions import ClientError # Create a Bedrock Runtime client in the Région AWS of your choice. client = boto3.client("bedrock-runtime", region_name="us-west-2") # Set the model ID, e.g., Llama 3 70b Instruct. model_id = "meta.llama3-70b-instruct-v1:0" # Define the prompt for the model. prompt = "Describe the purpose of a 'hello world' program in one line." # Embed the prompt in Llama 3's instruction format. formatted_prompt = f""" <|begin_of_text|><|start_header_id|>user<|end_header_id|> {prompt} <|eot_id|> <|start_header_id|>assistant<|end_header_id|> """ # Format the request payload using the model's native structure. native_request = { "prompt": formatted_prompt, "max_gen_len": 512, "temperature": 0.5, } # Convert the native request to JSON. request = json.dumps(native_request) try: # Invoke the model with the request. response = client.invoke_model(modelId=model_id, body=request) except (ClientError, Exception) as e: print(f"ERROR: Can't invoke '{model_id}'. Reason: {e}") exit(1) # Decode the response body. model_response = json.loads(response["body"].read()) # Extract and print the response text. response_text = model_response["generation"] print(response_text)
Cet exemple montre comment contrôler la durée de génération à l'aide de Llama 3 Instruct modèles. Pour obtenir des réponses ou des résumés détaillés, ajustez `max_gen_len` et incluez des instructions spécifiques dans votre invite.