Meta Llama 模型
本部分介绍了 Meta Llama 模型的请求参数和响应字段。使用这些信息,您可以通过 InvokeModel 和 InvokeModelWithResponseStream(流式传输)操作对 Meta Llama 模型进行推理调用。本部分还包括 Python 代码示例,展示了如何调用 Meta Llama 模型。要在推理操作中使用模型,您需要相关模型的模型 ID。要获取模型 ID,请参阅 Amazon Bedrock 中支持的根基模型。有些模型还能与 Converse API 配合使用。要查看 Converse API 是否支持特定的 Meta Llama 模型,请参阅支持的模型和模型功能。有关更多代码示例,请参阅 使用 AWS SDK 的 Amazon Bedrock 代码示例。
Amazon Bedrock 中的基础模型支持输入和输出模态,这些模态因模型而异。要查看 Meta Llama 模型支持的模态,请参阅 Amazon Bedrock 中支持的根基模型。要查看 Meta Llama 模型支持哪些 Amazon Bedrock 功能,请参阅 Amazon Bedrock 中支持的根基模型。要查看 Meta Llama 模型在哪些 AWS 区域中可用,请参阅 Amazon Bedrock 中支持的根基模型。
使用 Meta Llama 模型进行推理调用时,您可以为模型创建提示。有关为 Amazon Bedrock 支持的模型创建提示的一般信息,请参阅 提示工程概念。有关 Meta Llama 的特定提示信息,请参阅 MetaLlama 提示工程指南
注意
Llama 3.2 Instruct 和 Llama 3.3 Instruct 模型使用地理围栏。这意味着这些模型不能在 AWS 区域表中列出的这些模型的可用区域之外使用。
本部分提供了有关使用以下 Meta 模型的信息。
Llama 3 Instruct
Llama 3.1 Instruct
Llama 3.2 Instruct
Llama 3.3 Instruct
Llama 4 Instruct
请求和响应
请求正文在请求的 body 字段中传递给 InvokeModel 或 InvokeModelWithResponseStream。
注意
您无法将 InvokeModelWithResponseStream 或 ConverseStream(流式传输)操作与 Llama 4 Instruct 结合使用。
代码示例
此示例展示了如何调用 Llama 3 Instruct 模型。
# Use the native inference API to send a text message to Meta Llama 3. import boto3 import json from botocore.exceptions import ClientError # Create a Bedrock Runtime client in the AWS 区域 of your choice. client = boto3.client("bedrock-runtime", region_name="us-west-2") # Set the model ID, e.g., Llama 3 70b Instruct. model_id = "meta.llama3-70b-instruct-v1:0" # Define the prompt for the model. prompt = "Describe the purpose of a 'hello world' program in one line." # Embed the prompt in Llama 3's instruction format. formatted_prompt = f""" <|begin_of_text|><|start_header_id|>user<|end_header_id|> {prompt} <|eot_id|> <|start_header_id|>assistant<|end_header_id|> """ # Format the request payload using the model's native structure. native_request = { "prompt": formatted_prompt, "max_gen_len": 512, "temperature": 0.5, } # Convert the native request to JSON. request = json.dumps(native_request) try: # Invoke the model with the request. response = client.invoke_model(modelId=model_id, body=request) except (ClientError, Exception) as e: print(f"ERROR: Can't invoke '{model_id}'. Reason: {e}") exit(1) # Decode the response body. model_response = json.loads(response["body"].read()) # Extract and print the response text. response_text = model_response["generation"] print(response_text)
此示例展示了如何使用 Llama 3 Instruct 模型控制生成长度。有关详细的响应或摘要,请调整“max_gen_len”,并在提示中加入特定说明。