Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.
Modelos de Meta Llama
En esta sección se describen los parámetros de solicitud y los campos de respuesta de los modelos de Meta Llama. Utilice esta información para realizar llamadas de inferencia a los modelos de Meta Llama con las operaciones InvokeModel y InvokeModelWithResponseStream (transmisión). En esta sección también se incluyen ejemplos de código de Python que muestran cómo llamar a los modelos de Meta Llama. Para utilizar un modelo en una operación de inferencia, necesitará el ID del modelo. Para obtener el ID del modelo, consulte Modelos fundacionales compatibles en Amazon Bedrock. Algunos modelos también funcionan con la API Converse. Para comprobar si la API Converse es compatible con un modelo de Meta Llama específico, consulte Modelos y características del modelo compatibles. Para obtener ejemplos de código, consulte Ejemplos de código para Amazon Bedrock mediante AWS SDKs.
Los modelos fundacionales de Amazon Bedrock admiten modalidades de entrada y salida, que varían de un modelo a otro. Para comprobar las modalidades que admiten los modelos de Meta Llama, consulte Modelos fundacionales compatibles en Amazon Bedrock. Para comprobar qué características de Amazon Bedrock son compatibles con los modelos de Meta Llama, consulte Modelos fundacionales compatibles en Amazon Bedrock. Para comprobar en qué regiones de AWS están disponibles los modelos de Meta Llama, consulte Modelos fundacionales compatibles en Amazon Bedrock.
Cuando realiza llamadas de inferencia con modelos de Meta Llama, usted incluye una petición para el modelo. Para obtener información general sobre cómo crear peticiones para los modelos compatibles con Amazon Bedrock, consulte Conceptos de ingeniería de peticiones. Para obtener información específica sobre las peticiones a Meta Llama, consulte la guía de ingeniería de peticiones de Meta Llama
nota
Los modelos Llama 3.2 Instruct y Llama 3.3 Instruct utilizan geovallas. Esto significa que estos modelos no se pueden utilizar fuera de las regiones de AWS disponibles para los modelos que figuran en la tabla de regiones.
En esta sección se proporciona información sobre el uso de los siguientes modelos de Meta.
Llama 3 Instruct
Llama 3.1 Instruct
Llama 3.2 Instruct
Llama 3.3 Instruct
Llama 4 Instruct
Solicitud y respuesta
El cuerpo de la solicitud se pasa en el campo body de una solicitud a InvokeModel o InvokeModelWithResponseStream.
nota
No puede usar las operaciones InvokeModelWithResponseStream o ConverseStream (streaming) con Llama 4 Instruct.
Código de ejemplo
En este ejemplo se muestra cómo llamar al modelo Llama 3 Instruct.
# Use the native inference API to send a text message to Meta Llama 3. import boto3 import json from botocore.exceptions import ClientError # Create a Bedrock Runtime client in the Región de AWS of your choice. client = boto3.client("bedrock-runtime", region_name="us-west-2") # Set the model ID, e.g., Llama 3 70b Instruct. model_id = "meta.llama3-70b-instruct-v1:0" # Define the prompt for the model. prompt = "Describe the purpose of a 'hello world' program in one line." # Embed the prompt in Llama 3's instruction format. formatted_prompt = f""" <|begin_of_text|><|start_header_id|>user<|end_header_id|> {prompt} <|eot_id|> <|start_header_id|>assistant<|end_header_id|> """ # Format the request payload using the model's native structure. native_request = { "prompt": formatted_prompt, "max_gen_len": 512, "temperature": 0.5, } # Convert the native request to JSON. request = json.dumps(native_request) try: # Invoke the model with the request. response = client.invoke_model(modelId=model_id, body=request) except (ClientError, Exception) as e: print(f"ERROR: Can't invoke '{model_id}'. Reason: {e}") exit(1) # Decode the response body. model_response = json.loads(response["body"].read()) # Extract and print the response text. response_text = model_response["generation"] print(response_text)
En este ejemplo se muestra cómo controlar la longitud de generación mediante modelos Llama 3 Instruct. Para obtener respuestas o resúmenes detallados, ajuste ‘max_gen_len’ e incluya instrucciones específicas en la petición.