MetaModelleLlama

In diesem Abschnitt werden die Anforderungsparameter und Antwortfelder für Meta Llama Modelle beschrieben. Verwenden Sie diese Informationen, um mit den Operationen InvokeModelund InvokeModelWithResponseStream(Streaming) Inferenzaufrufen für Meta Llama Modelle durchzuführen. Dieser Abschnitt enthält auch Python Codebeispiele, die zeigen, wie Meta Llama Modelle aufgerufen werden. Um ein Modell in einer Inferenzoperation zu verwenden, benötigen Sie die Modell-ID für das Modell. Informationen zum Abrufen der Modell-ID finden Sie unterUnterstützte Basismodelle in Amazon Bedrock. Einige Modelle funktionieren auch mit der ConverseAPI. Informationen darüber, ob die Converse API ein bestimmtes Meta Llama Modell unterstützt, finden Sie unterUnterstützte Modelle und Modellfunktionen. Weitere Codebeispiele finden Sie unterCodebeispiele für Amazon Bedrock mit AWS SDKs.

Foundation-Modelle in Amazon Bedrock unterstützen Eingabe- und Ausgabemodalitäten, die von Modell zu Modell variieren. Informationen zu den Modalitäten, die von Meta Llama Modellen unterstützt werden, finden Sie unter. Unterstützte Basismodelle in Amazon Bedrock Informationen darüber, welche Amazon Bedrock Meta Llama Modelle unterstützt, finden Sie unterUnterstützte Basismodelle in Amazon Bedrock. Informationen darüber, in welchen AWS Regionen diese Meta Llama Modelle verfügbar sind, finden Sie unterUnterstützte Basismodelle in Amazon Bedrock.

Wenn Sie Inferenzrufe mit Meta Llama Modellen tätigen, fügen Sie eine Eingabeaufforderung für das Modell hinzu. Allgemeine Informationen zum Erstellen von Eingabeaufforderungen für die von Amazon Bedrock unterstützten Modelle finden Sie unter. Prompt-Engineering-Konzepte MetaLlamaSpezifische Informationen zur Eingabeaufforderung finden Sie im technischen Leitfaden für MetaLlama Eingabeaufforderungen.

Anmerkung

Llama 3.2 Instructund Llama 3.3 Instruct Modelle verwenden Geofencing. Das bedeutet, dass diese Modelle nicht außerhalb der AWS Regionen verwendet werden können, die für diese in der Tabelle Regionen aufgeführten Modelle verfügbar sind.

Dieser Abschnitt enthält Informationen zur Verwendung der folgenden Modelle vonMeta.

Llama 3 Instruct
Llama 3.1 Instruct
Llama 3.2 Instruct
Llama 3.3 Instruct
Llama 4 Instruct

Anfrage und Antwort

Der Text der Anfrage wird im body Feld einer Anfrage an InvokeModeloder übergeben InvokeModelWithResponseStream.

Anmerkung

Sie können die Operationen InvokeModelWithResponseStreamoder ConverseStream(Streaming) nicht mit verwendenLlama 4 Instruct.

Request

Die Llama 4 Instruct Modelle Llama 3 InstructLlama 3.1 Instruct,Llama 3.2 Instruct, und haben die folgenden Inferenzparameter:


{
    "prompt": string,
    "temperature": float,
    "top_p": float,
    "max_gen_len": int
}

HINWEIS: Modelle mit Llama 3.2 und neueren Versionen ergänzen die Anforderungsstruktur, bei der es sich images um eine Liste von Zeichenketten handelt. Beispiel: images: Optional[List[str]]

Die folgenden Parameter sind erforderlich:

prompt — (Erforderlich) Die Eingabeaufforderung, die Sie an das Modell übergeben möchten. Um optimale Ergebnisse zu erzielen, formatieren Sie die Konversation mit der folgenden Vorlage.


<|begin_of_text|><|start_header_id|>user<|end_header_id|>

What can you help me with?<|eot_id|><|start_header_id|>assistant<|end_header_id|>

Beispielvorlage mit Systemaufforderung

Im Folgenden finden Sie ein Beispiel für eine Eingabeaufforderung, die eine Systemaufforderung enthält.


<|begin_of_text|><|start_header_id|>system<|end_header_id|>

You are a helpful AI assistant for travel tips and recommendations<|eot_id|><|start_header_id|>user<|end_header_id|>

What can you help me with?<|eot_id|><|start_header_id|>assistant<|end_header_id|>

Beispiel für eine Konversation mit mehreren Runden

Im Folgenden finden Sie ein Beispiel für eine Eingabeaufforderung für eine Konversation mit mehreren Runden.


<|begin_of_text|><|start_header_id|>user<|end_header_id|>

What is the capital of France?<|eot_id|><|start_header_id|>assistant<|end_header_id|>

The capital of France is Paris!<|eot_id|><|start_header_id|>user<|end_header_id|>

What is the weather like in Paris?<|eot_id|><|start_header_id|>assistant<|end_header_id|>

Beispielvorlage mit Systemaufforderung

Weitere Informationen finden Sie unter MetaLlama 3.

Die folgenden Parameter sind optional:

Temperatur — Verwenden Sie einen niedrigeren Wert, um die Zufälligkeit der Antwortvariablen zu verringern.

Standard	Minimum	Maximum
0.5	0	1

top_p — Verwenden Sie einen niedrigeren Wert, um weniger wahrscheinliche Optionen zu ignorieren. Legen Sie den Wert auf 0 oder 1,0 fest, um den Parameter zu deaktivieren.

Standard	Minimum	Maximum
0.9	0	1

max_gen_len — Gibt die maximale Anzahl von Tokens an, die in der generierten Antwort verwendet werden sollen. Das Modell kürzt die Antwort, sobald der generierte Text den Wert max_gen_len überschreitet.

Standard	Minimum	Maximum
512	1	2048

Response

Die Llama 3 Instruct Modelle geben die folgenden Felder für einen Inferenzaufruf zur Textvervollständigung zurück.


{
    "generation": "\n\n<response>",
    "prompt_token_count": int,
    "generation_token_count": int,
    "stop_reason" : string
}

Weitere Informationen zu den einzelnen Feldern finden Sie weiter unten.

Generation — Der generierte Text.
prompt_token_count — Die Anzahl der Token in der Eingabeaufforderung.
generation_token_count — Die Anzahl der Token im generierten Text.
stop_reason — Der Grund, warum die Antwort aufgehört hat, Text zu generieren. Die möglichen Werte sind:
- Stopp – Das Modell hat die Textgenerierung für die Eingabeaufforderung abgeschlossen.
- Länge – Die Länge der Token für den generierten Text überschreitet den Wert von max_gen_len im Aufruf von InvokeModel (InvokeModelWithResponseStream, wenn Sie die Ausgabe streamen). Die Antwort wird auf max_gen_len Token gekürzt. Erwägen Sie, den Wert max_gen_len zu erhöhen und es erneut zu versuchen.

Beispiel-Code

Dieses Beispiel zeigt, wie das Modell aufgerufen wird Llama 3 Instruct.


# Use the native inference API to send a text message to Meta Llama 3.

import boto3
import json

from botocore.exceptions import ClientError

# Create a Bedrock Runtime client in the AWS-Region of your choice.
client = boto3.client("bedrock-runtime", region_name="us-west-2")

# Set the model ID, e.g., Llama 3 70b Instruct.
model_id = "meta.llama3-70b-instruct-v1:0"

# Define the prompt for the model.
prompt = "Describe the purpose of a 'hello world' program in one line."

# Embed the prompt in Llama 3's instruction format.
formatted_prompt = f"""
<|begin_of_text|><|start_header_id|>user<|end_header_id|>
{prompt}
<|eot_id|>
<|start_header_id|>assistant<|end_header_id|>
"""

# Format the request payload using the model's native structure.
native_request = {
    "prompt": formatted_prompt,
    "max_gen_len": 512,
    "temperature": 0.5,
}

# Convert the native request to JSON.
request = json.dumps(native_request)

try:
    # Invoke the model with the request.
    response = client.invoke_model(modelId=model_id, body=request)

except (ClientError, Exception) as e:
    print(f"ERROR: Can't invoke '{model_id}'. Reason: {e}")
    exit(1)

# Decode the response body.
model_response = json.loads(response["body"].read())

# Extract and print the response text.
response_text = model_response["generation"]
print(response_text)

Dieses Beispiel zeigt, wie die Generierungslänge mithilfe von Llama 3 Instruct Modellen gesteuert werden kann. Für detaillierte Antworten oder Zusammenfassungen passen Sie `max_gen_len` an und fügen Sie Ihrer Aufforderung spezifische Anweisungen hinzu.

Warnung JavaScript ist in Ihrem Browser nicht verfügbar oder deaktiviert.

Zur Nutzung der AWS-Dokumentation muss JavaScript aktiviert sein. Weitere Informationen finden auf den Hilfe-Seiten Ihres Browsers.

Dokumentkonventionen

Luma AIModelle

Mistral AIModelle