MetaModelleLlama - Amazon Bedrock

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

MetaModelleLlama

In diesem Abschnitt werden die Anforderungsparameter und Antwortfelder für Meta-Llama-Modelle beschrieben. Verwenden Sie diese Informationen, um mit den (Streaming-) Operationen InvokeModel und InvokeModelWithResponseStream Inferenzaufrufe an Meta-Llama-Modelle durchzuführen. Dieser Abschnitt enthält auch Python-Codebeispiele, die zeigen, wie Meta-Llama-Modelle aufgerufen werden. Sie benötigen die Modell-ID für das Modell, um ein Modell in einer Inferenzoperation verwenden zu können. Informationen zum Abrufen der Modell-ID finden Sie unter Unterstützte Basismodelle in Amazon Bedrock. Einige Modelle funktionieren auch mit der Converse-API. Informationen darüber, ob die Converse-API ein bestimmtes Meta-Llama-Modell unterstützt, finden Sie unter Unterstützte Modelle und Modellfeatures. Weitere Codebeispiele finden Sie unter Codebeispiele für Amazon Bedrock mit AWS SDKs.

Basismodelle in Amazon Bedrock unterstützen Eingabe- und Ausgabemodalitäten, die von Modell zu Modell variieren. Informationen zu den Modalitäten, die von Meta-Llama-Modellen unterstützt werden, finden Sie unter Unterstützte Basismodelle in Amazon Bedrock. Informationen darüber, welche Amazon-Bedrock-Features Meta-Llama-Modelle unterstützen, finden Sie unter Unterstützte Basismodelle in Amazon Bedrock. Informationen darüber, in welchen AWS-Regionen diese Meta-Llama-Modelle verfügbar sind, finden Sie unter Unterstützte Basismodelle in Amazon Bedrock.

Wenn Sie Inferenzaufrufe mit Meta-Llama-Modellen tätigen, schließen Sie einen Prompt für das Modell ein. Allgemeine Informationen zum Erstellen von Prompts für die Modelle, die von Amazon Bedrock unterstützt werden, finden Sie unter Prompt-Engineering-Konzepte. Für Meta Llama spezifische Informationen zu Prompts finden Sie im Handbuch zu Llama-Prompt-Engineering von Meta.

Anmerkung

Die Modelle Llama 3.2 Instruct und Llama 3.3 Instruct verwenden Geofencing. Das bedeutet, dass diese Modelle außerhalb der AWS-Regionen, die für diese in der Tabelle „Regionen“ aufgeführten Modelle verfügbar sind, nicht verwendet werden können.

Dieser Abschnitt enthält Informationen zur Verwendung der folgenden Modelle von Meta.

  • Llama 3 Instruct

  • Llama 3.1 Instruct

  • Llama 3.2 Instruct

  • Llama 3.3 Instruct

  • Llama 4 Instruct

Anforderung und Antwort

Der Anforderungstext wird im body-Feld einer Anforderung an InvokeModel oder InvokeModelWithResponseStream übergeben.

Anmerkung

Sie können die (Streaming-) Operationen InvokeModelWithResponseStream oder ConverseStream nicht mit Llama 4 Instruct verwenden.

Request

Die Modelle Llama 3 Instruct, Llama 3.1 Instruct, Llama 3.2 Instruct und Llama 4 Instruct haben die folgenden Inferenzparameter:

{ "prompt": string, "temperature": float, "top_p": float, "max_gen_len": int }

HINWEIS: Llama-3.2-Modelle und neuer ergänzen die Anforderungsstruktur durch images, wobei es sich um eine Liste von Zeichenfolgen handelt. Beispiel: images: Optional[List[str]]

Die folgenden Parameter sind erforderlich:

  • prompt – (erforderlich) Der Prompt, den Sie an das Modell übergeben möchten. Optimale Ergebnisse erzielen Sie, wenn Sie die Konversation mit der folgenden Vorlage formatieren.

    <|begin_of_text|><|start_header_id|>user<|end_header_id|> What can you help me with?<|eot_id|><|start_header_id|>assistant<|end_header_id|>

    Beispielvorlage mit System-Prompt

    Im Folgenden finden Sie ein Beispiel für einen Prompt, der einen System-Prompt enthält.

    <|begin_of_text|><|start_header_id|>system<|end_header_id|> You are a helpful AI assistant for travel tips and recommendations<|eot_id|><|start_header_id|>user<|end_header_id|> What can you help me with?<|eot_id|><|start_header_id|>assistant<|end_header_id|>

    Beispiel für eine Konversation mit mehreren Runden

    Es folgt ein Beispiel eines Prompts für eine Konversation mit mehreren Runden.

    <|begin_of_text|><|start_header_id|>user<|end_header_id|> What is the capital of France?<|eot_id|><|start_header_id|>assistant<|end_header_id|> The capital of France is Paris!<|eot_id|><|start_header_id|>user<|end_header_id|> What is the weather like in Paris?<|eot_id|><|start_header_id|>assistant<|end_header_id|>

    Beispielvorlage mit System-Prompt

    Weitere Informationen finden Sie unter Meta Llama 3.

Die folgenden Parameter sind optional:

  • Temperatur – Verwenden Sie einen niedrigeren Wert, um die Zufälligkeit der Antwort zu verringern.

    Standard Minimum Maximum

    0.5

    0

    1

  • top_p – Verwenden Sie einen niedrigeren Wert, um weniger wahrscheinliche Optionen zu ignorieren. Legen Sie den Wert auf 0 oder 1,0 fest, um den Parameter zu deaktivieren.

    Standard Minimum Maximum

    0.9

    0

    1

  • max_gen_len – Geben Sie die maximale Anzahl von Token an, die in der generierten Antwort verwendet werden soll. Das Modell kürzt die Antwort, sobald der generierte Text den Wert überschreitet max_gen_len.

    Standard Minimum Maximum

    512

    1

    2048

Response

Die Modelle von Llama 3 Instruct verfügen über die folgenden Felder für Inferenzaufrufe zur Textvervollständigung.

{ "generation": "\n\n<response>", "prompt_token_count": int, "generation_token_count": int, "stop_reason" : string }

Weitere Informationen zu den einzelnen Feldern finden Sie weiter unten.

  • generation – Der generierte Text

  • prompt_token_count – Die Anzahl der Token im Prompt

  • generation_token_count – Die Anzahl der Token im generierten Text

  • stop_reason – Der Grund, warum die Antwort keinen Text mehr generiert hat. Die möglichen Werte sind:

    • Stopp – Das Modell hat die Textgenerierung für die Eingabeaufforderung abgeschlossen.

    • Länge – Die Länge der Token für den generierten Text überschreitet den Wert von max_gen_len im Aufruf von InvokeModel (InvokeModelWithResponseStream, wenn Sie die Ausgabe streamen). Die Antwort wird auf max_gen_len Token gekürzt. Erwägen Sie, den Wert max_gen_len zu erhöhen und es erneut zu versuchen.

Beispiel-Code

Das folgende Beispiel zeigt, wie das Modell Llama 3 Instruct aufgerufen wird.

# Use the native inference API to send a text message to Meta Llama 3. import boto3 import json from botocore.exceptions import ClientError # Create a Bedrock Runtime client in the AWS-Region of your choice. client = boto3.client("bedrock-runtime", region_name="us-west-2") # Set the model ID, e.g., Llama 3 70b Instruct. model_id = "meta.llama3-70b-instruct-v1:0" # Define the prompt for the model. prompt = "Describe the purpose of a 'hello world' program in one line." # Embed the prompt in Llama 3's instruction format. formatted_prompt = f""" <|begin_of_text|><|start_header_id|>user<|end_header_id|> {prompt} <|eot_id|> <|start_header_id|>assistant<|end_header_id|> """ # Format the request payload using the model's native structure. native_request = { "prompt": formatted_prompt, "max_gen_len": 512, "temperature": 0.5, } # Convert the native request to JSON. request = json.dumps(native_request) try: # Invoke the model with the request. response = client.invoke_model(modelId=model_id, body=request) except (ClientError, Exception) as e: print(f"ERROR: Can't invoke '{model_id}'. Reason: {e}") exit(1) # Decode the response body. model_response = json.loads(response["body"].read()) # Extract and print the response text. response_text = model_response["generation"] print(response_text)

Dieses Beispiel veranschaulicht, wie Sie die Länge der generierten Antworten mit Modellen von Llama 3 Instruct steuern. Für detaillierte Antworten oder Zusammenfassungen passen Sie „max_gen_len“ an und fügen Sie Ihrem Prompt spezifische Anweisungen hinzu.