翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。
Meta Llama モデル
このセクションでは、Meta Llama モデルのリクエストパラメータとレスポンスフィールドについて説明します。この情報を使用して、InvokeModel および InvokeModelWithResponseStream (ストリーミング) オペレーションで、Meta Llama モデルに推論呼び出しを実行します。このセクションでは、Meta Llama モデルを呼び出す方法を示す Python コード例も含まれています。推論オペレーションでモデルを使用するには、そのモデルのモデル ID が必要です。モデル ID を取得するには、「Amazon Bedrock でサポートされている基盤モデル」を参照してください。モデルによっては、Converse API でも動作します。Converse API が特定の Meta Llama モデルをサポートしているかどうかを確認するには、「サポートされているモデルとモデルの機能」を参照してください。コード例については、「AWSSDKsコード例」を参照してください。
Amazon Bedrock の基盤モデルは、モデルごとに異なる入出力モダリティをサポートしています。Meta Llama モデルがサポートするモダリティを確認するには、「Amazon Bedrock でサポートされている基盤モデル」を参照してください。Meta Llama モデルがサポートする Amazon Bedrock 機能を確認するには、「Amazon Bedrock でサポートされている基盤モデル」を参照してください。Meta Llama モデルが使用可能な AWS リージョンを確認するには、「Amazon Bedrock でサポートされている基盤モデル」を参照してください。
Meta Llama モデルで推論呼び出しを行う場合は、モデルのプロンプトを含めます。Amazon Bedrock がサポートするモデルのプロンプト作成に関する一般情報については、「 プロンプトエンジニアリングの概念」を参照してください。Meta Llama 固有のプロンプト方法については、「MetaLlama プロンプトエンジニアリングガイド
注記
Llama 3.2 Instruct モデルと Llama 3.3 Instruct モデルはジオフェンシングを使用します。つまり、これらのモデルは、リージョンテーブルにリストされているこれらのモデルで使用できる AWS リージョン外では使用できません。
このセクションでは、Meta から次のモデルを使用する方法について説明します。
Llama 3 Instruct
Llama 3.1 Instruct
Llama 3.2 Instruct
Llama 3.3 Instruct
Llama 4 Instruct
リクエストとレスポンス
リクエストボディは、InvokeModel または InvokeModelWithResponseStream へのリクエストの body フィールドに渡されます。
注記
InvokeModelWithResponseStream または ConverseStream (ストリーミング) オペレーションは、Llama 4 Instruct では使用できません。
サンプルのコード
この例は、Llama 3 Instruct モデルを呼び出す方法を示しています。
# Use the native inference API to send a text message to Meta Llama 3. import boto3 import json from botocore.exceptions import ClientError # Create a Bedrock Runtime client in the AWS リージョン of your choice. client = boto3.client("bedrock-runtime", region_name="us-west-2") # Set the model ID, e.g., Llama 3 70b Instruct. model_id = "meta.llama3-70b-instruct-v1:0" # Define the prompt for the model. prompt = "Describe the purpose of a 'hello world' program in one line." # Embed the prompt in Llama 3's instruction format. formatted_prompt = f""" <|begin_of_text|><|start_header_id|>user<|end_header_id|> {prompt} <|eot_id|> <|start_header_id|>assistant<|end_header_id|> """ # Format the request payload using the model's native structure. native_request = { "prompt": formatted_prompt, "max_gen_len": 512, "temperature": 0.5, } # Convert the native request to JSON. request = json.dumps(native_request) try: # Invoke the model with the request. response = client.invoke_model(modelId=model_id, body=request) except (ClientError, Exception) as e: print(f"ERROR: Can't invoke '{model_id}'. Reason: {e}") exit(1) # Decode the response body. model_response = json.loads(response["body"].read()) # Extract and print the response text. response_text = model_response["generation"] print(response_text)
この例は、Llama 3 Instruct モデルを使用して生成長を制御する方法を示しています。詳細なレスポンスまたは概要を得るには、max_gen_len を調整し、プロンプトに特定の指示を含めます。