翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。
Meta Llama モデル
このセクションでは、Meta Llama モデルのリクエストパラメータとレスポンスフィールドについて説明します。この情報を使用して、InvokeModel および InvokeModelWithResponseStream (ストリーミング) オペレーションで、Meta Llama モデルに推論呼び出しを実行します。このセクションでは、Meta Llama モデルを呼び出す方法を示す Python コード例も含まれています。推論オペレーションでモデルを使用するには、そのモデルのモデル ID が必要です。モデル ID を取得するには、「Amazon Bedrock でサポートされている基盤モデル」を参照してください。モデルによっては、Converse API でも動作します。Converse API が特定の Meta Llama モデルをサポートしているかどうかを確認するには、「サポートされているモデルとモデルの機能」を参照してください。コード例については、「AWS SDKsコード例」を参照してください。
Amazon Bedrock の基盤モデルは、モデルごとに異なる入出力モダリティをサポートしています。Meta Llama モデルがサポートするモダリティを確認するには、「Amazon Bedrock でサポートされている基盤モデル」を参照してください。Meta Llama モデルがサポートする Amazon Bedrock 機能を確認するには、「Amazon Bedrock でサポートされている基盤モデル」を参照してください。Meta Llama モデルが使用可能な AWS リージョンを確認するには、「Amazon Bedrock でサポートされている基盤モデル」を参照してください。
Meta Llama モデルで推論呼び出しを行う場合は、モデルのプロンプトを含めます。Amazon Bedrock がサポートするモデルのプロンプト作成に関する一般情報については、「プロンプトエンジニアリングの概念」を参照してください。Meta Llama 固有のプロンプト方法については、「MetaLlama プロンプトエンジニアリングガイド
注記
Llama 3.2 Instruct モデルと Llama 3.3 Instruct モデルはジオフェンシングを使用します。つまり、これらのモデルは、リージョンテーブルにリストされているこれらのモデルで使用できる AWS リージョン外では使用できません。
このセクションでは、Meta から次のモデルを使用する方法について説明します。
Llama 3 Instruct
Llama 3.1 Instruct
Llama 3.2 Instruct
Llama 3.3 Instruct
Llama 4 Instruct
リクエストとレスポンス
リクエストボディは、InvokeModel または InvokeModelWithResponseStream へのリクエストの body フィールドに渡されます。
注記
InvokeModelWithResponseStream または ConverseStream (ストリーミング) オペレーションは、Llama 4 Instruct では使用できません。
サンプルのコード
この例は、Llama 3 Instruct モデルを呼び出す方法を示しています。
# Use the native inference API to send a text message to Meta Llama 3. import boto3 import json from botocore.exceptions import ClientError # Create a Bedrock Runtime client in the AWS リージョン of your choice. client = boto3.client("bedrock-runtime", region_name="us-west-2") # Set the model ID, e.g., Llama 3 70b Instruct. model_id = "meta.llama3-70b-instruct-v1:0" # Define the prompt for the model. prompt = "Describe the purpose of a 'hello world' program in one line." # Embed the prompt in Llama 3's instruction format. formatted_prompt = f""" <|begin_of_text|><|start_header_id|>user<|end_header_id|> {prompt} <|eot_id|> <|start_header_id|>assistant<|end_header_id|> """ # Format the request payload using the model's native structure. native_request = { "prompt": formatted_prompt, "max_gen_len": 512, "temperature": 0.5, } # Convert the native request to JSON. request = json.dumps(native_request) try: # Invoke the model with the request. response = client.invoke_model(modelId=model_id, body=request) except (ClientError, Exception) as e: print(f"ERROR: Can't invoke '{model_id}'. Reason: {e}") exit(1) # Decode the response body. model_response = json.loads(response["body"].read()) # Extract and print the response text. response_text = model_response["generation"] print(response_text)
この例は、Llama 3 Instruct モデルを使用して生成長を制御する方法を示しています。詳細なレスポンスまたは概要を得るには、max_gen_len を調整し、プロンプトに特定の指示を含めます。