text-to-text モデルをファインチューニングするためのデータを準備する

注記

Amazon Nova モデルのファインチューニングについては、「Amazon Nova モデルのファインチューニング」を参照してください。

text-to-text モデルをファインチューニングする場合、各 JSON オブジェクトは、指定されたテキストプロンプトに基づいてモデルが必要なテキスト出力を生成するように設計された構造化フィールドを含むサンプルです。データ形式はユースケースによって異なり、大まかに非会話型と会話型のユースケースに分類されます。非対話型タスクにはスタンドアロンのプロンプトと出力が含まれる一方、対話型タスクはさらに、モデルが単一のユーザー入力に応答するシングルターンのやり取りと、モデルが複数のやり取りにわたってコンテキストを維持するマルチターンの対話に分けられます。

非会話型タスク

非会話型タスクでは、特定の入力に対して単一の出力が生成されます。各データセットサンプルには、入力テキスト用の prompt フィールドと、期待される出力用の completion フィールドが含まれます。この形式は、質問への回答、要約、翻訳、テキスト補完、情報抽出などのさまざまなタスクをサポートします。

形式の例:


{"prompt": "What is the capital of France?", "completion": "The capital of France is Paris."}
{"prompt": "Summarize the article about climate change.", "completion": "Climate change refers to the long-term alteration of temperature and typical weather patterns in a place."}

データセットのサイズを計画する際に必要なトークン数の見積りには、トークンごとに約 6 文字を使用します。

Converse API 形式 (シングルターンとマルチターン)

Converse API を使用するには、Converse または ConverseStream オペレーションを呼び出してモデルにメッセージを送信します。Converse を呼び出すには、bedrock:InvokeModel オペレーションを呼び出す許可も必要です。ConverseStream を呼び出すには、bedrock:InvokeModelWithResponseStream オペレーションを呼び出す許可も必要です。詳細については、「Converse API を使用する場合」を参照してください。Converse API オペレーションの詳細については、「Converse API オペレーションを使用して会話を実行する」を参照してください

形式の例:


{
    "schemaVersion": "bedrock-conversation-2024",
    "system": [
        {
            "text": "You are a digital assistant with a friendly personality"
        }
    ],
    "messages": [
        {
            "role": "user",
            "content": [
                {
                    "text": "What is the capital of Mars?"
                }
            ]
        },
        {
            "role": "assistant",
            "content": [
                {
                    "text": "Mars does not have a capital. Perhaps it will one day."
                }
            ]
        }
    ]
}

Anthropic Claude 3 Haiku のみ: シングルターン会話

シングルターン会話タスクでは、モデルは以前のコンテキストを考慮せずに、現在のユーザー入力のみに基づいてレスポンスを生成します。各データセットサンプルは、user と assistant のロールが交互に変わるメッセージ配列を使用します。

形式


{"system": "<system message>","messages":[{"role": "user", "content": "<user query>"},{"role": "assistant", "content": "<expected generated text>"}]}

例


{"system": "You are an helpful assistant.","messages":[{"role": "user", "content": "what is AWS"},{"role": "assistant", "content": "it's Amazon Web Services."}]}

Anthropic Claude 3 Haiku のみ: マルチターン会話

マルチターン会話タスクでは、モデルが以前のやり取りのコンテキストを維持しながらレスポンスを生成する必要がある、拡張された対話が行われます。この形式の場合、カスタマーサポートや複雑なディスカッションなど、インタラクティブなタスクの動的な特性をキャプチャできます。

形式


{"system": "<system message>","messages":[{"role": "user", "content": "<user query 1>"},{"role": "assistant", "content": "<expected generated text 1>"}, {"role": "user", "content": "<user query 2>"},{"role": "assistant", "content": "<expected generated text 2>"}]}

例


{"system": "system message","messages":[{"role": "user", "content": "Hello there."},{"role": "assistant", "content": "Hi, how can I help you?"},{"role": "user", "content": "what are LLMs?"},{"role": "assistant", "content": "LLM means large language model."},]}

ブラウザで JavaScript が無効になっているか、使用できません。

AWS ドキュメントを使用するには、JavaScript を有効にする必要があります。手順については、使用するブラウザのヘルプページを参照してください。

ドキュメントの表記規則

トレーニングと検証のデータセットのモデル要件

画像処理モデルとテキスト処理モデルのファインチューニング用にデータを準備する