ファインチューニングと継続的な事前トレーニングのためにトレーニングデータセットを準備する - Amazon Bedrock

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

ファインチューニングと継続的な事前トレーニングのためにトレーニングデータセットを準備する

トレーニングデータセットと検証データセットをカスタムモデル用に準備するには、各行がレコードに対応している JSON オブジェクトの .jsonl ファイルを作成します。モデルカスタマイズジョブを開始する前に、少なくともトレーニングデータセットを準備する必要があります。作成するファイルは、選択したカスタマイズ方法とモデルの形式に沿っている必要があります。その中のレコードは、モデルに応じたサイズ要件を満たしている必要があります。

モデルの要件については、「トレーニングと検証のデータセットのモデル要件」を参照してください。さまざまなモデルのカスタマイズに使用されるトレーニングデータセットと検証データセットに適用されるデフォルトのクォータを確認するには、AWS 全般のリファレンス の「Amazon Bedrock endpoints and quotas」の「Sum of training and validation records」クオータを参照してください。

検証データセットがサポートされているかどうか、トレーニングデータセットと検証データセットの形式は、次の要因によって異なります。

  • ファインチューニングカスタマイズジョブのタイプ (ファインチューニングまたは継続的な事前トレーニング)。

  • データの入力モダリティと出力モダリティ。

Amazon Nova モデルのファインチューニングについては、「Amazon Nova モデルのファインチューニング」を参照してください。

ファインチューニングと継続的な事前トレーニングでサポートされているモダリティ

以下のセクションでは、各モデルでサポートされているさまざまなファインチューニング機能と事前トレーニング機能を、入力モダリティと出力モダリティ別に整理して説明します。Amazon Nova モデルのファインチューニングについては、「Amazon Nova モデルのファインチューニング」を参照してください。

テキストからテキストモデル

テキストからテキストモデルは、会話アプリケーションと非会話アプリケーションの両方を含む、さまざまなテキストベースのタスクに合わせてファインチューニングできます。テキストからテキストモデルをファインチューニングするためのデータの準備については、「text-to-text モデルをファインチューニングするためのデータを準備する」を参照してください。

次の非会話モデルは、要約、翻訳、質問への回答などのタスク用に最適化されています。

  • Amazon Titan Text G1 - Express

  • Amazon Titan Text G1 - Lite

  • Amazon Titan Text Premier

  • Cohere Command

  • Cohere Command Light

  • Meta Llama 3.1 8B Instruct

  • Meta Llama 3.1 70B Instruct

次の会話モデルは、シングルターンとマルチターンのインタラクション用に設計されています。モデルが Converse API を使用している場合、ファインチューニングデータセットは Converse API のメッセージ形式に従い、システムメッセージ、ユーザーメッセージ、アシスタントメッセージを含んでいる必要があります。例については「text-to-text モデルをファインチューニングするためのデータを準備する」を参照してください。Converse API オペレーションの詳細については、「Converse API オペレーションを使用して会話を実行する」を参照してください。

  • Anthropic Claude 3 Haiku

  • Meta Llama 3.2 1B Instruct (Converse API 形式)

  • Meta Llama 3.2 3B Instruct (Converse API 形式)

  • Meta Llama 3.2 11B Instruct Vision (Converse API 形式)

  • Meta Llama 3.2 90B Instruct Vision (Converse API 形式)

  • Meta Llama 3.3 70B Vision Instruct (Converse API 形式)

テキスト画像からテキストモデルとテキストから画像モデル

次のモデルは、画像生成とテキスト画像処理のファインチューニングをサポートしています。これらのモデルは、テキスト入力に基づいて画像を処理または生成するか、テキスト入力と画像入力の両方に基づいてテキストを生成します。テキスト画像からテキストモデルとテキストから画像モデルをファインチューニングするためのデータの準備については、「画像処理モデルとテキスト処理モデルのファインチューニング用にデータを準備する」を参照してください。

  • Amazon Titan Image Generator G1 V1

  • Meta Llama 3.2 11B Instruct Vision

  • Meta Llama 3.2 90B Instruct Vision

  • Meta Llama 3.3 70B Vision Instruct

画像から埋め込み

次のモデルは、分類や取得などのタスクのファインチューニングをサポートしています。これらのモデルは、画像入力から数値表現 (埋め込み) を生成します。画像から埋め込みモデルをファインチューニングするためのデータの準備については、「イメージ生成モデルと埋め込みモデルをファインチューニングするためのデータを準備する」を参照してください。

  • Amazon Titan Multimodal Embeddings G1

  • Amazon Titan Image Generator G1 V1

継続的な事前トレーニング: テキストからテキスト

次のモデルは、継続的な事前トレーニングに使用できます。これらのモデルは、基本的な知識を強化するためのドメイン固有データの継続的な事前トレーニングをサポートします。テキストからテキストモデルの継続的な事前トレーニングのためのデータの準備については、「継続的な事前トレーニング用にデータセットを準備する」を参照してください。

  • Amazon Titan Text G1 - Express

  • Amazon Titan Text G1 - Lite