継続的事前トレーニング (CPT)

継続的な事前トレーニング (CPT) は、基盤モデルの事前トレーニングフェーズを、特定のドメインまたはコーポラからラベル付けされていない追加のテキストに公開することで拡張するトレーニング手法です。ラベル付き入出力ペアを必要とする教師ありファインチューニングとは異なり、CPT は raw ドキュメントでトレーニングして、モデルが新しいドメインに関する深い知識を取得し、ドメイン固有の用語と書き込みパターンを学習し、特定のコンテンツタイプやサブジェクト領域に適応するのに役立ちます。

このアプローチは、法的文書、医学文献、技術文書、独自のビジネスコンテンツなど、ドメイン固有のテキストデータが多く (数百億トークン)、モデルにそのドメインでネイティブレベルの流暢さを身につけさせたい場合に特に役立ちます。一般的に、CPT ステージの後、モデルは新しく取得した知識を使用し、有用なタスクを完了できるように、追加の命令調整ステージを経る必要があります。

サポートされているモデル

CPT は、以下の Amazon Nova モデルで使用できます。

Nova 1.0 (Micro、Lite、Pro)
Nova 2.0 (Lite)

以下のような場合は、Nova 1.0 を選択します。

高度な推論を必要とせず、標準的な言語理解で十分なユースケースである場合。
トレーニングと推論のコストを削減するために最適化したい場合。
複雑な推論タスクよりも、ドメイン固有の知識や動作をモデルに習得させることに重点を置いている場合。
Nova 1.0 で既にパフォーマンスを検証していて、追加の機能を必要としない場合。

注記

モデルが大きいほど良いとは限りません。Nova 1.0 モデルと Nova 2.0 モデルのどちらを選択するかは、コストパフォーマンスのトレードオフと特定のビジネス要件を考慮してください。

ブラウザで JavaScript が無効になっているか、使用できません。

AWS ドキュメントを使用するには、JavaScript を有効にする必要があります。手順については、使用するブラウザのヘルプページを参照してください。

ドキュメントの表記規則

トレーニング

Nova 1.0 の CPT