翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。
継続的なトレーニング前およびトレーニング中
注記
詳細なドキュメントは、サブスクライブ後に提供されます。
Nova Forge CPT は、中間チェックポイントへのアクセスや Nova の事前トレーニングコーパスとのデータミキシングなど、標準 CPT を超える高度な機能を提供します。これらの機能により、ドメインの適応が効率化され、モデルの一般的な機能の保存が向上します。
中間チェックポイントとは何ですか? なぜそれらが必要なのですか?
中間チェックポイントは、モデルが最終的な本番稼働準備状態に達する前に、事前トレーニングのさまざまな段階で保存された Amazon Nova モデルのスナップショットです。モデル開発中、Amazon Nova は、一定の学習レートによる初期事前トレーニング、学習レートのランプダウン、コンテキスト拡張トレーニング、最後に指示に従った調整と安全トレーニングという複数のトレーニングフェーズを受けます。CPT の場合、中間チェックポイントは、よりプラスチックでドメイン適応を受け入れるため、最終的な Prod チェックポイントよりも望ましいことがよくあります。Prod チェックポイントは、広範な指示に従った調整と安全トレーニングを受けています。これにより、一般的な会話用途に合わせてモデルを最適化できますが、CPT 中に新しいドメイン固有のパターンを学習するのに抵抗する可能性があります。対照的に、部分的および完全に事前トレーニングされたテキストのみのチェックポイントは、モデルの事前トレーニング特性を保持します。特定の動作に大きく誘導されていないため、ドメイン適応の開始点がより効率的になります。大規模な CPT (>10B トークン) を実行する場合、中間チェックポイントから開始すると、通常、収束が速くなり、トレーニングの安定性が向上し、ドメイン知識の取得がより効果的になります。ただし、小規模 CPT (<10B トークン) の場合、または指示に従う機能を保持する必要がある場合は、モデルの会話能力を維持しながらドメインの適応を可能にするため、Prod チェックポイントが適している場合があります。
CPT には複数の中間チェックポイントが必要です。これは、モデルが新しいドメイン知識をどの程度効率的に吸収できるかに影響する、さまざまなレベルのモデル可搬性を提供するためです。最終的な Prod チェックポイントは、広範な指示に従った調整と安全トレーニングを受けており、一般的な会話用途向けに最適化されていますが、新しいドメイン固有のパターンの学習には耐性があります。つまり、トレーニング後に強化されています。対照的に、以前のチェックポイントはモデルのトレーニング前特性を保持し、特定の動作に大きく誘導されていないため、よりプラスチックで、ドメインの適応を受け入れます。
最適なトレーニング効率を実現するために、複数の中間チェックポイントが用意されています。
どのようなチェックポイントを利用できますか?
ノバ 1.0
Amazon Nova 1.0 ファミリーには 3 つのモデル (Micro、Lite、Pro) があり、モデルごとに 3 つのチェックポイントを使用できます。
-
PRE-TRAINED - [
nova-<micro/lite/pro>/pretraining-text-partial]: これは、Amazon Nova 事前トレーニングの定常学習レート段階の後のチェックポイントで、モデルは数兆のテキストトークンでトレーニングされます。 -
MID-TRAINED - [
nova-<micro/lite/pro>/pretraining-text-full]: これは、何兆ものテキストトークンを使用した Amazon Nova 事前トレーニングと中間トレーニングのすべての段階が完了した後のテキストのみのチェックポイントです。モデルが特にマルチモーダルデータを表示すべきではない場合に使用します。 -
MID-TRAINED - [
nova-<lite/pro>/pretraining-mm-full]: これは、マルチモーダルデータを含む Amazon Nova の事前トレーニングと中間トレーニングのすべてのステージと、何兆ものトークンが処理された後のチェックポイントです。 -
POST-TRAINED - [
nova-<micro/lite/pro>/prod]: これは、トレーニング前とトレーニング後のすべてのステップを経たモデルの完全に調整された最終チェックポイントです。
ノバ 2.0
Amazon Nova Lite 2.0 チェックポイントは 3 つあります。
-
PRE-TRAINED - [
nova-lite-2/pretraining-text-RD]: これは、モデルが何兆ものトークンでトレーニングされる Amazon Nova 事前トレーニングの一定の学習レートとランプダウンステージ後のチェックポイントです。 -
MID-TRAINED - [
nova-lite-2/pretraining-text-CE]: このチェックポイントでは、事前トレーニングよりも保守的な学習率で中間量の非構造化データを導入し、壊滅的な忘れを回避しながらドメイン固有の知識を吸収できます。 -
POST-TRAINED - [
nova-lite-2/prod]: これは、関連するトレーニングステップとトレーニング後のステップをすべて完了した、モデルの完全に調整された最終チェックポイントです。
次の表では、トレーニング前とトレーニング中のさまざまな条件について詳しく説明します。
データタイプ |
実行 |
チェックポイントを使用する |
|---|---|---|
大規模な非構造化 raw ドメインデータ (ドキュメント、ログ、記事、コードなど) |
継続的な事前トレーニング |
事前トレーニング済み |
大規模な非構造化 raw ドメインデータ (ドキュメント、ログ、記事、コードなど) |
トレーニング中 |
事前トレーニング済み |
非構造化 raw データの量が少ない。構造化推論トレース/CoT データ |
トレーニング中 |
トレーニング中 |
構造化デモンストレーション (高品質の入出力ペア、厳選されたタスク手順、マルチターンダイアログ) |
フルファインチューニング |
トレーニング中 |
構造化デモンストレーション (高品質の入出力ペア、厳選されたタスク手順、マルチターンダイアログ) |
パラメータの効率的なファインチューニング |
トレーニング後 |
どのチェックポイントを使用しますか?
部分的に事前トレーニングされたテキストのみと完全に事前トレーニングされたテキストのみのチェックポイントは、通常、より速く収束し、ドメイン適応のためのトレーニングステップが少なくなります。ただし、指示調整がないため、有用なタスクを実行して指示に従うには、トレーニング後のステップを行う必要があります。GA チェックポイントは、適応するためにより多くのステップが必要になる場合がありますが、小規模な実験のためのより安全な出発点を提供し、CPT トレーニング後もトレーニング後の機能の一部を維持します。
一般に、大規模なトレーニングデータセット (>10B トークン) では、モデルのナレッジベースが大幅に変更されるため、トレーニング済みの部分的なテキストのみまたは完全にトレーニング済みのテキストのみのチェックポイントから開始して、より効率的で安定したトレーニングを行います。小さなデータセット (<10B トークン) では、GA チェックポイントを使用して、ドメインに適応しながら指示に従う機能を保持します。
1.0 モデルまたは 2.0 モデルでデータミキシングを使用する方法
新しいドメインデータで CPT を実行する場合、新しいデータと、モデルのトレーニング前段階で以前に使用したデータの一部を組み合わせることが非常に有益です。古いデータと新しいドメインデータを混在させると、次の 2 つの問題が解決します。
-
コントロールを忘れる: モデルの既存のスキルと知識を維持することで、壊滅的な忘れを防止します。データミキシングがない場合、狭いドメインデータでのみトレーニングすると、モデルは一般的な機能を上書きします。例えば、法的文書でのみトレーニングされたモデルは、コーディングや数学を行う能力を失う可能性があります。一般的なドメインデータセットを混在させると、新しいドメインを取得しながら、これらの一般的なスキルが保持されます。
-
最適化の安定性: モデルの内部表現を固定することで、トレーニングの安定性を維持します。CPT 中、モデルの学習された特徴が変更され、データミキシングは、この適応をスムーズに導くさまざまなソースからの勾配を提供します。そうしないと、狭い分布でトレーニングすると勾配が不安定になり、モデルの表現が急激にシフトしすぎて、トレーニングの相違、損失の急増、既存の機能の折りたたみにつながる可能性があります。これは安定性と古さのトレードオフです。モデルは、新しいドメインの知識を学習するのに十分なプラスチックでなければなりませんが、すでにわかっていることを壊さないほど安定している必要があります。
Nova CPT データ混合機能
Amazon Nova の事前トレーニングデータとチェックポイントへのアクセスは、Amazon Nova CPT カスタマイズの中核となるサービスです。Amazon Nova CPT のカスタマイズにより、ドメインデータを Amazon Nova のトレーニング前コーパスと簡単に混在させることができます。さらに、特定の Amazon Nova データカテゴリ (コード、数学、推論など) のサンプリング比率を変更し、それらの比率をドメインデータを補完するように制御できます。これにより、モデルを特定のドメインに適応させながら、ユースケースに沿った機能を強化できます。
最適な混合比率を見つける
Amazon Nova データとドメインデータの最適な比率は、データセットのドメイン、複雑さ、サイズ、品質、一般的な機能を維持することの重要性によって異なります。この比率は、実験を通じて検出する必要があります。混合する Amazon Nova データの量を決定する実験フレームワークは次のとおりです。
ドメインデータの代表的なサブセット (5B トークンなど) を選択し、すべての実験実行でこの定数を維持します。
Amazon Nova データの量だけが異なる小規模な CPT 実験を実行します。
-
ミキシングなし: 100% ドメイン → 5B ドメインのみ (合計 5B)
-
ライトミキシング: 90% ドメイン → 5B ドメイン + ~0.56B Amazon Nova (合計 ~5.56B)
-
中混合: 70% ドメイン → 5B ドメイン + ~2.14B Amazon Nova (合計 ~7.14B)
-
ヘビーミキシング: 50% ドメイン → 5B ドメイン + 5B Amazon Nova (合計 10B)
ドメインおよび一般的なドメインベンチマークで の各チェックポイントを評価します。また、開始チェックポイント (トレーニング前の Amazon Nova チェックポイント) も評価します。
-
カスタマードメインのパフォーマンスは、実行間でほぼ一定に保たれていますか? 通常、各実行で同じ数のドメイントークンが検出されたためです。混合が多いほどドメインのパフォーマンスが向上した場合、Amazon Nova データは便利な正規化を提供します。
-
ミキシングが増加するにつれて、一般的なベンチマークスコアは向上しますか?
-
予想される動作は、Amazon Nova データが追加されるにつれて、一般的な機能が単調に改善されることです。
-
MMLU (一般的な知識)、HumanEval (コーディング)、GSM8K (数学)、または関心のある特定のベンチマークなど、複数の一般的なベンチマークを測定します。
-
-
ユースケースで許容可能な一般的な機能を提供しながら、ドメインのパフォーマンスを維持する混合比率を選択します。より多くのデータミキシングによるトレーニングの追加コストを考慮します。
最適なミキシング比率を特定したら、選択したミキシング比率で完全なドメインデータセットを使用してフルスケール CPT を実行します。
制限事項
現在の CPT はテキストデータのみをサポートし、顧客のマルチモーダルデータセットはサポートしていません。