理解モデルを蒸留するためのデータの準備 - Amazon Nova

理解モデルを蒸留するためのデータの準備

最初のステップとして、テキスト理解のプロンプトのベストプラクティス に従って Amazon Nova Premier と Amazon Nova Pro で入力プロンプトを調整し、教師モデルを最大限に活用するようにプロンプトが最適化されていることを確認します。

独自のプロンプトを使用して蒸留ジョブの入力データセットを準備する場合は、以下の推奨事項に従ってください。

  • ラベル付けされていないプロンプトデータのみが利用可能な場合、モデルが学習しやすいように、厳選された高品質のラベル付きプロンプト/レスポンスのペアデータを少量 (10 まで) で補足します。高品質で代表的な例を少数送信する場合、教師モデルのパフォーマンスを超えるカスタムモデルを作成できます。

  • ラベル付けされたプロンプト/レスポンスのペアデータを利用できても、改善の余地がある場合、送信されたデータにレスポンスを含めてください。

  • ラベル付けされたプロンプト/レスポンスのペアデータを利用できても、ラベルの品質が低く、トレーニングは教師モデルに直接準拠させることが適している場合、データを送信する前にすべてのレスポンスを削除してください。

データセット形式の例

次のプロンプトは、モデル蒸留にラベル付きプロンプトとラベルなしプロンプトの両方を提供する方法の例を示しています。

ラベルのないプロンプトを使用した蒸留

{ "schemaVersion": "bedrock-conversation-2024", "system": [ { "text": "A chat between a curious User and an artificial intelligence Bot. The Bot gives helpful, detailed, and polite answers to the User's questions." } ], "messages": [ { "role": "user", "content": [ { "text": "Why is the sky blue?" } ] } ] }

ラベルのないプロンプトを使用した蒸留

{ "schemaVersion": "bedrock-conversation-2024", "system": [ { "text": "A chat between a curious User and an artificial intelligence Bot. The Bot gives helpful, detailed, and polite answers to the User's questions." } ], "messages": [ { "role": "user", "content": [ { "text": "Why is the sky blue?" } ] }, { "role": "assistant", "content": [ { "text": "The sky is blue because molecules in the air scatter blue light from the Sun more than other colors." } ] } ] }

データセットの制約

モデル蒸留を実行する場合、指定する必要があるプロンプトまたはプロンプトとレスポンスのペアの最小数と最大数があります。

項目

最小値

最大値

プロンプト

100

15K

プロンプトとレスポンスのペア

100

15K