Daten für die Destillation von Verständnismodellen vorbereiten - Amazon Nova

Daten für die Destillation von Verständnismodellen vorbereiten

Folgen Sie zunächst den Schritten unter Bewährte Methoden zu Textverständnis-Prompts und optimieren Sie Ihren Prompt mit Amazon Nova Premier und Amazon Nova Pro, um sicherzustellen, dass der Prompt optimal auf das Lehrermodell abgestimmt ist.

Beachten Sie bei der Vorbereitung Ihres Eingabedatensatzes für einen Destillationsauftrag mit Ihren eigenen Prompts die folgenden Empfehlungen:

  • Wenn nur ungekennzeichnete Prompt-Daten verfügbar sind, ergänzen Sie diese mit einer kleinen Menge (~10) kuratierter, hochwertiger gekennzeichneter Prompt-Antwort-Paar-Daten, um das Modell beim Lernen zu unterstützen. Wenn Sie eine kleine Anzahl hochwertiger, repräsentativer Beispiele einreichen, können Sie ein benutzerdefiniertes Modell erstellen, das die Leistung des Lehrermodells übertrifft.

  • Wenn gekennzeichnete Prompt-Antwort-Paar-Daten verfügbar sind, jedoch noch verbesserungswürdig sind, fügen Sie die Antworten in die übermittelten Daten ein.

  • Wenn gekennzeichnete Prompt-Antwort-Paar-Daten verfügbar sind, die Kennzeichnungen jedoch von schlechter Qualität sind und das Training besser direkt auf das Lehrermodell abgestimmt werden sollte, entfernen Sie bitte alle Antworten, bevor Sie die Daten übermitteln.

Beispieldatensatzformate

Die folgenden Prompts bieten Beispiele dafür, wie Sie sowohl gekennzeichnete als auch nicht gekennzeichnete Prompts für die Modelldestillation bereitstellen können.

Destillation mithilfe von nicht gekennzeichneten Prompts

{ "schemaVersion": "bedrock-conversation-2024", "system": [ { "text": "A chat between a curious User and an artificial intelligence Bot. The Bot gives helpful, detailed, and polite answers to the User's questions." } ], "messages": [ { "role": "user", "content": [ { "text": "Why is the sky blue?" } ] } ] }

Destillation mithilfe von gekennzeichneten Prompts

{ "schemaVersion": "bedrock-conversation-2024", "system": [ { "text": "A chat between a curious User and an artificial intelligence Bot. The Bot gives helpful, detailed, and polite answers to the User's questions." } ], "messages": [ { "role": "user", "content": [ { "text": "Why is the sky blue?" } ] }, { "role": "assistant", "content": [ { "text": "The sky is blue because molecules in the air scatter blue light from the Sun more than other colors." } ] } ] }

Einschränkungen für Datensätze

Bei der Modelldestillation müssen Sie eine Mindest- und eine Höchstanzahl an Prompts oder Prompt-Antwort-Paaren bereitstellen.

Item

Minimum

Maximum

Prompts

100

15 000

Prompt-Antwort-Paare

100

15 000