Evaluieren Sie Ihr RFT-Modell - Amazon Bedrock

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Evaluieren Sie Ihr RFT-Modell

Nachdem die Feinabstimmung der Bewehrung erfolgreich abgeschlossen wurde, können Sie die Leistung Ihres benutzerdefinierten Modells anhand mehrerer Bewertungsmethoden bewerten. Amazon Bedrock bietet integrierte Evaluierungstools, mit denen Sie Ihr RFT-Modell mit dem Basismodell vergleichen und Verbesserungen validieren können.

Bewertungsmethoden

Amazon Bedrock bietet verschiedene Möglichkeiten, die Leistung Ihres RFT-Modells zu bewerten.

Validierungsmetriken

Wenn Sie einen Validierungsdatensatz hochladen, werden Ihnen zwei zusätzliche Grafiken in den Trainingsmetriken angezeigt.

  • Prämien für die Validierung — Zeigt, wie gut sich Ihr Modell über Trainingsbeispiele hinaus generalisieren lässt. Niedrigere Werte als Trainingsbelohnungen sind normal und werden erwartet.

  • Länge der Validierungsepisoden — Durchschnittliche Antwortdauer bei bisher unbekannten Validierungsdaten. Zeigt, wie effizient Ihr Modell im Vergleich zu den Trainingsbeispielen auf neue Eingaben reagiert.

Testen Sie auf Playground

Verwenden Sie die Funktion „Test in Playground“ für schnelle Ad-hoc-Evaluierungen. Um die Funktion „Test in Playground“ verwenden zu können, muss die Inferenz eingerichtet werden. Weitere Informationen finden Sie unter Einrichtung von Inferenzen für die Bewertung.

Dieses interaktive Tool ermöglicht Ihnen:

  • Testen Sie Eingabeaufforderungen direkt mit Ihrem RFT-Modell

  • Vergleichen Sie die Antworten side-by-side zwischen Ihrem benutzerdefinierten Modell und dem Basismodell

  • Evaluieren Sie die Verbesserungen der Antwortqualität in Echtzeit

  • Experimentieren Sie mit verschiedenen Eingabeaufforderungen, um die Fähigkeiten des Modells zu beurteilen

Bewertung des Bedrock-Modells

Verwenden Sie die Model-Evaluierung von Amazon Bedrock, um Ihr RFT-Modell anhand Ihrer eigenen Datensätze zu bewerten. Dies bietet eine umfassende Leistungsanalyse mit standardisierten Metriken und Benchmarks. Hier sind einige Beispiele für die Vorteile der Amazon Bedrock Model Evaluation.

  • Systematische Bewertung anhand von benutzerdefinierten Testdatensätzen

  • Quantitative Leistungsvergleiche

  • Standardisierte Kennzahlen für eine konsistente Bewertung

  • Integration mit bestehenden Amazon Bedrock-Evaluierungsworkflows

Einrichtung von Inferenzen für die Bewertung

Bevor Sie Ihr RFT-Modell auswerten, richten Sie die Inferenz mit einer der folgenden Optionen ein:

On-Demand-Inferenz

Erstellen Sie ein benutzerdefiniertes Modell für die On-Demand-Bereitstellung für eine flexible Evaluierung. pay-per-use Diese Option beinhaltet eine tokenbasierte Preisgestaltung, bei der die Gebühren auf der Grundlage der Anzahl der während der Inferenz verarbeiteten Token berechnet werden.

Bewährte Verfahren für die Bewertung

  • Systematisch vergleichen — Bewerten Sie Ihr RFT-Modell immer anhand derselben Testaufforderungen und Bewertungskriterien mit dem Basismodell.

  • Verwenden Sie verschiedene Testfälle — Fügen Sie verschiedene Arten von Eingabeaufforderungen und Szenarien hinzu, die Ihre realen Anwendungsfälle repräsentieren.

  • Überprüfen Sie die Ausrichtung der Belohnungen — Stellen Sie sicher, dass Ihre Modellverbesserungen mit den während des Trainings verwendeten Belohnungsfunktionen übereinstimmen.

  • Testen Sie Randfälle — Evaluieren Sie das Modellverhalten bei schwierigen oder ungewöhnlichen Eingaben, um die Robustheit zu beurteilen.

  • Überwachen Sie die Konsistenz der Antworten — Stellen Sie sicher, dass Ihr Modell bei mehreren Durchläufen mit ähnlichen Eingabeaufforderungen eine gleichbleibende Qualität bietet.