Bewertungsmethoden Einrichtung von Inferenzen für die Bewertung Bewährte Verfahren für die Bewertung

Evaluieren Sie Ihr RFT-Modell

Nachdem die Feinabstimmung der Bewehrung erfolgreich abgeschlossen wurde, können Sie die Leistung Ihres benutzerdefinierten Modells anhand mehrerer Bewertungsmethoden bewerten. Amazon Bedrock bietet integrierte Evaluierungstools, mit denen Sie Ihr RFT-Modell mit dem Basismodell vergleichen und Verbesserungen validieren können.

Themen

Bewertungsmethoden
Einrichtung von Inferenzen für die Bewertung
Bewährte Verfahren für die Bewertung

Bewertungsmethoden

Amazon Bedrock bietet verschiedene Möglichkeiten, die Leistung Ihres RFT-Modells zu bewerten.

Validierungsmetriken

Wenn Sie einen Validierungsdatensatz hochladen, werden Ihnen zwei zusätzliche Grafiken in den Trainingsmetriken angezeigt.

Prämien für die Validierung — Zeigt, wie gut sich Ihr Modell über Trainingsbeispiele hinaus generalisieren lässt. Niedrigere Werte als Trainingsbelohnungen sind normal und werden erwartet.
Länge der Validierungsepisoden — Durchschnittliche Antwortdauer bei bisher unbekannten Validierungsdaten. Zeigt, wie effizient Ihr Modell im Vergleich zu den Trainingsbeispielen auf neue Eingaben reagiert.

Testen Sie auf Playground

Verwenden Sie die Funktion „Test in Playground“ für schnelle Ad-hoc-Evaluierungen. Um die Funktion „Test in Playground“ verwenden zu können, muss die Inferenz eingerichtet werden. Weitere Informationen finden Sie unter Einrichtung von Inferenzen für die Bewertung.

Dieses interaktive Tool ermöglicht Ihnen:

Testen Sie Eingabeaufforderungen direkt mit Ihrem RFT-Modell
Vergleichen Sie die Antworten side-by-side zwischen Ihrem benutzerdefinierten Modell und dem Basismodell
Evaluieren Sie die Verbesserungen der Antwortqualität in Echtzeit
Experimentieren Sie mit verschiedenen Eingabeaufforderungen, um die Fähigkeiten des Modells zu beurteilen

Bewertung des Bedrock-Modells

Verwenden Sie die Model-Evaluierung von Amazon Bedrock, um Ihr RFT-Modell anhand Ihrer eigenen Datensätze zu bewerten. Dies bietet eine umfassende Leistungsanalyse mit standardisierten Metriken und Benchmarks. Hier sind einige Beispiele für die Vorteile der Amazon Bedrock Model Evaluation.

Systematische Bewertung anhand von benutzerdefinierten Testdatensätzen
Quantitative Leistungsvergleiche
Standardisierte Kennzahlen für eine konsistente Bewertung
Integration mit bestehenden Amazon Bedrock-Evaluierungsworkflows

Einrichtung von Inferenzen für die Bewertung

Bevor Sie Ihr RFT-Modell auswerten, richten Sie die Inferenz mit einer der folgenden Optionen ein:

On-Demand-Inferenz

Erstellen Sie ein benutzerdefiniertes Modell für die On-Demand-Bereitstellung für eine flexible Evaluierung. pay-per-use Diese Option beinhaltet eine tokenbasierte Preisgestaltung, bei der die Gebühren auf der Grundlage der Anzahl der während der Inferenz verarbeiteten Token berechnet werden.

Bewährte Verfahren für die Bewertung

Systematisch vergleichen — Bewerten Sie Ihr RFT-Modell immer anhand derselben Testaufforderungen und Bewertungskriterien mit dem Basismodell.
Verwenden Sie verschiedene Testfälle — Fügen Sie verschiedene Arten von Eingabeaufforderungen und Szenarien hinzu, die Ihre realen Anwendungsfälle repräsentieren.
Überprüfen Sie die Ausrichtung der Belohnungen — Stellen Sie sicher, dass Ihre Modellverbesserungen mit den während des Trainings verwendeten Belohnungsfunktionen übereinstimmen.
Testen Sie Randfälle — Evaluieren Sie das Modellverhalten bei schwierigen oder ungewöhnlichen Eingaben, um die Robustheit zu beurteilen.
Überwachen Sie die Konsistenz der Antworten — Stellen Sie sicher, dass Ihr Modell bei mehreren Durchläufen mit ähnlichen Eingabeaufforderungen eine gleichbleibende Qualität bietet.

Warnung JavaScript ist in Ihrem Browser nicht verfügbar oder deaktiviert.

Zur Nutzung der AWS-Dokumentation muss JavaScript aktiviert sein. Weitere Informationen finden auf den Hilfe-Seiten Ihres Browsers.

Dokumentkonventionen

Erstellen Sie Aufträge zur Feinabstimmung

Destillation