Die Leistung von Amazon-Bedrock-Ressourcen bewerten
Verwenden Sie Amazon-Bedrock-Bewertungen, um die Leistung und Effektivität von Amazon-Bedrock-Modellen und Wissensdatenbanken sowie von Modellen und Retrieval Augmented Generation (RAG)-Quellen außerhalb von Amazon Bedrock zu bewerten. Amazon Bedrock kann Leistungsmetriken wie die semantische Robustheit eines Modells und die Richtigkeit einer Wissensdatenbank beim Abrufen von Informationen und Generieren von Antworten berechnen. Bei Modellbewertungen können Sie auch ein Team von menschlichen Mitarbeitenden einsetzen, um die Bewertung zu beurteilen und zu kommentieren.
Automatische Bewertungen, einschließlich solcher, bei denen große Sprachmodelle (LLMs) zum Einsatz kommen, führen zu berechneten Ergebnissen und Metriken, anhand derer Sie die Effektivität eines Modells und einer Wissensdatenbank bewerten können. Bei menschenbasierten Bewertungen wird ein Team von Personen eingesetzt, die ihre Bewertungen und Präferenzen in Bezug auf bestimmte Metriken äußern.
Überblick: Automatische Aufträge zur Modellbewertung
Mit automatischen Aufträgen zur Modellbewertung können Sie schnell bewerten, ob ein Modell in der Lage ist, eine Aufgabe auszuführen. Sie können entweder Ihren eigenen benutzerdefinierten Prompt-Datensatz bereitstellen, den Sie auf einen bestimmten Anwendungsfall zugeschnitten haben, oder Sie können einen verfügbaren integrierten Datensatz verwenden.
Überblick: Aufträge zur Modellbewertung unter Einsatz menschlicher Mitarbeiter
Aufträge zur Modellbewertung, bei denen menschliche Mitarbeiter eingesetzt werden, ermöglichen es Ihnen, menschliche Eingaben in den Modellbewertungsprozess einzubringen. Dabei kann es sich um Mitarbeiter Ihres Unternehmens oder eine Gruppe von Experten aus Ihrer Branche handeln.
Überblick: Aufträge zur Modellbewertung unter Einsatz eines Judge-Modells
Mit Aufträgen zur Modellbewertung, die ein Judge-Modell verwenden, können Sie die Antworten eines Modells schnell bewerten, indem Sie ein zweites LLM verwenden. Das zweite LLM bewertet jede Antwort und liefert eine Erklärung dazu.
Überblick über RAG-Bewertungen, die große Sprachmodelle (LLMs) verwenden
LLM-basierte Bewertungen berechnen Leistungsmetriken für die Wissensdatenbank. Die Metriken zeigen, ob eine RAG-Quelle oder Amazon Bedrock Knowledge Base in der Lage ist, hochrelevante Informationen abzurufen und sinnvolle, passende Antworten zu generieren. Sie stellen einen Datensatz bereit, der die Prompts oder Benutzeranfragen enthält, anhand derer bewertet werden kann, wie eine Wissensdatenbank Informationen abruft und Antworten auf diese Anfragen generiert. Der Datensatz muss auch Referenzdaten (Ground Truth) oder die erwarteten abgerufenen Texte und Antworten auf die Anfragen enthalten, damit bei der Bewertung überprüft werden kann, ob Ihre Wissensdatenbank den Erwartungen entspricht.
Im folgenden Thema finden Sie weitere Informationen zur Erstellung Ihres ersten Auftrags zur Modellbewertung.
Unterstützung von Aufträgen zur Modellbewertung mit folgenden Amazon-Bedrock-Modelltypen:
-
Basismodelle
Modelle von Amazon Bedrock Marketplace
-
Benutzerdefinierte Basismodelle
-
Importierte Basismodelle
-
Prompt-Router
-
Modelle, für die Sie bereitgestellten Durchsatz erworben haben
Themen
Erstellen eines automatischen Auftrags zur Modellbewertung in Amazon Bedrock
Erstellen eines Auftrags zur Modellbewertung mit menschlichen Mitarbeitenden in Amazon Bedrock
Die Modellleistung mit einem anderen LLM-as-a-Judge bewerten
Die Leistung von RAG-Quellen mithilfe von Amazon-Bedrock-Bewertungen auswerten
Erforderliche Cross Origin Resource Sharing (CORS)-Berechtigungen für S3-Buckets
Überprüfen der Berichte zu Modellbewertungsaufträgen und Metriken in Amazon Bedrock
Datenverwaltung und -verschlüsselung in Amazon-Bedrock-Bewertungsaufträgen
CloudTrail-Verwaltungsereignisse in Aufträgen zur Modellbewertung