Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.
Validieren der Testergebnisse Ihrer Automated-Reasoning-Richtlinie
Nach Abschluss eines Tests erhalten Sie eine Reihe von Validierungsergebnissen, anhand derer Sie die Leistung Ihrer Automated-Reasoning-Richtlinie nachvollziehen können.
Ein Test enthält die folgenden Informationen:
-
Abfrage und Inhalt: Eine Frage, die ein Benutzer Ihrer GenAI-Anwendung stellen könnte, sowie eine mögliche Antwort. Diese werden von Ihnen definiert, wenn Sie den Test manuell erstellen. Diese werden von Automated Reasoning definiert, wenn Sie Testszenarien generiert haben.
-
Konfidenzschwellenwert: Der Konfidenzschwellenwert für die Logikvalidierung, die Sie für Ihren Test festgelegt haben. Dieser Schwellenwert bestimmt, wie Automated Reasoning Unsicherheiten bei der Übersetzung von natürlicher Sprache in formale Logik behandelt. Inhalte, die den Schwellenwert erreichen oder überschreiten, gelten als Ergebnisse mit hoher Konfidenz, die mit einem eindeutigen Ergebnis („VALID“ oder „INVALID“) validiert werden können. Bei Inhalten, die unter den Schwellenwert fallen, handelt es sich um ein Ergebnis mit geringer Konfidenz, das als „TRANSLATION_AMBIGUOUS“ gekennzeichnet ist. Dies bedeutet, dass das System eine Mehrdeutigkeit erkannt und kein potenziell falsches Überprüfungsergebnis bereitgestellt hat.
-
Validierungsergebnisse:
-
Erwartetes Ergebnis: Das Ergebnis, das Sie bei der Ausführung des Tests erwarten.
-
Tatsächliches Ergebnis: Das Ergebnis der Ausführung des Tests.
-
Ausführungsergebnis: Gibt an, ob der Test bestanden wurde. Wenn die erwarteten und tatsächlichen Ergebnisse übereinstimmen, wurde der Test bestanden. Falls nicht, ist der Test fehlgeschlagen.
-
-
Ergebnisse: Das Ergebnis des Tests einer Automated-Reasoning-Richtlinie ist eine Reihe von Ergebnissen. Die Ergebnisse stellen faktische Aussagen dar, die in Ihrer Testfrage und -antwort enthalten sind. Anhand dieser Informationen können Sie nachvollziehen, warum ein Test bestanden oder nicht bestanden wurde.
-
Typ: Übersetzungen können eine Kombination aus Behauptungen und Prämissen enthalten.
-
Prämissen: Hiermit werden der Kontext, Annahmen oder Bedingungen bereitgestellt, die sich darauf auswirken, wie eine Behauptung ausgewertet werden sollte. Bei question-and-answer Formaten ist die Prämisse oft die Frage selbst. Antworten können auch Prämissen enthalten, die Einschränkungen oder Bedingungen festlegen. Zum Beispiel bei der Frage „Welche Zahlen sind durch 2 teilbar?“ und der Antwort „Gerade Zahlen“, lautet die Prämisse „durch 2 teilbare Zahlen“. In der Aussage „Wenn die Ampel grün wird, musst du gehen“ lautet die Prämisse „Die Ampel ist grün“.
-
Behauptungen: Faktische Aussagen, deren Genauigkeit von Automated Reasoning ausgewertet wird. In einem question-and-answer Format ist der Anspruch in der Regel die Antwort. In einer eigenständigen Aussage ist die Behauptung die Tatsache, die bestätigt wird. Zum Beispiel bei der Frage „Welche Zahlen sind durch 2 teilbar?“ und der Antwort „Gerade Zahlen“ lautet die Behauptung „gerade Zahlen“.
-
-
Ergebnis: Gibt die Gültigkeit der Behauptungen eines Ergebnisses an. Weitere Informationen finden Sie unter Ergebnisse der Testvalidierung.
-
Konfidenz: Der Konfidenzwert (im Bereich von 0,0 bis 1,0), den Automated Reasoning für die Übersetzung von natürlicher Sprache in formale Logik vergibt und der angibt, wie sicher das System hinsichtlich der korrekten Interpretation des Eingabetextes ist. Höhere Werte weisen auf eine größere Sicherheit bei der Übersetzung hin. Wenn eine Übersetzung beispielsweise eine Konfidenz von „1,0“ aufweist, bedeutet dies, dass mit maximaler Sicherheit davon ausgegangen werden kann, dass die natürliche Sprache korrekt in formale Logik umgewandelt wurde. Niedrigere Konfidenzwerte deuten darauf hin, dass das System eine gewisse Unsicherheit in Bezug auf die Übersetzung hat, die Sie möglicherweise überprüfen möchten.
-
Zuweisungen: Variable Zuweisungen aus Ihrer Richtlinie, die belegen, dass das Ergebnis gültig ist oder nicht. Übersetzungen enthalten logische Aussagen, die zeigen, wie die natürliche Sprache in formale Logik umgewandelt wurde. Diese können komplexer sein, wenn eine verschachtelte Logik vorliegt. Beispiel,
hasDogHistoryOfAggression is false. -
Regeln: Die aus Ihrer Richtlinie extrahierte Logik, die das Ergebnis unterstützt. Ein Test stellt genügend relevante Regeln aus Ihrer Richtlinie bereit, um das Ergebnis besser nachvollziehen zu können.
-
Ergebnisse der Testvalidierung
In der folgenden Liste werden mögliche Validierungsergebnisse eines Automated-Reasoning-Richtlinientests aufgeführt:
VALID-
Die Prämissen und Behauptungen in der Antwort des Modells stimmen logisch mit Ihren Versicherungsregeln überein, können mathematisch als richtig nachgewiesen werden und können nicht anhand einer der Regeln in der Richtlinie widerlegt werden. Die Antwort hält alle geltenden logischen Einschränkungen korrekt ein, und die Argumentation von den Prämissen zu den Schlussfolgerungen ist stichhaltig.
Beispiel: Wenn Ihre Police eine einzige Regel enthält, die besagt, dass „Mitarbeiter mit mehr als einem Jahr Betriebszugehörigkeit Elternzeit erhalten“ und das Modell antwortet: „Sie haben Anspruch auf Elternzeit, weil Sie 18 Monate hier gearbeitet haben“, wäre dies GÜLTIG, da 18 Monate die Frist von einem Jahr überschreiten.
Anmerkung
VALIDgarantiert, dass nur Teile der Daten gültig sind, die anhand von politischen Variablen in den Prämissen und Behauptungen des BefundesVALIDerfasst wurden. Zum Beispiel könnte die Aussage „Ich kann meine Hausaufgabe zu spät einreichen, weil ich ein falsches ärztliches Attest habe“ als gültig erachtet werden, weil die Richtlinie keine Variable enthält, mit der erfasst werden kann, ob das ärztliche Attest gefälscht ist oder nicht. In einigen Fällen können automatische Prüfungen der Argumentation dazu führen, dass es sich bei diesen Aussagen um nicht übersetzte Prämissen oder Behauptungen im Ergebnis handelt. INVALID-
Die Behauptungen in der Antwort des Modells widersprechen Ihren Richtlinienregeln oder verletzen diese. Die Antwort enthält Aussagen, die basierend auf den formalen logischen Einschränkungen Ihrer Richtlinie mathematisch als falsch nachweisbar sind.
Beispiel: Wenn Ihre Richtlinie „Mitarbeiter mit mehr als einem Jahr Betriebszugehörigkeit können Elternzeit nehmen“ und die Antwort des Modells „Sie haben Anspruch auf Elternzeit, obwohl Sie hier nur drei Monate gearbeitet haben“ lautet, wäre das Ergebnis „INVALID“, da drei Monate nicht die Anforderung von einem Jahr erfüllen.
SATISFIABLE-
Die Behauptungen stimmen mit mindestens einer möglichen Interpretation Ihrer Richtlinienregeln überein, beziehen sich jedoch möglicherweise nicht auf alle relevanten Regeln. Das bedeutet, dass die Antwort nicht im Widerspruch zu Ihrer Richtlinie steht, aber möglicherweise nicht alle geltenden Einschränkungen vollständig berücksichtigt werden.
Beispiel: Wenn Ihre Richtlinie „Mitarbeiter müssen mindestens ein Jahr im Unternehmen beschäftigt sein, um Elternzeit nehmen zu können, und das Formular HR-101 einreichen“ und die Antwort des Modells „Sie haben Anspruch auf Elternzeit, da Sie seit zwei Jahren hier arbeiten“ lautet, wäre das Ergebnis „SATISFIABLE“, da die Antwort die Leistungsanforderung korrekt behandelt, die Formularanforderung jedoch nicht erwähnt (ohne ihr zu widersprechen).
IMPOSSIBLE-
Automated Reasoning kann keine Aussage zu den Behauptungen treffen. Dies kann der Fall sein, wenn die Prämissen miteinander in Konflikt stehen oder wenn innerhalb der Richtlinie für automatisiertes Denken selbst ein Konflikt besteht.
Beispiel: Wenn Ihre Richtlinie widersprüchliche Regeln wie „Alle Mitarbeiter haben Urlaubstage“ und „Keine Mitarbeiter haben Urlaubstage“ enthält oder wenn die Testfrage unmögliche Prämissen wie „Ich bin ein Vollzeitbeschäftigter und auch Teilzeit, auf welche Leistungen habe ich Anspruch?“ enthält? , das Ergebnis wäre UNMÖGLICH, weil die logische Grundlage fehlerhaft ist.
TRANSLATION_AMBIGUOUS-
Wenn in der Übersetzung eine Mehrdeutigkeit festgestellt wurde, wäre es nicht sinnvoll, mit der Gültigkeitsprüfung fortzufahren. Möglicherweise sind zusätzliche Kontext- oder Folgefragen erforderlich, damit die Übersetzung erfolgreich ist.
Beispiel: Wenn Ihre Testfrage „Können sie Urlaub nehmen?“ lautet und nicht angegeben ist, auf wen sich „sie“ bezieht, oder wenn die Modellantwort mehrdeutige Pronomen wie „Das hängt von ihrer Situation ab“ ohne klare Verweise verwendet, würde das Ergebnis „TRANSLATION_AMBIGUOUS“ lauten, da das System die vage Sprache nicht zuverlässig in formale Logik übersetzen kann.
TOO_COMPLEX-
Die Eingabe enthält zu viele Informationen, als dass Automated Reasoning sie innerhalb der Latenzgrenzen verarbeiten könnte.
Beispiel: Wenn Ihr Test eine extrem lange Modellantwort mit Hunderten von miteinander verbundenen Behauptungen zu Mitarbeitervergütungen, Urlaubsregelungen, Krankenversicherung, Altersvorsorge und Leistungsbeurteilungen in einer einzigen Antwort enthält, könnte das Ergebnis „TOO_COMPLEX“ lauten, da die logische Analyse die Grenzwerte für die Verarbeitungszeit überschreiten würde.
NO_TRANSLATIONS-
Gibt an, dass der Prompt teilweise oder vollständig nicht logisch übersetzt wurde. Dies kann der Fall sein, wenn die Eingabe für die Automated-Reasoning-Richtlinie nicht relevant ist oder wenn die Richtlinie keine Variablen zur Modellierung relevanter Eingaben aufweist. Wenn Automated Reasoning nichts übersetzen kann, erhalten Sie ein einzelnes
NO_TRANSLATIONS-Ergebnis. Möglicherweise wird auchNO_TRANSLATIONS(zusammen mit anderen Ergebnissen) angezeigt, wenn ein Teil der Validierung nicht übersetzt wurde.Beispiel: Wenn Ihre HR-Richtlinie darauf ausgelegt ist, Mitarbeitervergütungen zu validieren, Ihre Testfrage jedoch „Wie ist das Wetter heute?“ oder „Wie koche ich Nudeln?“ lautet, würde das Ergebnis „NO_TRANSLATIONS“ lauten, da der Inhalt in keinem Zusammenhang mit der Domain und den Variablen Ihrer Richtlinie steht.