Bestätigen Sie die Testergebnisse Ihrer Automated Reasoning-Richtlinie - Amazon Bedrock

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Bestätigen Sie die Testergebnisse Ihrer Automated Reasoning-Richtlinie

Wenn ein Test abgeschlossen ist, erhalten Sie eine Reihe von Validierungsergebnissen, anhand derer Sie sich ein Bild davon machen können, wie Ihre Richtlinie für automatisiertes Denken funktioniert.

Ein Test umfasst die folgenden Informationen:

  • Anfrage und Inhalt: Eine Frage, die ein Benutzer Ihrer GenAI-Anwendung stellen könnte, und eine mögliche Antwort. Sie definieren diese, wenn Sie den Test manuell erstellen. Automated Reasoning definiert diese, wenn Sie Testszenarien generiert haben.

  • Konfidenzschwelle: Das Mindestkonfidenzniveau für die Logikvalidierung, das Sie für Ihren Test festgelegt haben. Dieser Schwellenwert bestimmt, wie Automated Reasoning mit Unsicherheiten bei der Übersetzung natürlicher Sprache in formale Logik umgeht. Inhalte, die den Schwellenwert erreichen oder überschreiten, gelten als Ergebnis mit hoher Zuverlässigkeit, das mit einem definitiven Ergebnis (GÜLTIG oder UNGÜLTIG) validiert werden kann. Bei Inhalten, die unter den Schwellenwert fallen, handelt es sich um ein Ergebnis mit geringer Zuverlässigkeit, das als TRANSLATION_AMBIGUIUS gekennzeichnet ist. Dies bedeutet, dass das System Mehrdeutigkeit erkannt und sich entschieden hat, kein potenziell falsches Überprüfungsergebnis zu liefern.

  • Ergebnisse der Validierung:

    • Erwartetes Ergebnis: Das Ergebnis, das Sie von der Ausführung des Tests erwarten.

    • Tatsächliches Ergebnis: Das Ergebnis der Ausführung des Tests.

    • Ausführungsergebnis: Gibt an, ob der Test bestanden wurde. Wenn die erwarteten und tatsächlichen Ergebnisse übereinstimmen, wurde der Test bestanden. Wenn nicht, ist der Test fehlgeschlagen.

  • Ergebnisse: Das Ergebnis eines Richtlinientests für automatisiertes Denken ist eine Reihe von Ergebnissen. Die Ergebnisse stellen Tatsachenaussagen dar, die in Ihrer Testfrage und -antwort enthalten sind. Anhand dieser Informationen können Sie nachvollziehen, warum ein Test bestanden oder nicht bestanden hat.

    • Art: Übersetzungen können eine Kombination aus Behauptungen und Prämissen enthalten.

      • Prämissen: Stellt den Kontext, Annahmen oder Bedingungen bereit, die sich darauf auswirken, wie ein Anspruch bewertet werden sollte. Bei question-and-answer Formaten ist die Prämisse oft die Frage selbst. Antworten können auch Prämissen enthalten, die Einschränkungen oder Bedingungen festlegen. Zum Beispiel bei der Frage „Welche Zahlen sind durch 2 teilbar?“ und antworte: „Gerade Zahlen“, die Prämisse lautet „Zahlen teilbar durch 2“. In der Aussage „Wenn die Ampel grün wird, musst du gehen“ lautet die Prämisse „Die Ampel ist grün“.

      • Behauptungen: Tatsachenaussagen, deren Richtigkeit bei Automated Reasoning geprüft wird. In einem question-and-answer Format ist die Behauptung in der Regel die Antwort. In einer eigenständigen Erklärung ist die Behauptung die Tatsache, die behauptet wird. Zum Beispiel in der Frage „Welche Zahlen sind durch 2 teilbar?“ und antworte: „Gerade Zahlen“, die Behauptung lautet „gerade Zahlen“.

    • Ergebnis: Gibt an, wie stichhaltig die Behauptungen eines Ergebnisses sind. Weitere Informationen finden Sie unter Ergebnisse der Testvalidierung.

    • Konfidenz: Der Konfidenzwert (im Bereich von 0,0 bis 1,0), den Automated Reasoning bei der Übersetzung von natürlicher Sprache in formale Logik hat. Er gibt an, wie sicher das System ist, den Eingabetext richtig zu interpretieren. Höhere Werte bedeuten eine größere Sicherheit bei der Übersetzung. Wenn eine Übersetzung beispielsweise eine Konfidenz von „1,0“ hat, bedeutet dies, dass die natürliche Sprache mit größter Sicherheit korrekt in formale Logik umgewandelt wurde. Niedrigere Konfidenzwerte deuten darauf hin, dass das System eine gewisse Unsicherheit in Bezug auf die Übersetzung hat, die Sie möglicherweise überprüfen möchten.

    • Zuweisungen: Variable Zuweisungen aus Ihrer Police, die belegen, dass das Ergebnis gültig ist oder nicht. Übersetzungen enthalten logische Aussagen, die zeigen, wie die natürliche Sprache in formale Logik umgewandelt wurde. Diese können komplexer sein, wenn es eine verschachtelte Logik gibt. Beispiel, hasDogHistoryOfAggression is false.

    • Regeln: Die aus Ihrer Richtlinie extrahierte Logik, die das Ergebnis unterstützt. Ein Test liefert Ihnen genügend relevante Regeln aus Ihrer Richtlinie, um das Ergebnis der Untersuchung besser nachvollziehen zu können.

Ergebnisse der Testvalidierung

In der folgenden Liste sind mögliche Validierungsergebnisse aus einem Automated Reasoning-Richtlinientest aufgeführt:

VALID

Die Behauptungen in der Antwort des Modells stimmen logisch mit Ihren Versicherungsregeln überein und können mathematisch bewiesen werden, dass sie korrekt sind. Die Antwort entspricht korrekt allen geltenden logischen Einschränkungen, und die Argumentation von Prämissen zu Schlussfolgerungen ist stichhaltig.

Beispiel: Wenn in Ihrer Police angegeben ist, dass „Mitarbeiter mit mehr als einem Jahr Betriebszugehörigkeit Elternzeit erhalten“ und das Modell antwortet: „Sie haben Anspruch auf Elternzeit, weil Sie hier 18 Monate gearbeitet haben“, wäre dies GÜLTIG, da 18 Monate die Frist von einem Jahr überschreiten.

INVALID

Die Angaben in der Antwort des Modells widersprechen Ihren Versicherungsregeln oder verstoßen gegen diese. Die Antwort enthält Aussagen, die auf der Grundlage der formalen logischen Einschränkungen Ihrer Richtlinie mathematisch als falsch nachweisbar sind.

Beispiel: Wenn in Ihrer Police steht, dass „Mitarbeiter mit mehr als einem Jahr Betriebszugehörigkeit Elternzeit erhalten“ und das Modell antwortet: „Sie haben Anspruch auf Elternzeit, obwohl Sie hier nur 3 Monate gearbeitet haben“, wäre dies UNGÜLTIG, da 3 Monate nicht der einjährigen Anforderung entsprechen.

SATISFIABLE

Die Behauptungen stimmen mit mindestens einer möglichen Interpretation Ihrer Versicherungsregeln überein, beziehen sich jedoch möglicherweise nicht auf alle relevanten Regeln. Das bedeutet, dass die Antwort nicht im Widerspruch zu Ihren Richtlinien steht, aber möglicherweise nicht alle geltenden Einschränkungen vollständig berücksichtigt werden.

Beispiel: Wenn in Ihrer Versicherungspolice steht, dass die Mitarbeiter mehr als ein Jahr Betriebszugehörigkeit für den Elternurlaub benötigen UND das Formular HR-101 einreichen müssen, und das Modell antwortet: „Sie haben Anspruch auf Elternzeit, weil Sie 2 Jahre hier gearbeitet haben“, wäre das ZUFRIEDENSTELLEND, da die Antwort die Leistungsanforderung korrekt behandelt, die Formularanforderung jedoch nicht erwähnt (ohne ihr zu widersprechen).

IMPOSSIBLE

Automated Reasoning kann keine Aussage zu den Behauptungen treffen. Dies kann passieren, wenn die Prämissen logisch falsch sind oder wenn innerhalb der Richtlinie für automatisiertes Denken selbst ein Konflikt besteht.

Beispiel: Wenn Ihre Richtlinie widersprüchliche Regeln wie „Alle Mitarbeiter haben Urlaubstage“ und „Keine Mitarbeiter haben Urlaubstage“ enthält oder wenn die Testfrage unmögliche Prämissen enthält wie „Welche Leistungen erhalten Mitarbeiter, wenn sie negative Arbeitszeiten haben?“ , wäre das Ergebnis UNMÖGLICH, weil die logische Grundlage fehlerhaft ist.

TRANSLATION_AMBIGUOUS

Wenn in der Übersetzung eine Mehrdeutigkeit festgestellt wurde, wäre es nicht sinnvoll, mit der Gültigkeitsprüfung fortzufahren. Möglicherweise sind zusätzliche Kontext- oder Folgefragen erforderlich, damit die Übersetzung erfolgreich ist.

Beispiel: Wenn Ihre Testfrage lautet: „Können sie Urlaub nehmen?“ ohne anzugeben, auf wen sich „sie“ bezieht, oder wenn die Modellantwort mehrdeutige Pronomen wie „Das hängt von ihrer Situation ab“ ohne klare Verweise verwendet, wäre das Ergebnis TRANSLATION_AMBIGUOUS, da das System die vage Sprache nicht zuverlässig in formale Logik übersetzen kann.

TOO_COMPLEX

Die Eingabe enthält zu viele Informationen, als dass Automated Reasoning sie innerhalb der Latenzgrenzen verarbeiten könnte.

Beispiel: Wenn Ihr Test eine extrem lange Modellantwort mit Hunderten von miteinander verbundenen Ansprüchen zu Leistungen an Arbeitnehmer, Urlaubspolicen, Krankenversicherung, Altersvorsorge und Leistungsbeurteilungen in einer einzigen Antwort umfasst, könnte das Ergebnis TOO_COMPLEX lauten, da die logische Analyse die Bearbeitungszeitlimits überschreiten würde.

NO_TRANSLATIONS

Identifiziert, dass die Eingabeaufforderung teilweise oder vollständig nicht logisch übersetzt wurde. Dies kann passieren, wenn die Eingabe für die Richtlinie für automatisiertes Denken nicht relevant ist oder wenn die Richtlinie keine Variablen zur Modellierung relevanter Eingaben enthält. Wenn Automated Reasoning nichts übersetzen kann, erhalten Sie ein einziges NO_TRANSLATIONS Ergebnis. Möglicherweise wird Ihnen auch ein NO_TRANSLATIONS (zusammen mit anderen Ergebnissen) angezeigt, wenn ein Teil der Validierung nicht übersetzt wurde.

Beispiel: Wenn Ihre Personalpolitik darauf ausgelegt ist, Leistungen an Arbeitnehmer zu validieren, Ihre Testfrage aber lautet: „Wie ist das Wetter heute?“ oder „Wie koche ich Nudeln?“ , das Ergebnis wäre NO_TRANSLATIONS, weil der Inhalt nichts mit der Domain und den Variablen Ihrer Richtlinie zu tun hat.