Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.
Testen einer Automated-Reasoning-Richtlinie
Sie testen eine Richtlinie, indem Sie Aussagen in natürlicher Sprache oder QnAs zur Validierung senden. Anschließend überprüfen Sie, ob Automated Reasoning das Feedback überprüft, um sicherzustellen, dass der eingegebene Text mit den richtigen Variablen übersetzt wird und dass die Regeln, anhand derer validiert wird, korrekt sind.
Sie können Tests auf zwei Arten erstellen: durch manuelles Definieren von question-and-answer (QnA-) Paaren oder durch automatisches Generieren von Testszenarien. QnAs sind spezifische Benutzerfragen mit entsprechenden Modellantworten, die Sie schreiben, um bestimmte Anwendungsfälle zu testen, während Testszenarien logische Situationen sind, die automatisch anhand Ihrer Richtlinienregeln generiert werden und die in Ihrem Anwendungskontext realistisch sein können oder auch nicht.
Anmerkung
Tutorial-Video: Eine step-by-step exemplarische Vorgehensweise zum Testen einer Richtlinie für automatisiertes Denken finden Sie im folgenden Tutorial:
Tests sollten die Fragen nachahmen, die die Benutzer Ihrer Anwendung stellen würden, und die Antworten, die sie möglicherweise von einem Basismodell erhalten. Bei Automated Reasoning werden die Prompt- und Antwortgenauigkeit anhand der Regeln in Ihrer Automated-Reasoning-Richtlinie bewertet. Automated Reasoning führt diese Validierung in den folgenden Schritten durch:
Tipp
Bewährtes Verfahren: Erstellen Sie Tests, die sowohl gültige als auch ungültige Szenarien abdecken. Wenn in Ihrer Richtlinie beispielsweise angegeben ist, dass Mitarbeiter während des Elternurlaubs ein Jahr Betriebszugehörigkeit benötigen, erstellen Sie Tests für Antworten, die diese Regel korrekt angeben, und Tests für Antworten, die fälschlicherweise eine andere Anforderung angeben.
-
Verwendet die Frage und Antwort Ihres Tests zusammen mit den Variablen Ihrer Richtlinie und deren Beschreibungen, um die Eingaben in natürlicher Sprache in formale Logik zu übersetzen.
-
Validiert die übersetzte Logik anhand der Richtlinie mithilfe solider mathematischer Techniken.
Anmerkung
Automated Reasoning übersetzt natürliche Sprache mithilfe von KI-Techniken, die keine perfekte Genauigkeit garantieren können, in Logik. Gute Tests tragen jedoch dazu bei, mögliche Ungenauigkeiten in Ihren Richtlinien für Automated Reasoning zu erkennen und zu beheben.
Manuelles Erstellen eines Tests in der Konsole
-
Gehen Sie zu der Richtlinie für automatisiertes Denken, die Sie testen möchten (z. B.). MyHrPolicy
-
Wählen Sie Tests anzeigen und anschließend Hinzufügen aus.
-
Gehen Sie im Dialogfeld Tests hinzufügen wie folgt vor:
-
Fügen Sie eine Eingabe (optional) und eine Ausgabe hinzu. Diese stellen die Frage dar, die ein Benutzer stellen könnte, und die Antwort, die Ihr Basismodell bieten könnte. Zusammen bilden sie ein QnA-Paar, das testet, wie Ihre Richtlinie echte Benutzerinteraktionen validiert.
-
Wählen Sie das Ergebnis aus, das Sie vom Test erwarten (z. B. Gültig oder Ungültig).
-
Wählen Sie einen Konfidenzschwellenwert aus, der das Mindestkonfidenzniveau für die Logik-Validierung darstellt.
-
-
Wählen Sie Speichern aus, um den Test zu erstellen.
Anmerkung
Bei der Erstellung eines Tests ist der Konfidenzschwellenwert optional.
-
Automatisierte Prüfungen zum logischen Denken verwenden mehrere große Sprachmodelle (LLMs), um Tests in natürlicher Sprache in Ergebnisse umzusetzen. Es werden nur „sichere“ Ergebnisse zurückgegeben, die durch einen erheblichen Prozentsatz der LLM-Übersetzungen gestützt werden. Der Konfidenzschwellenwert definiert den Mindestprozentsatz an Unterstützung, der erforderlich ist, damit eine Übersetzung zu einem validem Ergebnis wird.
-
Wenn ein oder mehrere übersetzte Ergebnisse vorhanden sind, die nicht durch einen ausreichenden Prozentsatz an LLM-Übersetzungen gestützt werden, wird im Rahmen von Automated-Reasoning-Prüfungen ein zusätzliches Ergebnis „TRANSLATION_AMBIGUOUS“ angezeigt. Dieses Ergebnis enthält Informationen, um die Unterschiede zwischen den widersprüchlichen LLM-Übersetzungen aufzuzeigen.
Automatisches Generieren von Testen in der Konsole
-
Gehen Sie zu der Richtlinie für automatisiertes Denken, die Sie testen möchten (z. B. MyHrPolicy).
-
Wählen Sie Tests anzeigen und anschließend Generieren aus.
-
Überprüfen Sie im Dialogfeld Szenarien generieren das generierte Szenario und die zugehörigen Regeln. Führen Sie dann einen der folgenden Schritte aus:
-
Wenn Sie glauben, dass das Szenario eintreten könnte (auch als erfüllbares Szenario bezeichnet), klicken Sie auf „Daumen hoch“ (Ja).
-
Falls nicht, klicken Sie auf „Daumen runter“ (nein). Sie können auch eine Anmerkung hinzufügen, um zu erklären, warum das Szenario Ihrer Meinung nach nicht möglich ist. Das ist vergleichbar mit dem Hinterlassen eines Kommentars in einem Dokument.
-
Wenn Sie ein anderes Szenario testen möchten, wählen Sie Szenario neu generieren aus.
Tipp
Wenn Sie die formale Logikversion des Szenarios überprüfen möchten, aktivieren Sie SMT-LIB anzeigen.
-
-
Wählen Sie Speichern und schließen aus, um den Test zu speichern, oder Test speichern und weitere hinzuzufügen.
-
Wenn Sie Anmerkungen zu einem der Tests angegeben haben, wählen Sie Anmerkungen anwenden aus. Automated Reasoning nimmt auf der Grundlage Ihres Feedbacks Änderungen an Ihren Richtlinien vor.
-
Überprüfen Sie auf dem Bildschirm Richtlinienänderungen die Änderungen an den Regeln, Variablen und Variablentypen Ihrer Richtlinie. Wählen Sie dann Änderungen akzeptieren aus.
Ausführen von Tests in der Konsole
-
Gehen Sie zu der Richtlinie für automatisiertes Denken, die Sie validieren möchten (z. B. MyHrPolicy).
-
Wählen Sie Tests anzeigen aus.
-
Führen Sie eine der folgenden Aktionen aus:
-
Um alle Tests Ihrer Richtlinie auszuführen, wählen Sie Alle Tests validieren aus.
-
Um Tests einzeln auszuführen, klicken Sie auf die Schaltfläche Aktion neben dem Test, den Sie ausführen möchten, und wählen Sie dann Validieren aus.
-
Manuelles Erstellen eines Tests über die API
Sie können die API-Operation CreateAutomatedReasoningPolicyTestCase verwenden, um eine Automated-Reasoning-Richtlinie programmgesteuert zu erstellen.
Anforderungsparameter
Bei der Erstellung eines Tests sind die folgenden Parameter erforderlich oder optional:
policyArn(Erforderlich)-
Der Amazon-Ressourcenname (ARN) der Automated-Reasoning-Richtlinie, für die eine Version erstellt werden soll
queryContent(optional)-
Die Eingabeabfrage oder Aufforderung, die den Inhalt generiert hat, z. B. die Benutzerfrage. Dies bietet den Kontext für die Validierung.
guardContent(Erforderlich)-
Der Ausgabeinhalt, der durch die Automated-Reasoning-Richtlinie validiert wurde. Dies stellt die Antwort des Basismodells dar, die auf ihre Richtigkeit überprüft wird.
expectedAggregatedFindingsResult(optional)-
Das erwartete Überprüfungsergebnis für den Test (z. B.
VALIDoderINVALID) Das tatsächliche Testergebnis wird ausgewählt, indem die Ergebnisse nach Wichtigkeit sortiert und das schlechteste Ergebnis ausgewählt wird. Die Sortierreihenfolge lautet: mehrdeutig, unmöglich, ungültig, erfüllbar und gültig. Beispiel: Ein Test, der zu zwei gültigen und einem unmöglichen Ergebnis führt, hat als aggregiertes Ergebnis den Wert unmöglich. confidenceThreshold(optional)-
Das Mindestkonfidenzniveau für die Logikvalidierung. Inhalte, die den Schwellenwert erreichen, gelten als Ergebnisse mit hoher Konfidenz, die validiert werden können.
Beispiel
Im folgenden Beispiel wird die Erstellung eines Tests für eine Automated-Reasoning-Richtlinie über die AWS CLI veranschaulicht:
aws bedrock create-automated-reasoning-policy-test-case \ --policy-arn "arn:aws:bedrock:us-east-1:111122223333:automated-reasoning-policy/lnq5hhz70wgk" \ --query-content "Can I take a leave of absence if I'm a part-time employee?" \ --guard-content "No, only full-time employees are eligible for leave of absence." \ --expected-aggregated-findings-result "VALID" \ --confidence-threshold0.8
Beispielantwort:
{ "testCaseId": "test-12345abcde", "policyArn": "arn:aws:bedrock:us-east-1:111122223333:automated-reasoning-policy/lnq5hhz70wgk" }
Automatisches Generieren von Testen über die API
Sie können den GetAutomatedReasoningPolicyNextScenario API-Vorgang verwenden, um die nächsten generierten Testszenarien auf der Grundlage der Regeln Ihrer Richtlinie abzurufen.
Anforderungsparameter
Bei der Erstellung von Testszenarien sind die folgenden Parameter obligatorisch oder optional:
policyArn(Erforderlich)-
Der Amazon-Ressourcenname (ARN) der Automated-Reasoning-Richtlinie, für die Testszenarien generiert werden sollen.
buildWorkdflowId(Erforderlich)-
Die eindeutige Kennung des Build-Workflows für die generierten Szenarien. Sie können den neuesten Build-Workflow mithilfe der
ListAutomatedReasoningPolicyBuildWorkflowsAPI-Aktion abrufen.
Beispiel
Das folgende Beispiel zeigt, wie Sie die nächsten generierten Testszenarien für eine Automated Reasoning-Richtlinie abrufen, indem Sie: AWS CLI
aws bedrock get-automated-reasoning-policy-next-scenario \ --policy-arn "arn:aws:bedrock:us-east-1:111122223333:automated-reasoning-policy/lnq5hhz70wgk" \ --build-worflow-idd40fa7fc-351e-47d8-a338-53e4b3b1c690
Die Antwort enthält generierte Testszenarien enthalten, die Sie überprüfen und zum Erstellen von Tests verwenden können.
Ausführen von Tests über die API
Sie können den StartAutomatedReasoningPolicyTestWorkflow API-Vorgang verwenden, um Ihre Automated Reasoning-Richtlinientests und den GetAutomatedReasoningPolicyTestResult Vorgang zum Abrufen der Ergebnisse auszuführen.
Anforderungsparameter
Die folgenden Parameter sind beim Ausführen eines Tests erforderlich:
policyArn(Erforderlich)-
Der Amazon-Ressourcenname (ARN) der Automated-Reasoning-Richtlinie.
buildWorkdflowId(Erforderlich)-
Die eindeutige Kennung des Build-Workflows, für den Sie die Tests ausführen möchten. Sie können den neuesten Build-Workflow mithilfe der
ListAutomatedReasoningPolicyBuildWorkflowsAPI-Aktion abrufen. testCaseIds(optional)-
Die Liste der auszuführenden Testkennungen. Wenn nicht angegeben, werden alle Tests für die Richtlinie ausgeführt.
Abrufen der Testergebnisse
Verwenden Sie die folgenden Parameter mit der GetAutomatedReasoningPolicyTestResult API-Aktion, um die Ergebnisse eines Tests abzurufen:
policyArn(Erforderlich)-
Der Amazon-Ressourcenname (ARN) der Automated-Reasoning-Richtlinie.
buildWorkflowId(Erforderlich)-
Die ID des Build-Workflows. Der Build-Workflow muss den Status
COMPLETEDanzeigen, um Ergebnisse abzurufen. testCaseId(Erforderlich)-
Die eindeutige Kennung des Tests, für den Ergebnisse abgerufen werden sollen.
Beispiel
Das folgende Beispiel zeigt, wie Sie einen Test ausführen und die Ergebnisse über die AWS CLI abrufen:
# Run the test aws bedrock start-automated-reasoning-policy-test-workflow \ --policy-arn "arn:aws:bedrock:us-east-1:111122223333:automated-reasoning-policy/lnq5hhz70wgk" \ --build-worflow-idd40fa7fc-351e-47d8-a338-53e4b3b1c690# Get the test results aws bedrock get-automated-reasoning-policy-test-result \ --policy-arn "arn:aws:bedrock:us-east-1:111122223333:automated-reasoning-policy/lnq5hhz70wgk" \ --build-worflow-idd40fa7fc-351e-47d8-a338-53e4b3b1c690\ --test-case-idtest-12345abcde
Die Antwort enthält detaillierte Testergebnisse mit Validierungsergebnissen und Ausführungsstatus.