Convalida i risultati dei test della tua politica di ragionamento automatico

Al termine di un test, ti viene fornita una serie di risultati di convalida per comprendere le prestazioni della tua politica di ragionamento automatico.

Un test include le seguenti informazioni:

Interrogazione e contenuto: una domanda che un utente potrebbe porre all'applicazione GenAI e una possibile risposta. Li definisci se crei manualmente il test. Automated Reasoning li definisce se sono stati generati scenari di test.
Soglia di confidenza: il livello minimo di confidenza per la convalida logica impostato per il test. Questa soglia determina in che modo il ragionamento automatico gestisce l'incertezza nella traduzione del linguaggio naturale in logica formale. I contenuti che soddisfano o superano la soglia sono considerati risultati altamente affidabili che possono essere convalidati con un risultato definitivo (VALIDO o NON VALIDO). Il contenuto che scende al di sotto della soglia è un risultato poco affidabile contrassegnato come TRANSLATION_AMBIGUOUS, a indicare che il sistema ha rilevato un'ambiguità e ha scelto di non fornire un risultato di convalida potenzialmente errato.
Risultati della convalida:
- Risultato previsto: il risultato previsto dall'esecuzione del test.
- Risultato effettivo: il risultato dell'esecuzione del test.
- Risultato dell'esecuzione: indica se il test è stato superato. Se i risultati attesi e quelli effettivi sono allineati, il test è stato superato. In caso contrario, il test è fallito.
Risultati: il risultato di un test di policy di Automated Reasoning è un insieme di risultati. I risultati rappresentano affermazioni fattuali contenute nella domanda e nella risposta del test. Usali per aiutarti a capire perché un test è stato superato o fallito.
- Tipo: Le traduzioni possono includere una combinazione di affermazioni e premesse.
  - Premesse: fornisce il contesto, le ipotesi o le condizioni che influiscono sul modo in cui una rivendicazione deve essere valutata. Nei question-and-answer formati, la premessa è spesso la domanda stessa. Le risposte possono anche contenere premesse che stabiliscono vincoli o condizioni. Ad esempio, nella domanda «Quali numeri sono divisibili per 2?» e rispondi, «Numeri pari», la premessa è «numeri divisibili per 2". Nella dichiarazione, «Quando il semaforo diventa verde, devi andare», la premessa è «il semaforo è verde».
  - Affermazioni: dichiarazioni fattuali valutate da Automated Reasoning per verificarne l'accuratezza. In un question-and-answer formato, l'affermazione è in genere la risposta. In una dichiarazione a sé stante, l'affermazione è il fatto che viene affermato. Ad esempio, nella domanda «Quali numeri sono divisibili per 2?» e rispondi, «Numeri pari», l'affermazione è «numeri pari».
- Risultato: indica la validità delle affermazioni di un risultato. Per ulteriori informazioni, consulta Risultati della convalida dei test.
- Fiducia: il punteggio di confidenza (compreso tra 0,0 e 1,0) che Automated Reasoning ha nella traduzione dal linguaggio naturale alla logica formale, che rappresenta la certezza del sistema nell'interpretare correttamente il testo di input. I punteggi più alti indicano una maggiore certezza nella traduzione. Ad esempio, se una traduzione ha un grado di confidenza pari a «1.0", ciò indica la massima certezza che il linguaggio naturale sia stato convertito accuratamente in logica formale. I punteggi di confidenza più bassi indicano che il sistema ha qualche incertezza sulla traduzione che potreste voler revisionare.
- Assegnazioni: assegnazioni variabili previste dalla vostra politica che dimostrano la validità o meno del risultato. Le traduzioni contengono istruzioni logiche che mostrano come il linguaggio naturale è stato convertito in logica formale. Queste possono essere più complesse quando è presente una logica annidata. Ad esempio, hasDogHistoryOfAggression is false.
- Regole: la logica estratta dalla politica che supporta la scoperta. Un test fornisce un numero sufficiente di regole pertinenti della vostra politica per aiutarvi a comprendere il risultato della scoperta.

Risultati della convalida dei test

L'elenco seguente descrive i possibili risultati di convalida di un test della politica di ragionamento automatico:

VALID

Le affermazioni contenute nella risposta del modello sono logicamente coerenti con le regole della policy e possono essere dimostrate matematicamente corrette. La risposta segue correttamente tutti i vincoli logici applicabili e il ragionamento, dalle premesse alle conclusioni, è valido.

Esempio: se la vostra politica prevede che «i dipendenti con più di 1 anno di servizio ottengono il congedo parentale» e il modello risponde «Hai diritto al congedo parentale poiché hai lavorato qui per 18 mesi», questo termine sarebbe VALIDO perché 18 mesi superano il requisito di 1 anno.

INVALID

Le affermazioni contenute nella risposta del modello contraddicono o violano le regole della politica. La risposta contiene affermazioni che possono essere dimostrate matematicamente come errate in base ai vincoli logici formali della politica.

Esempio: se la vostra politica stabilisce che «I dipendenti con più di 1 anno di servizio ottengono il congedo parentale» e il modello risponde «Hai diritto al congedo parentale anche se hai lavorato qui solo per 3 mesi», questo non sarebbe VALIDO perché 3 mesi non soddisfano il requisito di 1 anno.

SATISFIABLE

Le dichiarazioni sono coerenti con almeno una possibile interpretazione delle regole della polizza, ma potrebbero non riguardare tutte le regole pertinenti. Ciò significa che la risposta non è in contraddizione con la tua politica, ma potrebbe non rispondere completamente a tutti i vincoli applicabili.

Esempio: se la tua politica afferma che «I dipendenti hanno bisogno di almeno 1 anno di servizio per il congedo parentale E devono presentare il modulo HR-101" e il modello risponde «Hai diritto al congedo parentale poiché hai lavorato qui per 2 anni», la risposta sarebbe SODDISFACENTE perché la risposta risponde correttamente al requisito del servizio ma non menziona il requisito del modulo (senza contraddirlo).

IMPOSSIBLE

Automated Reasoning non può fare una dichiarazione sulle affermazioni. Ciò può accadere se le premesse sono logicamente errate o se esiste un conflitto all'interno della stessa politica di ragionamento automatico.

Esempio: se la tua politica contiene regole contraddittorie come «Tutti i dipendenti hanno giorni di ferie» e «Nessun dipendente ha giorni di ferie» o se la domanda di prova contiene premesse impossibili come «Quali vantaggi ottengono i dipendenti se lavorano con orari negativi?» , il risultato sarebbe IMPOSSIBILE perché la base logica è difettosa.

TRANSLATION_AMBIGUOUS

Se è stata rilevata un'ambiguità nella traduzione, non sarebbe corretto continuare con il controllo di validità. Potrebbero essere necessarie ulteriori domande contestuali o di follow-up per far sì che la traduzione abbia successo.

Esempio: se la tua domanda di prova è «Possono prendere un congedo?» senza specificare a chi si riferiscono «loro», o se la risposta del modello utilizza pronomi ambigui come «Dipende dalla loro situazione» senza riferimenti chiari, il risultato sarebbe TRANSLATION_AMBIGUOUS perché il sistema non è in grado di tradurre in modo affidabile il linguaggio vago in logica formale.

TOO_COMPLEX

L'input contiene troppe informazioni per essere elaborato da Automated Reasoning entro i limiti di latenza.

Esempio: se il test include un modello di risposta estremamente lungo con centinaia di richieste interconnesse relative a benefit per dipendenti, polizze ferie, assicurazione sanitaria, piani pensionistici e revisioni delle prestazioni in un'unica risposta, il risultato potrebbe essere TOO_COMPLEX perché l'analisi logica supererebbe i limiti di tempo di elaborazione.

NO_TRANSLATIONS

Indica che alcuni o tutti i prompt di input non sono stati tradotti in logica. Ciò può accadere se l'input non è rilevante per la politica di ragionamento automatico o se la politica non ha variabili per modellare l'input pertinente. Se il ragionamento automatico non è in grado di tradurre nulla, si ottiene un'unica NO_TRANSLATIONS scoperta. Potresti anche vedere un NO_TRANSLATIONS (insieme ad altri risultati) se una parte della convalida non è tradotta.

Esempio: se la tua politica delle risorse umane è progettata per convalidare i benefit per i dipendenti, ma la domanda del test chiede «Che tempo fa oggi?» o «Come si cucina la pasta?» , il risultato sarebbe NO_TRANSLATIONS perché il contenuto non è completamente correlato al dominio e alle variabili della politica.

Avvertimento JavaScript è disabilitato o non è disponibile nel tuo browser.

Per usare la documentazione AWS, JavaScript deve essere abilitato. Consulta le pagine della guida del browser per le istruzioni.

Convenzioni dei documenti

Prova una politica di ragionamento automatizzato

Address ha fallito i test delle politiche di ragionamento automatico