Convalidare i risultati del test della policy di ragionamento automatico - Amazon Bedrock

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Convalidare i risultati del test della policy di ragionamento automatico

Al termine di un test, viene fornita una serie di risultati di convalida per comprendere le prestazioni della policy di ragionamento automatico.

Un test include le seguenti informazioni:

  • Query e contenuto: una domanda che un utente potrebbe porre all’applicazione GenAI e una possibile risposta. Vengono definiti se il test viene creato manualmente. Vengono definiti dal ragionamento automatico se sono stati generati scenari di test.

  • Soglia di affidabilità: il livello minimo di affidabilità per la convalida logica impostato per il test. Questa soglia determina in che modo il ragionamento automatico gestisce l’incertezza nella traduzione del linguaggio naturale in logica formale. Il contenuto che soddisfa o supera la soglia è considerato un esito ad alta affidabilità che può essere convalidato (VALID o INVALID). Il contenuto che scende al di sotto della soglia è un esito poco affidabile contrassegnato come TRANSLATION_AMBIGUOUS, a indicare che il sistema ha rilevato un’ambiguità e ha scelto di non fornire un risultato di convalida potenzialmente errato.

  • Risultati della convalida:

    • Risultato previsto: il risultato atteso dall’esecuzione del test.

    • Risultato effettivo: il risultato dell’esecuzione del test.

    • Risultato dell’esecuzione: indica se il test è stato superato. Se i risultati previsti ed effettivi sono allineati, il test è superato. In caso contrario, il test non è andato a buon fine.

  • Risultati: l’output di un test della policy di ragionamento automatico è un insieme di esiti. Gli esiti rappresentano affermazioni fattuali contenute nella domanda e nella risposta del test, da utilizzare per capire perché un test è stato superato o meno.

    • Tipo: le traduzioni possono includere una combinazione di affermazioni e premesse.

      • Premesse: fornisce il contesto, le ipotesi o le condizioni che influiscono sul modo in cui una affermazione deve essere valutata. Nei question-and-answer formati, la premessa è spesso la domanda stessa. Le risposte possono anche contenere premesse che stabiliscono vincoli o condizioni. Ad esempio, nella domanda “Quali numeri sono divisibili per 2?” con la risposta “Numeri pari”, la premessa è “numeri divisibili per 2". Nell’affermazione “Quando il semaforo diventa verde, devi andare”, la premessa è “il semaforo è verde”.

      • Affermazioni: dichiarazioni fattuali valutate dal ragionamento automatico per verificarne l’accuratezza. In un question-and-answer formato, l'affermazione è in genere la risposta. In una dichiarazione a sé stante, l’affermazione è il fatto che viene affermato. Ad esempio, nella domanda “Quali numeri sono divisibili per 2?” con la risposta “Numeri pari”, l’affermazione è “numeri pari”.

    • Risultato: indica la validità delle affermazioni di un esito. Per ulteriori informazioni, consulta Risultati della convalida del test.

    • Attendibilità: il punteggio di attendibilità (compreso tra 0,0 e 1,0) assegnato dal ragionamento automatico alla traduzione dal linguaggio naturale alla logica formale, che rappresenta il livello di certezza del sistema nell’interpretare correttamente il testo di input. I punteggi più alti indicano una maggiore certezza nella traduzione. Ad esempio, se una traduzione ha un grado di affidabilità pari a “1,0", indica la massima certezza che il linguaggio naturale sia stato convertito accuratamente in logica formale. I punteggi di attendibilità più bassi indicano che il sistema ha qualche incertezza sulla traduzione che potrebbe essere da revisionare.

    • Assegnazioni: assegnazioni variabili previste dalla policy che dimostrano la validità o meno dell’esito. Le traduzioni contengono istruzioni logiche che mostrano come il linguaggio naturale è stato convertito in logica formale. Possono essere più complesse quando è presente una logica annidata. Ad esempio, hasDogHistoryOfAggression is false.

    • Regole: la logica estratta dalla policy che supporta l’esito. Un test fornisce un numero sufficiente di regole pertinenti della policy per consentire di comprendere il risultato dell’esito.

Risultati della convalida del test

L’elenco seguente descrive i possibili risultati della convalida di un test della policy di ragionamento automatico:

VALID

Le premesse e le affermazioni contenute nella risposta del modello sono logicamente coerenti con le regole della politica, possono essere dimostrate matematicamente corrette e non possono essere confutate utilizzando nessuna delle regole della politica. La risposta segue correttamente tutti i vincoli logici applicabili e il ragionamento, dalle premesse alle conclusioni, è valido.

Esempio: se la tua polizza contiene un'unica regola secondo cui «I dipendenti con più di 1 anno di servizio ottengono il congedo parentale» e il modello risponde «Hai diritto al congedo parentale poiché hai lavorato qui per 18 mesi», questa regola sarebbe VALIDA perché 18 mesi superano il requisito di 1 anno.

Nota

VALIDgarantisce la validità solo di parti degli input raccolti attraverso le variabili politiche nelle premesse e nelle affermazioni del risultato. VALID Ad esempio, l'affermazione «Posso inviare i compiti a casa in ritardo perché ho un certificato medico falso» potrebbe essere considerata valida perché la polizza non prevede una variabile che stabilisca se il certificato medico sia falso o meno. In alcuni casi, i controlli di ragionamento automatico possono essere in grado di evidenziare tali affermazioni come premesse o affermazioni non tradotte nel risultato.

INVALID

Le affermazioni contenute nella risposta del modello contraddicono o violano le regole della policy. La risposta contiene affermazioni che possono essere dimostrate matematicamente come errate in base ai vincoli logici formali della policy.

Esempio: se la policy prevede che “i dipendenti con più di 1 anno di servizio hanno diritto al congedo parentale” e il modello risponde “Hai diritto al congedo parentale anche se hai lavorato qui solo 3 mesi”, il risultato sarebbe INVALID perché 3 mesi non soddisfa il requisito di 1 anno.

SATISFIABLE

Le affermazioni sono coerenti con almeno una possibile interpretazione delle regole della policy, ma potrebbero non prendere in considerazione tutte le regole pertinenti. Ciò significa che la risposta non è in contraddizione con la policy, ma potrebbe non prendere in considerazione completamente tutti i vincoli applicabili.

Esempio: se la policy afferma che “I dipendenti devono avere almeno 1 anno di servizio per il congedo parentale E devono presentare il modulo HR-101" e il modello risponde “Hai diritto al congedo parentale poiché hai lavorato qui per 2 anni”, il risultato sarebbe SATISFIABLE perché la risposta prende in considerazione correttamente il requisito del servizio ma non menziona il requisito del modulo (senza contraddirlo).

IMPOSSIBLE

Il ragionamento automatico non può fare una dichiarazione in merito alle affermazioni. Ciò può accadere se le premesse sono in conflitto tra loro o se esiste un conflitto all'interno della stessa politica di ragionamento automatico.

Esempio: se la tua politica contiene regole contraddittorie come «Tutti i dipendenti hanno giorni di ferie» e «Nessun dipendente ha giorni di ferie», o se la domanda di prova contiene premesse impossibili come «Sono un dipendente a tempo pieno e anche a tempo parziale, a quali vantaggi ho diritto?» , il risultato sarebbe IMPOSSIBILE perché la base logica è difettosa.

TRANSLATION_AMBIGUOUS

Se viene rilevata un’ambiguità nella traduzione, non sarebbe corretto continuare con il controllo di validità. Potrebbero essere necessarie ulteriori domande contestuali o di follow-up per far sì che la traduzione abbia successo.

Esempio: se la domanda del test è “Possono prende un congedo?” senza specificare a chi si riferisce “possono” o se la risposta del modello utilizza pronomi ambigui come “Dipende dalla loro situazione” senza riferimenti chiari, il risultato sarebbe TRANSLATION_AMBIGUOUS perché il sistema non è in grado di tradurre in modo affidabile il linguaggio vago in logica formale.

TOO_COMPLEX

L’input contiene più informazioni di quante possano essere elaborate dal ragionamento automatico entro i limiti di latenza.

Esempio: se il test include un modello di risposta estremamente lungo con centinaia di affermazioni interconnesse relative a benefit per dipendenti, piani ferie, assicurazione sanitaria, piani pensionistici e revisioni delle prestazioni in un’unica risposta, il risultato sarebbe TOO_COMPLEX perché l’analisi logica supererebbe i limiti di tempo di elaborazione.

NO_TRANSLATIONS

Indica che alcuni o tutti i prompt di input non sono stati tradotti in logica. Ciò può accadere se l’input non è pertinente per la policy di ragionamento automatico o se la policy non ha variabili per modellare l’input pertinente. Se il ragionamento automatico non è in grado di tradurre nulla, si ottiene un unico esito NO_TRANSLATIONS. Se una parte della convalida non viene tradotta, l’esito mostrato potrebbe essere NO_TRANSLATIONS, insieme ad altri esiti.

Esempio: se la policy delle Risorse Umane è progettata per convalidare i benefit per i dipendenti, ma la domanda del test chiede “Che tempo fa oggi?” o “Come faccio a cucinare la pasta?”, il risultato sarebbe NO_TRANSLATIONS perché il contenuto è completamente non correlato al dominio e alle variabili della policy.