

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

# Metriche di bias pre-addestramento
<a name="clarify-measure-data-bias"></a>

Misurare i bias nei modelli ML è un primo passo per mitigare i bias. Ogni misura di bias corrisponde a una diversa nozione di equità. Anche la considerazione di semplici concetti di equità porta a molte misure diverse applicabili in vari contesti. Si consideri, ad esempio, l'equità rispetto all'età e, per semplicità, che le due fasce demografiche rilevanti, denominate *facet*, siano gli individui di mezza età e il resto della popolazione. Nel caso di un modello di ML per l'erogazione di prestiti, potremmo volere che i prestiti alle piccole imprese vengano emessi a un numero uguale di entrambi i gruppi demografici. Oppure, quando elaboriamo i candidati per un lavoro, potremmo voler vedere un numero uguale di membri di ogni gruppo demografico assunti. Tuttavia, questo approccio può presupporre che per questi lavori si candidino lo stesso numero di persone di entrambe le fasce d'età, quindi potremmo decidere di stabilire una condizione per il numero di candidature. Inoltre, potremmo voler considerare non se si candidi lo stesso numero di persone, ma se abbiamo lo stesso numero di candidati qualificati. In alternativa, possiamo considerare l'equità come un uguale tasso di accettazione di candidati qualificati in entrambe le fasce di età, oppure un uguale tasso di rifiuto dei candidati, o entrambi. È possibile utilizzare set di dati con proporzioni diverse di dati sugli attributi di interesse. Questo squilibrio può confondere la misura di bias scelta. I modelli potrebbero essere più accurati nella classificazione di un facet rispetto all'altro. Pertanto, è necessario scegliere metriche di bias concettualmente appropriate per l'applicazione e la situazione.

Utilizziamo la seguente notazione per discutere le metriche di bias. Il modello concettuale qui descritto riguarda la classificazione binaria, in cui gli eventi sono etichettati come aventi solo due esiti possibili nel loro spazio di esempio, indicati come positivo (con valore 1) e negativo (con valore 0). Questo framework è generalmente estensibile alla classificazione multicategoria in modo semplice o ai casi che comportano esiti con valori continui quando necessario. Nel caso della classificazione binaria, le etichette positive e negative vengono assegnate agli esiti registrati in un set di dati non elaborati per un facet favorito *a* e per un facet sfavorito *d*. Queste etichette y vengono chiamate *etichette osservate* per distinguerle dalle *etichette previste* y' che vengono assegnate da un modello di machine learning durante le fasi di addestramento o inferenza del ciclo di vita ML. Queste etichette vengono utilizzate per definire le distribuzioni di probabilità Pa(y) e Pd(y) per i rispettivi esiti facet. 
+ etichette: 
  + y rappresenta le n etichette osservate per gli esiti degli eventi in un set di dati di addestramento.
  + y' rappresenta le etichette previste per le n etichette osservate nel set di dati di un modello addestrato.
+ esiti:
  + Un esito positivo (con valore 1) per un esempio, come l'accettazione di un'applicazione.
    + n(1) è il numero di etichette osservate per gli esiti positivi (accettazioni).
    + n'(1) è il numero di etichette previste per gli esiti positivi (accettazioni).
  + Un esito negativo (con valore 0) per un esempio, come il rifiuto di un'applicazione.
    + n(0) è il numero di etichette osservate per gli esiti negativi (rifiuti).
    + n'(0) è il numero di etichette previste per gli esiti negativi (rifiuti).
+ valori dei facet:
  + facet *a*: il valore della caratteristica che definisce un gruppo demografico favorito dalla distorsione.
    + na è il numero di etichette osservate per il valore del facet favorito: na = na(1) \$1 na(0) è la somma delle etichette osservate positive e negative per il facet di valore *a*.
    + n'a è il numero di etichette previste per il valore del facet favorito: n'a = n'a(1) \$1 n'a(0) è la somma delle etichette previste positive e negative per il valore del facet *a*. Nota che n'a = na.
  + facet *d*: il valore della funzionalità che definisce un gruppo demografico sfavorito dalla distorsione.
    + nd è il numero di etichette osservate per il valore del facet sfavorito: nd = nd(1) \$1 nd(0) è la somma delle etichette osservate positive e negative per il valore del facet *d*. 
    + n'd è il numero di etichette previste per il valore del facet sfavorito: n'd = n'd(1) \$1 n'd(0) è la somma delle etichette previste positive e negative per il valore del facet *d*. Nota che n'd = nd.
+ distribuzioni di probabilità per gli esiti degli esiti dei dati del facet con etichetta:
  + Pa(y) è la distribuzione di probabilità delle etichette osservate per il facet *a*. Per i dati con etichetta binari, questa distribuzione è data dal rapporto tra il numero di esempi nel facet *a* etichettato con esiti positivi e il numero totale, Pa(y1) = na(1)/na, e dal rapporto tra il numero di esempi con esiti negativi e il numero totale, Pa(y0) = na(0)/na. 
  + Pd(y) è la distribuzione di probabilità delle etichette osservate per il facet *d*. Per i dati con etichetta binari, questa distribuzione è data dal numero di esempi nel facet *d* etichettato con esiti positivi rispetto al numero totale, Pd(y1) = nd(1)/nd, e dal rapporto tra il numero di esempi con esiti negativi e il numero totale, Pd(y0) = nd(0)/nd. 

I modelli addestrati su dati di parte rispetto a disparità demografiche potrebbero apprenderle e persino aggravarle. Per identificare le distorsioni nei dati prima di spendere risorse per addestrare i modelli su di essi, SageMaker Clarify fornisce metriche di distorsione dei dati che puoi calcolare su set di dati grezzi prima dell'addestramento. Tutte le metriche pre-addestramento sono indipendenti dal modello perché non dipendono dagli output del modello e quindi sono valide per qualsiasi modello. La prima metrica di bias esamina lo squilibrio tra i facet, ma non gli esiti. Determina la misura in cui la quantità di dati di addestramento è rappresentativa tra i diversi facet, come richiesto per l'applicazione. Le restanti metriche di bias confrontano la distribuzione delle etichette degli esiti in vari modi per i facet *a* e *d* nei dati. Le metriche che analizzano i valori negativi possono rilevare bias negativi. La tabella seguente contiene una guida con istruzioni rapide e collegamenti alle metriche di bias pre-addestramento.

Metriche di bias pre-addestramento


| Metrica di bias | Description | Domanda di esempio | Interpretazione dei valori delle metriche | 
| --- | --- | --- | --- | 
| [Squilibrio di classe (CI)](clarify-bias-metric-class-imbalance.md) | Misura lo squilibrio nel numero di membri tra diversi valori di facet. |  Potrebbero esserci bias basati sull'età dovuti alla mancanza di dati sufficienti per la fascia demografica esterna a un facet di mezza età?   |  Intervallo normalizzato: [-1, \$11] Interpretazione: [\[See the AWS documentation website for more details\]](http://docs.aws.amazon.com/it_it/sagemaker/latest/dg/clarify-measure-data-bias.html)  | 
| [Differenza nelle proporzioni delle etichette (DPL)](clarify-data-bias-metric-true-label-imbalance.md) | Misura lo squilibrio nel numero di esiti positivi tra diversi valori di facet. | Potrebbero esserci pregiudizi basati sull'età nelle previsioni del machine learning dovuti all'etichettatura di parte dei valori dei facet nei dati? |  Intervallo per etichette di facet binarie e multicategoria normalizzate: [-1, \$11] Intervallo per etichette continue: (-∞, \$1∞) Interpretazione: [\[See the AWS documentation website for more details\]](http://docs.aws.amazon.com/it_it/sagemaker/latest/dg/clarify-measure-data-bias.html)  | 
| [Divergenza Kullback-Leibler (KL)](clarify-data-bias-metric-kl-divergence.md) | Misura in che misura le distribuzioni degli esiti dei diversi facet divergono l'una dall'altra entropicamente.  | Quanto sono diverse le distribuzioni degli esiti delle domande di prestito per i diversi gruppi demografici? |  Intervallo binario, multicategoria, continuo: [0, \$1∞) Interpretazione: [\[See the AWS documentation website for more details\]](http://docs.aws.amazon.com/it_it/sagemaker/latest/dg/clarify-measure-data-bias.html)  | 
| [Divergenza Jensen-Shannon (JS)](clarify-data-bias-metric-jensen-shannon-divergence.md)  | Misura in che misura le distribuzioni degli esiti dei diversi facet divergono l'una dall'altra entropicamente.  | Quanto sono diverse le distribuzioni degli esiti delle domande di prestito per i diversi gruppi demografici? |  Intervallo binario, multicategoria, continuo: [0, \$1∞) Interpretazione: [\[See the AWS documentation website for more details\]](http://docs.aws.amazon.com/it_it/sagemaker/latest/dg/clarify-measure-data-bias.html)  | 
| [Lp-norm (LP)](clarify-data-bias-metric-lp-norm.md)  | Misura una differenza p-norm tra diverse distribuzioni demografiche degli esiti associati a diversi facet in un set di dati. | Quanto sono diverse le distribuzioni degli esiti delle domande di prestito per i diversi gruppi demografici? |  Intervallo binario, multicategoria, continuo: [0, \$1∞) Interpretazione: [\[See the AWS documentation website for more details\]](http://docs.aws.amazon.com/it_it/sagemaker/latest/dg/clarify-measure-data-bias.html)  | 
| [Distanza di variazione totale (TVD)](clarify-data-bias-metric-total-variation-distance.md)  | Misura metà della differenza L1-norm tra diverse distribuzioni demografiche degli esiti associati a diversi facet in un set di dati. | Quanto sono diverse le distribuzioni degli esiti delle domande di prestito per i diversi gruppi demografici? |  Intervallo per esiti binari, multicategoria e continui: [0, \$1∞) [\[See the AWS documentation website for more details\]](http://docs.aws.amazon.com/it_it/sagemaker/latest/dg/clarify-measure-data-bias.html)  | 
| [Kolmogorov-Smirnov (KS)](clarify-data-bias-metric-kolmogorov-smirnov.md)  | Misura la massima divergenza tra gli esiti nelle distribuzioni per i diversi facet di un set di dati. | Quali esiti delle domande di ammissione all'università manifestano le maggiori disparità per gruppo demografico? | Intervallo di valori KS per esiti binari, multicategoria e continui: [0, \$11][\[See the AWS documentation website for more details\]](http://docs.aws.amazon.com/it_it/sagemaker/latest/dg/clarify-measure-data-bias.html) | 
| [Disparità demografica condizionale (CDD)](clarify-data-bias-metric-cddl.md)  | Misura la disparità degli esiti tra i diversi facet nel loro insieme, ma anche tra sottogruppi. | Alcuni gruppi hanno una proporzione maggiore di rifiuti come esiti dell'ammissione all'università rispetto alla proporzione di accettazioni? |  Intervallo di CDD: [-1, \$11] [\[See the AWS documentation website for more details\]](http://docs.aws.amazon.com/it_it/sagemaker/latest/dg/clarify-measure-data-bias.html)  | 

Per ulteriori informazioni sulle metriche di bias, consulta [Misure di equità per il machine learning nella finanza](https://pages.awscloud.com/rs/112-TZM-766/images/Fairness.Measures.for.Machine.Learning.in.Finance.pdf).

**Topics**
+ [

# Squilibrio di classe (CI)
](clarify-bias-metric-class-imbalance.md)
+ [

# Differenza nelle proporzioni delle etichette (DPL)
](clarify-data-bias-metric-true-label-imbalance.md)
+ [

# Divergenza Kullback-Leibler (KL)
](clarify-data-bias-metric-kl-divergence.md)
+ [

# Divergenza Jensen-Shannon (JS)
](clarify-data-bias-metric-jensen-shannon-divergence.md)
+ [

# Lp-norm (LP)
](clarify-data-bias-metric-lp-norm.md)
+ [

# Distanza di variazione totale (TVD)
](clarify-data-bias-metric-total-variation-distance.md)
+ [

# Kolmogorov-Smirnov (KS)
](clarify-data-bias-metric-kolmogorov-smirnov.md)
+ [

# Disparità demografica condizionale (CDD)
](clarify-data-bias-metric-cddl.md)

# Squilibrio di classe (CI)
<a name="clarify-bias-metric-class-imbalance"></a>

Il bias dello squilibrio di classe (CI) si verifica quando un valore di facet *d* ha meno esempi di addestramento rispetto a un altro facet *a* del set di dati. Questo perché i modelli si adattano preferibilmente ai facet più grandi a scapito dei facet più piccoli e quindi possono comportare un errore di addestramento più elevato per il facet *d*. I modelli corrono inoltre un rischio maggiore di overfitting dei set di dati più piccoli, il che può causare un errore di test maggiore per il facet *d*. Consideriamo l'esempio in cui un modello di machine learning viene addestrato principalmente su dati di individui di mezza età (facet a); potrebbe essere meno accurato nell'effettuare previsioni che riguardano persone giovani e anziane (facet d).

La formula per la misura (normalizzata) dello squilibrio dei facet:

        CI = (na - nd)/(na \$1 nd)

Dove na è il numero di membri del facet *a* e nd il numero per il facet *d*. I suoi valori variano nell'intervallo [-1, 1]. 
+ I valori CI positivi indicano che il facet *a* contiene più esempi di addestramento nel set di dati e un valore 1 indica che i dati contengono solo membri del facet *a*.
+  I valori di CI vicini allo zero indicano una distribuzione più equa dei membri tra i facet e un valore pari a zero indica una partizione perfettamente uguale tra i facet e rappresenta una distribuzione equilibrata degli esempi nei dati di addestramento.
+ I valori CI negativi indicano che il facet *d* contiene più esempi di addestramento nel set di dati e un valore -1 indica che i dati contengono solo membri del facet *d*.
+ I valori di CI vicini ai valori estremi di -1 o 1 sono molto squilibrati e corrono un rischio sostanziale di fare previsioni di parte.

Se si riscontra uno squilibrio significativo tra i facet, è consigliabile riequilibrare l'esempio prima di procedere all'addestramento dei modelli su di esso.

# Differenza nelle proporzioni delle etichette (DPL)
<a name="clarify-data-bias-metric-true-label-imbalance"></a>

La differenza nelle proporzioni delle etichette (DPL) confronta la proporzione di esiti osservati con etichette positive per il facet *d* con la proporzione di esiti osservati con etichette positive del facet *a* in un set di dati di addestramento. Ad esempio, è possibile utilizzarla per confrontare la proporzione di individui di mezza età (facet *a*) e di altri gruppi di età (facet *d*) che hanno ricevuto l'approvazione per prestiti finanziari. I modelli di machine learning cercano di imitare il più fedelmente possibile le decisioni dei dati di addestramento. Quindi è probabile che un modello di machine learning addestrato su un set di dati con una DPL elevata rifletta lo stesso squilibrio nelle sue previsioni future.

La formula per la differenza nelle proporzioni delle etichette è la seguente:

        DPL = (qa - qd)

Dove:
+ qa = na(1)/na è la proporzione del facet *a* con un valore di etichetta osservato pari a 1. Ad esempio, la proporzione di persone di mezza età che ottiene l'approvazione per i prestiti. Qui na(1) rappresenta il numero di membri del facet *a* che ottengono un esito positivo e na è il numero di membri del facet *a*. 
+ qd = nd(1)/nd è la proporzione del facet *d* con un valore di etichetta osservato pari a 1. Ad esempio, la proporzione di persone non di mezza età che ottiene l'approvazione per i prestiti. Qui nd(1) rappresenta il numero di membri del facet *d* che ottengono un esito positivo e nd è il numero di membri del facet *d*. 

Se la DPL è abbastanza vicina a 0, allora diciamo che la *parità demografica* è stata raggiunta.

Per le etichette di facet binarie e multicategoria, i valori DPL variano nell'intervallo (-1, 1). Per le etichette continue, impostiamo una soglia per comprimere le etichette in formato binario. 
+ I valori DPL positivi indicano che il facet *a* ha una proporzione maggiore di esiti positivi rispetto al facet *d*.
+ I valori di DPL vicini allo zero indicano una proporzione più equa di esiti positivi tra i facet, mentre un valore pari a zero indica una perfetta parità demografica. 
+ I valori DPL negativi indicano che il facet *d* ha una proporzione maggiore di esiti positivi rispetto al facet *a*.

Il fatto che una DPL di valore elevato sia problematica o meno varia da una situazione all'altra. In un caso problematico, una DPL di valore elevato potrebbe essere un segnale di problemi alla base dei dati. Ad esempio, un set di dati con una DPL elevata potrebbe riflettere bias o pregiudizi storici nei confronti di gruppi demografici basati sull'età che non sarebbero ideali da apprendere per un modello.

# Divergenza Kullback-Leibler (KL)
<a name="clarify-data-bias-metric-kl-divergence"></a>

La divergenza Kullback-Leibler (KL) misura in che misura la distribuzione delle etichette osservate del facet *a*, Pa(y), diverge dalla distribuzione del facet *d*, Pd(y). È anche nota come entropia relativa di Pa(y) rispetto a Pd(y) e quantifica la quantità di informazioni perse quando si passa da Pa(y) a Pd(y).

La formula per la divergenza Kullback-Leibler è la seguente: 

        KL(Pa \$1\$1 Pd) = ∑yPa(y)\$1log[Pa(y)/Pd(y)]

È l'aspettativa della differenza logaritmica tra le probabilità Pa(y) e Pd(y), dove l'aspettativa è ponderata dalle probabilità Pa(y). Questa non è una distanza reale tra le distribuzioni in quanto è asimmetrica e non soddisfa la disuguaglianza triangolare. L'attuazione utilizza logaritmi naturali, fornendo KL in unità di nat. L'uso di basi logaritmiche diverse fornisce risultati proporzionali ma in unità diverse. Ad esempio, utilizzando la base 2 si ottiene KL in unità di bit.

Ad esempio, supponiamo che un gruppo di richiedenti prestiti abbia un tasso di approvazione del 30% (facet *d*) e che il tasso di approvazione per gli altri richiedenti (facet *a*) sia dell'80%. La formula Kullback-Leibler fornisce la divergenza di distribuzione delle etichette tra il facet *a* e il facet *d* nel modo seguente:

        KL = 0,8\$1ln(0,8/0,3) \$1 0,2\$1ln(0,2/0,7) = 0,53

La formula contiene due termini perché in questo esempio le etichette sono binarie. Questa misura può essere applicata a più etichette oltre a quelle binarie. Ad esempio, in uno scenario di ammissione all'università, supponiamo che a un candidato possa essere assegnata una delle tre etichette di categoria: yi = \$1y0, y1, y2\$1 = \$1rifiutato, in lista d'attesa, accettato\$1. 

L'intervallo di valori per la metrica KS per esiti binari, multicategoria e continui è [0, \$1∞).
+ I valori vicini allo zero indicano che gli esiti sono distribuiti in modo simile per i diversi facet.
+ I valori positivi indicano che le distribuzioni delle etichette divergono, più sono positivi e maggiore è la divergenza.

# Divergenza Jensen-Shannon (JS)
<a name="clarify-data-bias-metric-jensen-shannon-divergence"></a>

La divergenza Jensen-Shannon (JS) misura in che misura le distribuzioni delle etichette dei diversi facet divergono l'una dall'altra a livello entropico. Si basa sulla divergenza Kullback-Leibler, ma è simmetrica. 

La formula per la divergenza Jensen-Shannon è la seguente:

        JS = ½\$1[KL(Pa \$1\$1 P) \$1 KL(Pd \$1\$1 P)]

Dove P = ½ (Pa \$1 Pd), la distribuzione media delle etichette tra i facet *a* e *d*.

L'intervallo di valori JS per esiti binari, multicategoria e continui è [0, ln(2)).
+ I valori vicini allo zero indicano che le etichette sono distribuite in modo simile.
+ I valori positivi indicano che le distribuzioni delle etichette divergono, più sono positivi e maggiore è la divergenza.

Questa metrica indica se esiste una grande divergenza in una delle etichette tra i vari facet. 

# Lp-norm (LP)
<a name="clarify-data-bias-metric-lp-norm"></a>

La Lp-norm (LP) misura la distanza p-norm tra le distribuzioni dei facet delle etichette osservate in un set di dati di addestramento. Questa metrica è non negativa e quindi non può rilevare il bias inverso. 

La formula per Lp-norm è la seguente: 

        Lp(Pa, Pd) = ( ∑y\$1\$1Pa - Pd\$1\$1p)1/p

Dove la distanza p-norm tra i punti x e y è definita come segue:

        Lp(x, y) = (\$1x1-y1\$1p \$1 \$1x2-y2\$1p \$1 … \$1\$1xn-yn\$1p)1/p 

2-norm è la norma euclidea. Supponiamo di avere una distribuzione degli esiti con tre categorie, ad esempio yi = \$1y0, y1, y2\$1 = \$1accettato, in lista d'attesa, rifiutato\$1 in uno scenario multicategoria di ammissioni all'università. Si calcola la somma dei quadrati delle differenze tra i conteggi degli esiti per i facet *a* e *d*. La distanza euclidea risultante viene calcolata come segue:

        L2(Pa, Pd) = [(na(0) - nd(0))2 \$1 (na(1) - nd(1))2 \$1 (na(2) - nd(2))2]1/2

Dove: 
+ na(i) è il numero dei risultati della nesima categoria nel facet *a*: ad esempio na(0) è il numero di accettazioni del facet *a*.
+ nd(i) è il numero dei risultati della nesima categoria nel facet *d*: ad esempio nd(2) è il numero di rifiuti del facet *d*.

  L'intervallo di valori LP per esiti binari, multicategoria e continui è [0, √2), dove:
  + I valori vicini allo zero indicano che le etichette sono distribuite in modo simile.
  + I valori positivi indicano che le distribuzioni delle etichette divergono, più sono positivi e maggiore è la divergenza.

# Distanza di variazione totale (TVD)
<a name="clarify-data-bias-metric-total-variation-distance"></a>

La metrica di distorsione dei dati sulla distanza di variazione totale (TVD) è pari a metà della norma L1. TVD è la più grande differenza possibile tra le distribuzioni di probabilità per i risultati delle etichette dei facet *a* e *d*. La norma L1 è la distanza di Hamming, una metrica utilizzata per confrontare due stringhe di dati binari determinando il numero minimo di sostituzioni necessarie per cambiare una stringa in un'altra. Se le stringhe dovessero essere copie l'una dell'altra, determina il numero di errori che si sono verificati durante la copia. Nel contesto del rilevamento delle distorsioni, TVD quantifica quanti risultati del facet *a* dovrebbero essere modificati per corrispondere ai risultati del facet *d*.

La formula per la distanza di variazione totale è la seguente: 

        TVD = ½\$1L1(Pa, Pd)

Ad esempio, supponiamo di avere una distribuzione degli esiti con tre categorie, ad esempio yi = \$1y0, y1, y2\$1 = \$1accettato, in lista d'attesa, rifiutato\$1 in uno scenario multicategoria di ammissioni all'università. Per calcolare la TVD, si prendono le differenze tra i conteggi dei facet *a* e *d* per ciascun risultato. Il risultato è illustrato di seguito.

        L1(Pa, Pd) = \$1na(0) - nd(0)\$1 \$1 \$1na(1) - nd(1)\$1 \$1 \$1na(2) - nd(2)\$1

Dove: 
+ na(i) è il numero dei risultati della nesima categoria nel facet *a*: ad esempio na(0) è il numero di accettazioni del facet *a*.
+ nd(i) è il numero dei risultati della nesima categoria nel facet d: ad esempio nd(2) è il numero di rifiuti del facet *d*.

  L'intervallo di valori TV per esiti binari, multicategoria e continui è [0, 1), dove:
  + I valori vicini allo zero indicano che le etichette sono distribuite in modo simile.
  + I valori positivi indicano che le distribuzioni delle etichette divergono, più sono positivi e maggiore è la divergenza.

# Kolmogorov-Smirnov (KS)
<a name="clarify-data-bias-metric-kolmogorov-smirnov"></a>

La metrica di distorsione di Kolmogorov-Smirnov (KS) è uguale alla divergenza massima tra le etichette nelle distribuzioni per i facet *a* e *d* di un set di dati. Il test KS a due campioni implementato da SageMaker Clarify integra le altre misure di squilibrio delle etichette individuando l'etichetta più squilibrata. 

La formula per la metrica di Kolmogorov-Smirnov è la seguente: 

        KS = max(\$1Pa(y) - Pd(y)\$1)

Ad esempio, supponiamo che un gruppo di candidati (facet *a*) all'università venga respinto, inserito in lista d'attesa o accettato rispettivamente al 40%, 40%, 20% e che tali tassi per gli altri candidati (facet *d*) siano del 20%, 10%, 70%. Quindi, il valore metrico di distorsione di Kolmogorov-Smirnov è il seguente:

KS = max(\$10,4-0,2\$1, \$10,4-0,1\$1, \$10,2-0,7\$1) = 0,5

Questo ci dice che la divergenza massima tra le distribuzioni dei facet è 0,5 e si verifica nei tassi di accettazione. Ci sono tre termini nell'equazione perché le etichette sono multiclasse di cardinalità tre.

L'intervallo di valori LP per esiti binari, multicategoria e continui è [0, \$11], dove:
+ I valori vicini allo zero indicano che le etichette si sono distribuite uniformemente tra i facet in tutte le categorie di esiti. Ad esempio, entrambe le parti che hanno richiesto un prestito hanno ottenuto il 50% delle accettazioni e il 50% dei rifiuti.
+ I valori vicini a uno indicano che le etichette di un risultato erano tutte riunite in un unico facet. Ad esempio, il facet *a* ha ottenuto il 100% delle accettazioni e il facet *d* non ne ha ottenuta nessuna.
+ I valori intermittenti indicano gradi relativi di massimo squilibrio delle etichette.

# Disparità demografica condizionale (CDD)
<a name="clarify-data-bias-metric-cddl"></a>

La metrica della disparità demografica (DD) determina se un facet ha una percentuale maggiore dei risultati rifiutati nel set di dati rispetto ai risultati accettati. Nel caso binario in cui ci sono due facet, ad esempio uomini e donne, che costituiscono il set di dati, quello sfavorito è denominato facet *d* e quello preferito è etichettato come facet *a*. Ad esempio, nel caso delle ammissioni all'università, se le donne candidate costituivano il 46% dei candidati respinti e costituivano solo il 32% dei candidati accettati, affermiamo che esiste una *disparità demografica* perché la percentuale di donne respinte supera quella con cui vengono accettate. In questo caso le donne candidate sono etichettate come facet *d*. Se i candidati di sesso maschile rappresentavano il 54% dei richiedenti respinti e il 68% di quelli accettati, non vi è alcuna disparità demografica per questo facet, in quanto il tasso di rifiuto è inferiore a quello di accettazione. In questo caso i richiedenti sono etichettati come facet *a*. 

La formula per la disparità demografica per il facet meno favorito *d* è la seguente: 

        DDd = nd(0)/n(0) - nd(1)/n(1) = PdR(y0) - PdA(y1) 

Dove: 
+ n(0) = na(0) \$1 nd(0) è il numero totale di risultati rifiutati nel set di dati per il facet favorito *a* e il facet svantaggiato *d*.
+ n(1) = na(1) \$1 nd(1) è il numero totale di risultati accettati nel set di dati per il facet favorito *a* e il facet svantaggiato *d*.
+ PdR(y0) è la proporzione di risultati rifiutati (con valore 0) nel facet *d*.
+ PdA(y1) è la proporzione di risultati accettati (valore 1) nel facet *d*.

Per l'esempio dell'ammissione all'università, la disparità demografica per le donne è DDd = 0,46 - 0,32 = 0,14. Per gli uomini DDa = 0,54 - 0,68 = - 0,14.

Per escludere il paradosso di Simpson è necessaria una metrica di disparità demografica condizionale (CDD) che condiziona DD sugli attributi che definiscono uno strato di sottogruppi nel set di dati. Il raggruppamento può fornire informazioni sulla causa delle apparenti disparità demografiche relative ai facet meno favoriti. Il caso classico è sorto nelle ammissioni a Berkeley, in cui gli uomini sono stati accettati a un tasso complessivo più elevato rispetto alle donne. Le statistiche relative a questo caso sono state utilizzate nei calcoli di esempio di DD. Tuttavia, quando sono stati esaminati i sottogruppi dipartimentali, è stato dimostrato che le donne hanno tassi di ammissione più elevati rispetto agli uomini se condizionate dal reparto. La spiegazione è data dal fatto che le donne si erano rivolte a reparti con tassi di accettazione inferiori rispetto agli uomini. L'esame dei tassi di accettazione suddivisi per sottogruppo ha rivelato che le donne erano effettivamente accettate a un tasso più elevato rispetto agli uomini nei dipartimenti con tassi di accettazione inferiori.

La metrica CDD fornisce un'unica misura per tutte le disparità riscontrate nei sottogruppi definiti da un attributo di un set di dati calcolandone la media. È definita come la media ponderata delle disparità demografiche (DDi) per ciascuno dei sottogruppi, con ogni disparità di sottogruppo ponderata in proporzione al numero di osservazioni contenute. La formula per la disparità demografica condizionata è la seguente:

        CDD = (1/n)\$1∑ini \$1DDi 

Dove: 
+ ∑ini = è il numero totale di osservazioni e ni è il numero di osservazioni per ciascun sottogruppo.
+ DDi = ni(0)/n(0) - ni(1)/n(1) = PiR(y0) - PiA(y1) è la disparità demografica per l'nesimo sottogruppo.

La disparità demografica per un sottogruppo (DDi) è la differenza tra la percentuale di risultati rifiutati e la percentuale di risultati accettati per ciascun sottogruppo.

L'intervallo di valori DD per i risultati binari per l'intero set di dati DDd o per i relativi sottogruppi condizionati DDi è [-1, \$11]. 
+ \$11: quando non vi sono rifiuti nel facet *a* o nel sottogruppo e accettazioni nel facet *d* o nel sottogruppo
+ I valori positivi indicano che esiste una disparità demografica in quanto il facet *d* o il sottogruppo ha una percentuale maggiore di risultati rifiutati nel set di dati rispetto ai risultati accettati. Più alto è il valore, meno favorito è il facet e maggiore è la disparità.
+ I valori positivi indicano che non esiste una disparità demografica in quanto il facet *d* o il sottogruppo ha una percentuale maggiore di risultati accettati nel set di dati rispetto ai risultati rifiutati. Più basso è il valore, più il facet è favorito.
+ -1: quando non vi sono rifiuti nel facet *d* o nel sottogruppo e accettazioni nel facet *a* o nel sottogruppo

Se non si condiziona alcun elemento, CDD è pari a zero se e solo se DPL ha lo stesso valore.

Questa metrica è utile per esplorare i concetti di discriminazione diretta e indiretta e di giustificazione oggettiva nelle leggi e nella giurisprudenza contro la discriminazione nell'UE e nel Regno Unito. Per ulteriori informazioni, consulta [Perché l'equità non può essere automatizzata](https://arxiv.org/abs/2005.05906). Questo documento contiene anche i dati e l'analisi pertinenti del caso di ammissione a Berkeley, che mostra come il condizionamento relativo ai sottogruppi dipartimentali del tasso di ammissione illustri il paradosso di Simpson.