Approfondimento 4.1 - I test post-hoc nel caso del test del chi

Approfondimento 4.1 - I test post-hoc nel caso del test del chi-quadrato
per un campione e la correzione Bonferroni
Il fatto di poter respingere l’ipotesi nulla nel caso del test del chi-quadrato per un campione non ci
dice automaticamente in quali categorie della variabile in esame vi sia la maggiore discrepanza fra
frequenze attese ed osservate. Mentre se non riusciamo a respingere l’ipotesi nulla possiamo
concludere che le frequenze osservate non si discostano significativamente da quelle attese in
nessuna categoria, se il test è significativo non possiamo sapere se le differenze sono significative
in tutte le celle, o in alcune soltanto. Nel caso illustrato nel manuale potevamo quindi scoprire che
l’indirizzo clinico era sì quello preferito dagli studenti, ma vi era una sostanziale equidistribuzione
delle scelte nelle altre categorie, oppure che vi erano differenze significative in tutte le categorie, e
così via. Per andare quindi più in profondità nell’analisi dei dati, dobbiamo realizzare, quando
respingiamo l’ipotesi nulla, quelli che in gergo si chiamano test post-hoc. Nel caso del chi-quadrato
per un campione, i test post-hoc ci permettono di sapere quali categorie della variabile sono
“responsabili” del fatto che sia risultato un chi-quadrato significativo. Per ogni categoria, quindi,
andiamo a verificare le seguenti ipotesi:
H0: la frequenza attesa è uguale alla frequenza osservata
H1: la frequenza attesa è diversa dalla frequenza osservata
In pratica, facciamo una serie di “mini-test” del chi-quadrato categoria per categoria, utilizzando gli
addendi del chi-quadrato che abbiamo ottenuto quando abbiamo realizzato il test generale (in gergo,
omnibus). Ognuno di questi test post-hoc ha un grado di libertà e livello di significatività
corrispondente a quello del test omnibus. Però c’è un problema. Nel caso del test omnibus abbiamo
realizzato un solo test, con probabilità di commettere un errore di primo tipo uguale a ,01. Ossia,
avevamo una probabilità di respingere un’ipotesi nulla vera dell’1%. Quando realizziamo i test
post-hoc, realizziamo più di un test, e in ognuno di questi abbiamo la probabilità di commettere un
errore di primo tipo. Per cui, la probabilità di commettere almeno un errore di primo tipo in k test
post-hoc indipendenti è necessariamente superiore a ,01. Infatti, se la probabilità di non commettere
un errore di primo tipo è 1 − α = ,99, la probabilità di non commettere un errore di primo tipo nel
primo test post-hoc, e non commetterlo nel secondo, e non commetterlo nel terzo, e non
commetterlo nel k-esimo:
(1 − α) × (1 − α) × (1 − α) × … × (1 − α) = ,99 × ,99 ×,99 × … × ,99 = ,99k = (1 − α)k
A questo punto, per calcolare la probabilità di commettere almeno un errore di primo tipo in k
diversi test post-hoc indipendenti diventa 1 − (1 − α)k. Se k fosse uguale a 10 e α = ,05, la
probabilità di commettere almeno un errore di primo tipo in uno dei 10 test post-hoc sarebbe:
p(almeno un errore di primo tipo) = 1 – (1 - α)k = 1 – (1 - ,05)10 = 1 – ,60 = ,40
ossia del 40%! Per ovviare a questo problema, lo statistico italiano Carlo Emilio Bonferroni (1892 −
1960) ha proposto una correzione che prende il suo nome (Bonferroni, 1936), e che consiste nel
calcolare per ogni singola confronto un livello di significatività "corretto" in base al livello di
significatività del test omnibus e al numero di confronti. La formula per calcolare il livello di
significatività corretto è:
α corretto = 1 − (1 − α )
1
k
Carlo Chiorri, Fondamenti di psicometria – Copyright © 2010 The McGraw-Hill Companies S.r.l., Publishing Group Italia
dove α è il livello di significatività del test omnibus e k il numero di confronti. Nel gergo statistico,
α prende il nome di livello di significatività experimentwise (per tutto l’esperimento), mentre
αcorretto prende il nome di livello di significatività comparisonwise (per ogni confronto post-hoc). In
realtà questo valore può essere approssimato in maniera affidabile da una formula più semplice, che
prevede il dividere il livello di significatività del test omnibus per il numero di confronti eseguiti,
ossia α / k. Nel caso dei test post-hoc per il test del chi-quadrato per un campione, però, le
frequenze di cella non sono indipendenti fra loro, per cui il numero di confronti realmente
indipendenti è uguale al numero di celle meno uno, ossia ai gradi di libertà. Nel caso della scelta del
curriculum universitario riportato nel manuale la variabile in esame ha quattro categorie, da cui tre
gradi di libertà. Se quindi avevamo scelto come livello α per il test omnibus il valore ,01,
utilizzando la prima formula abbiamo che il livello di significatività per ogni test post-hoc dovrebbe
essere
1
1
α corretto = 1 − (1 − α ) k = 1 − (1−,01) 3 =,003345
mentre se utilizziamo l’approssimazione dividendo ,01 per il numero di confronti indipendenti (3)
otteniamo ,01 / 3 = ,003333.
La regola di decisione diventa la seguente:
se X2 calcolato > X2 critico → è troppo improbabile che i dati osservati siano il risultato del fatto
che H0 è vera, per cui la rifiutiamo → la frequenza osservata è statisticamente maggiore o
minore di quella attesa sotto ipotesi nulla di equidistribuzione
se X2 calcolato ≤ X2 critico → non è così improbabile che i dati osservati siano il risultato del fatto
che H0 è vera, per cui la accettiamo → la frequenza osservata non è statisticamente diversa da
quella attesa sotto ipotesi nulla di equidistribuzione
Si noti che se possiamo respingere l’ipotesi nulla, per sapere se la frequenza osservata è maggiore o
minore di quella attesa dobbiamo consultare i dati.
Ora, se andiamo a cercare sulle tavole di chi-quadrato il X2 critico corrispondente a questo
livello di significatività non lo troviamo, perché di solito sulle tavole vengono inseriti solo i livelli
di significatività “classici” (,05; ,01; ,001, etc.). Nessun problema, possiamo utilizzare la funzione
di Excel =INV.CHI(probabilità;grado_libertà). Inserendo il livello di probabilità desiderato (,0033)
e i gradi di libertà (1), otteniamo il valore critico di X2 per i test post-hoc, che è 8,634.
A questo punto andiamo a confrontare ogni singolo addendo del test omnibus con questo
valore critico. I valori categoria per categoria della variabile Scelta Curricolare erano 9,13 per
indirizzo clinico, 0,06 per indirizzo di lavoro, 0,01 per indirizzo di sviluppo e 10,14 per indirizzo
sperimentale. La Tabella 4.1.1 riassume i risultati.
Tabella 4.1.1 Riepilogo dei test omnibus e post-hoc per la distribuzione di frequenza delle scelte
curriculari
Test
Categoria
fo
fa
( fo − fa )2
fa
X (gdl) critico
(α
α = ,01 EW)
Post-hoc
Post-hoc
Post-hoc
Post-hoc
Omnibus
Clinica
Lavoro
Sviluppo
Sperimentale
Somma
56
39
37
18
150
37,5
37,5
37,5
37,5
150
9,13
0,06
0,01
10,14
19,34
X (1) = 8,634
2
X (1) = 8,634
2
X (1) = 8,634
2
X (1) = 8,634
2
X (3) = 11,345
2
2
Decisione
Rifiuto H0
Accetto H0
Accetto H0
Rifiuto H0
Rifiuto H0
Nota: fo = frequenze osservate; fa = frequenze attese, gdl = gradi di libertà; EW = experimentwise
Carlo Chiorri, Fondamenti di psicometria – Copyright © 2010 The McGraw-Hill Companies S.r.l., Publishing Group Italia
Conclusione: possiamo respingere l’ipotesi nulla nel caso delle categorie Clinica e Sperimentale,
poiché X2 calcolato > X2 critico. Osservando la direzione della differenza fra frequenze osservate e
attese, possiamo concludere che ci sono più iscritti di quanto atteso all’indirizzo clinico e meno
iscritti di quanto atteso all’indirizzo sperimentale. In base a questi dati possiamo concludere che
l’indirizzo clinico è quello che statisticamente riceve il maggior numero di preferenze.
La dimensione dell'effetto dei test post-hoc è calcolabile come quella dell'effetto generale
considerando come n la frequenza osservata di quella determinata categoria (Tabella 4.1.2):
Tabella 4.1.2 Dimensione dell'effetto per i test post-hoc nel caso del test del chi-quadrato per un
campione
Post-hoc
( fo − fa )2
Dimensione
X2
Categoria
fa
fo
dell'effetto
=
w
f
a
fo
Clinica
56
37,5
9,13
w=
9,13
= 0,40
56
Moderata
Lavoro
39
37,5
0,06
w=
0,06
= 0,04
39
Trascurabile
Sviluppo
37
37,5
0,01
w=
0,01
= 0,02
37
Trascurabile
Sperimentale
18
37,5
10,14
w=
10,14
= 0,75
18
Grande
Si presti attenzione ad un aspetto importante. La correzione Bonferroni permette di controllare la
probabilità di commettere un errore di primo tipo in almeno uno dei confronti post-hoc, ma è anche
nota per essere particolarmente “severa”, nel senso che porta con un po’ troppa facilità a
commettere un errore di secondo tipo, ossia non accettare l’ipotesi alternativa quando è vera (per
una discussione del problema vedi, per esempio, Toothaker, 1993). Potrebbe quindi capitare,
soprattutto nel caso di effetti piccoli, che pur avendo rifiutato l’ipotesi nulla con il test omnibus del
chi-quadrato per un campione, in nessuno dei test post-hoc si rilevi un X2 calcolato maggiore del X2
critico individuato con il valore corretto di significatività. In questi casi, tuttavia, almeno uno dei
test post-hoc si avvicina alla significatività statistica, per cui si può concludere che probabilmente è
quella/e particolare/i categoria/e della variabile in esame che sono responsabili del test omnibus
significativo, ma che se l’effetto è realmente presente nella popolazione è troppo piccolo per essere
individuato con il campione a disposizione – in effetti, il test manca di potenza statistica, che può
essere aumentata solo con l’ampliamento del campione.
Carlo Chiorri, Fondamenti di psicometria – Copyright © 2010 The McGraw-Hill Companies S.r.l., Publishing Group Italia