Approfondimento 4.1 - I test post-hoc nel caso del test del chi-quadrato per un campione e la correzione Bonferroni Il fatto di poter respingere l’ipotesi nulla nel caso del test del chi-quadrato per un campione non ci dice automaticamente in quali categorie della variabile in esame vi sia la maggiore discrepanza fra frequenze attese ed osservate. Mentre se non riusciamo a respingere l’ipotesi nulla possiamo concludere che le frequenze osservate non si discostano significativamente da quelle attese in nessuna categoria, se il test è significativo non possiamo sapere se le differenze sono significative in tutte le celle, o in alcune soltanto. Nel caso illustrato nel manuale potevamo quindi scoprire che l’indirizzo clinico era sì quello preferito dagli studenti, ma vi era una sostanziale equidistribuzione delle scelte nelle altre categorie, oppure che vi erano differenze significative in tutte le categorie, e così via. Per andare quindi più in profondità nell’analisi dei dati, dobbiamo realizzare, quando respingiamo l’ipotesi nulla, quelli che in gergo si chiamano test post-hoc. Nel caso del chi-quadrato per un campione, i test post-hoc ci permettono di sapere quali categorie della variabile sono “responsabili” del fatto che sia risultato un chi-quadrato significativo. Per ogni categoria, quindi, andiamo a verificare le seguenti ipotesi: H0: la frequenza attesa è uguale alla frequenza osservata H1: la frequenza attesa è diversa dalla frequenza osservata In pratica, facciamo una serie di “mini-test” del chi-quadrato categoria per categoria, utilizzando gli addendi del chi-quadrato che abbiamo ottenuto quando abbiamo realizzato il test generale (in gergo, omnibus). Ognuno di questi test post-hoc ha un grado di libertà e livello di significatività corrispondente a quello del test omnibus. Però c’è un problema. Nel caso del test omnibus abbiamo realizzato un solo test, con probabilità di commettere un errore di primo tipo uguale a ,01. Ossia, avevamo una probabilità di respingere un’ipotesi nulla vera dell’1%. Quando realizziamo i test post-hoc, realizziamo più di un test, e in ognuno di questi abbiamo la probabilità di commettere un errore di primo tipo. Per cui, la probabilità di commettere almeno un errore di primo tipo in k test post-hoc indipendenti è necessariamente superiore a ,01. Infatti, se la probabilità di non commettere un errore di primo tipo è 1 − α = ,99, la probabilità di non commettere un errore di primo tipo nel primo test post-hoc, e non commetterlo nel secondo, e non commetterlo nel terzo, e non commetterlo nel k-esimo: (1 − α) × (1 − α) × (1 − α) × … × (1 − α) = ,99 × ,99 ×,99 × … × ,99 = ,99k = (1 − α)k A questo punto, per calcolare la probabilità di commettere almeno un errore di primo tipo in k diversi test post-hoc indipendenti diventa 1 − (1 − α)k. Se k fosse uguale a 10 e α = ,05, la probabilità di commettere almeno un errore di primo tipo in uno dei 10 test post-hoc sarebbe: p(almeno un errore di primo tipo) = 1 – (1 - α)k = 1 – (1 - ,05)10 = 1 – ,60 = ,40 ossia del 40%! Per ovviare a questo problema, lo statistico italiano Carlo Emilio Bonferroni (1892 − 1960) ha proposto una correzione che prende il suo nome (Bonferroni, 1936), e che consiste nel calcolare per ogni singola confronto un livello di significatività "corretto" in base al livello di significatività del test omnibus e al numero di confronti. La formula per calcolare il livello di significatività corretto è: α corretto = 1 − (1 − α ) 1 k Carlo Chiorri, Fondamenti di psicometria – Copyright © 2010 The McGraw-Hill Companies S.r.l., Publishing Group Italia dove α è il livello di significatività del test omnibus e k il numero di confronti. Nel gergo statistico, α prende il nome di livello di significatività experimentwise (per tutto l’esperimento), mentre αcorretto prende il nome di livello di significatività comparisonwise (per ogni confronto post-hoc). In realtà questo valore può essere approssimato in maniera affidabile da una formula più semplice, che prevede il dividere il livello di significatività del test omnibus per il numero di confronti eseguiti, ossia α / k. Nel caso dei test post-hoc per il test del chi-quadrato per un campione, però, le frequenze di cella non sono indipendenti fra loro, per cui il numero di confronti realmente indipendenti è uguale al numero di celle meno uno, ossia ai gradi di libertà. Nel caso della scelta del curriculum universitario riportato nel manuale la variabile in esame ha quattro categorie, da cui tre gradi di libertà. Se quindi avevamo scelto come livello α per il test omnibus il valore ,01, utilizzando la prima formula abbiamo che il livello di significatività per ogni test post-hoc dovrebbe essere 1 1 α corretto = 1 − (1 − α ) k = 1 − (1−,01) 3 =,003345 mentre se utilizziamo l’approssimazione dividendo ,01 per il numero di confronti indipendenti (3) otteniamo ,01 / 3 = ,003333. La regola di decisione diventa la seguente: se X2 calcolato > X2 critico → è troppo improbabile che i dati osservati siano il risultato del fatto che H0 è vera, per cui la rifiutiamo → la frequenza osservata è statisticamente maggiore o minore di quella attesa sotto ipotesi nulla di equidistribuzione se X2 calcolato ≤ X2 critico → non è così improbabile che i dati osservati siano il risultato del fatto che H0 è vera, per cui la accettiamo → la frequenza osservata non è statisticamente diversa da quella attesa sotto ipotesi nulla di equidistribuzione Si noti che se possiamo respingere l’ipotesi nulla, per sapere se la frequenza osservata è maggiore o minore di quella attesa dobbiamo consultare i dati. Ora, se andiamo a cercare sulle tavole di chi-quadrato il X2 critico corrispondente a questo livello di significatività non lo troviamo, perché di solito sulle tavole vengono inseriti solo i livelli di significatività “classici” (,05; ,01; ,001, etc.). Nessun problema, possiamo utilizzare la funzione di Excel =INV.CHI(probabilità;grado_libertà). Inserendo il livello di probabilità desiderato (,0033) e i gradi di libertà (1), otteniamo il valore critico di X2 per i test post-hoc, che è 8,634. A questo punto andiamo a confrontare ogni singolo addendo del test omnibus con questo valore critico. I valori categoria per categoria della variabile Scelta Curricolare erano 9,13 per indirizzo clinico, 0,06 per indirizzo di lavoro, 0,01 per indirizzo di sviluppo e 10,14 per indirizzo sperimentale. La Tabella 4.1.1 riassume i risultati. Tabella 4.1.1 Riepilogo dei test omnibus e post-hoc per la distribuzione di frequenza delle scelte curriculari Test Categoria fo fa ( fo − fa )2 fa X (gdl) critico (α α = ,01 EW) Post-hoc Post-hoc Post-hoc Post-hoc Omnibus Clinica Lavoro Sviluppo Sperimentale Somma 56 39 37 18 150 37,5 37,5 37,5 37,5 150 9,13 0,06 0,01 10,14 19,34 X (1) = 8,634 2 X (1) = 8,634 2 X (1) = 8,634 2 X (1) = 8,634 2 X (3) = 11,345 2 2 Decisione Rifiuto H0 Accetto H0 Accetto H0 Rifiuto H0 Rifiuto H0 Nota: fo = frequenze osservate; fa = frequenze attese, gdl = gradi di libertà; EW = experimentwise Carlo Chiorri, Fondamenti di psicometria – Copyright © 2010 The McGraw-Hill Companies S.r.l., Publishing Group Italia Conclusione: possiamo respingere l’ipotesi nulla nel caso delle categorie Clinica e Sperimentale, poiché X2 calcolato > X2 critico. Osservando la direzione della differenza fra frequenze osservate e attese, possiamo concludere che ci sono più iscritti di quanto atteso all’indirizzo clinico e meno iscritti di quanto atteso all’indirizzo sperimentale. In base a questi dati possiamo concludere che l’indirizzo clinico è quello che statisticamente riceve il maggior numero di preferenze. La dimensione dell'effetto dei test post-hoc è calcolabile come quella dell'effetto generale considerando come n la frequenza osservata di quella determinata categoria (Tabella 4.1.2): Tabella 4.1.2 Dimensione dell'effetto per i test post-hoc nel caso del test del chi-quadrato per un campione Post-hoc ( fo − fa )2 Dimensione X2 Categoria fa fo dell'effetto = w f a fo Clinica 56 37,5 9,13 w= 9,13 = 0,40 56 Moderata Lavoro 39 37,5 0,06 w= 0,06 = 0,04 39 Trascurabile Sviluppo 37 37,5 0,01 w= 0,01 = 0,02 37 Trascurabile Sperimentale 18 37,5 10,14 w= 10,14 = 0,75 18 Grande Si presti attenzione ad un aspetto importante. La correzione Bonferroni permette di controllare la probabilità di commettere un errore di primo tipo in almeno uno dei confronti post-hoc, ma è anche nota per essere particolarmente “severa”, nel senso che porta con un po’ troppa facilità a commettere un errore di secondo tipo, ossia non accettare l’ipotesi alternativa quando è vera (per una discussione del problema vedi, per esempio, Toothaker, 1993). Potrebbe quindi capitare, soprattutto nel caso di effetti piccoli, che pur avendo rifiutato l’ipotesi nulla con il test omnibus del chi-quadrato per un campione, in nessuno dei test post-hoc si rilevi un X2 calcolato maggiore del X2 critico individuato con il valore corretto di significatività. In questi casi, tuttavia, almeno uno dei test post-hoc si avvicina alla significatività statistica, per cui si può concludere che probabilmente è quella/e particolare/i categoria/e della variabile in esame che sono responsabili del test omnibus significativo, ma che se l’effetto è realmente presente nella popolazione è troppo piccolo per essere individuato con il campione a disposizione – in effetti, il test manca di potenza statistica, che può essere aumentata solo con l’ampliamento del campione. Carlo Chiorri, Fondamenti di psicometria – Copyright © 2010 The McGraw-Hill Companies S.r.l., Publishing Group Italia