Approfondimento 10.1 Il test della probabilità esatta di

Chiorri, C. (2014). Fondamenti di psicometria - Approfondimento 10.1
1
Approfondimento 10.1
Il test della probabilità esatta di Fisher nel caso del confronto di due
proporzioni indipendenti
Poniamo il caso che nella sessione estiva dell’esame di abilitazione alla professione di psicologo di
una città italiana vengono dichiarati idonei 13 candidati locali su 18; 7 candidati fuori sede su 11, e
vogliamo determinare, per α = ,05), se vi è una differenza statisticamente significativa fra le
proporzioni di idonei fra locali e fuori sede. Se n1P1(1 − P1) > 5 e n2P2(1 − P2) > 5, dove n1 ed n2
sono le ampiezze campionarie dei due gruppi e P1 e P2 sono le proporzioni di individui con la
caratteristica in esame nei due gruppi, la differenza fra le proporzioni campionarie può essere
trasformata in una valore distribuito come z. In questo caso, però, abbiamo che nLocaliPLocali(1 −
PLocali) = 18 × (13/18) × (1 − 13/18) = 3,61 < 5, e nFuoriSedePFuoriSede(1 − PFuoriSede) = 11 × (7/11) × (1
− 7/11) = 2,55 < 5, per cui non possiamo procedere con un test z, ma con un test esatto che produrrà
come risultato finale una probabilità, chiamato test della probabilità esatta di Fisher (Fisher, 1922).
Impostiamo obiettivo e ipotesi:
Obiettivo: indagare se i candidati locali superino l'esame di abilitazione professionale in
proporzione maggiore rispetto ai candidati fuori sede. Poichè l'essere o meno dichiarato idoneo non
può produrre il fatto di essere un candidato locale o fuori sede potrebbe essere ragionevole pensare
che sia quest'ultima variabile a giocare il ruolo di variabile indipendente. Nondimeno, l'essere un
candidato locale o fuori sede non è una variabile esogena a cui si può essere assegnati casualmente,
per cui ci limitiamo ad indicarla come variabile di raggruppamento, mentre l'aver o meno
conseguito l'idoneità è la variabile di confronto.
Variabili
Variabile di raggruppamento: provenienza del candidato → nominale dicotomica (Locale,
FuoriSede)
Variabile di confronto: aver o meno conseguito l'idoneità → nominale dicotomica (Sì, No) →
Ipotesi
H0: ΠSì,Locale = ΠSì,FuoriSede → nelle rispettive popolazioni, la proporzione di candidati locali che
superano l'esame di abilitazione professionale è uguale a quella dei candidati fuori sede → i
candidati locali non superano l'esame di abilitazione professionale in proporzione maggiore
rispetto ai fuori sede
H1: ΠSì,Locale > ΠSì,FuoriSede → nella popolazione di candidati locali la proporzione di individui che
superano l'esame di abilitazione professionale è maggiore di quella della popolazione di
candidati fuori sede → i candidati locali superano l'esame di abilitazione professionale in
proporzione maggiore rispetto ai fuori sede
Poichè applichiamo un test esatto, le regole di decisione sull'ipotesi nulla sono:
se p < α → è troppo improbabile che i dati osservati siano il risultato del fatto che H0 è vera, per cui
la rifiutiamo
se p > α → non è così improbabile che i dati osservati siano il risultato del fatto che H0 è vera, per
cui la accettiamo
Copyright ©2014 The McGraw-Hill Companies S.r.l., Publishing Group Italia
Chiorri, C. (2014). Fondamenti di psicometria - Approfondimento 10.1
2
Per utilizzare il test della probabilità esatta di Fisher dobbiamo costruire una tavola di contingenza
con i dati a disposizione (Tabella 1)
Tabella 1 Tavola di contingenza per il test della probabilità esatta di Fisher
Esito dell'esame
Provenienza
Idoneo
Non idoneo Totale
Locali
13
5
18
Fuori Sede
7
4
11
Totale
20
9
29
ed individuare, un po' come nel test della binomiale, tutti i casi più estremi. In ognuno di questi casi
le frequenze marginali rimangono fisse, cambiano solo i idonei/non idonei nel campione dei
candidati Locali (Tabella 2).
Tabella 2 Tavole di contingenza per il test della probabilità esatta di Fisher più "estreme" di quelle
in Tabella 1. Le celle ombreggiate indicano dove modificare i dati.
Esito dell'esame
Provenienza
Idoneo
Non idoneo Totale
Locali
14
4
18
Fuori Sede
6
5
11
Totale
20
9
29
Provenienza
Locali
Fuori Sede
Totale
Esito dell'esame
Idoneo
Non idoneo
15
3
5
6
20
9
Totale
18
11
29
Provenienza
Locali
Fuori Sede
Totale
Esito dell'esame
Idoneo
Non idoneo
16
2
4
7
20
9
Totale
18
11
29
Provenienza
Locali
Fuori Sede
Totale
Esito dell'esame
Idoneo
Non idoneo
17
1
3
8
20
9
Totale
18
11
29
Provenienza
Locali
Fuori Sede
Totale
Esito dell'esame
Idoneo
Non idoneo
18
0
2
9
20
9
Totale
18
11
29
Il metodo esatto di Fisher prevede che si sommi la probabilità associata ad ogni tavola di
contingenza. La probabilità associata ad ogni tavola è la seguente:
Copyright ©2014 The McGraw-Hill Companies S.r.l., Publishing Group Italia
Chiorri, C. (2014). Fondamenti di psicometria - Approfondimento 10.1
p=
3
(a + b)!×(c + d )!×(a + c)!×(b + d )!
, dove
a!×b!×c!×d !×n!
Provenienza
Locali
Fuori Sede
Totale
Esito dell'esame
Idoneo
Non idoneo
a
b
c
d
a+c
b+d
Totale
a+b
c+d
n
Eseguire tutti i calcoli manualmente è complesso, ma in realtà basta farlo solo per la prima tavola,
in quanto per le successive è possibile applicare il metodo di Feldman e Klinger (1963). In base a
questo metodo, una volta calcolata la prima probabilità con la formula indicata, quelle successive
possono essere calcolate molto semplicemente come:
p(t +1) = pt
b×c
(a + 1) × (d + 1)
dove i valori di a, b, c e d sono quelli della tavola precedente (t) rispetto a quella della quale si
calcola la probabilità (t + 1).
In questo esempio avremo che nel caso della Tabella 1 il valore di p sarà:
p=
(a + b)!×(c + d )!×(a + c)!×(b + d )! 18!×11!×20!×9!
=
a!×b!×c!×d !×n!
13!×5!×7!×4!×29!
Per semplificare i calcoli manuali conviene naturalmente semplificare il più possibile. Ad esempio,
sviluppando il 29! del denominatore fino a 20!, si può semplificare con il 20! a numeratore, per cui
rimane:
p=
18!×11!×9!
13!×5!×7!×4!×(29 × 28 × 27 × 26 × 25 × 24 × 23 × 22 × 21)
In base allo stesso principio possiamo sviluppare il 18! a numeratore fino a 13! e semplificarlo col
13! a denominatore, per cui avremo:
(18 × 17 × 16 × 15 × 14) ×11!×9!
p=
5!×7!×4!×(29 × 28 × 27 × 26 × 25 × 24 × 23 × 22 × 21)
Di seguito svilupperemo il 9! a denominato fino a 7! per semplificarlo col 7! a denominatore:
p=
(18 × 17 × 16 ×15 × 14) × 11!×(9 × 8)
5!×4!×(29 × 28 × 27 × 26 × 25 × 24 × 23 × 22 × 21)
e l'11! a numeratore fino a 5! per semplificarlo col 5! a denominatore:
p=
(18 × 17 ×16 × 15 × 14) × (11×10 × 9 × 8 × 7 × 6) × (9 × 8)
4!×(29 × 28 × 27 × 26 × 25 × 24 × 23 × 22 × 21)
Sviluppiamo il 4! a denominatore:
Copyright ©2014 The McGraw-Hill Companies S.r.l., Publishing Group Italia
Chiorri, C. (2014). Fondamenti di psicometria - Approfondimento 10.1
p=
4
(18 × 17 ×16 × 15 × 14) × (11×10 × 9 × 8 × 7 × 6) × (9 × 8)
(4 × 3 × 2 × 1) × (29 × 28 × 27 × 26 × 25 × 24 × 23 × 22 × 21)
e semplifichiamo il semplificabile. Questa operazione naturalmente necessita di un po' di attenzione
per non sbagliarsi. Se non commettere errori dovreste rimanere con:
p=
18 × 17 × 8
=,2823
29 × 13 × 23
A questo punto, poiché, la probabilità che abbiamo calcolato è già maggiore di α = ,05, non
abbiamo bisogno di andare avanti coi calcoli, poiché gli addendi successivi non porteranno mai la
probabilità totale al di sotto di α (anzi, la renderanno ancora maggiore). Possiamo quindi
concludere che non possiamo rifiutare l'ipotesi nulla. A puro scopo illustrativo, vediamo però come
calcolare gli addendi successivi col metodo di Feldman e Kluger. Indicando con p(0) = ,2823 la
prima probabilità calcolata avremo che:
5× 7
4× 6
=,1412 , p( 2) =,1412
=,0376 ,
(13 + 1) × (4 + 1)
(14 + 1) × (5 + 1)
3× 5
2× 4
=,0376
=,0050 , p( 4) =,0050
=,000297 ,
(15 + 1) × (6 + 1)
(16 + 1) × (7 + 1)
1× 3
=,000297
=,000005
(17 + 1) × (8 + 1)
p(1) =,2823
p( 3)
p( 5 )
La somma di tutti gli addendi dà ,4664, che, come detto, non ci consente comunque di rifiutare
l'ipotesi nulla. Si noti che tale valore di probabilità è quello per il test ad una coda (ipotesi
alternativa monodirezionale). Per il test a due code (ipotesi alternativa bidirezionale), se la
distribuzione di probabilità fosse simmetrica, basterebbe moltiplicare per due questo valore, ma
poiché la distribuzione in questione spesso non è simmetrica, tale procedura non è corretta −
peraltro, potrebbe portare a risultati maggiori di 1, che nel caso della probabilità è un risultato
impossibile. SPSS comunque permette di calcolare il valore di p sia per test a 1 coda, sia a 2 code
(si veda l'ultimo paragrafo di questo documento).
Conclusione: poiché p > α (,4664 > ,05), non è così improbabile che quanto osservato sia il
risultato di un’ipotesi nulla vera, per cui la accettiamo. Questi risultati suggeriscono che i candidati
locali superino l'esame di abilitazione professionale in proporzione uguale ai candidati fuori sede
Dimensione dell'effetto
La dimensione dell'effetto per il test della probabilità esatta di Fisher può essere calcolata con
l'indice:
h = 2 arcsin P1 − 2 arcsin P2
dove P1 è la proporzione di promossi fra i candidati locali (13/18 = ,72), mentre P1 è la proporzione
di promossi fra i candidati fuori sede (7/11 = ,64):
h = 2 arcsin ,72 − 2 arcsin ,64 = 2,03 − 1,86 = 0,17
Copyright ©2014 The McGraw-Hill Companies S.r.l., Publishing Group Italia
Chiorri, C. (2014). Fondamenti di psicometria - Approfondimento 10.1
5
che in base alle linee guida della Tabella 10 in Appendice identifichiamo come trascurabile.
Un altro modo per calcolare la dimensione dell'effetto quando si ha a disposizione la probabilità
esatta è riferito da Rosenthal e Rubin (2003), che suggeriscono un modo di calcolare la dimensione
dell'effetto requivalent. In primo luogo dobbiamo trasformare questa probabilità in un valore di t che
abbia n−2 gradi di libertà, dove n è il numero totale di casi. In questo caso n=29, quindi i gradi di
libertà sono 27. Per risalire al valore di t per p=.4664 e gdl=27, possiamo utilizzare Excel con la
formula: =INV:T(,4664;27). Il risultato è 0,74. A questo punto possiamo calcolare requivalent con la
seguente formula:
requivalent
t2
0,74 2
= 2
=
=,15
t + (n − 2)
0,74 2 + (29 − 2)
che in base alle indicazioni della Tabella 10 in Appendice è interpretabile come una dimensione
dell'effetto piccola.
Rappresentazione grafica
In questo caso abbiamo bisogno per entrambi i campioni di calcolare l'intervallo di fiducia al 95%
della proporzione della popolazione a partire da quella campionaria, che si può ottenere mediante la
seguente formula:
P − tα ×
2
;ν
P (1 − P )
P(1 − P)
< π < P + tα ×
;
ν
n −1
n −1
2
poiché l'ampiezza campionaria è minore di 30. Il t che stiamo cercando è quello corrispondente α =
,05 a due code con gradi di libertà uguali a 18 − 1 = 17 nel caso dei candidati locali (quindi t = 2,11)
e 11 − 1 = 10 nel caso dei candidati fuori sede (t = 2,23) quindi per cui avremo che le estensioni
dell'intervallo di fiducia saranno:
Locali: 2,11 × ,72(1−,72) =,23 ;
18 − 1
Fuori Sede: 2,23 × ,64(1−,64) =,34 .
11 − 1
Per realizzare il grafico possiamo inserire i dati delle proporzioni (,72 e ,64) e delle estensioni degli
intervalli di fiducia (,23 e ,34) in un foglio di Excel, come in Figura 1.
Figura 1 Organizzazione dei dati per eseguire con Excel il grafico dei dati in Tabella 1
A questo punto selezioniamo le celle da A1 a B2, ossia quelle contenenti le etichette e le
proporzioni, e seguiamo Inserisci → Grafico, scegliendo il grafico Linee, e quindi Fine. Otterremo
il grafico come quello di Figura 2a. A questo punto possiamo selezionare la legenda Serie 1 e
cancellarla semplicemente premendo il tasto Canc, e inserire il titolo Provenienza all'asse
orizzontale (o della categorie, o X) e Proporzione Idonei all'asse verticale (o dei valori, o Y)
facendo click col tasto destro del mouse sul grafico, scegliendo Opziono grafico → etichetta Titoli e
inserendo i titoli negli appositi campi. Per inserire le barre di errore, occorre clickare col tasto destro
su uno dei due puntini del grafico che rappresentano le proporzioni, fare click col tasto destro del
Copyright ©2014 The McGraw-Hill Companies S.r.l., Publishing Group Italia
Chiorri, C. (2014). Fondamenti di psicometria - Approfondimento 10.1
6
mouse, e scegliere Formato Serie Dati (Figura 2b). A questo punto selezioniamo la linguetta Barre
di Errore Y (Figura 2c) Clickiamo ora sul tastino
accanto al campo + di Personalizza. Si aprirà
una nuova finestra (Formato serie dati - Personalizzato +), nella quale, semplicemente
selezionando col tasto sinistro del mouse le celle dove le abbiamo inserite, sarà possibile inserire i
valori delle estensione degli intervalli di fiducia (Figura 2d). A questo punto clickiamo sul tastino
sulla destra della finestra Formato serie dati - Personalizzato + e torniamo alla finestra di
Figura 2c. Ripetiamo l'operazione per il campo − di Personalizza, e clickando OK otteniamo il
grafico di Figura 2e. Il grafico può a questo punto essere modificato (per esempio, fare lo sfondo
bianco) semplicemente facendo doppio click sull'elemento che si vuole cambiare. In particolare, per
eliminare la linea che unisce i due punti, basta fare doppio click sulla linea e nella finestra che si
apre selezionare, nel riquadro Linea, l'opzione Assente. Per modificare il formato dei numeri
sull'asse verticale, basta fare doppio click sull'asse e scegliere l'etichetta Numero e formato
Personalizzato, così da poter eventualmente indicare un formato che ometta lo zero prima della
virgola. Per modificare la scala di valori, nella stessa finestra scegliere l'etichetta Scala e modificare
il valori di default. Per modificare la forma e il colore del pallini, fare doppio click sui pallini e
selezionare nei vari riquadri le caratteristiche desiderate. Un tipico aspetto del grafico per la
presentazione in una tesi o in un articolo scientifico è quello di Figura 2f.
Copyright ©2014 The McGraw-Hill Companies S.r.l., Publishing Group Italia
Chiorri, C. (2014). Fondamenti di psicometria - Approfondimento 10.1
7
(b)
(a)
0.74
0.72
0.7
0.68
Serie1
0.66
0.64
0.62
0.6
Fuori Sede
(c)
(d)
(e)
(f)
1.2
1.00
1
.75
Proporzione idonei
Proporzione idonei
Locali
0.8
0.6
0.4
0.2
.50
.25
.00
Locali
0
Fuori Sede
Provenienza
Locali
Fuori Sede
Provenienza
Figura 2 Realizzare con Excel un grafico con gli intervalli di fiducia di due proporzioni indipendenti
Copyright ©2014 The McGraw-Hill Companies S.r.l., Publishing Group Italia
Chiorri, C. (2014). Fondamenti di psicometria - Approfondimento 10.1
8
Realizzare il test della probabilità esatta di Fisher con SPSS
Per realizzare il test della probabilità esatta di Fisher con SPSS occorre, se non si hanno i dati
soggetto per soggetto sulle due variabili (nel nostro esempio, provenienza ed esito dell'esame),
inserire i dati come in Figura 3.
Figura 3 Organizzazione dei dati per eseguire con SPSS il test della probabilità esatta di Fisher se non si hanno i
dati soggetto per soggetto. Per la variabile Provenienza, 0=locale, 1=fuori sede; per la variabile Esito 0=Idoneo
1=Non idoneo. La variabile Frequenza contiene le frequenze congiunte di Tabella 1.
A questo punto dobbiamo seguire Data → Weight Cases e inserire la variabile che contiene le
frequenze (Frequenza in Figura 3) nel campo Weight cases by. Una volta clickato OK in basso a
destra della finestra Data View di SPSS comparirà la dicitura Weight On.
Seguiamo Analyze → Descriptive Statistics → Crosstabs (Figura 4a), e inseriamo nella
nuova finestra la variabile Provenienza nel campo Row(s) e la variabile Esito nel campo Column(s)
(Figura 4b). Clickiamo su Exact e selezioniamo l'opzione Exact (Figura 4c), quindi Continue. Poi
clickiamo su Statistics e spuntiamo Chi-square e Phi and Cramer's V (Figura 4d), quindi Continue e
OK.
(a)
(b)
(c)
(d)
Figura 4 Procedura per eseguire con SPSS il test della probabilità esatta di Fisher.
Copyright ©2014 The McGraw-Hill Companies S.r.l., Publishing Group Italia
Chiorri, C. (2014). Fondamenti di psicometria - Approfondimento 10.1
9
Nell'output otterremo una tabella Case Processing Summary (qui non riportata, dato che è di
secondario interesse) e le tabelle in Figura 5.
Figura 5 Output di SPSS per test della probabilità esatta di Fisher.
La tabella Provenienza * Esito Crosstabulation non è altro che la tavola di contingenza in Tabella
1, mentre nella tabella Chi-Square Tests troviamo, nella quarta riga, il risultato del test della
probabilità esatta di Fisher (Fishers' Exact Test). Le colonne da considerare, a seconda della
direzionalità dell'ipotesi alternativa, sono Exact Sig. (2-sided) e Exact Sig. (1-sided). Il risultato del
test ad una coda è identico a quello calcolato manualmente. Nella tabella Symmetric Measures, il
valore di Phi (si veda il Capitolo 14 del manuale) è una misura di dimensione dell'effetto nella
metrica di r. In questo caso, poichè esso è ,09, la dimensione dell'effetto è trascurabile.
In una tesi di laurea o in articolo scientifico riporteremo la Figura 2f e scriveremo:
Per verificare se vi fosse una differenza nella proporzione di idonei all'Esame di
Abilitazione alla professione di psicologo fra candidati locali (n = 18, Pidonei = ,72) e fuori
sede (n = 11, Pidonei = ,64) è stato eseguito un test della probabilità esatta di Fisher in
quanto nLocaliPLocali(1 − PLocali) = 18 × (13/18) × (1 − 13/18) = 3,61 < 5, e
nFuoriSedePFuoriSede(1 − PFuoriSede) = 11 × (7/11) × (1 − 7/11) = 2,55 < 5. Il risultato del test
non ha permesso di respingere l'ipotesi nulla che non vi fossero differenze fra i due
gruppi quanto a proporzione di idonei (p = ,466, r = ,09).
Copyright ©2014 The McGraw-Hill Companies S.r.l., Publishing Group Italia
Chiorri, C. (2014). Fondamenti di psicometria - Approfondimento 10.1
Riferimenti bibliografici
Feldman, S. E., & Klinger, E. (1963). Short cut calculation of the Fisher-Yates “exact test”.
Psychometrika, 28(3), 289-291.
Fisher, R. A. (1922). On the interpretation of χ2 from contingency tables, and the calculation of
P. Journal of the Royal Statistical Society ,85(1), 87-94.
Rosenthal, R., & Rubin, D. B. (2003). requivalent: A simple effect size indicator. Psychological
Methods, 8, 492-496.
Copyright ©2014 The McGraw-Hill Companies S.r.l., Publishing Group Italia
10