Chiorri, C. (2014). Fondamenti di psicometria - Approfondimento 10.1 1 Approfondimento 10.1 Il test della probabilità esatta di Fisher nel caso del confronto di due proporzioni indipendenti Poniamo il caso che nella sessione estiva dell’esame di abilitazione alla professione di psicologo di una città italiana vengono dichiarati idonei 13 candidati locali su 18; 7 candidati fuori sede su 11, e vogliamo determinare, per α = ,05), se vi è una differenza statisticamente significativa fra le proporzioni di idonei fra locali e fuori sede. Se n1P1(1 − P1) > 5 e n2P2(1 − P2) > 5, dove n1 ed n2 sono le ampiezze campionarie dei due gruppi e P1 e P2 sono le proporzioni di individui con la caratteristica in esame nei due gruppi, la differenza fra le proporzioni campionarie può essere trasformata in una valore distribuito come z. In questo caso, però, abbiamo che nLocaliPLocali(1 − PLocali) = 18 × (13/18) × (1 − 13/18) = 3,61 < 5, e nFuoriSedePFuoriSede(1 − PFuoriSede) = 11 × (7/11) × (1 − 7/11) = 2,55 < 5, per cui non possiamo procedere con un test z, ma con un test esatto che produrrà come risultato finale una probabilità, chiamato test della probabilità esatta di Fisher (Fisher, 1922). Impostiamo obiettivo e ipotesi: Obiettivo: indagare se i candidati locali superino l'esame di abilitazione professionale in proporzione maggiore rispetto ai candidati fuori sede. Poichè l'essere o meno dichiarato idoneo non può produrre il fatto di essere un candidato locale o fuori sede potrebbe essere ragionevole pensare che sia quest'ultima variabile a giocare il ruolo di variabile indipendente. Nondimeno, l'essere un candidato locale o fuori sede non è una variabile esogena a cui si può essere assegnati casualmente, per cui ci limitiamo ad indicarla come variabile di raggruppamento, mentre l'aver o meno conseguito l'idoneità è la variabile di confronto. Variabili Variabile di raggruppamento: provenienza del candidato → nominale dicotomica (Locale, FuoriSede) Variabile di confronto: aver o meno conseguito l'idoneità → nominale dicotomica (Sì, No) → Ipotesi H0: ΠSì,Locale = ΠSì,FuoriSede → nelle rispettive popolazioni, la proporzione di candidati locali che superano l'esame di abilitazione professionale è uguale a quella dei candidati fuori sede → i candidati locali non superano l'esame di abilitazione professionale in proporzione maggiore rispetto ai fuori sede H1: ΠSì,Locale > ΠSì,FuoriSede → nella popolazione di candidati locali la proporzione di individui che superano l'esame di abilitazione professionale è maggiore di quella della popolazione di candidati fuori sede → i candidati locali superano l'esame di abilitazione professionale in proporzione maggiore rispetto ai fuori sede Poichè applichiamo un test esatto, le regole di decisione sull'ipotesi nulla sono: se p < α → è troppo improbabile che i dati osservati siano il risultato del fatto che H0 è vera, per cui la rifiutiamo se p > α → non è così improbabile che i dati osservati siano il risultato del fatto che H0 è vera, per cui la accettiamo Copyright ©2014 The McGraw-Hill Companies S.r.l., Publishing Group Italia Chiorri, C. (2014). Fondamenti di psicometria - Approfondimento 10.1 2 Per utilizzare il test della probabilità esatta di Fisher dobbiamo costruire una tavola di contingenza con i dati a disposizione (Tabella 1) Tabella 1 Tavola di contingenza per il test della probabilità esatta di Fisher Esito dell'esame Provenienza Idoneo Non idoneo Totale Locali 13 5 18 Fuori Sede 7 4 11 Totale 20 9 29 ed individuare, un po' come nel test della binomiale, tutti i casi più estremi. In ognuno di questi casi le frequenze marginali rimangono fisse, cambiano solo i idonei/non idonei nel campione dei candidati Locali (Tabella 2). Tabella 2 Tavole di contingenza per il test della probabilità esatta di Fisher più "estreme" di quelle in Tabella 1. Le celle ombreggiate indicano dove modificare i dati. Esito dell'esame Provenienza Idoneo Non idoneo Totale Locali 14 4 18 Fuori Sede 6 5 11 Totale 20 9 29 Provenienza Locali Fuori Sede Totale Esito dell'esame Idoneo Non idoneo 15 3 5 6 20 9 Totale 18 11 29 Provenienza Locali Fuori Sede Totale Esito dell'esame Idoneo Non idoneo 16 2 4 7 20 9 Totale 18 11 29 Provenienza Locali Fuori Sede Totale Esito dell'esame Idoneo Non idoneo 17 1 3 8 20 9 Totale 18 11 29 Provenienza Locali Fuori Sede Totale Esito dell'esame Idoneo Non idoneo 18 0 2 9 20 9 Totale 18 11 29 Il metodo esatto di Fisher prevede che si sommi la probabilità associata ad ogni tavola di contingenza. La probabilità associata ad ogni tavola è la seguente: Copyright ©2014 The McGraw-Hill Companies S.r.l., Publishing Group Italia Chiorri, C. (2014). Fondamenti di psicometria - Approfondimento 10.1 p= 3 (a + b)!×(c + d )!×(a + c)!×(b + d )! , dove a!×b!×c!×d !×n! Provenienza Locali Fuori Sede Totale Esito dell'esame Idoneo Non idoneo a b c d a+c b+d Totale a+b c+d n Eseguire tutti i calcoli manualmente è complesso, ma in realtà basta farlo solo per la prima tavola, in quanto per le successive è possibile applicare il metodo di Feldman e Klinger (1963). In base a questo metodo, una volta calcolata la prima probabilità con la formula indicata, quelle successive possono essere calcolate molto semplicemente come: p(t +1) = pt b×c (a + 1) × (d + 1) dove i valori di a, b, c e d sono quelli della tavola precedente (t) rispetto a quella della quale si calcola la probabilità (t + 1). In questo esempio avremo che nel caso della Tabella 1 il valore di p sarà: p= (a + b)!×(c + d )!×(a + c)!×(b + d )! 18!×11!×20!×9! = a!×b!×c!×d !×n! 13!×5!×7!×4!×29! Per semplificare i calcoli manuali conviene naturalmente semplificare il più possibile. Ad esempio, sviluppando il 29! del denominatore fino a 20!, si può semplificare con il 20! a numeratore, per cui rimane: p= 18!×11!×9! 13!×5!×7!×4!×(29 × 28 × 27 × 26 × 25 × 24 × 23 × 22 × 21) In base allo stesso principio possiamo sviluppare il 18! a numeratore fino a 13! e semplificarlo col 13! a denominatore, per cui avremo: (18 × 17 × 16 × 15 × 14) ×11!×9! p= 5!×7!×4!×(29 × 28 × 27 × 26 × 25 × 24 × 23 × 22 × 21) Di seguito svilupperemo il 9! a denominato fino a 7! per semplificarlo col 7! a denominatore: p= (18 × 17 × 16 ×15 × 14) × 11!×(9 × 8) 5!×4!×(29 × 28 × 27 × 26 × 25 × 24 × 23 × 22 × 21) e l'11! a numeratore fino a 5! per semplificarlo col 5! a denominatore: p= (18 × 17 ×16 × 15 × 14) × (11×10 × 9 × 8 × 7 × 6) × (9 × 8) 4!×(29 × 28 × 27 × 26 × 25 × 24 × 23 × 22 × 21) Sviluppiamo il 4! a denominatore: Copyright ©2014 The McGraw-Hill Companies S.r.l., Publishing Group Italia Chiorri, C. (2014). Fondamenti di psicometria - Approfondimento 10.1 p= 4 (18 × 17 ×16 × 15 × 14) × (11×10 × 9 × 8 × 7 × 6) × (9 × 8) (4 × 3 × 2 × 1) × (29 × 28 × 27 × 26 × 25 × 24 × 23 × 22 × 21) e semplifichiamo il semplificabile. Questa operazione naturalmente necessita di un po' di attenzione per non sbagliarsi. Se non commettere errori dovreste rimanere con: p= 18 × 17 × 8 =,2823 29 × 13 × 23 A questo punto, poiché, la probabilità che abbiamo calcolato è già maggiore di α = ,05, non abbiamo bisogno di andare avanti coi calcoli, poiché gli addendi successivi non porteranno mai la probabilità totale al di sotto di α (anzi, la renderanno ancora maggiore). Possiamo quindi concludere che non possiamo rifiutare l'ipotesi nulla. A puro scopo illustrativo, vediamo però come calcolare gli addendi successivi col metodo di Feldman e Kluger. Indicando con p(0) = ,2823 la prima probabilità calcolata avremo che: 5× 7 4× 6 =,1412 , p( 2) =,1412 =,0376 , (13 + 1) × (4 + 1) (14 + 1) × (5 + 1) 3× 5 2× 4 =,0376 =,0050 , p( 4) =,0050 =,000297 , (15 + 1) × (6 + 1) (16 + 1) × (7 + 1) 1× 3 =,000297 =,000005 (17 + 1) × (8 + 1) p(1) =,2823 p( 3) p( 5 ) La somma di tutti gli addendi dà ,4664, che, come detto, non ci consente comunque di rifiutare l'ipotesi nulla. Si noti che tale valore di probabilità è quello per il test ad una coda (ipotesi alternativa monodirezionale). Per il test a due code (ipotesi alternativa bidirezionale), se la distribuzione di probabilità fosse simmetrica, basterebbe moltiplicare per due questo valore, ma poiché la distribuzione in questione spesso non è simmetrica, tale procedura non è corretta − peraltro, potrebbe portare a risultati maggiori di 1, che nel caso della probabilità è un risultato impossibile. SPSS comunque permette di calcolare il valore di p sia per test a 1 coda, sia a 2 code (si veda l'ultimo paragrafo di questo documento). Conclusione: poiché p > α (,4664 > ,05), non è così improbabile che quanto osservato sia il risultato di un’ipotesi nulla vera, per cui la accettiamo. Questi risultati suggeriscono che i candidati locali superino l'esame di abilitazione professionale in proporzione uguale ai candidati fuori sede Dimensione dell'effetto La dimensione dell'effetto per il test della probabilità esatta di Fisher può essere calcolata con l'indice: h = 2 arcsin P1 − 2 arcsin P2 dove P1 è la proporzione di promossi fra i candidati locali (13/18 = ,72), mentre P1 è la proporzione di promossi fra i candidati fuori sede (7/11 = ,64): h = 2 arcsin ,72 − 2 arcsin ,64 = 2,03 − 1,86 = 0,17 Copyright ©2014 The McGraw-Hill Companies S.r.l., Publishing Group Italia Chiorri, C. (2014). Fondamenti di psicometria - Approfondimento 10.1 5 che in base alle linee guida della Tabella 10 in Appendice identifichiamo come trascurabile. Un altro modo per calcolare la dimensione dell'effetto quando si ha a disposizione la probabilità esatta è riferito da Rosenthal e Rubin (2003), che suggeriscono un modo di calcolare la dimensione dell'effetto requivalent. In primo luogo dobbiamo trasformare questa probabilità in un valore di t che abbia n−2 gradi di libertà, dove n è il numero totale di casi. In questo caso n=29, quindi i gradi di libertà sono 27. Per risalire al valore di t per p=.4664 e gdl=27, possiamo utilizzare Excel con la formula: =INV:T(,4664;27). Il risultato è 0,74. A questo punto possiamo calcolare requivalent con la seguente formula: requivalent t2 0,74 2 = 2 = =,15 t + (n − 2) 0,74 2 + (29 − 2) che in base alle indicazioni della Tabella 10 in Appendice è interpretabile come una dimensione dell'effetto piccola. Rappresentazione grafica In questo caso abbiamo bisogno per entrambi i campioni di calcolare l'intervallo di fiducia al 95% della proporzione della popolazione a partire da quella campionaria, che si può ottenere mediante la seguente formula: P − tα × 2 ;ν P (1 − P ) P(1 − P) < π < P + tα × ; ν n −1 n −1 2 poiché l'ampiezza campionaria è minore di 30. Il t che stiamo cercando è quello corrispondente α = ,05 a due code con gradi di libertà uguali a 18 − 1 = 17 nel caso dei candidati locali (quindi t = 2,11) e 11 − 1 = 10 nel caso dei candidati fuori sede (t = 2,23) quindi per cui avremo che le estensioni dell'intervallo di fiducia saranno: Locali: 2,11 × ,72(1−,72) =,23 ; 18 − 1 Fuori Sede: 2,23 × ,64(1−,64) =,34 . 11 − 1 Per realizzare il grafico possiamo inserire i dati delle proporzioni (,72 e ,64) e delle estensioni degli intervalli di fiducia (,23 e ,34) in un foglio di Excel, come in Figura 1. Figura 1 Organizzazione dei dati per eseguire con Excel il grafico dei dati in Tabella 1 A questo punto selezioniamo le celle da A1 a B2, ossia quelle contenenti le etichette e le proporzioni, e seguiamo Inserisci → Grafico, scegliendo il grafico Linee, e quindi Fine. Otterremo il grafico come quello di Figura 2a. A questo punto possiamo selezionare la legenda Serie 1 e cancellarla semplicemente premendo il tasto Canc, e inserire il titolo Provenienza all'asse orizzontale (o della categorie, o X) e Proporzione Idonei all'asse verticale (o dei valori, o Y) facendo click col tasto destro del mouse sul grafico, scegliendo Opziono grafico → etichetta Titoli e inserendo i titoli negli appositi campi. Per inserire le barre di errore, occorre clickare col tasto destro su uno dei due puntini del grafico che rappresentano le proporzioni, fare click col tasto destro del Copyright ©2014 The McGraw-Hill Companies S.r.l., Publishing Group Italia Chiorri, C. (2014). Fondamenti di psicometria - Approfondimento 10.1 6 mouse, e scegliere Formato Serie Dati (Figura 2b). A questo punto selezioniamo la linguetta Barre di Errore Y (Figura 2c) Clickiamo ora sul tastino accanto al campo + di Personalizza. Si aprirà una nuova finestra (Formato serie dati - Personalizzato +), nella quale, semplicemente selezionando col tasto sinistro del mouse le celle dove le abbiamo inserite, sarà possibile inserire i valori delle estensione degli intervalli di fiducia (Figura 2d). A questo punto clickiamo sul tastino sulla destra della finestra Formato serie dati - Personalizzato + e torniamo alla finestra di Figura 2c. Ripetiamo l'operazione per il campo − di Personalizza, e clickando OK otteniamo il grafico di Figura 2e. Il grafico può a questo punto essere modificato (per esempio, fare lo sfondo bianco) semplicemente facendo doppio click sull'elemento che si vuole cambiare. In particolare, per eliminare la linea che unisce i due punti, basta fare doppio click sulla linea e nella finestra che si apre selezionare, nel riquadro Linea, l'opzione Assente. Per modificare il formato dei numeri sull'asse verticale, basta fare doppio click sull'asse e scegliere l'etichetta Numero e formato Personalizzato, così da poter eventualmente indicare un formato che ometta lo zero prima della virgola. Per modificare la scala di valori, nella stessa finestra scegliere l'etichetta Scala e modificare il valori di default. Per modificare la forma e il colore del pallini, fare doppio click sui pallini e selezionare nei vari riquadri le caratteristiche desiderate. Un tipico aspetto del grafico per la presentazione in una tesi o in un articolo scientifico è quello di Figura 2f. Copyright ©2014 The McGraw-Hill Companies S.r.l., Publishing Group Italia Chiorri, C. (2014). Fondamenti di psicometria - Approfondimento 10.1 7 (b) (a) 0.74 0.72 0.7 0.68 Serie1 0.66 0.64 0.62 0.6 Fuori Sede (c) (d) (e) (f) 1.2 1.00 1 .75 Proporzione idonei Proporzione idonei Locali 0.8 0.6 0.4 0.2 .50 .25 .00 Locali 0 Fuori Sede Provenienza Locali Fuori Sede Provenienza Figura 2 Realizzare con Excel un grafico con gli intervalli di fiducia di due proporzioni indipendenti Copyright ©2014 The McGraw-Hill Companies S.r.l., Publishing Group Italia Chiorri, C. (2014). Fondamenti di psicometria - Approfondimento 10.1 8 Realizzare il test della probabilità esatta di Fisher con SPSS Per realizzare il test della probabilità esatta di Fisher con SPSS occorre, se non si hanno i dati soggetto per soggetto sulle due variabili (nel nostro esempio, provenienza ed esito dell'esame), inserire i dati come in Figura 3. Figura 3 Organizzazione dei dati per eseguire con SPSS il test della probabilità esatta di Fisher se non si hanno i dati soggetto per soggetto. Per la variabile Provenienza, 0=locale, 1=fuori sede; per la variabile Esito 0=Idoneo 1=Non idoneo. La variabile Frequenza contiene le frequenze congiunte di Tabella 1. A questo punto dobbiamo seguire Data → Weight Cases e inserire la variabile che contiene le frequenze (Frequenza in Figura 3) nel campo Weight cases by. Una volta clickato OK in basso a destra della finestra Data View di SPSS comparirà la dicitura Weight On. Seguiamo Analyze → Descriptive Statistics → Crosstabs (Figura 4a), e inseriamo nella nuova finestra la variabile Provenienza nel campo Row(s) e la variabile Esito nel campo Column(s) (Figura 4b). Clickiamo su Exact e selezioniamo l'opzione Exact (Figura 4c), quindi Continue. Poi clickiamo su Statistics e spuntiamo Chi-square e Phi and Cramer's V (Figura 4d), quindi Continue e OK. (a) (b) (c) (d) Figura 4 Procedura per eseguire con SPSS il test della probabilità esatta di Fisher. Copyright ©2014 The McGraw-Hill Companies S.r.l., Publishing Group Italia Chiorri, C. (2014). Fondamenti di psicometria - Approfondimento 10.1 9 Nell'output otterremo una tabella Case Processing Summary (qui non riportata, dato che è di secondario interesse) e le tabelle in Figura 5. Figura 5 Output di SPSS per test della probabilità esatta di Fisher. La tabella Provenienza * Esito Crosstabulation non è altro che la tavola di contingenza in Tabella 1, mentre nella tabella Chi-Square Tests troviamo, nella quarta riga, il risultato del test della probabilità esatta di Fisher (Fishers' Exact Test). Le colonne da considerare, a seconda della direzionalità dell'ipotesi alternativa, sono Exact Sig. (2-sided) e Exact Sig. (1-sided). Il risultato del test ad una coda è identico a quello calcolato manualmente. Nella tabella Symmetric Measures, il valore di Phi (si veda il Capitolo 14 del manuale) è una misura di dimensione dell'effetto nella metrica di r. In questo caso, poichè esso è ,09, la dimensione dell'effetto è trascurabile. In una tesi di laurea o in articolo scientifico riporteremo la Figura 2f e scriveremo: Per verificare se vi fosse una differenza nella proporzione di idonei all'Esame di Abilitazione alla professione di psicologo fra candidati locali (n = 18, Pidonei = ,72) e fuori sede (n = 11, Pidonei = ,64) è stato eseguito un test della probabilità esatta di Fisher in quanto nLocaliPLocali(1 − PLocali) = 18 × (13/18) × (1 − 13/18) = 3,61 < 5, e nFuoriSedePFuoriSede(1 − PFuoriSede) = 11 × (7/11) × (1 − 7/11) = 2,55 < 5. Il risultato del test non ha permesso di respingere l'ipotesi nulla che non vi fossero differenze fra i due gruppi quanto a proporzione di idonei (p = ,466, r = ,09). Copyright ©2014 The McGraw-Hill Companies S.r.l., Publishing Group Italia Chiorri, C. (2014). Fondamenti di psicometria - Approfondimento 10.1 Riferimenti bibliografici Feldman, S. E., & Klinger, E. (1963). Short cut calculation of the Fisher-Yates “exact test”. Psychometrika, 28(3), 289-291. Fisher, R. A. (1922). On the interpretation of χ2 from contingency tables, and the calculation of P. Journal of the Royal Statistical Society ,85(1), 87-94. Rosenthal, R., & Rubin, D. B. (2003). requivalent: A simple effect size indicator. Psychological Methods, 8, 492-496. Copyright ©2014 The McGraw-Hill Companies S.r.l., Publishing Group Italia 10