Test del Chi-quadrato Il test del chi-quadrato è un test di “verifica” delle ipotesi che ci dà conto della significatività della relazione fra due variabili. Ipotesi nulla: H 0 ovvero di assenza di relazione statistica fra due variabili. Ipotesi di ricerca H1 che sostiene l’esistenza della relazione, H1 è vera se H 0 è falsa •Frequenze osservate Fi : è il numero dei dati di una cella effettivamente rilevati •Frequenze teoriche Ft : è la frequenza che si dovrebbe ottenere sulla base dei totali marginali, se tra le due variabili considerate non esistesse alcuna associazione. Il test del chi-quadrato si basa sulla differenza tra frequenze osservate e frequenze attese. Se la frequenza osservata è “molto” diversa rispetto alla frequenza attesa, allora c’è un associazione tra le due variabili Il valore del chi-quadrato è tanto maggiore quanto maggiore è la distanza fra tabella delle frequenze osservate e tabella delle frequenze attese. È zero nel caso di indipendenza perfetta nei dati. 2 Frequenze Osservate Genere Scuola Liceo Istituto Tecnico Istituto Professionale Totale Frequenze Teoriche Genere Scuola Liceo Istituto Tecnico Istituto Professionale (Fi Ft )2 Ft Maschio Femmina Totale 312 353 304 969 475 154 147 776 787 507 451 1745 Maschio Femmina 787x969/1745=437.022 281.538 250.441 349.978 225.462 200.559 Maschio Femmina 312-437.022= -125.022 71.462 53.559 125.022 -71.462 -53.559 Contingenze Fi Ft Genere Scuola Liceo Istituto Tecnico Istituto Professionale 2 (Fi Ft )2 Ft (125.022)2 71.4622 53.5592 125.0222 (71.462)2 53.559 146.974 437.022 281.538 250.441 349.978 225.462 200.59 Se i due caratteri fossero indipendenti ci aspetteremmo un chi quadro zero, però delle fluttuazioni casuali sono sempre possibili, quindi anche nel caso d’indipendenza perfetta non verrà mai zero. Pertanto anche valori del chi-quadrato lontani dallo zero potrebbero rendere compatibile il risultato con l’ipotesi nulla H 0 di indipendenza fra le variabili. Questo numero 2 146.974 da noi trovato è solo il risultato di una fluttuazione oppure nasce dalla dipendenza fra i dati? La teoria statistica ci dice che se le variabili sono indipendenti la distribuzione delle frequenze del chi quadro segue una curva asimmetrica raffigurata qui sotto. Come per qualunque distribuzione di frequenze (ad esempio quella di Gauss), l’area sotto la curva, compresa fra due rette verticali, è la probabilità di ottenere dai calcoli (nel caso d’indipendenza), un chi-quadrato fra i due valori che individuano le rette. L’area a destra di una retta verticale (in figura evidenziata ed indicata con ), rappresenta la probabilità di ottenere un chi quadro maggiore del valore che individua tale retta. Per esempio potremmo chiederci nel nostro caso: Abbiamo una tabella di distribuzione delle frequenze di due caratteri, scuola e genere, il carattere scuola con tre modalità ed il carattere genere con due modalità. Nel caso d’indipendenza, quant’è il valore di chi quadro che lascia a destra una probabilità 0.05 5% ? Per leggere il valore in tabella si devono calcolare innanzitutto i cosiddetti “gradi di libertà” n : n (n.ro modalità primo carattere -1)x(n.ro modalità secondo carattere – 1)=(3-1)(2-1)=2 Si cerca nella prima colonna il valore n 2 e poi si scorre la riga fino a che non si arriva alla colonna 0.05 . Qui troviamo: 2 n2, 2,0.05 5.99 . Questo significa che se i dati fossero indipendenti avremmo solo la probabilità del 5% di ottenere dai calcoli un 2 5.99 . Avendo ottenuto 2 146.974 5.99 possiamo scartare l’ipotesi nulla H 0 di indipendenza dai dati con una confidenza del 5%, cioè la possibilità che H 0 sia vera è solo del 5%. Pertanto sarà vera l’ipotesi di ricerca H 1 , con una confidenza del 95% Indichiamo il valore critico n2, giacché dipende sia dai gradi di libertà n che dal livello di significatività .