Test del Chi

annuncio pubblicitario
Test del Chi-quadrato
Il test del chi-quadrato è un test di “verifica” delle ipotesi che ci dà conto della significatività della relazione
fra due variabili.
Ipotesi nulla: H 0 ovvero di assenza di relazione statistica fra due variabili.
Ipotesi di ricerca H1 che sostiene l’esistenza della relazione, H1 è vera se H 0 è falsa
•Frequenze osservate Fi : è il numero dei dati di una cella effettivamente rilevati
•Frequenze teoriche Ft : è la frequenza che si dovrebbe ottenere sulla base dei totali marginali, se tra le due
variabili considerate non esistesse alcuna associazione.
Il test del chi-quadrato si basa sulla differenza tra frequenze osservate e frequenze attese. Se la frequenza
osservata è “molto” diversa rispetto alla frequenza attesa, allora c’è un associazione tra le due variabili
Il valore del chi-quadrato è tanto maggiore quanto maggiore è la distanza fra tabella delle frequenze
osservate e tabella delle frequenze attese. È zero nel caso di indipendenza perfetta nei dati.
2 
Frequenze Osservate
Genere
Scuola
Liceo
Istituto Tecnico
Istituto Professionale
Totale
Frequenze Teoriche
Genere
Scuola
Liceo
Istituto Tecnico
Istituto Professionale

(Fi  Ft )2
Ft
Maschio
Femmina
Totale
312
353
304
969
475
154
147
776
787
507
451
1745
Maschio
Femmina
787x969/1745=437.022
281.538
250.441
349.978
225.462
200.559
Maschio
Femmina
312-437.022= -125.022
71.462
53.559
125.022
-71.462
-53.559
Contingenze Fi  Ft
Genere
Scuola
Liceo
Istituto Tecnico
Istituto Professionale
2 

(Fi  Ft )2
Ft

(125.022)2 71.4622 53.5592 125.0222 (71.462)2 53.559





 146.974
437.022
281.538 250.441 349.978
225.462
200.59
Se i due caratteri fossero indipendenti ci aspetteremmo un chi quadro zero, però delle fluttuazioni casuali
sono sempre possibili, quindi anche nel caso d’indipendenza perfetta non verrà mai zero. Pertanto anche
valori del chi-quadrato lontani dallo zero potrebbero rendere compatibile il risultato con l’ipotesi nulla H 0
di indipendenza fra le variabili. Questo numero 2  146.974 da noi trovato è solo il risultato di una
fluttuazione oppure nasce dalla dipendenza fra i dati?
La teoria statistica ci dice che se le variabili sono indipendenti la distribuzione delle frequenze del chi quadro
segue una curva asimmetrica raffigurata qui sotto. Come per qualunque distribuzione di frequenze (ad
esempio quella di Gauss), l’area sotto la curva, compresa fra due rette verticali, è la probabilità di ottenere
dai calcoli (nel caso d’indipendenza), un chi-quadrato fra i due valori che individuano le rette. L’area a
destra di una retta verticale (in figura evidenziata ed indicata con  ), rappresenta la probabilità di ottenere
un chi quadro maggiore del valore che individua tale retta. Per esempio potremmo chiederci nel nostro caso:
Abbiamo una tabella di distribuzione delle frequenze di due caratteri, scuola e genere, il carattere scuola
con tre modalità ed il carattere genere con due modalità. Nel caso d’indipendenza, quant’è il valore di chi
quadro che lascia a destra una probabilità   0.05  5% ?
Per leggere il valore in tabella si devono calcolare innanzitutto i cosiddetti “gradi di libertà” n :
n  (n.ro modalità primo carattere -1)x(n.ro modalità secondo carattere – 1)=(3-1)(2-1)=2
Si cerca nella prima colonna il valore n  2 e poi si scorre la riga fino a che non si arriva alla colonna
  0.05 . Qui troviamo:
2
n2,  2,0.05
 5.99 .
Questo significa che se i dati fossero indipendenti avremmo solo la probabilità del 5% di ottenere dai calcoli
un 2  5.99 . Avendo ottenuto 2  146.974  5.99 possiamo scartare l’ipotesi nulla H 0 di indipendenza
dai dati con una confidenza del 5%, cioè la possibilità che H 0 sia vera è solo del 5%. Pertanto sarà vera
l’ipotesi di ricerca H 1 , con una confidenza del 95%
Indichiamo il valore critico n2, giacché dipende sia dai gradi di libertà n che dal livello di significatività  .
Scarica