Chi-quadro - Università degli Studi di Verona

Chi-quadro
In generale, se
sono variabili aleatorie indipendenti con distribuzione
allora la variabile aleatoria
si distribuisce secondo una distribuzione Chi-quadro con k gradi di libertà
Chi-quadro
Dunque non ci stupisce che la quantità:
segua la distribuzione del
con opportuni gradi di libertà.
Ma allora se posso stimare il numero di casi attesi, ad esempio sulla base
di un modello probabilistico del sistema che sto studiando, allora posso
immediatamente costruire un test per la verifica delle ipotesi
Test di bontà di adattamento (goodness-of-fit test)
Goodness-of-fit
dati relativi all'anno 1999, USA
Giorno
NB bar-chart no distribuzione!
N. nati
Domenica
33
Lunedì
41
Martedì
63
Mercoledì
63
Giovedì
47
Venerdì
56
Sabato
47
Totale
350
NB errore nel libro Ven->Sab e Sab->Dom
In USA nascono più bambini il martedì e il mercoledì?
Goodness-of-fit
la probabilità di nascita è la stessa ogni giorno della settimana
la probabilità di nascita NON è la stessa ogni giorno della settimana
Modello sotto
le nascite sono proporzionali al numero di giorni della
settimana durante l'arco dell'anno 1999.
Nel 1999 ci sono stati 52 Domeniche, Lunedì,..., e 53 Venerdì. Dunque mi
attendo che:
Giorno
N. giorni
Proporzione di
giorni
Frequenza
attesa di nati
Domenica
52
0.142
49.863
Lunedì
52
0.142
49.863
Martedì
52
0.142
49.863
Mercoledì
52
0.142
49.863
Giovedì
52
0.142
49.863
Venerdì
53
0.145
50.822
Sabato
52
0.142
49.863
Totale
365
1
350
Goodness-of-fit
Giorno
N. OSSERVATO
nati
N. ATTESO nati
(Oss-Att)2/Att
Domenica
33
49.863
5.70
Lunedì
41
49.863
1.57
Martedì
63
49.863
3.46
Mercoledì
63
49.863
3.46
Giovedì
47
49.863
0.16
Venerdì
56
50.822
0.52
Sabato
47
49.863
0.16
Totale
350
350
15.05
NB no frequenze relative
Goodness-of-fit
Per un test goodness-of-fit:
7 giorni della settimana
il modello proporzionale NON ha
parametri liberi
NB il test può essere usato per ottenere il best-fit di un qualunque modello ai dati
Goodness-of-fit
Se fosse vera l'ipotesi nulla ci attenderemo:
più è marcata la differenza tra osservati e
attesi più è alto il valore di
Dunque consideriamo solo la coda più alta
Goodness-of-fit
Accettiamo dunque l'ipotesi alternativa: la probabilità di nascita NON è la
stessa per ogni giorno della settimana!
Perché?
NB l'analisi statistica dei dati è una cosa, il significato biologico un'altra!
Goodness-of-fit
Assunzioni:
●
i dati sono un campione casuale estratto dall'intera popolazione
●
nessuna delle categorie deve avere una frequenza attesa minore di 1
●
non più del 20% delle categorie deve avere frequenze attese minori di 5
possibile soluzione: raggruppare le categorie (e ricalcolare i gradi di libertà di
conseguenza)
Goodness-of-fit: 2 sole categorie
es. il progetto genoma umano ha individuato fino ad ora 20290 geni. Il
cromosoma X contiene il 5.2% del DNA, e sono stati identificati 781 geni.
Esistono su tale cromosoma tanti geni quanti ce ne attenderemmo se il numero
di geni fosse proporzionale alla quantità di DNA?
La percentuale dei geni umani sul cromosoma X è il 5.2%
La percentuale dei geni umani sul cromosoma X NON è il 5.2%
NB: potrebbe essere maggiore o minore
e dunque il test è a due code
Goodness-of-fit: 2 sole categorie
Ricordiamo che la distribuzione (discreta) binomiale descrive la probabilità
di avere k successi su n prove indipendenti con probabilità p in test
vero/falso, sì/no. Dunque sotto l'ipotesi nulla possiamo immediatamente
calcolare la probabilità che sul cromosoma X ci siano 0 oppure 1 oppure 2
oppure ...oppure k geni e sommare tra loro queste probabilità. Poiché il test è
a due code dobbiamo infine moltiplicare per 2.
Goodness-of-fit: 2 sole categorie
Ricordiamo che la distribuzione (discreta) binomiale descrive la probabilità
di avere k successi su n prove indipendenti con probabilità p in test
vero/falso, sì/no. Dunque sotto l'ipotesi nulla possiamo immediatamente
calcolare la probabilità che sul cromosoma X ci siano 0 oppure 1 oppure 2
oppure ...oppure k geni e sommare tra loro queste probabilità. Poiché il test è
a due code dobbiamo infine moltiplicare per 2.
NB errore nel libro, nota 6 pag.113
Dunque il fatto di aver osservato 781 geni sul cromosoma X è un fatto
davvero raro. Il numero di geni su questo cromosoma è significativamente
minore di quello che ci aspetteremmo in base alle dimensioni del
cromosoma.
Goodness-of-fit: 2 sole categorie
L'approccio che abbiamo seguito è rigoroso e esatto, ma assai laborioso. I conti
possono essere eseguiti solo con un computer (a meno di metterci tantissimo
tempo o impiegare tantissime persone).
Il metodo alternativo si basa sul test
es. il progetto genoma umano ha individuato fino ad ora 20290 geni. Il
cromosoma X contiene il 5.2% del DNA, e sono stati identificati 781 geni.
Esistono su tale cromosoma tanti geni quanti ce ne attenderemmo se il numero
di geni fosse proporzionale alla quantità di DNA?
La percentuale dei geni umani sul cromosoma X è il 5.2%
La percentuale dei geni umani sul cromosoma X NON è il 5.2%
Goodness-of-fit: 2 sole categorie
Cromosoma
Osservato
Atteso
781
1055
non-X
19509
19235
Totale
20290
20290
X
Goodness-of-fit: 2 sole categorie
...e arriviamo alla stessa conclusione che avevamo ottenuto usando la
distribuzione binomiale anche se con un certo margine di approssimazione
(ma con conti molto più semplici).
Goodness-of-fit: modello con 1 parametro
es. sappiamo che il sesso nella specie umana è una variabile indipendente (cosa
vuol dire?). Dunque ci attendiamo che in famiglie con 2 figli il numero di maschi
sia conforme ad una distribuzione binomiale con n=2 e p uguale alla probabilità di
avere un maschio in ogni singola prova (perché non assumiamo che p=0.5 visto
che il sesso dei figli è una variabile indipendente?)
È davvero così?
Due scienziati hanno analizzato i dati provenienti dal National Longitudinal Survey
of Youth (NLSY)
Totale
N. maschi
N. famiglie (con 2 figli)
0
530
1
1332
2
582
2444
Goodness-of-fit: modello con 1 parametro
Totale
N. maschi
N. famiglie (con 2 figli)
0
530
1
1332
2
582
2444
L'ipotesi non ci dice nulla riguardo alla probabilità di avere un figlio maschio, e
dunque dobbiamo cercare di calcolare questa probabilità a partire dai dati (ecco
il parametro!)
Goodness-of-fit: modello con 1 parametro
Il numero di maschi nelle famiglie con due figli segue la distribuzione binomiale
Il numero di maschi nelle famiglie con due figli NON segue la distribuzione binomiale
stimato dai dati
Dunque:
P di non avere figli maschi
P di avere 1 figlio maschio
P di avere 2 figli maschi
Usiamo questi valori per calcolare le frequenze attese
Goodness-of-fit: modello con 1 parametro
P di non avere figli maschi
P di avere 1 figlio maschio
P di avere 2 figli maschi
N. atteso di famiglie senza figli maschi
N. atteso di famiglie con 1 figlio maschio
N. atteso di famiglie con 2 figli maschi
Goodness-of-fit: modello con 1 parametro
N. maschi
N. osservato di
famiglie (con 2 figli)
N. atteso di famiglie
(con 2 figli)
0
530
587
1
1332
1221
2
582
636
2444
2444
Totale
n. categorie
n. parametri stimati in base ai dati
Concludiamo dunque che la distribuzione dei figli maschi (e delle femmine) non è
governata dalla distribuzione binomiale. Perché?
Chi-quadro: caso particolare
Tabelle di contingenza: tabella di frequenza per due o più variabili
categoriche che mostra come i valori di una variabile siano associati ai valori
di una seconda variabile.
es.
variabile esplicativa
variabile risposta
Gruppo di
controllo
Gruppo di
trattamento
Totale righe
Presenza
malattia
x11
x12
x11+x12
Assenza
malattia
x21
x22
x21+x22
x11+x21
x12+x22
x11+x12+x21+x22
Totale colonne
Chi-quadro: caso particolare
es. è stato osservato che certi pesci, se infestati da parassiti, trascorrono più tempo
vicino alla superficie dell'acqua e dunque possono essere predati da uccelli con più
facilità. Ci si chiede se questa ipotesi sia ragionevole.
L'infestazione parassitaria non determina un aumento della predazione e
dunque infestazione e predazione sono indipendenti
L'infestazione parassitaria determina un aumento della predazione e
dunque infestazione e predazione NON sono indipendenti
Non infestati
Poco infestati
Tanto infestati Totali (righe)
Mangiati dagli
uccelli
1
10
37
48
Non mangiati
dagli uccelli
49
35
9
93
Totali
(colonne)
50
45
46
141
Chi-quadro: caso particolare
L'infestazione parassitaria non determina un aumento della predazione e
dunque infestazione e predazione sono indipendenti
Non infestati
Poco infestati
Tanto infestati Totali (righe)
Mangiati dagli
uccelli
1
10
37
48
Non mangiati
dagli uccelli
49
35
9
93
Totali
(colonne)
50
45
46
141
dunque sotto l'ipotesi nulla (indipendenza tra le due variabili), e ricordando le
regole della probabilità, possiamo scrivere, ad es.:
e così per tutte le celle della tabella. Possiamo stimare le probabilità dai dati
Chi-quadro: caso particolare
Non infestati
Poco infestati
Tanto infestati Totali (righe)
Mangiati dagli
uccelli
1
10
37
48
Non mangiati
dagli uccelli
49
35
9
93
Totali
(colonne)
50
45
46
141
esercizio: calcolare la probabiltà condizionata
Chi-quadro: caso particolare
1
43
47
49
47
49
1
1
43
Chi-quadro: caso particolare
Si noti che:
dunque:
Non infestati
Poco infestati
Tanto infestati Totali (righe)
Mangiati dagli
uccelli
1
10
37
48
Non mangiati
dagli uccelli
49
35
9
93
Totali
(colonne)
50
45
46
141
Chi-quadro: caso particolare
Osservati
Non infestati
Poco infestati
Tanto infestati Totali (righe)
Mangiati dagli
uccelli
1
10
37
48
Non mangiati
dagli uccelli
49
35
9
93
Totali
(colonne)
50
45
46
141
Attesi
Mangiati dagli
uccelli
Non infestati
Poco infestati
Tanto infestati Totali (righe)
17
48
Non mangiati
dagli uccelli
Totali
(colonne)
93
50
45
46
141
Chi-quadro: caso particolare
Osservati
Non infestati
Poco infestati
Tanto infestati Totali (righe)
Mangiati dagli
uccelli
1
10
37
48
Non mangiati
dagli uccelli
49
35
9
93
Totali
(colonne)
50
45
46
141
Attesi
Non infestati
Poco infestati
Tanto infestati Totali (righe)
Mangiati dagli
uccelli
17
15.3
15.7
48
Non mangiati
dagli uccelli
33
29.7
30.3
93
Totali
(colonne)
50
45
46
141
Chi-quadro: caso particolare
Oss., Att.
Non infestati
Poco infestati
Tanto infestati Totali (righe)
Mangiati dagli
uccelli
1, 17
10, 15.3
37, 15.7
48
Non mangiati
dagli uccelli
49, 33
35, 29.7
9, 30.3
93
50
45
46
141
Totali
(colonne)
Rifiutiamo quindi l'ipotesi nulla, ovvero che
predazione e infestazione siano indipendenti
Chi-quadro: caso particolare
Chi-quadro: caso particolare
Assunzioni:
●
campionamento casuale e campioni indipendenti
●
non più del 20% delle celle possono avere una frequenza attesa minore di 5
●
nessuna cella può avere una frequenza attesa minore di 1
Correzioni:
●
nel caso di una tabella di contingenza 2X2 è raccomandato l'uso della
correzione di Yates per la continuità (ma attenzione che riduce la potenza
del test)
Violazione assunzioni:
●
usare il test esatto di Fisher
This work is licensed under a Creative Commons AttributionNonCommercial 4.0 International License.
see: http://creativecommons.org/licenses/by-nc/4.0/
Roberto Chignola
Università di Verona
[email protected]