il test del “chi quadro”

annuncio pubblicitario
IL TEST DEL “CHI QUADRO”
Un problema che si ripropone costantemente a chi studia la segregazione mendeliana dei
caratteri è se le frequenze fenotipiche osservate nella progenie di un incrocio siano rispondenti
o meno a quelle attese in base all’ipotesi premessa o “ipotesi 0”. L’ipotesi 0 (H0), ad esempio nel
caso di un reincrocio di un genitore supposto eterozigote per un locus con un genitore supposto
omozigote recessivo, è che il rapporto fenotipico nella progenie sia 1 : 1. In una progenie di 200
individui, quindi, in base all’ipotesi zero attendiamo 100 individui segreganti per il carattere
dominante e 100 per il carattere recessivo.
Immaginiamo di avere effettuato il reincrocio e di aver ottenuto 110 individui con il fenotipo
dominante e 90 con quello recessivo, un rapporto evidentemente diverso dall’atteso 1 : 1.
Decidendo senza l’ausilio dell’analisi statistica che la segregazione osservata non sia in accordo
con H0, mentre in realtà tale accordo sussiste, incorreremmo in quello che nel linguaggio
statistico è definito errore di I tipo o di I ordine.
Immaginiamo ora di eseguire un altro reincrocio e di ottenere una segregazione 130 : 70. Se
decidessimo che questi dati siano in accordo con H0, mentre in realtà non lo sono,
commetteremmo quello che viene detto errore di II tipo o di II ordine.
Per non incorrere in tali errori di interpretazione si rende necessaria l’elaborazione statistica
dei dati ottenuti onde poter esprimere in termini probabilistici, mai assoluti, la compatibilità o
meno di essi con l’ipotesi teorica premessa. Si tratta, in sostanza, di decidere con quale
probabilità lo scostamento fra i dati dell’ipotesi e quelli osservati sia dovuto all’intervento del
caso e, del pari, con quale probabilità essi siano in accordo.
Un test statistico che ben risponde ai suddetti interrogativi è l’INDICE DI DISPERSIONE o
“CHI QUADRO”, elaborato da Karl Pearson nel 1900.
La formula generale del “chi quadro” è la seguente:
2 = (O – T)2/T
in cui
 è il segno di sommatoria
O indica i valori osservati
T indica i valori attesi in base all’ipotesi premessa
La differenza O – T può essere indicata come d.
Calcoliamo il valore di “chi quadro” per le ipotetiche segregazioni prima citate, ambedue aventi
come H0 il rapporto 1 : 1 tipico del reincrocio di un monoibrido.
I esempio: 110 dominanti e 90 recessivi
Valori osservati
Valori teorici
d=O–T
d2
d2/T
(O)
(T)
110
100
10
100
1
90
100
-10
100
1
tot = 200
tot = 200
70
100
-30
900
9
tot = 200
tot = 200
Il valore del “chi quadro” è 2 = 1 + 1 = 2.
II esempio: 130 dominanti e 70 recessivi
Valori osservati
Valori teorici
d=O–T
d2
d2/T
(O)
(T)
130
100
30
900
9
Il valore del “chi quadro” è 2 = 9 + 9 = 18.
Abbiamo ottenuto per i due esperimenti due valori di 2 che ci permettono di leggere
direttamente, su apposite tabelle, il valore di P o probabilità che i valori osservati siano o meno
in accordo con l’ipotesi premessa.
Gradi
di
libertà
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
Probabilità
0,10
10%
2,71
4,60
6,25
7,78
9,24
10,64
12,02
13,36
14,68
15,99
17,27
18,55
19,81
21,06
22,31
23,54
24,77
25,99
27,20
28,41
0,05
5%
3,84
5,99
7,81
9,49
11,07
12,59
14,07
15,51
16,92
18,31
19,67
21,03
22,36
23,68
24,99
26,30
27,59
28,87
30,14
31,41
0,01
1%
6,53
9,21
11,34
13,28
15,09
16,81
18,47
20,09
21,67
23,21
24,72
26,22
27,69
29,14
30,58
32,00
33,41
34,80
36,19
37,57
0,001
0,1%
10,83
13,81
16,27
18,46
20,52
22,46
24,32
26,12
27,88
29,59
31,26
32,91
34,53
36,12
37,70
39,25
40,79
42,31
43,82
45,31
Tabella del “chi quadro” semplificata
Per entrare nella tabella, nella prima colonna a sinistra bisogna valutare il valore di n, cioè il
numero di GRADI DI LIBERTA’ del sistema.
In senso generale, il numero di gradi di libertà di un sistema è dato dal numero di valori che
possono arbitrariamente essere modificati purchè il risultato resti costante.
Negli esempi precedenti, il sistema è rappresentato da una somma di due addendi (110 + 90 =
200; 130 + 70 = 200) e possono essere variati i valori di tutti gli addendi meno uno, determinato
dal valore fisso della somma. In pratica, quindi, nei casi della genetica formale, il numero di gradi
di libertà è dato dal numero di classi meno uno.
Entriamo, pertanto, nella tabella in corrispondenza della riga di 1 grado di libertà e spostiamoci
verso destra fino a trovare il valore di “chi quadro” più vicino a quello calcolato.
Il valore 2, relativo al I esempio, è minore di 2,706 della tabella, cui corrisponde (prima riga in
alto) un valore di probabilità di 0,10 (10%). Ciò significa che la probabilità che la segregazione
osservata sia in accordo con quella teorica (e che quindi gli scostamenti siano dovuti al caso) è
molto alta, maggiore del 10%, tanto da poter concludere che i dati osservati sono in accordo con
H 0.
Nel caso della segregazione del II esempio, viceversa, il valore del “chi quadro” = 18
corrisponde ad un valore di P minore di 0,001 (0,1%). La probabilità che gli scostamenti siano
dovuti al caso è minore di 1/1000 e quindi l’ipotesi premessa deve essere scartata.
In termini pratici, diciamo che

per valori di P maggiori di 0,05 (5%) H0 è valida (gli scostamenti sono dovuti al caso)

per valori di P inferiori a 0,01, il rigetto di H0 è confortato da un’alta significatività
statistica

per valori di P compresi tra 0,05 e 0,01 le differenze tra O e T sono debolmente
significative, cioè potrebbero essere dovute al caso
Ovviamente, però, anche in quest’ultimo caso esiste la probabilità (inferiore all’1%) di
commettere un errore di I tipo, cioè di rigettare erroneamente un’ipotesi valida.
Analizziamo un altro ESEMPIO
Stiamo analizzando la progenie di ripetuti incroci tra una femmina di Drosophila fenotipicamente
dominante per tre geni a+ b+ c+ (possiamo indicare anche solo + + +) e un maschio recessivo a b c.
Tale progenie è costituita da otto classi fenotipiche differenti, così distribuite:
+++
a bc
++c
a b+
a++
+bc
a+c
+b+
364
299
234
302
289
314
307
291
tot
2400
Il numero delle classi della progenie (8) ci consente di avanzare la prima ipotesi: la femmina
parentale è un triibrido (+/a; +/b; +/c) e il maschio un omozigote recessivo (a/a); b/b, c/c).
Infatti, un triibrido può generare otto classi gametiche differenti che corrispondono alle classi
fenotipiche della progenie se l’altro parentale è un omozigote recessivo.
Osserviamo la numerosità di ciascuna classe fenotipica della progenie. Un possibile rapporto di
distribuzione delle frequenze è 1 : 1 : 1 : 1 : 1 : 1 : 1 : 1, cioè tutte le classi compaiono con la
stessa frequenza (1/8). Secondo questa ipotesi (la nostra “ipotesi 0”) i tre geni sono
indipendenti e seguono la legge della segregazione indipendente (Mendel). Poiché, però, i valori
non sono esattamente identici, è necessario verificare tale ipotesi per valutarne la
significatività statistica.
Applichiamo il test del “chi quadro”. Una progenie di 2400 moscerini distribuita uniformemente
per otto classi fenotipiche dovrebbe presentare in ciascuna classe 300 moscerini (1/8 x 2400 =
300).
Classi
Osservati
Teorici
+++
a bc
++c
a b+
a++
+bc
a+c
+b+
364
299
234
302
289
314
307
291
300
300
300
300
300
300
300
300
tot
2400
2400
2 = (O – T)2/T
2 = (364 – 300)2/300 + (299 – 300)2/300 + (234 – 300)2/300 + (302 – 300)2/300 + (289 –
300)2/300 + (314 – 300)2/300 + (307 – 300)2/300 + (291 – 300)2/300 = 13,653 + 0,003 + 14,520
+ 0,013 + 0,403 + 0,653 + 0,163 + 0,270 = 29,678
Andiamo a verificare nella tabella del “chi quadro” la significatività statistica della nostra
ipotesi, cercando il valore che più si avvicina 29,678 nella riga corrispondente a sette gradi di
libertà. La probabilità che i dati osservati siano in accordo con l’ipotesi zero è inferiore a 0,001
(0,1%), quindi l’ipotesi formulata deve essere rifiutata. Ciò significa che gli scostamenti
osservati rispetto ai valori attesi non sono dovuti al caso.
Una limitazione della formula del “chi quadro” è che questa non può essere applicata nel caso
in cui il numero totale di osservazioni (ampiezza del campione) sia inferiore a 5.
Inoltre, il test del “chi quadro” non può essere applicato utilizzando come dati i valori
percentuali delle frequenze osservate. Infatti, operando su percentuali si riduce il numero
totale a 100, il che altera il reale valore del “chi quadro”. Se il totale è maggiore di 100,
riducendo a percentuale stimiamo un valore del “chi quadro” inferiore al reale. L’inverso si
verifica se il totale è minore di 100.
Per un numero di osservazioni compreso fra 5 e 100 la formula è applicabile introducendo però
la correzione di Yates per i piccoli campioni.
La correzione consiste nel sottrarre 0,5 alla differenza (O – T) che sia a vantaggio degli O
e nell’aggiungere 0,5 alla differenza quando questa è a vantaggio di T. Più semplicemente, si
sottrae 0,5 ai valori di d positivi e si aggiunge 0,5 ai valori di d negativi.
Scarica