IL TEST DEL “CHI QUADRO” Un problema che si ripropone costantemente a chi studia la segregazione mendeliana dei caratteri è se le frequenze fenotipiche osservate nella progenie di un incrocio siano rispondenti o meno a quelle attese in base all’ipotesi premessa o “ipotesi 0”. L’ipotesi 0 (H0), ad esempio nel caso di un reincrocio di un genitore supposto eterozigote per un locus con un genitore supposto omozigote recessivo, è che il rapporto fenotipico nella progenie sia 1 : 1. In una progenie di 200 individui, quindi, in base all’ipotesi zero attendiamo 100 individui segreganti per il carattere dominante e 100 per il carattere recessivo. Immaginiamo di avere effettuato il reincrocio e di aver ottenuto 110 individui con il fenotipo dominante e 90 con quello recessivo, un rapporto evidentemente diverso dall’atteso 1 : 1. Decidendo senza l’ausilio dell’analisi statistica che la segregazione osservata non sia in accordo con H0, mentre in realtà tale accordo sussiste, incorreremmo in quello che nel linguaggio statistico è definito errore di I tipo o di I ordine. Immaginiamo ora di eseguire un altro reincrocio e di ottenere una segregazione 130 : 70. Se decidessimo che questi dati siano in accordo con H0, mentre in realtà non lo sono, commetteremmo quello che viene detto errore di II tipo o di II ordine. Per non incorrere in tali errori di interpretazione si rende necessaria l’elaborazione statistica dei dati ottenuti onde poter esprimere in termini probabilistici, mai assoluti, la compatibilità o meno di essi con l’ipotesi teorica premessa. Si tratta, in sostanza, di decidere con quale probabilità lo scostamento fra i dati dell’ipotesi e quelli osservati sia dovuto all’intervento del caso e, del pari, con quale probabilità essi siano in accordo. Un test statistico che ben risponde ai suddetti interrogativi è l’INDICE DI DISPERSIONE o “CHI QUADRO”, elaborato da Karl Pearson nel 1900. La formula generale del “chi quadro” è la seguente: 2 = (O – T)2/T in cui è il segno di sommatoria O indica i valori osservati T indica i valori attesi in base all’ipotesi premessa La differenza O – T può essere indicata come d. Calcoliamo il valore di “chi quadro” per le ipotetiche segregazioni prima citate, ambedue aventi come H0 il rapporto 1 : 1 tipico del reincrocio di un monoibrido. I esempio: 110 dominanti e 90 recessivi Valori osservati Valori teorici d=O–T d2 d2/T (O) (T) 110 100 10 100 1 90 100 -10 100 1 tot = 200 tot = 200 70 100 -30 900 9 tot = 200 tot = 200 Il valore del “chi quadro” è 2 = 1 + 1 = 2. II esempio: 130 dominanti e 70 recessivi Valori osservati Valori teorici d=O–T d2 d2/T (O) (T) 130 100 30 900 9 Il valore del “chi quadro” è 2 = 9 + 9 = 18. Abbiamo ottenuto per i due esperimenti due valori di 2 che ci permettono di leggere direttamente, su apposite tabelle, il valore di P o probabilità che i valori osservati siano o meno in accordo con l’ipotesi premessa. Gradi di libertà 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 Probabilità 0,10 10% 2,71 4,60 6,25 7,78 9,24 10,64 12,02 13,36 14,68 15,99 17,27 18,55 19,81 21,06 22,31 23,54 24,77 25,99 27,20 28,41 0,05 5% 3,84 5,99 7,81 9,49 11,07 12,59 14,07 15,51 16,92 18,31 19,67 21,03 22,36 23,68 24,99 26,30 27,59 28,87 30,14 31,41 0,01 1% 6,53 9,21 11,34 13,28 15,09 16,81 18,47 20,09 21,67 23,21 24,72 26,22 27,69 29,14 30,58 32,00 33,41 34,80 36,19 37,57 0,001 0,1% 10,83 13,81 16,27 18,46 20,52 22,46 24,32 26,12 27,88 29,59 31,26 32,91 34,53 36,12 37,70 39,25 40,79 42,31 43,82 45,31 Tabella del “chi quadro” semplificata Per entrare nella tabella, nella prima colonna a sinistra bisogna valutare il valore di n, cioè il numero di GRADI DI LIBERTA’ del sistema. In senso generale, il numero di gradi di libertà di un sistema è dato dal numero di valori che possono arbitrariamente essere modificati purchè il risultato resti costante. Negli esempi precedenti, il sistema è rappresentato da una somma di due addendi (110 + 90 = 200; 130 + 70 = 200) e possono essere variati i valori di tutti gli addendi meno uno, determinato dal valore fisso della somma. In pratica, quindi, nei casi della genetica formale, il numero di gradi di libertà è dato dal numero di classi meno uno. Entriamo, pertanto, nella tabella in corrispondenza della riga di 1 grado di libertà e spostiamoci verso destra fino a trovare il valore di “chi quadro” più vicino a quello calcolato. Il valore 2, relativo al I esempio, è minore di 2,706 della tabella, cui corrisponde (prima riga in alto) un valore di probabilità di 0,10 (10%). Ciò significa che la probabilità che la segregazione osservata sia in accordo con quella teorica (e che quindi gli scostamenti siano dovuti al caso) è molto alta, maggiore del 10%, tanto da poter concludere che i dati osservati sono in accordo con H 0. Nel caso della segregazione del II esempio, viceversa, il valore del “chi quadro” = 18 corrisponde ad un valore di P minore di 0,001 (0,1%). La probabilità che gli scostamenti siano dovuti al caso è minore di 1/1000 e quindi l’ipotesi premessa deve essere scartata. In termini pratici, diciamo che per valori di P maggiori di 0,05 (5%) H0 è valida (gli scostamenti sono dovuti al caso) per valori di P inferiori a 0,01, il rigetto di H0 è confortato da un’alta significatività statistica per valori di P compresi tra 0,05 e 0,01 le differenze tra O e T sono debolmente significative, cioè potrebbero essere dovute al caso Ovviamente, però, anche in quest’ultimo caso esiste la probabilità (inferiore all’1%) di commettere un errore di I tipo, cioè di rigettare erroneamente un’ipotesi valida. Analizziamo un altro ESEMPIO Stiamo analizzando la progenie di ripetuti incroci tra una femmina di Drosophila fenotipicamente dominante per tre geni a+ b+ c+ (possiamo indicare anche solo + + +) e un maschio recessivo a b c. Tale progenie è costituita da otto classi fenotipiche differenti, così distribuite: +++ a bc ++c a b+ a++ +bc a+c +b+ 364 299 234 302 289 314 307 291 tot 2400 Il numero delle classi della progenie (8) ci consente di avanzare la prima ipotesi: la femmina parentale è un triibrido (+/a; +/b; +/c) e il maschio un omozigote recessivo (a/a); b/b, c/c). Infatti, un triibrido può generare otto classi gametiche differenti che corrispondono alle classi fenotipiche della progenie se l’altro parentale è un omozigote recessivo. Osserviamo la numerosità di ciascuna classe fenotipica della progenie. Un possibile rapporto di distribuzione delle frequenze è 1 : 1 : 1 : 1 : 1 : 1 : 1 : 1, cioè tutte le classi compaiono con la stessa frequenza (1/8). Secondo questa ipotesi (la nostra “ipotesi 0”) i tre geni sono indipendenti e seguono la legge della segregazione indipendente (Mendel). Poiché, però, i valori non sono esattamente identici, è necessario verificare tale ipotesi per valutarne la significatività statistica. Applichiamo il test del “chi quadro”. Una progenie di 2400 moscerini distribuita uniformemente per otto classi fenotipiche dovrebbe presentare in ciascuna classe 300 moscerini (1/8 x 2400 = 300). Classi Osservati Teorici +++ a bc ++c a b+ a++ +bc a+c +b+ 364 299 234 302 289 314 307 291 300 300 300 300 300 300 300 300 tot 2400 2400 2 = (O – T)2/T 2 = (364 – 300)2/300 + (299 – 300)2/300 + (234 – 300)2/300 + (302 – 300)2/300 + (289 – 300)2/300 + (314 – 300)2/300 + (307 – 300)2/300 + (291 – 300)2/300 = 13,653 + 0,003 + 14,520 + 0,013 + 0,403 + 0,653 + 0,163 + 0,270 = 29,678 Andiamo a verificare nella tabella del “chi quadro” la significatività statistica della nostra ipotesi, cercando il valore che più si avvicina 29,678 nella riga corrispondente a sette gradi di libertà. La probabilità che i dati osservati siano in accordo con l’ipotesi zero è inferiore a 0,001 (0,1%), quindi l’ipotesi formulata deve essere rifiutata. Ciò significa che gli scostamenti osservati rispetto ai valori attesi non sono dovuti al caso. Una limitazione della formula del “chi quadro” è che questa non può essere applicata nel caso in cui il numero totale di osservazioni (ampiezza del campione) sia inferiore a 5. Inoltre, il test del “chi quadro” non può essere applicato utilizzando come dati i valori percentuali delle frequenze osservate. Infatti, operando su percentuali si riduce il numero totale a 100, il che altera il reale valore del “chi quadro”. Se il totale è maggiore di 100, riducendo a percentuale stimiamo un valore del “chi quadro” inferiore al reale. L’inverso si verifica se il totale è minore di 100. Per un numero di osservazioni compreso fra 5 e 100 la formula è applicabile introducendo però la correzione di Yates per i piccoli campioni. La correzione consiste nel sottrarre 0,5 alla differenza (O – T) che sia a vantaggio degli O e nell’aggiungere 0,5 alla differenza quando questa è a vantaggio di T. Più semplicemente, si sottrae 0,5 ai valori di d positivi e si aggiunge 0,5 ai valori di d negativi.