LEZIONI DI STATISTCA APPLICATA Parte 3 Statistica inferenziale Variabili categoriali per categoriali ____________________________________ Alessandro Valbonesi SARRF di Scienze ambientali Anno accademico 2010-11 CAPITOLO - RELAZIONI TRA VARIABILI CATEGORIALI Questa tipologia di analisi prevede che ci siano una o più variabili di raggruppamento dette fattori. Il caso più semplice è quello che prevede un unico fattore con due classi di raggruppamento, dove è possibile associare ad ogni osservazione una probabilità che corrisponde alla probabilità della corrispondente distribuzione binomiale .1. La distribuzione binomiale La probabilità associata ad ogni possibile combinazione si calcola con la formula: K pYqk-Y Y Y k-Y oppure C (k,Y) p q dove C (k,Y) ,ovvero il coefficiente binomiale, è uguale a k !/[Y! (k-Y)!] che sarebbero le combinazioni di k elementi presi Y alla volta (ovvero il numero di volte che si ottiene una particolare combinazione) e pY e qk-Y , rispettivamente il “potere” di p e di q. Es.: la probabilità che, data una certa frequenza di malati in una popolazione (p=0,4), un campione di k (5) persone contenga Y (2) individui malati è: C = 5! /2!*(5-2)! = 5*4/2=10 da cui 10*(0,4)2*(0,6)3 = 10*0,16*0,216 = 0,3456 ovvero 34,5% .2. Rapporto di Verosimiglianza e G-Test Il rapporto di verosomiglianza (likelihood ratio), indicato con L, è il rapporto tra la probabilità, stimata con la distribuzione binomiale, di ottenere una certa osservazione in base alle frequenze osservate e quelle attese secondo una determinata ipotesi. Esempio.Se ipotizziamo che il colore nero del vello delle pecore sia dominate rispetto a quello Marrone e se dall’incrocio di animali neri nascono anche animali marroni, dobbiamo assumere che Entrambi i genitori neri abbiano un genotipo eterozigote, per cui dal loro accoppiamento dovrebbero nascere figli neri e marroni nel rapporto mendeliano di 3:1 (ipotesi da testare: segregazione 3 a 1). La frequenza attesa in base alla nostra ipotesi è quindi: p = 0,75 (neri) e q = 0,25 (marroni). Se i dati relativi a questo tipo di incrocio sono quelli riportati in tabella, ci si pone il problema di verificare se la differenza tra la frequenza attesa e quella osservata sia compatibile con la nostra ipotesi di segregazione. Distribuzione binomiale Segregazione osservata Neri Marroni Totale 9 6 15 Frequenza osservata p q 0,60 0,40 probabilità freq oss 0,21 probabilità ipotesi 0,09 L 2,25 Dato che il rapporto di verosomiglianza, L, è ≠ 1 (1 = perfetta concordanza tra le frequenze ipotizzate e quelle attese) dobbiamo appurare se il valore di L ottenuto è ancora compatibile con la nostra ipotesi di partenza. Non abbiamo nessun riferimento statistico per testare questo rapporto ma se utilizziamo il suo valore logaritmico moltiplicato per 2 è possibile confrontare questo nuovo valore con quelli riportati per la distribuzione del Chi quadro1. 1 La distribuzione dei valori di G segue quella del chi quadro se nelle classi la frequenza attesa è >5. Il test basato sul logaritmo del rapporto delle verosomiglianze è detto Test G2. Nel nostro esempio: G = 2Ln(L) = 2*0,81 = 1,62 e la relativa distribuzione del chi quadro, con a-1 ( a = numero di classi) gradi di libertà3, darebbe una probabilità di P = 0,20. In questo caso si può concludere, vista la probabilità del 9% (in base alla distribuzione binomiale) di ottenere questa segregazione ed il valore di G (con P di chi quadro > 0,05), che la segregazione osservata è in accordo con l'ipotesi. Attenzione, questo non vuol dire che la nostra ipotesi è vera, ma che i dati osservati sono compatibili con l’ipotesi fatta. Un sistema più veloce per calcolare ln(L) (e quindi anche L) e fare il G-test è il seguente Neri Seg. Attesa* oss/att 11,25 0,8 Marroni Seg. Attesa* oss/att 3,75 1,6 Neri Marroni Oss*ln(oss/att) -2,008 2,820 Somma ln(L) G=2*ln(L) 0,812 1,623 = 2.25 L=e0,812 e=2,71282818 * La segregazione attesa in base all’ipotesi, ovvero Neri = 15*0,75; Marroni 15*0,25 Questa formula ci svincola dal calcolo della probabilità binomiale e quindi ci permette di applicare il G-test anche a segregazioni con più di due classi. Una formula equivalente per calcolare G, che si basa sulle proprietà dei logaritmi, è: G =-2*[Ln(pa)-Ln(po)], ovvero fare prima il logaritmo delle due verosomiglianze, farne le sottrazione e moltiplicare per -2. 3 Distribuzione del chi quadro 2 3 The chi- square distribution is a probability density function whose values range from zero to positive infinity. Thus, unlike the normal distribution or “t”, the function approaches the χ2-axis asymptotically only at the right –hand tail of the curve, not at both tails. As in the case of other distributions, there is not merely one χ2 distribution, but one distribution for each number of degrees of freedom; therefore χ2 is a function of v, the number of the degrees of freedom. The figure shows probability density functions for the χ2 distributions foe 1, 2, 3, and 6 degrees of freedom. Notice that the curves are strongly skewed to the right, -shaped at first, but more or less approaching symmetry for higher degrees of freedom Poiché nel G-test la probabilità di compiere un errore di tipo I (rigettare un ipotesi vera) tende ad essere più elevata del desiderato, per ottenere una maggiore approssimazione ad una distribuzione di chi2, Williams ha suggerito di correggere il valore di G (G adj) con la seguente formula: dividere G per q* = 1+ [(a2 -1) / (6nv)], dove a è il numero di classi, n è il totale dei segreganti e v i gradi di libertà . Il valore così ottenuto è più conservativo. Nel nostro caso, dove a =2, n=15 e v=1, abbiamo: q* = 1,0333 da cui: Gadj = 1,571 che avrebbe una probabilità di P = 0,21. In genere il G-test viene preferito ad altri test perché i suoi valori si approssimano maggiormente ad una distribuzione di chi2 . .3. Il test del chi2 Un altro test usato per valutare questo tipo di dati è quello del chi2, o statistica di Pearson (da non confondersi con la distribuzione del chi2 che è una distribuzione continua). la formula è: (fi oss - fi att.)2 / fi att (Essendo le deviazioni calcolate elevando a quadrato i valori sono sempre positivi, e quindi è un test sempre ad una coda) . Vediamo ora un esempio basato sui dati di segregazione precedentemente illustrati. Frequenza di Neri Frequenza (ipotizzata), di marroni p= 0,75 (ipot.), q = Segregazione Segregazione osservata attesa Total Neri marroni offspring Neri marroni 15 9 6 11,25 3,75 0,25 Chi2 = (9-11,25)2/11,25 + (6-3,75)2/3,75 = 1,80 P= 0,180 Anche in questo caso, dato che la distribuzione di chi quadro è una distribuzione continua mentre i dati osservati sono dati discreti, occorre inserire una correzione detta di Yates, che si ottiene aggiungendo e togliendo 0,5 ai dati osservati in modo da avvicinarli a quelli previsti (Neri 9,5; marroni 5,5), quando le classi di frequenza sono due e la numerosità totale è compresa tra 200>n>254. La correzione di Yates può essere inserita direttamente nella formula senza dover cambiare i dati osservati: (Ass[fi oss - fi att.] - 0,5)2 / fi att. Occorre comunque notare che i test sulle segregazioni non affermano nulla sulla veridicità della ipotesi ma solo che i dati osservati sono in accordo o in disaccordo con la nostra ipotesi. In questo esempio i nostri dati potrebbero concordare con ipotesi alternativa, 1 : 1, ovvero con : Frequenza di N (ipotizzata), p = 0,5 Chi^2 0,6000 0,5 Segr. Attesa Segregazione osservata Fenotipo N 9 Frequenza di m (ipot.), q= Total offspring Fenotipo m 15 6 correzione di Yates P 0,43857803 Chi(adj)2 0,2667 Fenotipo N 7,500 Fenotipo m 7,500 P 0,605576617 Il punto cruciale è che spesso le osservazioni sono poche, (n = 15, mentre dovrebbe essere almeno 33 per poter distinguere tra queste due ipotesi alternative). E' quindi importante che le frequenze siano stabilite in base ad un numero significativo di osservazioni che può essere così calcolato. Se vogliamo essere sicuri all'80% di distinguere una segregazione,p1=0,75 e q1=0,25, con un livello di significatività =0,05, da un'altra segregazione, p2=0,5 e q2= 0,5, allora: n= A[1+radq(1+4*(p1-p2)/A)]2 / [4(p1 -p2)2] essendo A=[t(0,05)* radq(p1*(1 - p1) + t(0.40)*radq(p2*(1-p2)]2 dove t [0,05] inf= 1,96 2 = 2(1-0,80) = 0,40 da cui t[0,40]inf = 0,842 In questo caso A = 1,612150522 da cui n = 33,31413169 Se avessimo eseguito il nostro test su 33 osservazioni avremmo avuto che la prima ipotesi 1:3 Non sarebbe stata compatibile con i dati osservati, mentre lo sarebbe stata la seconda ipotesi 1:1 .4. Tabelle di contingenza e test di indipendenza Le variabili categoriali vengono spesso analizzate per stabilire se esiste una particolare influenza delle classi di una variabile sulla classi dell’altra, ovvero se le variabili sono indipendenti oppure no. In questo caso i dati vengono organizzati in particolari tabelle dette di contingenza (cross table). Il caso più semplice è quello rappresentato da tabelle 2 x 2. Osservate a b c d tot col (tc) a+c b+d tot righe (tr) a+b c+d grantot (n) (a+b+c+d) Attese tr*tc/n Vediamo un esempio relativo a due tipi di vello (uniform e spotted) in alpaca maschi e femmine. MASCHI UNIFORM 13 SPOTTED 25 38 FEMMINE 44 29 73 tot 57 54 111 MASCHI FEMMINE 19,51351 37,4864865 18,48649 35,5135135 Attese; è una semplice proporzione, in quanto se gli Uniform sono 57/111, uniform sono 57/111, ovvero 0,513, questo rapporto si deve ritrovare anche tra i due sessi, per cui 38*0,513 = 19,513 è il valore atteso per i maschi Uniformi, se il carattere “tipo di vello” è indipendente dal sesso. E’ quindi possibile eseguire un test del chi quadro per valutare se le due variabili sino indipendenti tra loro. CHI2 test of independency CHI2 6,79555 P 0,00914 Con la correzione di Yates CHI2 P 5,792 0,161 (ad -bc)2n / (a+b)(c+d)(a+c)(b+d) C'è una formula diretta: Yates's correction: (ASS(ad -bc) -n/2)2n / (a+b)(c+d)(a+c)(b+d) Un’altro test e quello conosciuto come G-test per l’indipendenza, che altro non sarebbe che il logaritmo del rapporto delle verosomiglianze. Questo test si basa sulla distribuzione multinomiale, che è una distribuzione discreta di probabilità, ed è una generalizzazione della distribuzione binomiale che contempla la possibilità che una variabile sia distribuita in più di due classi. La possibilità di osservare le frequenze di a, b, c e d, assumendo una distribuzione multinomiale, si calcola come segue: Analogamente si calcola la probabilità di osservare le frequenze attese, le quali si ottengono come illustrato precedentemente. Per esempio, la frequenza di a attesa sarebbe, (a+b)*(a+c)/n. Il G test si esegue pertanto facendo il logaritmo rapporto tra queste due probabilità (verosomiglianze).5 In altri termini il G test si esegue facendo: 1) la sommatoria del prodotti della frequenza di ciascuna cella per il relativo logaritmo; 2) aggiungendo il prodotto tra numero totale di tutte le osservazioni ed il relativo logaritmo; 3) sottraendo il prodotto del totale di ciascuna riga e di ciascuna colonna per i rispettivi logaritmi; 4) moltiplicando il valore ottenuto per 2 ed andando confrontare il risultato con la distribuzione del chi quadro per (nr- 1)*(nc-1) gradi di libertà, che in una tabella 2x2 sono uguali ad 1. Considerando il nostri esempio otteniamo: G-test of independency MASCHI FEMMINE tot 57 13 44 54 25 29 38 73 111 step a) for the cell frequencies step b) for the row and column totals step c) for the grand total UNIFORM SPOTTED f ln(f) f ln(f) n ln(n) 2(step a step b + stepc) df= 1 G= William's correction, q = 1,015518 G adj =G/q 377,9722 897,2909 522,7579 P 6,87828 0,00872 6,77317 0,00925 In entrambi i test è necessario che le frequenze di ogni classe non siano inferiori a 5. Se questa condizione non è soddisfatta bisogna ricorre ad un altro test: il test esatto di Fisher Il test esatto di Fisher è un test per la verifica d'ipotesi utilizzato nell'ambito della statistica non parametrica in situazioni con due variabili nominali e campioni piccoli. Porta il nome del suo ideatore Ronald Fisher. Questo test non parametrico è usato per verificare se i dati dicotomici di due campioni riassunti in una tabella di contingenza 2x2 siano compatibili con l’ ipotesi nulla (H0) che le popolazioni di origine dei due campioni abbiano la stessa suddivisione dicotomica e che le differenze osservate con i dati campionari siano dovute semplicemente al caso. Se i campioni sono sufficientemente grandi (e nessuna cella ha un valore inferiore a 5) allora si può usare il test del chi quadrato con 1 grado di libertà. Mentre quest'ultimo test è esatto solo asintoticamente per dimensioni molto grandi dei campioni, il presente test proposto da Fisher è, come dice il nome, sempre esatto. Il test esatto di Fisher richiede di avere due variabili nominali divise ciascuna in due sole categorie. P.es. la prima variabile potrebbe essere il "sesso" con le due categorie "donna" e "uomo" e la seconda variabile potrebbe essere "segue un dieta" con le due categorie "si" e "no". Si ipotizza in questo caso che la percentuale di uomini che segue una dieta sia uguale alla percentuale tra le donne. I dati potrebbero essere i seguenti: uomini donne totale in dieta 1 9 10 non in dieta 11 3 14 totale 12 12 24 Questi dati non sono idonei ad essere analizzati con il test del chi quadrato in quanto il valore atteso è in alcune celle al limite (5 secondo gli uni, 10 secondo altri). Per descrivere il test di Fisher è utile introdurre la seguente notazione, nella quale le lettere a, b, c e d indicano i valori nelle celle e n è la somma totale. La tabella di contingenza verrebbe descritta così: uomini donne totale in dieta a+b a b non in dieta c c+d d totale a+c b+d n Ronald Fisher dimostrò che la probabilità di ottenere tali valori (vincolati alle somme di riga e colonna realmente osservati) segue la variabile casuale ipergeometrica6 ed è pari a: Questa formula dà le probabilità esatte di osservare i valori a, b, c, d (dati a+b, a+c, c+d, b+d) qualora fosse vera l'ipotesi nulla sopra enunciata. Per verificare se i valori osservati sono eccessivamente diversi da quanto previsto dall'ipotesi nulla, si sommano le probabilità di quanto osservato e di tutti i casi ancora più estremi. Nel nostro esempio l'unico caso ancora più estremo è dato da: uomini donne totale in dieta 0 10 10 non in dieta 12 2 14 totale 12 12 24 Per la prima tabella la probabilità è mentre per la seconda sommando si ottiene: p = p0 + p1 = 0,00138 = 0,14% il chè vuol dire che se l'ipotesi nulla è vera , allora solo in 14 esperimenti su 10.000 si otterrebbero valori così discordanti tra uomini e donne. Essendo il calcolo spesso molto laborioso, si ricorre solitamente a tavole con i valori già precalcolati oppure al calcolatore, per esempio usando software applicativi per la statistica. Un software utile è Calcolatore Test Esatto di Fisher.htm 6 La variabile casuale ipergeometrica è una variabile casuale discreta* che viene usata in particolar modo nell'ambito delle estrazioni in blocco (senza riposizione). Rappresenta la probabilità che, data un'urna con N oggetti di cui r di un certo tipo, estraendone n senza rimpiazzo esattamente k siano di quel tipo. In teoria delle probabilità una variabile casuale (o variabile aleatoria o variabile stocastica o random variable) può essere pensata come il risultato numerico di un esperimento quando questo non è prevedibile con certezza (ossia non è deterministico). Ad esempio, il risultato del lancio di un dado a sei facce può essere matematicamente modellato come una variabile casuale che può assumere uno dei sei possibili valori 1,2,3,4,5,6. .5. Analisi delle proporzioni E’ un metodo alternativo alle tabelle di contingenza dove invece che i valori osservati si considerano le frequenze delle varie classi. Questo approccio è utilizzabile solo nel caso ci siano due variabili categoriali, ciascuna con due sole classi di frequenza, e consente di valutare qual’ è la relazione esistente tra le due variabili. Vediamo subito un esempio concreto, utilizzando per aver un raffronto con i test precedenti, gli stessi dati Bact+antis Bact Dead p1 p2 Alive q1 q2 tot 1 1 q1/p1 sul totale (1) è la probabilità di sopravvivere con Bact + antis q2/p2 sul totale (1) è la probabilità di sopravvivere con Bact Il rapporto fra queste due probabilità è detto Odd ratios Dead Alive 13 44 25 29 38 73 Dead Alive Bact+antis 0,22807 0,7719298 Bact 0,462963 0,537037 0,691033 1,3089669 Bact+antis Bact tot 57 54 111 tot 1 1 2 3,384615 q1/p1 è la probabilità di sopravvivere con Bact + antis 1,16 q2/p2 è la probabilità di sopravvivere con Bact 2,91777 ; la probabilità di sopravvivere è circa tre volte maggiore con il trattamento Bact + antis per vedere se questa probabilità è significamente >1 (ipotesi nulla: nessuna differenza tra i due trattamenti) si può fare il G-test sui dati originali. Il logaritmo di questa probabilità log-odds ratio, Ln(2,9177) = 1,071 è spesso usato per esprimere la differenza tra i due rapporti (ln q1/p1 -ln q2/p2 = 1,0708203). Il suo errore standard è (1/a +1/b +1/c +1/d)0,5 = 0,417 Il suo intervallo di confidenza al 95% è: 1,0708 ± 1,96*es, da cui il limite inferiore è 0,253 e quello superiore 1,889. Riportato in valori di odd ratios , ovvero elimiti confidenza 7, abbiamo che la vera probabilità di sopravvivere è; 1,288 ≤ 2,918 ≤ 6,619. Il secondo trattamento potrebbe avere pertanto una efficacia maggiore di 6 volte quella del primo in termini di sopravvivenza degli animali trattati. Possiamo anche utilizzare questo valore per decidere se somministrare un trattamento se la sopravvivenza è maggiore di tot volte, es. 8: (LnLn 8)2 / se2 = 5,842; questo valore si distribuisce come il chi quadro per 1 grado di libertà ed essendo quindi la sua probabilità a 0,0156 possiamo dire che in questo caso la sopravvivenza osservata è significativamente inferiore a quella desiderata (8 volte). Anche in questo tipo di analisi è importante che le frequenze siano stabilite su un numero congruo di osservazioni, che può essere così calcolato. Se vogliamo essere sicuri all'80% di determinare la reale differenza tra q1 e q2 (con q1>q2) o p1 e p2, con un livello di significatività =0,05 t [0,05] inf= 1,960 2 = 2(1-0,80) = 0,40 da cui t[0,40]inf = 0,842 n = [A(1+radq(1+4*(q1-q2)/A^2] / 4(q1 -q2)^2 A=[t(0,05)* radq(2*qm(1 -qm) + t(0.40)*radq(q1*(1-q1) + q2*(1-q2)]^2 A= 3,485059 Con: q1 = 0,7719; q2 =0,537; q medio (qm) = 0,654 n= 71,42494 .6. Tabelle di contingenza m x n Tabelle più complesse sono quelle che prevedono due o più variabili categoriali ciascuna con due o più classi, tabelle m x n. Qui ci limiteremo ad caso abbastanza semplice, ovvero ad una tabella dove ci siano ancora due sole variabili la prima però con 4 classi, tabella 4 x 2. Passiamo subito ad un esempio pratico in cui si voglia vedere se il colore degli occhi di un certo coleottero (Cicindela fulgida) sia influenzato dalla stagione. Season = 4 eyes color = 2 bright red no bright red total Early spring A 29 11 40 Late spring B 273 191 464 Early summer C 8 31 39 Late summer D 64 64 128 total 374 297 671 L’eventuale influenza della stagione sul colore degli occhi viene testata utilizzando il G-test: step a) step b) step c) df= G= f ln(f) = 3314,024622 f ln(f) = 7667,110502 n ln(n) = 4367,384091 for the cell frequencies for the row and column totals for the grand total (righe-1)*(colonne-1) = 3 2(a-b+c) 28,59642 P= 2,72221E-06 Dal risultato del test si evince che il colore degli occhi è influenzato dalla stagionalità. Passiamo Ora a scomporre la tabella per meglio individuare quali periodi esercitino un influenza sul colore degli Occhi. Nel fare questo occorre tenere presente che: 1) le possibili scomposizione devono essere uguali ai gradi di libertà, nel nostro caso 3. 2) il procedimento di ripartizione dovrà essere conseguito in modo gerarchico, ovvero, stabilita una determinata dicotomia, le ripartizioni successive dovranno essere eseguite all'interno delle precedenti Nel nostro caso potremmo inizialmente fare A+B (primavera) versus C+D (estate) successivamente A versus B C versus D In questo caso abbiamo fatto le tre scomposizioni consentite e la somma dei tre valori di G ottenuti deve essere uguale al G della tabella iniziale Season eyes color bright red no bright red total spring A+B 302 202 504 summer C+D 72 95 167 total 374 297 671 3537,357299 7897,593519 4367,384091 G = 14,29574212 P= 0,000156218 In primavera si osserva un numero di individui con occhi rossi brillanti che è significativamente maggiore di quello atteso (circa 281) se non ci fosse stata nessuna influenza stagionale, mentre in estate c’è un numero maggiore di individui con occhi dell’altro tipo, rispetto a quello atteso. Le ulteriori scomposizioni gerarchiche ci dicono che: Season E. spring L. spring eyes color A B bright red 29 273 no bright red 11 191 total 40 464 total 302 2658,598 202 5793,281 504 3136,178 G = 2,992493 P= 0,083651 Non c’è un influenza significativa tra il colore degli occhi all’interno dei due periodi (inizio – fine) primaverili. Season E. summer eyes color C bright red 8 no bright red 31 total 39 L.summer D 64 64 128 total 72 95 167 655,4261703 1504,477043 854,7049667 G = 11,30818753 P= 0,000771661 Diversamente, l’eccesso di individui con occhi rossi non brillanti osservato in estate è riscontrabile osservabile solo nel periodo iniziale. Abbiamo optato per il G-test perché i valori sono addittivi,: 14,296 +2,99 + 11,308 = 28,596 ovvero, avendo fatto tutte le scomposizioni possibili, la somma dei vari G è uguale al G ottenuto dalla tabella iniziale. Se avessimo usato il chi quadro la somma dei chi parziali non sarebbe stata uguale ah chi quadro della tabella iniziale.