6. TEST PER PROPORZIONI BIOSTATISTICA 5. Test per proporzioni: confronto tra campioni e associazione Marta Blangiardo, Imperial College, London Department of Epidemiology and Public Health [email protected] MARTA BLANGIARDO – TEST PER PROPORZION - 6.1 6. TEST PER PROPORZIONI 1. Un solo campione: metodo esatto e approssimazione alla Normale 2. Confronto tra due o più proporzioni la variabile casuale chi quadro 3. Test per la bontà di adattamento di una distribuzione di probabilità ad una distribuzione empirica: il caso di probabilità stimata 4. Test per la bontà di adattamento di una distribuzione di probabilità ad una distribuzione empirica: il caso di probabilità teorica MARTA BLANGIARDO – TEST PER PROPORZION - 6.2 6. TEST PER PROPORZIONI 1. Un solo campione: metodo esatto e approssimazione alla Normale • Dalla teoria mendeliana dell’ereditarietà ci si aspetta che certi incroci di varietà di baccelli producano baccelli gialli o verdi in rapporto di 3:1. • In un particolare esperimento si ottengono 17 baccelli gialli e 5 verdi. • Possiamo concludere che l’esperimento supporta la teoria? MARTA BLANGIARDO – TEST PER PROPORZION - 6.3 6. TEST PER PROPORZIONI L’esperimento produce solo due possibili risultati: giallo o verde Estraiamo un campione di n=22 incroci. Siamo interessati a valutare se la proporzione di baccelli verdi e gialli riscontrata nel campione riflette la teoria mendeliana H0 : pverde = ¼ = 0.25 MARTA BLANGIARDO – TEST PER PROPORZION - 6.4 6. TEST PER PROPORZIONI Dati campionari: x (numero baccelli verdi) = 5 n = 22 Che valori può assumere X? La variabile di interesse (numero di baccelli verdi) è quantitativa discreta X = 0,1,2,3,…,n i = baccello verde SUCCESSO i =baccello giallo INSUCCESSO Il nostro interesse è sulla proporzione di SUCCESSI MARTA BLANGIARDO – TEST PER PROPORZION - 6.5 6. TEST PER PROPORZIONI Variabile casuale binomiale • X: numero di successi in un dato numero di prove n indipendenti • Il risultato di ogni prova è S o I • La probabilità di S (p) è la stessa in tutte le prove • Contiamo il numero di successi in n prove X ~ Binom(n,p) 35 30 25 20 15 10 1 2 3 4 5 6 7 8 9 10 successi MARTA BLANGIARDO – TEST PER PROPORZION - 6.6 6. TEST PER PROPORZIONI X ~ Binom(n,p) P(X=x) = n x px(1-p)n-x x = 0,1,2,….,n Media e Varianza µx = np σx2 = np(1-p) n=12, p=0.3 n=12, p=0.8 MARTA BLANGIARDO – TEST PER PROPORZION - 6.7 6. TEST PER PROPORZIONI Numerosità campionaria P(X=x) = n px(1-p)n-x x Coefficiente binomiale Probabilità di successo n*n-1*n-2*…2*1 n! = x! (n-x)! (x*x-1*…*2*1) [(n-x)*(n-x-1)*…*2*1] Fattoriale 5! 5 2 = 5*4*3*2*1 2! (5-2)! = (2*1) ((5-2)(5-3)(5-4)) Proprietà del fattoriale n n 0 =1 n =1 MARTA BLANGIARDO – TEST PER PROPORZION - 6.8 6. TEST PER PROPORZIONI Successo L’ipotesi è che pverde=0.25 P(X=x) = 22 x 0.25x(1-0.25)22-x MARTA BLANGIARDO – TEST PER PROPORZION - 6.9 6. TEST PER PROPORZIONI Distribuzione esatta: dal campione ho n=22 e x=5 P(X=5) = 22 5 0.255(1-0.25)22-5= 0.193 Quanto è estremo il valore osservato nella distribuzione X ~ Binom(22,0.25) P(X≤5) = P(X=0)+P(X=1)+P(X=2)+P(X=3)+P(X=4) +P(X=5)= 0.4956 Pvalue=2*0.4956=0.9912 Evidenza a supporto dell’ipotesi nulla H0 : pverde = ¼ = 0.25 MARTA BLANGIARDO – TEST PER PROPORZION - 6.10 6. TEST PER PROPORZIONI Se nel campione avessi osservato x=20 22 P(X=20)= 20 0.2520(1-0.25)22-20=1.18e-10 Quanto è estremo il valore osservato nella distribuzione X ~ Binom(22,0.25) P(X≥20) = P(X=21)+P(X=22) = 1.21986e-10 Pvalue=2* 1.21986e-10 =2.43972e-10 Non sufficiente evidenza a supporto dell’ipotesi nulla RIFIUTO H0 : pverde = ¼ = 0.25 MARTA BLANGIARDO – TEST PER PROPORZION - 6.11 6. TEST PER PROPORZIONI Quando n è abbastanza grande (>40) possiamo approssimare la distribuzione binomiale a quella normale X ~ Binom(200,0.2) In questo caso si possono utilizzare I valori tabulati per 1) intervalli di confidenza 2) test d’ipotesi MARTA BLANGIARDO – TEST PER PROPORZION - 6.12 6. TEST PER PROPORZIONI Dal campione ottengo p= n.successi n.prove Posso calcolare lo standard error campionario se( p) = p(1-p) n Non conosco p ma posso stimarla usando p se( p) = p(1-p) n E ottenere l’intervallo di confidenza 95% Pr { p - 1.96 se(p) ≤ p ≤ p + 1.96 se( p) } = 0.95 99% Pr { p – 2.57 se(p) ≤ p ≤ p + 2.57se( p) } = 0.99 MARTA BLANGIARDO – TEST PER PROPORZION - 6.13 6. TEST PER PROPORZIONI • Un gruppo di medici ha studiato l’effetto dell’utilizzo di cravatte strette sul flusso di sangue che arriva alla testa. Il loro interesse è valutare come questo fatto influenzi la capacità del cervello di rispondere a stimoli visivi. Su un campione di 250 uomini d’affari si è ottenuto che in 167 casi la cravatta troppo stretta influenza l’abilità del cervello. Per calcolare l’intervallo di confidenza mi serve l’errore standard che stimo: Dal campione: n=250 x=167 p=? p=167/250 = 0.668 se( p) = n>40 p(1-p) =0.03 n approssimo alla Normale Pr { 0.668 - 1.96 * 0.03 ≤ p ≤ 0.668 + 1.96 * 0.03 } = 0.95 IC = {0.6092-0.7268 } MARTA BLANGIARDO – TEST PER PROPORZION - 6.14 6. TEST PER PROPORZIONI Dal campione: n=250 x=167 p=? p=167/250 = 0.668 IC = {0.6092-0.7268 } p Possiamo concludere che ripetendo l’esperimento 100 volte in 95 casi il p della popolazione è compreso nell’intervallo {0.6092-0.7268 }. In 5 casi su 100 sbaglio stimando p con p. MARTA BLANGIARDO – TEST PER PROPORZION - 6.15 6. TEST PER PROPORZIONI Dal campione ottengo n.successi n.prove p= se( p) = p(1-p) n Ipotesi nulla: H0: p=p0 zp= p – p0 ~ N(0,1) se(p) P-value (1 coda) = Pr ( z >zp sotto H0) P-value (2 code)= 2*Pr ( z >zp sotto H0) MARTA BLANGIARDO – TEST PER PROPORZION - 6.16 6. TEST PER PROPORZIONI Dalla stessa popolazione di uomini d’affari voglio valutare se l’ipotesi che la proporzione di uomini con cravatta troppo stretta è 0.5 Dal campione: n=250 x=167 p=167/250 = 0.668 Per standardizzare p devo stimare l’errore standard H0: p = 0.5 se( p) = zp= p – p0 p(1-p) =0.03 n = 5.6 se(p) Pr ( z >zp sotto H0) = Pr(z>5.6 sotto H0) Il test è a due code quindi P-value (2 code)= 2*Pr ( z >5.6 sotto H0) MARTA BLANGIARDO – TEST PER PROPORZION - 6.17 6. TEST PER PROPORZIONI Distribuzione normale standardizzata 0 1 2 3 4 5 6 7 8 9 0.0 0.5000 0.5040 0.5080 0.5120 0.5160 0.5199 0.5239 0.5279 0.5319 0.5359 0.1 0.5398 0.5438 0.5478 0.5517 0.5557 0.5596 0.5636 0.5675 0.5714 0.5753 0.2 0.5793 0.5832 0.5871 0.5910 0.5948 0.5987 0.6026 0.6064 0.6103 0.6141 0.3 0.6179 0.6217 0.6255 0.6293 0.6331 0.6368 0.6406 0.6443 0.6480 0.6517 0.4 0.6554 0.6591 0.6628 0.6664 0.6700 0.6736 0.6772 0.6808 0.6844 0.6879 0.5 0.6915 0.6950 0.6985 0.7019 0.7054 0.7088 0.7123 0.7157 0.7190 0.7224 0.6 0.7257 0.7291 0.7324 0.7357 0.7389 0.7422 0.7454 0.7486 0.7517 0.7549 0.7 0.7580 0.7611 0.7642 0.7673 0.7704 0.7734 0.7764 0.7794 0.7823 0.7852 0.8 0.7881 0.7910 0.7939 0.7967 0.7995 0.8023 0.8051 0.8078 0.8106 0.8133 …….. 5.0 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 5.1 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 5.2 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 5.3 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 5.4 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 5.5 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 5.6 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 Tavole Pr(z >zp) = 1-Pr(z<zp) = 0 Excel P-value 2 code2*0=0 =1-DISTRIB.NORM.ST(5.6)=0 P-value 2 code2*0=0 Concludiamo che c’è evidenza contro H0 MARTA BLANGIARDO – TEST PER PROPORZION - 6.18 6. TEST PER PROPORZIONI 2. Confronto tra due o più proporzioni: la variabile casuale chi quadro In una sperimentazione clinica tesa a valutare l’effetto di un nuovo farmaco nel trattamento dell’infarto miocardico acuto, 80 pazienti sono stati assegnati casualmente al gruppo trattato con il farmaco in studio o al placebo Dopo 28 giorni dall’episodio di infarto (e dall’inizio dello specifico trattamento) 10 dei 40 pazienti trattati con il farmaco sono deceduti, contro 15 decessi verificatisi nei 40 pazienti trattati con placebo Questa sperimentazione offre sufficienti evidenze che il nuovo farmaco sia efficace nel trattamento dell’infarto acuto? MARTA BLANGIARDO – TEST PER PROPORZION - 6.19 6. CONFRONTO TRA 6. TEST PROPORZIONI PER PROPORZIONI DI DUE O PIÙ CAMPIONI INDIPENDENTI E1. In una sperimentazione clinica tesa a valutare l’effetto di un nuovo farmaco nel trattamento dell’infarto miocardico acuto, 80 pazienti sono stati assegnati casualmente al gruppo trattato con il farmaco in studio o al placebo Dopo 28 giorni dall’episodio di infarto (e dall’inizio dello specifico trattamento) 10 dei 40 pazienti trattati con il farmaco sono deceduti, contro 15 decessi verificatisi nei 40 pazienti trattati con placebo Tabella di contingenza 2 X 2 Pazienti trattati con il farmaco Pazienti di controllo totale deceduti 10 15 25 vivi 30 25 55 totale 40 40 80 p1 = 10 / 40 = = 0.250 p2 = 15 / 40 = = 0.375 Questa sperimentazione offre sufficienti evidenze che il nuovo farmaco sia efficace nel trattamento dell’infarto acuto? MARTA BLANGIARDO – TEST PER PROPORZION - 6.20 6. CONFRONTO TRA 6. TEST PROPORZIONI PER PROPORZIONI DI DUE O PIÙ CAMPIONI INDIPENDENTI Tabella di contingenza 2 X 2 Pazienti trattati con il farmaco Pazienti di controllo totale deceduti 10 15 25 vivi 30 25 55 totale 40 40 80 p1 = 10 / 40 = = 0.250 p2 = 15 / 40 = = 0.375 p = 25 / 80 = = 0.3125 Ci si aspetta che la mortalità nei due gruppi differisca per effetto del caso (errore di campionamento) in assenza del quale: p1 = p2 = p = 0.3125 MARTA BLANGIARDO – TEST PER PROPORZION - 6.21 6. CONFRONTO TRA 6. TEST PROPORZIONI PER PROPORZIONI DI DUE O PIÙ CAMPIONI INDIPENDENTI Tabella di contingenza 2 X 2 Pazienti trattati con il farmaco Pazienti di controllo totale deceduti 10 15 25 vivi 30 25 55 totale 40 40 80 p1 = 10 / 40 = = 0.250 p2 = 15 / 40 = = 0.375 sotto: π1 p = 25 / 80 = = 0.3125 H0 = π2 π = MARTA BLANGIARDO – TEST PER PROPORZION - 6.22 6. CONFRONTO TRA 6. TEST PROPORZIONI PER PROPORZIONI DI DUE O PIÙ CAMPIONI INDIPENDENTI Tabella di contingenza 2 X 2 Pazienti trattati con il farmaco Pazienti di controllo totale deceduti 10 15 25 vivi 30 25 55 totale 40 40 80 p1 = 10 / 40 = = 0.250 p2 = 15 / 40 = = 0.375 p = 25 / 80 = = 0.3125 Quanti pazienti trattati con il farmaco sarebbero morti se fossero sottoposti alla stessa mortalità dell’intero gruppo sperimentale? . 40 0.3125 = Pazienti trattati con il farmaco deceduti Pazienti di controllo totale 25 12.5 55 vivi totale 40 80 40 MARTA BLANGIARDO – TEST PER PROPORZION - 6.23 6. CONFRONTO TRA 6. TEST PROPORZIONI PER PROPORZIONI DI DUE O PIÙ CAMPIONI INDIPENDENTI Tabella di contingenza 2 X 2 Pazienti trattati con il farmaco Pazienti di controllo totale deceduti 10 15 25 vivi 30 25 55 totale 40 40 80 p1 = 10 / 40 = = 0.250 p2 = 15 / 40 = = 0.375 p = 25 / 80 = = 0.3125 Quanti pazienti trattati con placebo sarebbero morti se fossero sottoposti alla stessa mortalità dell’intero gruppo sperimentale? . 40 0.3125 = Pazienti trattati con il farmaco deceduti Pazienti di controllo totale 12.5 25 55 vivi totale 40 80 40 MARTA BLANGIARDO – TEST PER PROPORZION - 6.24 6. CONFRONTO TRA 6. TEST PROPORZIONI PER PROPORZIONI DI DUE O PIÙ CAMPIONI INDIPENDENTI Dati osservati Tabella di contingenza 2 X 2 Pazienti di controllo Pazienti trattati con il farmaco totale deceduti 10 15 25 vivi 30 25 55 totale 40 40 80 Dati attesi Tabella di contingenza 2 X 2 Pazienti trattati con il farmaco Pazienti di controllo totale deceduti 12.5 12.5 25 vivi 27.5 27.5 55 40 40 80 totale Test del chi-quadrato χ g= Σi 2 (Oi - Ei)2 MARTA BLANGIARDO – TEST PER PROPORZION Ei - 6.25 6. CONFRONTO TRA 6. TEST PROPORZIONI PER PROPORZIONI DI DUE O PIÙ CAMPIONI INDIPENDENTI Dati osservati Pazienti trattati con il farmaco Pazienti di controllo totale deceduti 10 15 25 vivi 30 25 55 totale 40 40 80 Dati attesi Pazienti trattati con il farmaco Pazienti di controllo totale deceduti 12.5 12.5 25 vivi 27.5 27.5 55 40 40 80 totale χ g= Σi 2 (Oi - Ei)2 Ei (10-12.5)2 + = 12.5 (15-12.5)2 (30-27.5)2 (25-27.5)2 + + + = 1.45 12.5 27.5 27.5 MARTA BLANGIARDO – TEST PER PROPORZION - 6.26 6. TEST PER PROPORZIONI Distribuzione chi-quadrato Chi quadro gdl 0.3 0.25 0.05 0.025 0.01 1 1.07 1.32 3.84 5.02 6.63 2.41 2.77 5.99 7.38 9.21 … 3.66 4.10 9.34 11.34 4.88 5.39 … 7.81 9.49 11.14 13.28 … 6.06 6.62 … 11.07 12.83 15.09 7.23 7.84 12.59 14.44 16.81 2 3 4 5 6 … … MARTA BLANGIARDO – TEST PER PROPORZION - 6.27 6. CONFRONTO TRA 6. TEST PROPORZIONI PER PROPORZIONI DI DUE O PIÙ CAMPIONI INDIPENDENTI Perché 1 grado di libertà? χ1= 1.45 2 Valore empirico: P-value = 0.2 < Pr(χ22>1.45 sotto H0) < 0.25 > 0.05 Dovremmo accettare l’ipotesi nulla (p > 0.05): le due proporzioni non differiscono significativamente Questa sperimentazione non offre sufficienti evidenze che il nuovo farmaco sia efficace nel trattamento dell’infarto acuto MARTA BLANGIARDO – TEST PER PROPORZION - 6.28 6. TEST PER PROPORZIONI Dati osservati Pazienti trattati con il farmaco Pazienti di controllo totale deceduti 10 15 25 vivi 30 25 55 totale 40 40 80 Se si fissano i totali di riga e di colonna (marginali) mi basta inserire il valore di una cella e le altre le trovo per differenza Pazienti trattati con il farmaco deceduti vivi totale Pazienti di controllo totale 10 25-10=15 25 40-10=30 40-15=25 55 40 80 40 Quindi ho solo 1 grado di libertà MARTA BLANGIARDO – TEST PER PROPORZION - 6.29 6. CONFRONTO TRA 6. TEST PROPORZIONI PER PROPORZIONI DI DUE O PIÙ CAMPIONI INDIPENDENTI In una sperimentazione clinica tesa a valutare l’effetto di due nuovi farmaci (A e B) nel trattamento dell’infarto miocardico acuto, 90 pazienti furono assegnati casualmente al gruppo trattato con il farmaco A, al gruppo trattato con il farmaco B o al placebo Dopo 28 giorni dall’episodio di infarto (e dall’inizio dello specifico trattamento) 10 dei 30 pazienti trattati con il farmaco A, 5 dei 30 pazienti trattati con il farmaco B e 15 dei 30 pazienti trattati con placebo sono deceduti Tabella di contingenza 2 X 3 Farmaco Farmaco B A Placebo totale deceduti 10 5 15 30 vivi 20 25 15 60 totale 30 30 30 90 pA = 10 / 30 = = 0.333 pB = 5 / 30 = = 0.167 pP = 15 / 30 = = 0.5 Questa sperimentazione offre sufficienti evidenze che i diversi trattamenti determinino diversi effetti sulla sopravvivenza? MARTA BLANGIARDO – TEST PER PROPORZION - 6.30 6. CONFRONTO TRA 6. TEST PROPORZIONI PER PROPORZIONI DI DUE O PIÙ CAMPIONI INDIPENDENTI Tabella di contingenza 2 X 3 Farmaco Farmaco B A Placebo totale deceduti 10 5 15 30 vivi 20 25 15 60 totale 30 30 30 90 pA = 10 / 30 = = 0.333 pB = 5 / 30 = = 0.167 sotto: πA = pP = 15 / 30 = = 0.500 H0 πB = πp π = 30/90=0.333 MARTA BLANGIARDO – TEST PER PROPORZION - 6.31 6. CONFRONTO TRA 6. TEST PROPORZIONI PER PROPORZIONI DI DUE O PIÙ CAMPIONI INDIPENDENTI Dati osservati Farmaco Farmaco B A Placebo totale deceduti 10 5 15 30 vivi 20 25 15 60 totale 30 30 30 90 pA = 10 / 30 = 0.333 pB = 5 / 30 = 0.167 pP = 15 / 30 = 0.500 p = 30 / 90 = 0.333 Dati attesi sotto H0 0.333 . 30 = 0.333 . 30 = Farmaco Farmaco B A 0.333 . 30 = Placebo totale deceduti 10 10 10 30 vivi 20 20 20 60 totale 30 30 30 90 MARTA BLANGIARDO – TEST PER PROPORZION - 6.32 6. CONFRONTO TRA 6. TEST PROPORZIONI PER PROPORZIONI DI DUE O PIÙ CAMPIONI INDIPENDENTI Dati osservati Farmaco Farmaco B A Placebo totale deceduti 10 5 15 30 vivi 20 25 15 60 totale 30 30 30 90 Placebo totale Dati Farmaco Farmaco B A attesi deceduti 10 10 10 30 vivi 20 20 20 60 totale 30 30 30 90 χ g= Σi 2 (Oi - Ei)2 Ei = 6.11 2 MARTA BLANGIARDO – TEST PER PROPORZION - 6.33 6. CONFRONTO TRA 6. TEST PROPORZIONI PER PROPORZIONI DI DUE O PIÙ CAMPIONI INDIPENDENTI Perché 2 gradi di libertà? χ2= 6.11 2 Valore empirico: P-value = 0.025< Pr(χ22>6.11 sotto H0) < 0.05 < 0.05 Dovremmo rigettare l’ipotesi nulla (p < 0.05): le tre proporzioni differiscono significativamente Questa sperimentazione offre sufficienti evidenze che il diverso trattamento determina diverse mortalità nei pazienti con infarto acuto MARTA BLANGIARDO – TEST PER PROPORZION - 6.34 6. TEST PER PROPORZIONI Dati osservati Farmaco Farmaco B A Placebo totale deceduti 10 5 15 30 vivi 20 25 15 60 totale 30 30 30 90 In questo caso una cella non è sufficiente per ottenere tutte le altre per differenza. Ne servono 2 Dati osservati deceduti vivi Farmaco Farmaco B A 10 5 Placebo totale 30-10-5=15 30 30-10=20 30-5=25 30-15=15 60 30 totale 30 Quindi ho 2 gradi di libertà 90 30 In generale i gdl si ottengono come (n.righe-1)*(n.colonne-1) MARTA BLANGIARDO – TEST PER PROPORZION - 6.35 6. TEST PER PROPORZIONI ESERCIZIO di RIEPILOGO 1 In una popolazione di bambini in età prescolare si vuole verificare se la percentuale di bambini affetti da dislessia è pari al 10%. Per questo motivo si estrae un campione di 200 bambini e si ottiene che quelli dislessici sono 40. Saggiare l’ipotesi nulla ESERCIZIO di RIEPILOGO 2 Si vuole verificare se l’effetto di tre diete è equivalente nel ridurre il peso in una popolazione di bambini. A tal fine si estraggono 3 campioni di 20, 30 e 40 bambini e si assegna loro rispettivamente la dieta A, B e C. Definiamo che la dieta ha effetto se riduce il peso di almeno 5 Kg. Il numero di riduzioni di peso nei tre campioni è rispettivamente 10, 12 e 18 MARTA BLANGIARDO – TEST PER PROPORZION - 6.36 6. TEST PER PROPORZIONI MARTA BLANGIARDO – TEST PER PROPORZION - 6.37 6. TEST PER PROPORZIONI ESERCIZIO di RIEPILOGO 2 Si vuole verificare se l’effetto di tre diete è equivalente nel ridurre il peso in una popolazione di bambini. A tal fine si estraggono 3 campioni di 20, 30 e 40 bambini e si assegna loro rispettivamente la dieta A, B e C. Definiamo che la dieta ha effetto se riduce il peso di almeno 5 Kg. Il numero di riduzioni di peso nei tre campioni è rispettivamente 10, 12 e 18 MARTA BLANGIARDO – TEST PER PROPORZION - 6.38 6. TEST PER PROPORZIONI 3. Test per la bontà di adattamento di una distribuzione di probabilità ad una distribuzione empirica: il caso di probabilità teorica Dalla teoria mendeliana: Baccelli verdi e lisci Rugosi e Lisci e Rugosi e Lisci e verdi (RV) verdi (LV) gialli (RG) gialli (LG) 1/16 3/16 3/16 9/16 Baccelli gialli e rugosi MARTA BLANGIARDO – TEST PER PROPORZION - 6.39 6. TEST PER PROPORZIONI Distribuzione teorica Rugosi e Lisci e Rugosi e Lisci e verdi (RV) verdi (LV) gialli (RG) gialli (LG) 1/16 3/16 3/16 9/16 Da un campione di 160 incroci si ottengono i seguenti risultati: Rugosi e Lisci e Rugosi e Lisci e verdi (RV) verdi (LV) gialli (RG) gialli (LG) 8 32 27 93 N=160 I dati supportano la teoria mendeliana? MARTA BLANGIARDO – TEST PER PROPORZION - 6.40 6. TEST PER PROPORZIONI Vogliamo testare la seguente ipotesi H0: p1=1/16, p2=3/16, p3=3/16, p4=9/16 Se H0 è vera: 160. RV LV RG LG 10 30 30 90 1 =10 16 160. 3 160. =30 16 3 =30 160. 9 =90 16 16 Utilizziamo nuovamentre la statistica chi quadrato Test del chi-quadrato χ g= Σi 2 (Oi - Ei)2 MARTA BLANGIARDO – TEST PER PROPORZION Ei - 6.41 6. TEST PER PROPORZIONI Valori osservati Rugosi e Lisci e Rugosi e Lisci e verdi (RV) verdi (LV) gialli (RG) gialli (LG) 8 32 27 93 Valori attesi sotto H0 RV LV RG LG 10 30 30 90 χ32 + (32-30)2 + 30 (27-30)2 + 30 = (8-10)2 10 (93-90)2 90 + = 0.93 I gradi di libertà sono ncat-1 (nel nostro caso 4-1=3) MARTA BLANGIARDO – TEST PER PROPORZION - 6.42 6. TEST PER PROPORZIONI Distribuzione chi-quadrato gdl 0.9 0.8 0.7 0.6 1 0.0158 0.0642 0.1485 0.2750 2 0.2107 0.4463 0.7133 1.0217 3 0.5844 1.0052 1.4237 1.8692 4 1.0636 1.6488 2.1947 2.7528 5 1.6103 2.3425 2.9999 3.6555 6 2.2041 3.0701 3.8276 4.5702 Il Pvalue è compreso tra questi due valori P-value = Pr(χ23>0.93 sotto H0) ≈ 0.85 > 0.05 Non abbiamo abbastanza evidenza per rifiutare H0 MARTA BLANGIARDO – TEST PER PROPORZION - 6.43 6. TEST PER PROPORZIONI 4. Test per la bontà di adattamento di una distribuzione di probabilità ad una distribuzione empirica: il caso di probabilità stimata Stima dei parametri della popolazione partendo dai dati campionari Assunzioni sulla forma della distribuzione dei parametri E’ utile verificare tali assunzioni valutando quanto i valori osservati si discostano dalla distribuzione teorica Confronto tramite chi quadrato delle frequenze osservate e attese sotto la distribuzione teorica MARTA BLANGIARDO – TEST PER PROPORZION - 6.44 6. TEST PER PROPORZIONI Strategia: 1) Scelta della distribuzione di probabilità adatta a descrivere il fenomeno in studio 2) Calcolo delle probabilità associate ai valori che la variabile in studio assume nel campione 3) Calcolo delle frequenze attese πi.O 4) Valutazione tramite chi quadrato delle discrepanze tra frequenze osservate (Oi) ed attese πi.O χ = Σg 2 (Oi – πi O)2 πi O MARTA BLANGIARDO – TEST PER PROPORZION - 6.45 6. TEST PER PROPORZIONI Verifica dell’adattamento ad una distribuzione Binomiale Sono stati raccolti i dati relativi al numero di figlie femmine in 103 famiglie di 4 figli. Il rapporto tra maschi e femmine è atteso di ½:½. 1) Scelta della distribuzione di probabilità adatta a descrivere il fenomeno in studio Variabile casuale dicotomica Successo: figlia femmina Variabile casuale teorica: Binomiale X~Binom(n,p) X~Binom(4,0.5) MARTA BLANGIARDO – TEST PER PROPORZION - 6.46 6. TEST PER PROPORZIONI 2) Sappiamo che πi=0.5 sotto H0 Valori osservati nel campione Oi 5 24 44 19 11 X 0 1 2 3 4 50 45 40 35 30 25 20 15 10 5 0 1 2 3 4 5 Osservati MARTA BLANGIARDO – TEST PER PROPORZION - 6.47 6. TEST PER PROPORZIONI 3) Calcolo delle probabilità associate ai valori che la variabile in studio assume nel campione 4 P(X=x) = 0.5x(1-0.5)4-x x X Oi πi 0 5 (1/2)4=0.0625 1 24 4. (1/2)1. (1/2)3 = 0.25 2 44 6. (1/2)2. (1/2)2 = 0.375 3 19 4 . (1/2)3. (1/2)1 = 0.25 4 11 (1/2)4. (1/2)0 = 0.0625 MARTA BLANGIARDO – TEST PER PROPORZION - 6.48 6. TEST PER PROPORZIONI 4) Calcolo delle frequenze attese πi.O X Oi πi πi.O 0 5 (1/2)4=0.0625 0.0625.103=6.44 1 24 4. (1/2)1. (1/2)3 = 0.25 0. 25.103=25.75 2 44 6. (1/2)2. (1/2)2 = 0.375 0.375.103=38.62 3 19 4 . (1/2)3. (1/2)1 = 0.25 0.25.103=25.75 4 11 (1/2)4. (1/2)0 = 0.0625 0.0625.103=6.44 50 45 40 35 30 25 20 15 10 5 0 1 2 3 4 5 Osservati Attesi MARTA BLANGIARDO – TEST PER PROPORZION - 6.49 6. TEST PER PROPORZIONI 5) Valutazione tramite chi quadrato delle discrepanze tra frequenze osservate (Oi) ed attese πi.O χ = Σg 2 (Oi – πi O)2 πi O (5-6.44)2 (24-25.75)2 (44-38.62)2 + + = 6.44 25.75 38.62 (19-25.75)2 (11-6.44)2 + + = 6.191 25.75 6.44 Il numero di gdl è ncat-1 = 5 - 1 = 4 Da excel: =DISTRIB.CHI(6.191,4) P-value = Pr(χ24>6.191 sotto H0) ≈ 0.18 > 0.05 MARTA BLANGIARDO – TEST PER PROPORZION - 6.50 6. TEST PER PROPORZIONI Possiamo concludere che la differenza tra la distribuzione osservata e quella teorica (Binomiale di parametro 0.5 in 4 prove) non è significativa MARTA BLANGIARDO – TEST PER PROPORZION - 6.51 6. TEST PER PROPORZIONI Verifica dell’adattamento ad una distribuzione Poisson Si desidera conoscere la distribuzione di una variante rara di una certa pianta in una determinata regione. Per fare cio’ la regione viene suddivisa in aree di uguale grandezza e si conta il numero di elementi della variante in studio. 1) Scelta della distribuzione di probabilità adatta a descrivere il fenomeno in studio Variabile casuale discreta, ma NON dicotomica Evento RARO Variabile casuale teorica: Poisson X~Poisson(λ) MARTA BLANGIARDO – TEST PER PROPORZION - 6.52 6. TEST PER PROPORZIONI Distribuzione Poisson Caratterizzata da un parametro Distribuzone usata per gli eventi rari X~Poisson(λ) E(X) = λ Var(X) = λ X~Poisson(5) X~Poisson(3) E(X)=5 E(X)=3 Var(X)=5 Var(X)=3 MARTA BLANGIARDO – TEST PER PROPORZION - 6.53 6. TEST PER PROPORZIONI 2) Non conosciamo i valori di πi nella popolazione: dobbiamo stimarli Valori osservati nel campione Oi 39 34 13 1 0 X 0 1 2 3 >3 45 40 35 30 25 20 15 10 5 0 0 1 2 3 Osservati MARTA BLANGIARDO – TEST PER PROPORZION - 6.54 6. TEST PER PROPORZIONI 2) Non conosciamo i valori di πi nella popolazione: dobbiamo stimarli Una stima di λ è x (media campionaria): x= ΣxiOi ΣOi x = 39 . 0 + 34 . 1 + 13 . 2 + 1 . 3 = 0.7241 87 X~Poisson(0.7241) MARTA BLANGIARDO – TEST PER PROPORZION - 6.55 6. TEST PER PROPORZIONI 3) Calcolo delle probabilità associate ai valori che la variabile in studio assume nel campione X~Poisson(0.7241) P(X=x) = λx e-λλ x! X 0 Oi 39 πi e-0.7241=0.4847 0.72410 e-0.7241 0! 1 34 e-0.7241. (0.7241)1 = 0.3510 2 13 e-0.7241. (0.7241)2/2=0.1271 3 1 e-0.7241. (0.7241)3/6=0.0306 >3 0 1-0.4847- 0.3510-0.12710.0306 = 0.0065 MARTA BLANGIARDO – TEST PER PROPORZION - =1 6.56 6. TEST PER PROPORZIONI 4) Calcolo delle frequenze attese πi.O X Oi πi πi.O 0 39 e-0.7241=0.4847 0.4847.87=42.17 1 34 e-0.7241. (0.7241)1 = 0.3510 0.3510. 87=30.54 2 13 e-0.7241. (0.7241)2/2=0.1271 0.1271. 87=11.06 3 1 e-0.7241. (0.7241)3/6=0.0306 0.0306. 87=2.66 >3 0 1-0.4847- 0.3510-0.12710.0306 = 0.0065 0.0625. 87=0.54 45 40 35 30 25 20 15 10 5 0 Osservati 0 Attesi 1 2 3 MARTA BLANGIARDO – TEST PER PROPORZION >3 - 6.57 6. TEST PER PROPORZIONI 5) Valutazione tramite chi quadrato delle discrepanze tra frequenze osservate (Oi) ed attese πi.n (o pi.n se i parametri sono ignoti nella popolazione) χ = Σg 2 (Oi – πi O)2 πi O (39-42.17)2 (34-30.54)2 (13-11.06)2 + + = 42.17 30.54 11.06 (1-2.66)2 (0-0.54)2 + + = 2.5095 2.66 0.54 Il numero di gdl è n.cat-2 = 5 - 2 = 3 Da excel: =DISTRIB.CHI(2.5094,3) P-value = Pr(χ23>2.5094 sotto H0) ≈ 0.47 > 0.05 MARTA BLANGIARDO – TEST PER PROPORZION - 6.58 6. TEST PER PROPORZIONI Possiamo concludere che la differenza tra la distribuzione osservata e quella teorica (Poisson di parametro 0.7241) non è significativa PROBLEMA: come mai abiamo usato un chi quadro con 3 gradi di libertà? Il numero di gdl è n.cat-2 = 5 - 2 = 3 ??? MARTA BLANGIARDO – TEST PER PROPORZION - 6.59 6. TEST PER PROPORZIONI Abbiamo visto precedentemente che i gradi di libertà erano calcolati come •N.obs-1 (nel caso della T di Student) •N.cat-1 •(n.righe-1)(n.col-1) Nel caso del chi quadro In questo caso abbiamo un ulteriore vincolo dato dal fatto che DOBBIAMO stimare λ tramite i dati campionari (y). Quindi: 1. ΣOi=O 2. ΣxiOi= y gdl = n.cat - 2 ΣOi Una regola universale: il numero di gradi di libertà è sempre uguale al numero di osservazioni MENO il numero di relazioni tra le osservazioni che abbiamo la necessità di ottenere MARTA BLANGIARDO – TEST PER PROPORZION - 6.60 6. TEST PER PROPORZIONI Verifica dell’adattamento ad una distribuzione Normale In un campione di piante da fiore viene misurata la lunghezza della corolla (in mm); si desidera conoscere la sua distribuzione. 1) Scelta della distribuzione di probabilità adatta a descrivere il fenomeno in studio Variabile casuale continua Ci si aspetta simmetria nella distribuzione Variabile casuale teorica: Normale X~N(µ,σ2) f ( x) = 1 2πσ 2 ⋅e MARTA BLANGIARDO – TEST PER PROPORZION - ( x −µ ) 2 − 2σ2 6.61 6. TEST PER PROPORZIONI f ( x) = X~N(µ,σ2) 1 2πσ 2 ⋅e ( x −µ ) 2 − 2σ2 Standardizzazione 1 f ( z) = ⋅e 2π Z~N(0,1) z2 − 2 Per standardizzare devo stimare µ e σ2 dal campione: µ σ2 ΣxiOi x= ΣOi = 67.45 Σ(xi-x)2Oi s2 = (ΣOi)-1 = 8.6136 MARTA BLANGIARDO – TEST PER PROPORZION - 6.62 6. TEST PER PROPORZIONI Verifica dell’adattamento ad una Distribuzione normale standardizzata distribuzione Normale 1 0 z 1. Suddividere l’intero campo di variazione in intervalli. E’ conveniente che il valore centrale sia un numero intero. 2. Calcolare la frequenza osservata in ogni classe xa -| xb 59.5-|62.5 62.5-|65.5 65.5-|68.5 68.5-|71.5 71.5-|74.5 (xa+xb)/2 61 64 67 70 73 MARTA BLANGIARDO – TEST PER PROPORZION Oi 5 18 42 27 8 - 6.63 6. TEST PER PROPORZIONI 3. Standardizzare usando l’estremo superiore di ogni classe 1 f ( z) = ⋅e 2π z2 − 2 62.5-67.45 2.93 xa -| xb (xa+xb)/2 Oi z 59.5-|62.5 61 5 -1.69 62.5-|65.5 64 18 -0.66 65.5-|68.5 67 42 0.36 68.5-|71.5 70 27 1.38 71.5-|74.5 73 8 oo MARTA BLANGIARDO – TEST PER PROPORZION - 6.64 6. TEST PER PROPORZIONI 4. Determinare la funzione cumulata I corrispondenza dei limiti superiori di ogni classe (per l’ultima classe porre=1) (xa+xb)/2 Oi xa -| xb z Fi -1.69 0.0455 59.5-|62.5 61 5 62.5-|65.5 64 18 -0.66 0.2546 65.5-|68.5 67 42 0.36 0.6406 68.5-|71.5 70 27 1.38 0.9126 71.5-|74.5 73 8 oo 1.0000 Usando le tavole MARTA BLANGIARDO – TEST PER PROPORZION - 6.65 6. TEST PER PROPORZIONI 5. Per differenze determinare le frequenze attese relative πi Fi – Fi-1 (xa+xb)/2 Oi xa -| xb z πi Fi -1.69 0.0455 0.0455 59.5-|62.5 61 5 62.5-|65.5 64 18 -0.66 0.2546 0.2091 65.5-|68.5 67 42 0.36 0.6406 0.3860 68.5-|71.5 70 27 1.38 0.9126 0.2756 71.5-|74.5 73 8 oo 1.0000 0.0838 MARTA BLANGIARDO – TEST PER PROPORZION - 6.66 6. TEST PER PROPORZIONI 6. Calcolare le frequenze attese πiO xa -| xb20 (xa+xb)/2 Oi z Fi πiO πi 59.5-|62.5 61 5 -1.69 0.0455 0.0455 4.55 62.5-|65.5 64 18 -0.66 0.2546 0.2091 20.91 65.5-|68.5 67 42 0.36 0.6406 0.3860 38.60 68.5-|71.5 70 27 1.38 0.9126 0.2756 27.56 71.5-|74.5 73 8 oo 1.0000 0.0838 8.38 MARTA BLANGIARDO – TEST PER PROPORZION - 6.67 6. TEST PER PROPORZIONI 6. Confrontare le frequenze osservate e attese tramite il chi quadro χ = Σg 2 (Oi – πi O)2 πi O (5-4.55)2 (18-20.91)2 (42-38.60)2 + + = 4.55 20.91 38.60 (27-27.56)2 (8-8.38)2 + + = 0.777 27.56 8.38 Il numero di gdl è n.cat-3 = 5 - 3 = 2 Da excel: =DISTRIB.CHI(2.5094,2) P-value = Pr(χ22>0.777 sotto H0) ≈ 0.67 > 0.05 MARTA BLANGIARDO – TEST PER PROPORZION - 6.68 6. TEST PER PROPORZIONI Possiamo concludere che la differenza tra la distribuzione osservata e quella teorica (Normale di parametri µ=67.45 e σ=2.93) non è significativa MARTA BLANGIARDO – TEST PER PROPORZION - 6.69