I test statistici sulle frequenze ‐ test ² (chi quadrato) ‐ test “esatto” di Fisher ‐ test di McNemar Camillo Pieramati Facoltà di Medicina Veterinaria di Perugia Perugia, 9 settembre 2011 2 “chi quadrato” (indice di dispersione di Pearson) 2 (O ‐ E) 2 = E dove: O è la frequenza osservata (Observed) E è la frequenza attesa (Expected) ‐ non si può usare con meno di 5 osservazioni (si usa il Test “esatto” di Fisher) ‐ fino a 50 o 100 osservazioni si usa la correzione di Yates ‐ per dati appaiati si usa il test di McNemar 2 (O ‐ E) 2 = E nota bene: ‐O ed E sono frequenze assolute (NON relative, o percentuali: c.d. “conteggi”) ‐ lo scarto è elevato al quadrato ‐ non tutti i termini della sommatoria sono liberi di assumere qualsiasi valore (g.d.l.) ‐ lo scarto (quadrato) è ponderato per l’attesa Funzione di densità di probabilità del di Pearson (2)/2 ‐ 1 f(2) = 2/2 ‐ e 2/2 (/2) dove: 2 è il valore osservato sono i g.d.l. Funzione di densità di probabilità del 0.15 0.10 0.05 0.00 densità di P 0.20 0.25 verde 2 gdl - blu 4 gdl - rosso 10 gdl 0 5 10 15 chi quadrato 20 25 30 Funzione di densità di probabilità del funzione diretta =DISTRIB.CHI(x;gradi_di_libertà) funzione inversa =INV.CHI(probabilità;gradi_di_libertà) ad esempio: =DISTRIB.CHI(3,841;1) 0,05 =INV.CHI(0,05;1) 3,841 Funzione di densità di probabilità del Lancio di una moneta a priori: P(testa) = P(croce) = 0,5 21g.d.l. = bontà dell’adattamento (“goodness of fit”) (teste ‐ teste attese)2 (croci ‐ croci attese)2 + teste attese croci attese ‐ meno di 5 osservazioni: Test “esatto” ‐ da 5 a 100 osservazioni: correzione di Yates (per la continuità) - sottrarre 0,5 al valore più elevato di scostamento - sommare 0,5 al valore più basso di scostamento - solo dopo elevare al quadrato Lancio di un dado =TEST.CHI(intervallo_effettivo;intervallo_previsto) (la probabilità di errore di I tipo) Tabella di contingenza SESSO RISPOSTA 2 x 2 M F + 107 84 191 a b n1 ‐ 132 121 253 c d n2 239 205 444 n3 n4 N g.d.l. = (righe‐1)(colonne‐1) tabella 2 x 2 (2‐1)(2‐1) = 1 g.d.l. I VALORI ATTESI (in caso di probabilità indipendenti fra righe e colonne) P(prima riga) = n1/N a b n1 P(prima colonna) = n3/N c d n2 P(seconda colonna) = n4/N n3 n4 N P(seconda riga) = n2/N P(a) = P(1r 1c) = P(1r) * P(1c) P(b) = P(1r 2c) = P(1r) * P(2c) P(c) = P(2r 1c) = P(2r) * P(1c) P(d) = P(2r 2c) = P(2r) * P(2c) E[a] = P(a) N = n1/N * n3/N * N = n1 * n3 / N (102,81) E[b] = P(b) N = n1/N * n4/N * N = n1 * n4 / N (88,19) E[c] = P(c) N = n2/N * n3/N * N = n2 * n3 / N (136,19) E[d] = P(d) N = n2/N * n4/N * N = n2 * n4 / N (116,81) ovvero E[cella] = totale di riga x totale di colonna / totale generale Tabella di contingenza SESSO RISPOSTA 2 x 2 M F + 107 84 191 a b n1 ‐ 132 121 253 c d n2 239 205 444 n3 n4 N g.d.l. = 1 21g.d.l. ≈ (107 – 102,81)2 (84 – 88,19)2 (132 – 136,19)2 (121 – 116,81)2 + + + = 102,81 88,19 136,19 116,81 = 0,171 + 0,199 + 0,129 + 0,150 = 0,649 2 < 21;0,05 accetto H0 Tabella di contingenza Tabella di contingenza www.r‐project.org Pearson's Chi-squared test X-squared = 0.6481, df = 1, p-value = 0.4208 Formule brevi per le tabelle di contingenza Tabellina 2 x 2 2 = 2 = (ad ‐ bc)2 N n1 n2 n3 n4 (107 * 121 ‐ 84 * 132)2 444 191 * 253 * 239 * 205 0,648 2N (|ad ‐ bc| ‐ N/2) con correzione di Yates 2 = n1 n2 n3 n4 Formule brevi per le tabelle di contingenza Tabelline m x n (c.d. metodo semplificato di Skory) a e i b f j c g k d h l n1 n2 n3 n4 a2/m1 + e2/m2 + i2/m3 = N1 b2/m1 + f2/m2 + j2/m3 = N2 c2/m1 + g2/m2 + k2/m3 = N3 d2/m1 + h2/m2 + l2/m3 = N4 m1 m2 m3 N (associazione) N ( Nn 1 1 N N N + n2 + n3 + n4 ‐ 1 2 3 4 dimensione del campione Tabellina m x n con (m‐1)(n‐1) gdl ) = 2 significatività statistica si può scomporre il 2 in (m‐1)(n‐1) tabelline 2 x 2 indipendenti Il test “esatto” di Fisher per piccoli campioni t1 a c n3 + ‐ t2 b d n4 P(tabella) = ? n1 n2 N esaminando i risultati favorevoli n1 con la distribuzione binomiale n3 P1a Q1n3 ‐ a = a n4 P(b) = P2b Q2n4 ‐ b = b N P(n1) = Pn1 Q1N ‐ n1 = n1 P(a) = ( ) ( ) ( ) e quindi t1 t2 trattamento + ‐ esito n3 P1a Q1c a n4 P2b Q2d b N Pn1 Qn2 n1 ( ) ( ) ( ) P (tabella|n1) = n3 a n4 b ( ) ( )P N (n )P Q P1a Q1c n1 1 n2 b 2 Q2d P (tabella|n1) = n3 a n4 b ( ) ( )P N (n ) P Q P1a Q1c n1 b 2 Q2d n2 1 se H0 : P1 = P2 = P e quindi anche n3! n4! P = a! c! b! d! Pa+b Qc+d / Q1 = Q2 = Q N! Pn1 Qn2 = n1! n2! n1! n2! n3! n4! a! b! c! d! N! Esempio di test “esatto” di Fisher 1) Trattamento Controllo Morti 2 8 10 Vivi 17 1 18 19 9 28 10! 18! 19! 9! 28! 2! 17! 8! 1! 0,000117 10! 18! 19! 9! 28! 1! 18! 9! 0! 0,000001 ma un risultato più estremo e più favorevole è anche: 2) Trattamento Controllo Morti 1 9 10 P = P(1) + P(2) = 0,000118 Vivi 18 0 18 19 9 28 rifiuto H0 : P+|trattamento = P+|controllo accetto H1 : P+|trattamento > P+|controllo Test “esatto” di Fisher www.r‐project.org Fisher's Exact Test for Count Data p-value = 0.0001187 Test “esatto” di Fisher e distribuzione ipergeometrica test “esatto” n1! n2! n3! n4! a! b! c! d! N! ( na ) ( nb ) ( Nn ) 3 = 4 distribuzione ipergeometrica 1 =DISTRIB.IPERGEOM(successi_campione;numerosità_campione;successi_popolazione;numerosità_popolazione) Il test di McNemar (per dati appaiati) B + ‐ A + a c ‐ b d stesso animale, 2 trattamenti ed esito discordante oppure coppia caso‐controllo con rischio discordante b + c Expected: ; 2 Observed: b ; c 21gdl = ( b ‐ b + c 2 b + c 2 2 c ‐ b + c 2 + b + c 2 ) ( 2 ) ( = b ‐ c 2 c ‐ b 2 + 2 b + c 2 ) ( 2 ) = b + c 2 2 (c ‐ b)2 4 b + c 2 (c ‐ b)2 = b + c Il test di McNemar B A + ‐ + a c ‐ b d ... è un test chi quadrato, e quindi: 21gdl (c ‐ b)2 = c + b campione grande 21gdl (|c ‐ b| ‐ 1)2 = c + b eventuale correzione di continuità Il test di McNemar B A + ‐ + a c ‐ b d ... è un test chi quadrato, e quindi: se b<5 e/o c<5 si effettua in maniera esatta con la Distribuzione binomiale b+c ( i=b b+c i i )( )( ) 1 2 1 2 b+c ‐ i = ( ) 1 2 b+c b+c b+c ( i ) i=b dove b > c Test di McNemar (esatto) =DISTRIB.BINOM(numero_successi;numero_prove;probabilità_successo;cumulo_probabilità)