Università del Piemonte Orientale Corsi di Specialità Corso di Statistica Medica Analisi dei dati quantitativi : Analisi della varianza Università del Piemonte Orientale Corso di laurea in biotecnologie mediche Corso di Statistica Medica Analisi della varianza ad un criterio di classificazione Analisi di una variabile quantitativa con il confronto tra diversi gruppi di soggetti: A. Confronto tra una media campionaria ed una popolazione i cui parametri sono noti B. Confronto tra una media campionaria ed una popolazione di cui è nota la media ma non la deviazione standard C. Confronto tra 2 campioni appaiati D. Confronto tra due campioni indipendenti E. Confronto tra n campioni indipendenti F. Confronto tra misure ripetute sugli stessi soggetti Il caso E corrisponde all'analisi della varianza Università del Piemonte Orientale Corso di laurea in biotecnologie mediche Corso di Statistica Medica Analisi della varianza ad un criterio di classificazione L'analisi della varianza serve a confrontare tra loro le medie di 3 o più gruppi di soggetti. Var. quantitativa L’analisi della varianza consente di valutare quantitativamente l’importanza delle diverse fonti di variazione nella variabilità osservata nel corso di un esperimento. Le fonti di variazione possono essere: • sistematiche (sotto controllo dello sperimentatore); • casuali (variabilità biologica, condizioni ambientali, errore di misura, ecc..) Var. Categorica Università del Piemonte Orientale Corso di laurea in biotecnologie mediche Corso di Statistica Medica Analisi della varianza ad un criterio di classificazione Obiettivo dell'analisi è misurare se la differenza tra le medie (variabilità tra gruppi) è superiore alla variabilità interna a ciascun gruppo (variabilità entro gruppi). Si tratta di un metodo molto potente che si presta anche ad analisi molto complesse. Università del Piemonte Orientale Corso di laurea in biotecnologie mediche Corso di Statistica Medica Analisi della varianza ad un criterio di classificazione Parliamo di analisi della varianza ad 1 criterio di classificazione quando consideriamo una sola variabile di ordinamento. Il livello minimo della variabile di ordinamento è nominale. Università del Piemonte Orientale Corso di laurea in biotecnologie mediche Corso di Statistica Medica Analisi della varianza ad un criterio di classificazione Partiamo da un esempio con dati sulla resa di una coltura agricola in relazione al tipo di trattamento fertilizzante. La resa è espressa in q.li / ha. Il tipo di trattamento è una variabile nominale con 3 valori: 1, 2, 3. Incominciamo con alcune esplorazioni grafiche dei dati. Università del Piemonte Orientale Corso di laurea in medicina e chirurgia Corso di Statistica Medica 6 Confronto tra due medie resa 6,27 5,36 6,39 4,85 5,99 7,14 5,08 4,07 4,35 4,95 3,07 3,29 4,04 4,19 3,41 3,75 4,87 3,94 6,28 3,15 4,04 3,79 4,56 4,55 4,55 4,53 3,53 3,71 7,00 4,61 trattam. 1 1 1 1 1 1 1 1 1 1 2 2 2 2 2 2 2 2 2 2 3 3 3 3 3 3 3 3 3 3 Università del Piemonte Orientale Corso di laurea in medicina e chirurgia Corso di Statistica Medica 7 Confronto tra due medie Plot dei dati re s a 8 7 6 5 4 3 2 1 0 0 5 10 15 20 25 30 35 Case Number Università del Piemonte Orientale Corso di laurea in medicina e chirurgia Corso di Statistica Medica Analisi della varianza ad 1 criterio di classificazione 8 Box plot 8 7 6 X 5 4 3 2 1 0 a b c Group Università del Piemonte Orientale Corso di laurea in medicina e chirurgia Corso di Statistica Medica Analisi della varianza ad 1 criterio di classificazione 9 Diagramma a punti Università del Piemonte Orientale Corso di laurea in medicina e chirurgia Corso di Statistica Medica Analisi della varianza ad 1 criterio di classificazione 10 I grafici suggeriscono una differenza tra i tre gruppi. Vediamo dal grafico seguente che i tre gruppi sono in posizione diversa rispetto alla media generale, calcolata su tutte le osservazioni. Università del Piemonte Orientale Corso di laurea in medicina e chirurgia Corso di Statistica Medica Analisi della varianza ad 1 criterio di classificazione 11 2 1 3 8 7 6 5 4 3 2 1 0 re s a Media 0 5 10 15 20 25 30 35 Case Number Università del Piemonte Orientale Corso di laurea in medicina e chirurgia Corso di Statistica Medica Analisi della varianza ad 1 criterio di classificazione 12 Com'è distribuita la variabilità in queste osservazioni? Esaminiamo prima la variabilità totale, poi quella all'interno di ciascun gruppo ed in ultimo la variabilità delle medie dei diversi gruppi. Università del Piemonte Orientale Corso di laurea in medicina e chirurgia Corso di Statistica Medica Analisi della varianza ad 1 criterio di classificazione 13 La variabilità totale Università del Piemonte Orientale Corso di laurea in medicina e chirurgia Corso di Statistica Medica Analisi della varianza ad 1 criterio di classificazione 14 La variabilità entro gruppi o within groups Università del Piemonte Orientale Corso di laurea in medicina e chirurgia Corso di Statistica Medica Analisi della varianza ad 1 criterio di classificazione 15 La variabilità tra gruppi (la differenza tra le medie dei diversi gruppi e la media generale) o between groups Università del Piemonte Orientale Corso di laurea in medicina e chirurgia Corso di Statistica Medica Analisi della varianza ad 1 criterio di classificazione 16 I dati osservati possono essere rappresentati mediante un modello lineare yij = ui + ε ij in cui • yij • ui • ε ij è la generica osservazione dell’i-esimo trattamento sulla j-esima unità sperimentale è la media del trattamento errore casuale Generalmente si assume i = 1, . . . , k e j =1, . . . , ni. Se il disegno è bilanciato, n1 = n2 =. . . = np =n. o più semplicemente: L'equazione fondamentale dell'analisi della varianza Variabilità totale = variabilità tra gruppi + variabilità entro gruppi Università del Piemonte Orientale Corso di laurea in medicina e chirurgia Corso di Statistica Medica Analisi della varianza ad 1 criterio di classificazione 17 Ipotesi di lavoro : H1: non tutti i tre gruppi hanno media uguale (sono possibili diverse combinazioni) H0: µ1= µ2= µ3 =µ Vogliamo testare questa ipotesi a un livello di significatività pari a 0.05 Università del Piemonte Orientale Corso di laurea in medicina e chirurgia Corso di Statistica Medica Analisi della varianza ad 1 criterio di classificazione 18 Come costruire il test? Il test è basato sulla seguente considerazione: Se è vera l’ipotesi nulla, i dati differiscono tra loro per il solo effetto della variabilità casuale. Se invece è vera l’ipotesi alternativa, entrambe le fonti di variabilità contribuiscono a determinare la variabilità complessiva Il test è quindi basato sull’analisi della variabilità complessiva in funzione delle diverse cause. Università del Piemonte Orientale Corso di laurea in medicina e chirurgia Corso di Statistica Medica Analisi della varianza ad 1 criterio di classificazione 19 Per questo motivo, anche se il test è sulle medie, la tecnica viene chiamata Analisi della Varianza. Assunzione fondamentale: σ 1 =σ 2 =σ 3 =σ 2 2 2 2 La variabilità dei dati osservati può essere misurata mediante gli scostamenti dei dati dalla media. La devianza totale è definita nel modo seguente: n _ 2 ( x − x ) ∑ ij 1 Università del Piemonte Orientale Corso di laurea in medicina e chirurgia Corso di Statistica Medica Analisi della varianza ad 1 criterio di classificazione 20 La devianza totale può essere scomposta nel modo seguente: devianza totale= devianza tra i gruppi + devianza entro i gruppi n _ k _ _ k 2 2 2 ( x − x ) = n ( x − x ) + ( n − 1 ) S k ∑ kj ∑ k ∑ k k 1 1 1 Le due quantità sono dette rispettivamente: • Devianza tra gruppi (trattamenti): misura la quota di variabilità attribuibile alle differenze trai trattamenti. • Devianza entro gruppi (d’errore): misura la quota di variabilità imputabile a tutte le cause non controllate nell’esperimento e all’errore di campionamento Università del Piemonte Orientale Corso di laurea in medicina e chirurgia Corso di Statistica Medica Analisi della varianza ad 1 criterio di classificazione 21 Se è vera l’ipotesi nulla, ci possiamo attendere uno scarso contributo della devianza tra gruppi alla devianza totale. Se è vera l’ipotesi alternativa, ci possiamo attendere che entrambe le devianze contribuiscano a determinare la devianza totale. A questo livello non è però possibile fare confronti, perchè le devianze hanno un numero di addendi diverso. Università del Piemonte Orientale Corso di laurea in medicina e chirurgia Corso di Statistica Medica Analisi della varianza ad 1 criterio di classificazione 22 I gradi di libertà Ad ognuna delle devianze sono associati i gradi di libertà: • la devianza totale ha nkk − 1 gradi di libertà • la devianza tra gruppi ha k − 1 gradi di libertà • la devianza d’errore ha k(nk − 1) gradi di libertà Le varianze si ottengono dividendo le devianze per i gradi di libertà. Università del Piemonte Orientale Corso di laurea in medicina e chirurgia Corso di Statistica Medica Analisi della varianza ad 1 criterio di classificazione 23 Se l'assunzione della stessa varianza per i diversi gruppi è vera, la variabilità 'entro gruppi' (within groups) sarà uguale nei tre gruppi. La stima migliore di questa variabilità è la stima pooled (analoga a quella già vista per il test t di student per gruppi appaiati). ∑ (n k 2 Sw = 1 − 1)S k 2 k n−k k= numero dei gruppi n= numero osservazioni S 2 k = varianza nel gruppo k-esimo Università del Piemonte Orientale Corso di laurea in medicina e chirurgia Corso di Statistica Medica Analisi della varianza ad 1 criterio di classificazione 24 La variabilità 'tra gruppi' (between groups) sarà stimata dalla somma degli scostamenti tra le medie dei diversi gruppi e la media generale pesati per il numero di osservazioni nel gruppo ( nk ), divisa per il numero di gruppi -1 (k - 1) . ∑ n (x k Sb2 = k k −x ) 2 1 k −1 k= numero dei gruppi ; nk = numero osservazioni nel gruppo k x x k = media nel gruppo k-esimo = media generale Università del Piemonte Orientale Corso di laurea in medicina e chirurgia Corso di Statistica Medica Analisi della varianza ad 1 criterio di classificazione 25 Il test è basato sul confronto tra la varianza tra trattamenti e la varianza d’errore. Se l’ipotesi nulla è vera, le due varianze dovrebbero essere molto simili tra loro, mentre se l’ipotesi nulla è falsa, la varianza tra trattamenti dovrebbe essere molto più grande della varianza d’errore. Se H0 è vera allora la variabilità tra gruppi sarà dovuta solo all'effetto degli errori casuali e quindi le variabilità tra ed entro gruppi saranno uguali S =S 2 b 2 w Se rifiuto H0 allora la variabilità tra i gruppi non è dovuta al solo effetto del caso Sb2 > S w2 Università del Piemonte Orientale Corso di laurea in medicina e chirurgia Corso di Statistica Medica Analisi della varianza ad 1 criterio di classificazione 26 Un test in grado di misurare la probabilità di osservare una differenza tra le due varianze è il test F S F= S 2 b 2 w Il valore del test F viene letto su apposite tavole (es tav. A5 del testo di Pagano e Gavreau o tav.G del testo di Daniel). Il numero di gradi di libertà a numeratore è: numero di gruppi-1 Il numero di gradi di libertà a denominatore è: numero di soggetti -numero di gruppi Università del Piemonte Orientale Corso di laurea in medicina e chirurgia Corso di Statistica Medica Analisi della varianza ad 1 criterio di classificazione 27 resa trattam. 6,27 5,36 6,39 4,85 5,99 7,14 5,08 4,07 4,35 4,95 3,07 3,29 4,04 4,19 3,41 3,75 4,87 3,94 6,28 3,15 4,04 3,79 4,56 4,55 4,55 4,53 3,53 3,71 7,00 4,61 1 1 1 1 1 1 1 1 1 1 2 2 2 2 2 2 2 2 2 2 3 3 3 3 3 3 3 3 3 3 n media gruppo varianza gruppo 10 10 10 Università del Piemonte Orientale Corso di laurea in medicina e chirurgia Corso di Statistica Medica criterio di classificazione 28 Analisi della varianza ad 1 Conviene calcolare separatamente le varianze dei diversi gruppi e quindi inserirle nella formula. Per convenienza calcolo separatamente i seguenti valori: Media generale (del totale delle osservazioni) Media in ciascun gruppo Scostamento tra la media del gruppo e la media generale Varianza in ciascun gruppo Università del Piemonte Orientale Corso di laurea in medicina e chirurgia Corso di Statistica Medica Analisi della varianza ad 1 criterio di classificazione 29 n media gruppo mediagruppo mediagenerale varianza nel gruppo 10 5,445 0,8013 0,9525 10 3,999 -0,6447 0,9443 10 4,487 - 0,1567 0,9501 media generale 4,6434 Numero totale 30 numero gruppi 3 Occorre prestare attenzione al valore della varianza in ciascun gruppo: se le varianze sono diverse cade un requisito essenziale per la validità dell'ANOVA Università del Piemonte Orientale Corso di laurea in medicina e chirurgia Corso di Statistica Medica Analisi della varianza ad 1 criterio di classificazione 30 Posso quindi calcolare gli addendi alle sommatorie per il calcolo della varianza tra gruppi ed entro gruppi. Questi addendi corrispondono alle devianze. ∑ n (x k S = 2 b k Sw = −x ) 1 k −1 ∑ (n k 2 k 2 1 − 1)S k 2 k n−k Università del Piemonte Orientale Corso di laurea in medicina e chirurgia Corso di Statistica Medica Analisi della varianza ad 1 criterio di classificazione 31 n media gruppo 10 10 10 5,445 3,999 4,487 mediagruppo mediagenerale 0,8013 -0,6447 - 0,1567 media totale 4,6434 ∑ n (x k S b2 = k k −x Devianza tra 6,4214 4,1560 0,2454 Numero gruppi 3 ) 2 1 k −1 Università del Piemonte Orientale Corso di laurea in medicina e chirurgia Corso di Statistica Medica Analisi della varianza ad 1 criterio di classificazione 32 n varianza nel gruppo Devianza entro 10 10 10 numero totale 30 0,9525 0,9443 0,9501 Numero gruppi 3 8,5729 8,4987 8,5506 ∑ (n k 2 Sw = 1 − 1)S k 2 k n−k Università del Piemonte Orientale Corso di laurea in medicina e chirurgia Corso di Statistica Medica Analisi della varianza ad 1 criterio di classificazione 33 Calcolo quindi la varianza tra gruppi, sommando gli addendi e dividendo per i rispettivi gradi di libertà. g.l. numero totale 30 n media gruppo 10 10 10 5,445 3,999 4,487 mediagruppo - varianza nel mediagenerale gruppo 0,8013 -0,6447 - 0,1567 Devianza tra Devianza entro 6,4214 4,1560 0,2454 8,5729 8,4987 8,5506 0,9525 0,9443 0,9501 2 media totale 4,6434 Università del Piemonte Orientale Corso di laurea in medicina e chirurgia Corso di Statistica Medica Numero gruppi 3 Varianza tra Analisi della varianza ad 1 criterio di classificazione 5,4114 34 Analogamente per la varianza entro gruppi g.l. numero totale 30 n media gruppo 10 10 10 5,445 3,999 4,487 mediagruppo - varianza nel mediagenerale gruppo 0,8013 -0,6447 - 0,1567 media totale 4,6434 Università del Piemonte Orientale Corso di laurea in medicina e chirurgia Corso di Statistica Medica Devianza tra Devianza entro 6,4214 4,1560 0,2454 8,5729 8,4987 8,5506 Varianza tra 27 Varianza entro 0,9490 0,9525 0,9443 0,9501 Numero gruppi 3 Analisi della varianza ad 1 criterio di classificazione 5,4114 35 e la statistica F numero totale 30 media totale 4,6434 Numero gruppi 3 F= 5,4114 Varianza entro 0,9490 5,4114 / 0,9490 = 5,7024 Varianza tra Il valore della statistica F (2; 27 gl) corrisponde ad una probabilità < 0,001 Il numero di gradi di libertà a numeratore è: numero di gruppi-1 Il numero di gradi di libertà a denominatore è: numero di soggetti -numero di gruppi Conclusione? Rifiutiamo l’ipotesi nulla: almeno una media è diversa dalle altre Università del Piemonte Orientale Corso di laurea in medicina e chirurgia Corso di Statistica Medica Analisi della varianza ad 1 criterio di classificazione 36 Riepilogo dei calcoli varianza nel Contributo del gruppo gruppo alla varianza tra Contributo del gruppo alla varianza entro 0,9525 6,4214 8,5729 -0,6447 0,9443 4,1560 8,4987 - 0,1567 0,9501 0,2454 8,5506 mediagruppo media mediagenerale gruppo Resa Trattam n 6,27 1 10 5,445 0,8013 5,36 1 6,39 1 4,85 1 5,99 1 7,14 1 5,08 1 4,07 1 4,35 1 4,95 1 3,07 2 10 3,999 3,29 2 4,04 2 4,19 2 3,41 2 3,75 2 4,87 2 3,94 2 6,28 2 3,15 2 4,04 3 10 4,487 3,79 3 4,56 3 4,55 3 4,55 3 4,53 3 3,53 3 3,71 3 7 3 4,61 3 numero gruppi numero totale media totale 3 30 4,6434 Varianza tra Varianza entro 5,4114 0,9490 F= Università del Piemonte Orientale Corso di laurea in medicina e chirurgia Corso di Statistica Medica criterio di classificazione 37 Analisi della varianza ad 1 5,7024 I valori di probabilità corrispondenti alla distribuzione F si leggono tra F e ∞ Università del Piemonte Orientale Corso di laurea in medicina e chirurgia Corso di Statistica Medica Analisi della varianza ad 1 criterio di classificazione 38 Un'avvertenza per chi usa programmi statistici La varianza entro gruppi è spesso indicata come: MS (Mean Sum Squares o Scarto Quadratico Medio) within groups oppure Error MS La varianza tra gruppi è spesso indicata come: MS between groups oppure Effect MS Università del Piemonte Orientale Corso di laurea in medicina e chirurgia Corso di Statistica Medica Analisi della varianza ad 1 criterio di classificazione 39 Questo è l'output di XLstats, per i dati usati nell'esempio H0: All population means (of resa) are equal H1: Not all population means (of resa) are equal p-value = 0,008594 Tra Entro ANOVA Table Source trattam. Error Total DF SS MS F 2 10,82275 5,411373 5,702374 27 25,62215 0,948969 29 36,4449 Università del Piemonte Orientale Corso di laurea in medicina e chirurgia Corso di Statistica Medica Analisi della varianza ad 1 criterio di classificazione 40 La devianza entro gruppi è spesso indicata come: SS (Sum of Squares o Somma degli Scarti Quadratici) within groups oppure Error SS La devianza tra gruppi è spesso indicata come: SS between groups oppure Effect SS La devianza totale è spesso indicata come: SS Total Università del Piemonte Orientale Corso di laurea in medicina e chirurgia Corso di Statistica Medica Analisi della varianza ad 1 criterio di classificazione 41 H0: All population means (of resa) are equal H1: Not all population means (of resa) are equal p-value = 0,008594 Tra Entro ANOVA Table Source trattam. Error Total DF SS MS F 2 10,82275 5,411373 5,702374 27 25,62215 0,948969 29 36,4449 Università del Piemonte Orientale Corso di laurea in medicina e chirurgia Corso di Statistica Medica Analisi della varianza ad 1 criterio di classificazione 42 MS = SS / DF Varianza = Devianza / Gradi_libertà H0: All population means (of resa) are equal H1: Not all population means (of resa) are equal p-value = 0,008594 ANOVA Table Source trattam. Error Total DF SS MS F 2 10,82275 5,411373 5,702374 27 25,62215 0,948969 29 36,4449 Università del Piemonte Orientale Corso di laurea in medicina e chirurgia Corso di Statistica Medica Analisi della varianza ad 1 criterio di classificazione 43 Giunti a questo punto, vogliamo sapere quali sono i gruppi diversi tra loro. Sono possibili diversi confronti; gruppo 1 vs. gruppo 2 gruppo 2 vs. gruppo 3 gruppo 1 vs. gruppo 3 Università del Piemonte Orientale Corso di laurea in medicina e chirurgia Corso di Statistica Medica Analisi della varianza ad 1 criterio di classificazione 44 Università del Piemonte Orientale Corso di laurea in medicina e chirurgia Corso di Statistica Medica Analisi della varianza ad 1 criterio di classificazione 45 Università del Piemonte Orientale Corso di laurea in medicina e chirurgia Corso di Statistica Medica Analisi della varianza ad 1 criterio di classificazione 46 Università del Piemonte Orientale Corso di laurea in medicina e chirurgia Corso di Statistica Medica Analisi della varianza ad 1 criterio di classificazione 47 Problema…….. Se conduciamo tutti questi confronti aumenta la probabilità di errore di I tipo α (0.05), ovvero la probabilità di rifiutare erroneamente l’ipotesi nulla, quando questa è vera. 1 − α (0.95) è la probabilità di accettare H0 quando H0 è vera, in altri termini è la probabilità di ottenere un risultato non significativo. Se testiamo k ipotesi indipendenti la probabilità che i test siano congiuntamente k ( 1 − α ) ( 1 − α ) ( 1 − α ) ⇒ ( 1 − α ) non significativi è data da * * ne consegue che la probabilità di avere almeno un test significativo sarà: 1− (1− α )numeroconfronti Università del Piemonte Orientale Corso di laurea in medicina e chirurgia Corso di Statistica Medica Analisi della varianza ad 1 criterio di classificazione 48 Nel nostro caso con 3 confronti otteniamo: = 1 - (0,95)3 = 1- 0,85 = 0,15 L'errore di primo tipo complessivo (che almeno uno dei confronti dia risultato significativo solo per effetto del caso) è del 15%, ben superiore al valore prescelto del 5%. Attenzione: il non tener conto della molteplicità dà luogo ad un aumento della probabilità di trovare risultati significativi in favore dell’ipotesi alternativa, quando l’ipotesi nulla è vera Università del Piemonte Orientale Corso di laurea in medicina e chirurgia Corso di Statistica Medica Analisi della varianza ad 1 criterio di classificazione 49 Per ovviare questo inconveniente Bonferroni ha proposto la seguente correzione: α ' = α /numero_confronti La soglia di rifiuto dell'ipotesi nulla viene quindi fissata a α / numero_confronti Il numero di confronti è il numero di confronti che si intende effettuare, pianificato nel disegno dell'analisi statisticaI confronti sono condotti usando il test t per il confronto tra le medie di due campioni indipendenti. Nella lettura del valore di p viene applicata la correzione di Bonferroni. Riportiamo i risultati dei calcoli eseguiti con il programma XLstats. Università del Piemonte Orientale Corso di laurea in medicina e chirurgia Corso di Statistica Medica Analisi della varianza ad 1 criterio di classificazione 50 Tests for comparing two categories Cat. 1: b Categories Cat. 2: c Two-Sample t-tests (Differences Between Means, µ) Sample Data n1 10 X 1 3,999 s1 0,97175 Assume equal standard deviations Hypothesis Tests H0: µ1 - µ2 = 0 Alternative > ≠ < H1: µ1 - µ2 ≠ T DF p-value = 0 -1,121212 17 0,277786 Università del Piemonte Orientale Corso di laurea in medicina e chirurgia Corso di Statistica Medica n2 10 X 2 4,487 s2 0,974714 X 1 − X 2 -0,488 SE Difference 0,435243 Confidence Intervals for µ1 - µ2 Type (2,U,L) 2 Level 0,95 Lower Upper ME 0,918284 -1,406284 0,430284 Power Analysis Analisi della varianza ad 1 criterio di classificazione 51 Tests for comparing two categories Cat. 1: a Categories Cat. 2: c Two-Sample t-tests (Differences Between Means, µ) Sample Data n1 10 X 1 5,445 s1 0,975981 Assume equal standard deviations Hypothesis Tests H0 : µ 1 - µ 2 = 0 Alternative > ≠ < H1 : µ 1 - µ 2 ≠ T DF p-value = 0 2,196297 17 0,042231 Università del Piemonte Orientale Corso di laurea in medicina e chirurgia Corso di Statistica Medica n2 10 X 2 4,487 s2 0,974714 X 1 − X 2 0,958 SE Difference 0,436189 Confidence Intervals for µ1 - µ2 Type (2,U,L) 2 Level 0,95 Lower Upper ME 0,920279 0,037721 1,878279 Power Analysis Analisi della varianza ad 1 criterio di classificazione 52 Tests for comparing two categories Cat. 1: a Categories Cat. 2: b Two-Sample t-tests (Differences Between Means, µ) Sample Data n1 10 X 1 5,445 s1 0,975981 Assume equal standard deviations Hypothesis Tests H0: µ1 - µ2 = 0 Alternative > ≠ < H1: µ1 - µ2 ≠ T DF p-value = 0 3,320116 17 0,00405 Università del Piemonte Orientale Corso di laurea in medicina e chirurgia Corso di Statistica Medica n2 10 X 2 3,999 s2 0,97175 X 1 − X 2 1,446 SE Difference 0,435527 Confidence Intervals for µ1 - µ2 Type (2,U,L) 2 Level 0,95 Lower Upper ME 0,918883 0,527117 2,364883 Power Analysis Analisi della varianza ad 1 criterio di classificazione 53 Conclusioni? Quali dei tre confronti sono significativi? Se siamo interessati ad un errore α complessivo < 0,05 ed applichiamo la correzione di Bonferroni dovremo considerare solo in confronti il cui valore di p è < 0,05 / 3 p < 0,05 / 3 p < 0,0167 a vs. b -> rifiuto H0 commento: il terreno a cui è stato applicato il trattamento A ha in media una resa migliore rispetto al terreno a cui è stato applicato il trattamento B a vs. c -> non rifiuto H0 b vs. c -> non rifiuto H0 Università del Piemonte Orientale Corso di laurea in medicina e chirurgia Corso di Statistica Medica Analisi della varianza ad 1 criterio di classificazione 54 Approfondimento sugli errori conseguenti all'uso dell'ANOVA quando i tre gruppi hanno diverse varianze In questo esempio la varianza è uguale nei tre gruppi. In simili situazioni la probabilità di rifiutare l'ipotesi nulla in assenza di differenza nella media dei tre gruppi è simile al valore nominale (alpha o probabilità dell'errore di primo tipo). Results of 1000 Replication Experiment alpha = .05 Reject Null Hypothesis Università del Piemonte Orientale Corso di laurea in medicina e chirurgia Corso di Statistica Medica 5,6% alpha = .01 0,8% Analisi della varianza ad 1 criterio di classificazione 55 In questo esempio la varianza è diversa nei tre gruppi. In simili situazioni la probabilità di rifiutare l'ipotesi nulla in assenza di differenza nella media dei tre gruppi è sistematicamente diversa dal valore nominale. Results of 1000 Replication Experiment alpha = .05 Reject Null Hypothesis Università del Piemonte Orientale Corso di laurea in medicina e chirurgia Corso di Statistica Medica 8,2% alpha = .01 2,0% Analisi della varianza ad 1 criterio di classificazione 56 In questo esempio i tre gruppi hanno la stessa varianza e tre medie diverse. Qui l'analisi della varianza è appropriata Università del Piemonte Orientale Corso di laurea in medicina e chirurgia Corso di Statistica Medica Analisi della varianza ad 1 criterio di classificazione 57 Approfondimento sulla simulazione di analisi della varianza Immaginiamo di condurre un esperimento ripetuto 1000 volte con campioni tratti dalla stessa popolazione: la distribuzione delle medie campionarie. Università del Piemonte Orientale Corso di laurea in medicina e chirurgia Corso di Statistica Medica Analisi della varianza ad 1 criterio di classificazione 58 la distribuzione della statistica F. Università del Piemonte Orientale Corso di laurea in medicina e chirurgia Corso di Statistica Medica Analisi della varianza ad 1 criterio di classificazione 59 Il numero di campioni che avrebbe portato al rifiuto dell'ipotesi nulla. Università del Piemonte Orientale Corso di laurea in medicina e chirurgia Corso di Statistica Medica Analisi della varianza ad 1 criterio di classificazione 60 Le corrispondenti immagini nel caso di campioni da tre diverse popolazioni Università del Piemonte Orientale Corso di laurea in medicina e chirurgia Corso di Statistica Medica Analisi della varianza ad 1 criterio di classificazione 61 Esercizi dal testo p 226 n 2 p 226 n 4 p 226 n 6 p 226 n 7 p 226 n 8 Università del Piemonte Orientale Corso di laurea in medicina e chirurgia Corso di Statistica Medica Analisi della varianza ad 1 criterio di classificazione 62