Università del Piemonte Orientale Corso di laurea in biotecnologia Corso di Statistica Medica Analisi dei dati quantitativi : Analisi della varianza Università del Piemonte Orientale Corso di laurea in biotecnologia Corso di Statistica Medica analisi della varianza ad un criterio di classificazione Analisi di una variabile quantitativa con il confronto tra diversi gruppi di soggetti: A. Confronto tra una media campionaria ed una popolazione i cui parametri sono noti B. Confronto tra una media campionaria ed una popolazione di cui è nota la media ma non la deviazione standard C. Confronto tra 2 campioni appaiati D. Confronto tra due campioni indipendenti E. Confronto tra n campioni indipendenti F. Confronto tra misure ripetute sugli stessi soggetti Il caso E corrisponde all'analisi della varianza Università del Piemonte Orientale Corso di laurea in biotecnologia Corso di Statistica Medica analisi della varianza ad un criterio di classificazione L'analisi della varianza serve a confrontare tra loro le medie di 3 o più gruppi di soggetti. Var. quantitativa Università del Piemonte Orientale Corso di laurea in biotecnologia Var. Categorica Corso di Statistica Medica analisi della varianza ad un criterio di classificazione Obiettivo dell'analisi è misurare se la differenza tra le medie (variabilità tra gruppi) è superiore alla variabilità interna a ciascun gruppo (variabilità entro gruppi). Si tratta di un metodo che si presta anche ad analisi molto complesse. Università del Piemonte Orientale Corso di laurea in biotecnologia Corso di Statistica Medica analisi della varianza ad un criterio di classificazione Parliamo di analisi della varianza ad 1 criterio di classificazione quando consideriamo una sola variabile di ordinamento. Il livello minimo della variabile di ordinamento è nominale. Università del Piemonte Orientale Corso di laurea in biotecnologia Corso di Statistica Medica analisi della varianza ad un criterio di classificazione Partiamo da un esempio con dati sulla resa di una coltura agricola in relazione al tipo di trattamento fertilizzante. La resa è espressa in q.li / ha. Il tipo di trattamento è una variabile nominale con 3 valori: 1, 2, 3. Incominciamo con alcune esplorazioni grafiche dei dati. Università del Piemonte Orientale Corso di laurea in medicina e chirurgia Corso di Statistica Medica Confronto tra due medie 6 trattam. 1 1 1 1 1 1 1 1 1 1 2 2 2 2 2 2 2 2 2 2 3 3 3 3 3 3 3 3 3 3 Confronto tra due medie re s a resa 6,27 5,36 6,39 4,85 5,99 7,14 5,08 4,07 4,35 4,95 3,07 3,29 4,04 4,19 3,41 3,75 4,87 3,94 6,28 3,15 4,04 3,79 4,56 4,55 4,55 4,53 3,53 3,71 7,00 4,61 7 Università del Piemonte Orientale Corso di laurea in medicina e chirurgia Corso di Statistica Medica Plot dei dati 8 7 6 5 4 3 2 1 0 8 Analisi della varianza ad 1 criterio di classificazione Università del Piemonte Orientale Corso di laurea in biotecnologia Corso di Statistica Medica 35 30 25 20 15 10 5 0 Case Number re s a 8 7 6 5 4 3 2 1 0 0 5 10 15 20 25 30 35 Case Number Università del Piemonte Orientale Corso di laurea in biotecnologia Corso di Statistica Medica 9 Analisi della varianza ad 1 criterio di classificazione X Medie +- 2 DS , separatamente per i tre gruppi 7 6 5 4 3 2 1 0 a Università del Piemonte Orientale Corso di laurea in biotecnologia Corso di Statistica Medica b Group Analisi della varianza ad 1 criterio di classificazione c 10 Box plot 8 7 6 X 5 4 3 2 1 0 a b c Group Università del Piemonte Orientale Corso di laurea in biotecnologia Corso di Statistica Medica Analisi della varianza ad 1 criterio di classificazione 11 Analisi della varianza ad 1 criterio di classificazione 12 Diagramma a punti Università del Piemonte Orientale Corso di laurea in biotecnologia Corso di Statistica Medica I grafici suggeriscono una differenza tra i tre gruppi. Vediamo dal grafico seguente che i tre gruppi sono in posizione diversa rispetto alla media generale, calcolata su tutte le osservazioni. Università del Piemonte Orientale Corso di laurea in biotecnologia Corso di Statistica Medica 2 1 13 Analisi della varianza ad 1 criterio di classificazione 3 8 7 6 5 4 3 2 1 0 re s a Media 0 5 10 15 20 25 30 35 Case Number Università del Piemonte Orientale Corso di laurea in biotecnologia Corso di Statistica Medica Analisi della varianza ad 1 criterio di classificazione 14 Com'è distribuita la variabilità in queste osservazioni? Esaminiamo prima la variabilità totale, poi quella all'interno di ciascun gruppo ed in ultimo la variabilità delle medie dei diversi gruppi. Università del Piemonte Orientale Corso di laurea in biotecnologia Corso di Statistica Medica Analisi della varianza ad 1 criterio di classificazione 15 Analisi della varianza ad 1 criterio di classificazione 16 La variabilità totale Università del Piemonte Orientale Corso di laurea in biotecnologia Corso di Statistica Medica La variabilità entro gruppi o within groups Università del Piemonte Orientale Corso di laurea in biotecnologia Corso di Statistica Medica Analisi della varianza ad 1 criterio di classificazione 17 La variabilità tra gruppi (la differenza tra le medie dei diversi gruppi e la media generale) o between groups Università del Piemonte Orientale Corso di laurea in biotecnologia Corso di Statistica Medica Analisi della varianza ad 1 criterio di classificazione 18 L'equazione fondamentale dell'analisi della varianza Devianza totale = Devianza tra gruppi + Devianza entro gruppi Università del Piemonte Orientale Corso di laurea in biotecnologia Corso di Statistica Medica Analisi della varianza ad 1 criterio di classificazione 19 Ipotesi di lavoro : H1: non tutti i tre gruppi hanno media uguale (sono possibili diverse combinazioni) = = diverso da (µ1= µ2= µ3 ) H0: µ1= µ2= µ3 =µ Università del Piemonte Orientale Corso di laurea in biotecnologia Corso di Statistica Medica Analisi della varianza ad 1 criterio di classificazione 20 Assunzione fondamentale: σ 1 =σ 2 =σ 3 =σ 2 2 2 2 Università del Piemonte Orientale Corso di laurea in biotecnologia Corso di Statistica Medica Analisi della varianza ad 1 criterio di classificazione 21 Se l'assunzione della stessa varianza per i diversi gruppi è vera, la variabilità 'entro gruppi' (within groups) sarà uguale nei tre gruppi. La stima migliore di questa variabilità è la stima pooled (analoga a quella già vista per il test t di student per gruppi appaiati). ∑ (n − 1)S k S 2 w = 1 k 2 k n−k k= numero dei gruppi n= numero osservazioni S 2 k = varianza nel gruppo k-esimo Università del Piemonte Orientale Corso di laurea in biotecnologia Corso di Statistica Medica Analisi della varianza ad 1 criterio di classificazione 22 La variabilità 'tra gruppi' (between groups) sarà stimata dalla somma degli scostamenti tra le medie dei diversi gruppi e la media generale pesati per il numero di osservazioni nel gruppo ( nk ), divisa per il numero di gruppi -1 (k - 1) . ∑ n (x k Sb2 = k k −x ) 2 1 k −1 k= numero dei gruppi ; nk = numero osservazioni nel gruppo k x x k = media nel gruppo k-esimo = media generale Università del Piemonte Orientale Corso di laurea in biotecnologia Corso di Statistica Medica Analisi della varianza ad 1 criterio di classificazione 23 Se H0 è vera allora la variabilità tra gruppi sarà dovuta solo all'effetto degli errori casuali e quindi le variabilità tra ed entro gruppi saranno uguali Sb2 = S w2 Università del Piemonte Orientale Corso di laurea in biotecnologia Corso di Statistica Medica Analisi della varianza ad 1 criterio di classificazione 24 Un test in grado di misurare la probabilità di osservare una differenza tra le due varianze è il test F Sb2 F= 2 Sw Il valore del test F viene letto su apposite tavole (es tav. A5 del testo di Pagano e Gavreau). Il numero di gradi di libertà a numeratore è: numero di gruppi-1 Il numero di gradi di libertà a denominatore è: numero di soggetti -numero di gruppi Università del Piemonte Orientale Corso di laurea in biotecnologia Corso di Statistica Medica Analisi della varianza ad 1 criterio di classificazione 25 6,27 5,36 6,39 4,85 5,99 7,14 5,08 4,07 4,35 4,95 3,07 3,29 4,04 4,19 3,41 3,75 4,87 3,94 6,28 3,15 4,04 3,79 4,56 4,55 4,55 4,53 3,53 3,71 7,00 4,61 resa 1 1 1 1 1 1 1 1 1 1 2 2 2 2 2 2 2 2 2 2 3 3 3 3 3 3 3 3 3 3 trattam. n 10 10 10 varianza gruppo Analisi della varianza ad 1 criterio di media gruppo Università del Piemonte Orientale Corso di laurea in biotecnologia Corso di Statistica Medica classificazione 26 Conviene calcolare separatamente le varianze dei diversi gruppi e quindi inserirle nella formula. Per convenienza calcolo separatamente i seguenti valori: Media generale (del totale delle osservazioni) Media in ciascun gruppo Scostamento tra la media del gruppo e la media generale Varianza in ciascun gruppo Università del Piemonte Orientale Corso di laurea in biotecnologia Corso di Statistica Medica 27 Analisi della varianza ad 1 criterio di classificazione n media gruppo varianza nel gruppo 10 5,445 0,9525 10 3,999 0,9443 10 4,487 0,9501 media generale 4,6434 Numero totale 30 numero gruppi 3 Occorre prestare attenzione al valore della varianza in ciascun gruppo: se le varianze sono diverse cade un requisito essenziale per la validità dell'ANOVA Università del Piemonte Orientale Corso di laurea in biotecnologia Corso di Statistica Medica Analisi della varianza ad 1 criterio di classificazione 28 Posso quindi calcolare gli addendi alle sommatorie per il calcolo della varianza tra gruppi ed entro gruppi. Questi addendi corrispondono alle devianze. ∑ n (x k S b2 = k Sw = −x ) 1 k −1 ∑ (n k 2 k 2 1 − 1)S k k 2 n−k Università del Piemonte Orientale Corso di laurea in biotecnologia Corso di Statistica Medica n media gruppo 10 10 10 5,445 3,999 4,487 mediagruppo mediagenerale 0,8013 -0,6447 - 0,1567 media totale 4,6434 ∑ n (x k S b2 = k k −x Analisi della varianza ad 1 criterio di classificazione 29 Devianza tra 6,4214 4,1560 0,2454 Numero gruppi 3 ) 2 1 k −1 Università del Piemonte Orientale Corso di laurea in biotecnologia Corso di Statistica Medica Analisi della varianza ad 1 criterio di classificazione 30 n varianza nel gruppo Devianza entro 10 10 10 numero totale 30 0,9525 0,9443 0,9501 Numero gruppi 3 8,5729 8,4987 8,5506 ∑ (n k S 2 w = 1 − 1)S k k 2 n−k Università del Piemonte Orientale Corso di laurea in biotecnologia Corso di Statistica Medica 31 Analisi della varianza ad 1 criterio di classificazione Calcolo quindi la varianza tra gruppi, sommando gli addendi e dividendo per i rispettivi gradi di libertà. g.l. numero totale 30 n media gruppo 10 10 10 5,445 3,999 4,487 mediagruppo - varianza nel mediagenerale gruppo 0,8013 -0,6447 - 0,1567 Devianza tra Devianza entro 6,4214 4,1560 0,2454 8,5729 8,4987 8,5506 0,9525 0,9443 0,9501 2 media totale 4,6434 Università del Piemonte Orientale Corso di laurea in biotecnologia Corso di Statistica Medica Numero gruppi 3 Varianza tra Analisi della varianza ad 1 criterio di classificazione 5,4114 32 Analogamente per la varianza entro gruppi n media gruppo 10 10 10 5,445 3,999 4,487 g.l. numero totale 30 mediagruppo - varianza nel mediagenerale gruppo 0,8013 -0,6447 - 0,1567 4,6434 Università del Piemonte Orientale Corso di laurea in biotecnologia Corso di Statistica Medica Devianza entro 6,4214 4,1560 0,2454 8,5729 8,4987 8,5506 Varianza tra 27 Varianza entro 0,9490 0,9525 0,9443 0,9501 Numero gruppi 3 media totale Devianza tra 5,4114 33 Analisi della varianza ad 1 criterio di classificazione e la statistica F numero totale 30 media totale 4,6434 Numero gruppi 3 F= 5,4114 Varianza entro 0,9490 5,4114 / 0,9490 = 5,7024 Varianza tra Il numero di gradi di libertà a numeratore è: numero di gruppi-1 (in questo caso:2) Il numero di gradi di libertà a denominatore è: num. soggetti - num. gruppi (in questo caso:27) Università del Piemonte Orientale Corso di laurea in biotecnologia Corso di Statistica Medica Analisi della varianza ad 1 criterio di classificazione 34 34 2,47 33 2,47 32 2,48 31 2,48 30 2,49 29 2,50 28 2,50 27 2,51 26 2,52 25 2,53 24 2,54 23 2,55 22 2,56 21 2,57 20 2,59 19 2,61 18 2,62 17 2,64 16 2,67 15 2,70 14 2,73 13 2,76 12 2,81 11 2,86 10 2,92 9 3,01 8 3,11 7 3,26 6 3,46 5 3,78 4 4,32 3 5,46 2 9,00 3,26 3,27 3,28 3,28 3,29 3,30 3,32 3,33 3,34 3,35 3,37 3,39 3,40 3,42 3,44 3,47 3,49 3,52 3,55 3,59 3,63 3,68 3,74 3,81 3,89 3,98 4,10 4,26 4,46 4,74 5,14 5,79 6,94 9,55 5,23 5,25 5,27 5,29 5,31 5,34 5,36 5,39 5,42 5,45 5,49 5,53 5,57 5,61 5,66 5,72 5,78 5,85 5,93 6,01 6,11 6,23 6,36 6,51 6,70 6,93 7,21 7,56 8,02 8,65 9,55 10,92 13,27 18,00 30,82 19,00 99,00 0,05 5,21 2,23 2,23 2,23 2,24 2,24 2,25 2,25 2,26 2,26 2,27 2,28 2,28 2,29 2,30 2,31 2,32 2,33 2,34 2,35 2,36 2,38 2,40 2,42 2,44 2,46 2,49 2,52 2,56 2,61 2,66 2,73 2,81 2,92 3,07 3,29 3,62 4,19 5,39 9,16 0,1 2,79 2,81 2,84 2,85 2,85 2,86 2,87 2,87 2,88 2,89 2,90 2,91 2,92 2,93 2,95 2,96 2,98 2,99 3,01 3,03 3,05 3,07 3,10 3,13 3,16 3,20 3,24 3,29 3,34 3,41 3,49 3,59 3,71 3,86 4,07 4,35 4,76 5,41 6,59 9,28 4,13 4,20 4,25 4,31 4,33 4,34 4,36 4,38 4,40 4,42 4,44 4,46 4,48 4,51 4,54 4,57 4,60 4,64 4,68 4,72 4,76 4,82 4,87 4,94 5,01 5,09 5,19 5,29 5,42 5,56 5,74 5,95 6,22 6,55 6,99 7,59 8,45 9,78 12,06 16,69 29,46 19,16 99,16 0,05 4,07 2,01 2,02 2,03 2,04 2,06 2,07 2,09 2,09 2,10 2,10 2,11 2,11 2,12 2,12 2,13 2,14 2,14 2,15 2,16 2,17 2,17 2,18 2,19 2,21 2,22 2,23 2,25 2,27 2,29 2,31 2,33 2,36 2,39 2,43 2,48 2,54 2,61 2,69 2,81 2,96 3,18 3,52 4,11 5,34 9,24 0,1 2,45 2,46 2,47 2,49 2,50 2,53 2,56 2,58 2,61 2,61 2,62 2,63 2,63 2,64 2,65 2,66 2,67 2,68 2,69 2,70 2,71 2,73 2,74 2,76 2,78 2,80 2,82 2,84 2,87 2,90 2,93 2,96 3,01 3,06 3,11 3,18 3,26 3,36 3,48 3,63 3,84 4,12 4,53 5,19 6,39 9,12 3,49 3,51 3,53 3,56 3,60 3,65 3,72 3,77 3,83 3,84 3,86 3,87 3,89 3,91 3,93 3,95 3,97 3,99 4,02 4,04 4,07 4,11 4,14 4,18 4,22 4,26 4,31 4,37 4,43 4,50 4,58 4,67 4,77 4,89 5,04 5,21 5,41 5,67 5,99 6,42 7,01 7,85 9,15 11,39 15,98 28,71 19,25 99,25 0,05 3,48 1,90 1,90 1,91 1,91 1,92 1,93 1,95 1,97 1,98 2,00 2,00 2,01 2,01 2,01 2,02 2,02 2,03 2,04 2,04 2,05 2,06 2,06 2,07 2,08 2,09 2,10 2,11 2,13 2,14 2,16 2,18 2,20 2,22 2,24 2,27 2,31 2,35 2,39 2,45 2,52 2,61 2,73 2,88 3,11 3,45 4,05 5,31 9,29 0,1 2,29 2,30 2,31 2,32 2,33 2,35 2,37 2,40 2,42 2,45 2,46 2,46 2,47 2,48 2,49 2,49 2,50 2,51 2,52 2,53 2,55 2,56 2,57 2,59 2,60 2,62 2,64 2,66 2,68 2,71 2,74 2,77 2,81 2,85 2,90 2,96 3,03 3,11 3,20 3,33 3,48 3,69 3,97 4,39 5,05 6,26 9,01 3,19 3,21 3,23 3,26 3,29 3,34 3,41 3,45 3,51 3,53 3,54 3,56 3,57 3,59 3,61 3,63 3,65 3,67 3,70 3,73 3,75 3,78 3,82 3,85 3,90 3,94 3,99 4,04 4,10 4,17 4,25 4,34 4,44 4,56 4,69 4,86 5,06 5,32 5,64 6,06 6,63 7,46 8,75 10,97 15,52 28,24 19,30 99,30 0,05 3,17 1,82 1,83 1,83 1,84 1,85 1,86 1,87 1,90 1,91 1,93 1,93 1,94 1,94 1,94 1,95 1,96 1,96 1,97 1,97 1,98 1,99 2,00 2,00 2,01 2,02 2,04 2,05 2,06 2,08 2,09 2,11 2,13 2,15 2,18 2,21 2,24 2,28 2,33 2,39 2,46 2,55 2,67 2,83 3,05 3,40 4,01 5,28 9,33 0,1 2,18 2,18 2,19 2,20 2,21 2,23 2,25 2,29 2,31 2,34 2,34 2,35 2,36 2,36 2,37 2,38 2,39 2,40 2,41 2,42 2,43 2,45 2,46 2,47 2,49 2,51 2,53 2,55 2,57 2,60 2,63 2,66 2,70 2,74 2,79 2,85 2,92 3,00 3,09 3,22 3,37 3,58 3,87 4,28 4,95 6,16 8,94 2,97 2,99 3,01 3,04 3,07 3,12 3,19 3,23 3,29 3,30 3,32 3,33 3,35 3,37 3,39 3,41 3,43 3,45 3,47 3,50 3,53 3,56 3,59 3,63 3,67 3,71 3,76 3,81 3,87 3,94 4,01 4,10 4,20 4,32 4,46 4,62 4,82 5,07 5,39 5,80 6,37 7,19 8,47 10,67 15,21 27,91 19,33 99,33 0,05 2,96 Il valore della statistica F (2; 27 gl) corrisponde ad una probabilità < 0,01 (il valore di F (2; 27) corrispondente a p= 0,01 è: 5,49) Conclusione? gradi libertà (g.l.) per il numeratore 35 2,46 3,25 5,19 2,21 2,76 4,04 2,00 2,45 Il numero di gradi di libertà a denominatore è: num. soggetti - num. gruppi Distribuzione F (valore della statistica F per definiti livelli di probabilità da F a ∞) 36 2,46 3,24 5,18 2,20 2,74 4,01 2,00 0,01 37 2,45 3,24 5,11 2,18 2,72 3,98 1,99 6 38 2,45 3,23 5,06 2,16 2,71 3,96 0,01 39 2,44 3,20 4,98 2,15 2,70 3,95 5 40 2,44 3,18 4,92 2,15 2,69 0,01 45 2,42 3,15 4,88 2,14 2,68 4 50 2,41 3,13 4,85 2,13 0,01 60 2,39 3,11 4,82 2,13 3 70 2,38 3,10 4,80 0,01 80 2,37 3,09 4,79 2 90 2,36 3,08 0,1 100 2,36 3,07 36 Analisi della varianza ad 1 criterio di classificazione Università del Piemonte Orientale Corso di laurea in biotecnologia Corso di Statistica Medica g.l. denomi natore 110 2,35 Analisi della varianza ad 1 criterio di 120 2,35 Università del Piemonte Orientale Corso di laurea in biotecnologia Corso di Statistica Medica classificazione 35 Il numero di gradi di libertà a numeratore è: numero di gruppi-1 Trattam 4,19 4,04 3,29 3,07 4,95 4,35 2 2 2 2 2 2 1 1 n mediagruppo media mediagenerale gruppo 8,5729 Contributo del varianza nel Contributo del gruppo gruppo alla gruppo alla varianza tra varianza entro 8,4987 6,4214 4,1560 0,9525 0,9443 8,5506 0,8013 -0,6447 0,2454 5,445 3,999 0,9501 10 10 - 0,1567 0,9490 Varianza entro 4,487 5,4114 Varianza tra 10 media totale 4,6434 5,7024 I valori di probabilità corrispondenti alla distribuzione F si leggono tra F e ∞ Riepilogo dei calcoli Resa 3,41 2 1 3,75 2 1 4,87 2 6,27 3,94 2 1 6,28 3 5,36 3,15 3 1 4,04 3 6,39 3,79 3 1 4,56 3 4,85 4,55 3 1 4,55 3 5,99 4,53 3 1 3,53 3 7,14 3,71 3 1 7 5,08 4,61 numero totale 30 F= Analisi della varianza ad 1 criterio di 38 Analisi della varianza ad 1 criterio di classificazione Università del Piemonte Orientale Corso di laurea in biotecnologia Corso di Statistica Medica 4,07 numero gruppi 3 Università del Piemonte Orientale Corso di laurea in biotecnologia Corso di Statistica Medica classificazione 37 0,05 Un'avvertenza per chi usa programmi statistici La varianza entro gruppi è spesso indicata come: MS (Mean Sum Squares o Scarto Quadratico Medio) within groups oppure Error MS La varianza tra gruppi è spesso indicata come: MS between groups oppure Effect MS Università del Piemonte Orientale Corso di laurea in biotecnologia Corso di Statistica Medica Analisi della varianza ad 1 criterio di classificazione 39 Questo è l'output di XLstats, per i dati usati nell'esempio H0: All population means (of resa) are equal H1: Not all population means (of resa) are equal p-value = 0,008594 ANOVA Table Source trattam. Error Total DF SS MS F 2 10,82275 5,411373 5,702374 27 25,62215 0,948969 29 36,4449 Università del Piemonte Orientale Corso di laurea in biotecnologia Corso di Statistica Medica Analisi della varianza ad 1 criterio di classificazione 40 La devianza entro gruppi è spesso indicata come: SS (Sum of Squares o Somma degli Scarti Quadratici) within groups oppure Error SS La devianza tra gruppi è spesso indicata come: SS between groups oppure Effect SS La devianza totale è spesso indicata come: SS Total Università del Piemonte Orientale Corso di laurea in biotecnologia Corso di Statistica Medica Analisi della varianza ad 1 criterio di classificazione 41 H0: All population means (of resa) are equal H1: Not all population means (of resa) are equal p-value = 0,008594 ANOVA Table Source trattam. Error Total DF SS MS F 2 10,82275 5,411373 5,702374 27 25,62215 0,948969 29 36,4449 Università del Piemonte Orientale Corso di laurea in biotecnologia Corso di Statistica Medica Analisi della varianza ad 1 criterio di classificazione 42 MS = SS / DF Varianza = Devianza / Gradi_libertà H0: All population means (of resa) are equal H1: Not all population means (of resa) are equal p-value = 0,008594 ANOVA Table Source trattam. Error Total DF SS MS F 2 10,82275 5,411373 5,702374 27 25,62215 0,948969 29 36,4449 Università del Piemonte Orientale Corso di laurea in biotecnologia Corso di Statistica Medica Analisi della varianza ad 1 criterio di classificazione 43 Altri testi suggeriscono di calcolare la devianza totale e la devianza entro gruppi, ricavando quindi la devianza tra gruppi. Viene utilizzata l'equazione fondamentale dell'analisi della varianza. Devianza totale - devianza entro gruppi = devianza tra gruppi Università del Piemonte Orientale Corso di laurea in biotecnologia Corso di Statistica Medica Analisi della varianza ad 1 criterio di classificazione 44 Giunti a questo punto, vogliamo sapere quali sono i gruppi diversi tra loro. Sono possibili diversi confronti; gruppo 1 vs. gruppo 2 gruppo 2 vs. gruppo 3 gruppo 1 vs. gruppo 3 Università del Piemonte Orientale Corso di laurea in biotecnologia Corso di Statistica Medica Analisi della varianza ad 1 criterio di classificazione 45 Università del Piemonte Orientale Corso di laurea in biotecnologia Corso di Statistica Medica Analisi della varianza ad 1 criterio di classificazione 46 Università del Piemonte Orientale Corso di laurea in biotecnologia Corso di Statistica Medica Analisi della varianza ad 1 criterio di classificazione 47 Università del Piemonte Orientale Corso di laurea in biotecnologia Corso di Statistica Medica Analisi della varianza ad 1 criterio di classificazione 48 Se conduciamo tutti questi confronti la probabilità che almeno uno diventi significativo solo per effetto del caso è 1- p(1-α)numero confronti nel caso di un errore di primo tipo al 5% abbiamo = 1 - (0,95) numero confronti Università del Piemonte Orientale Corso di laurea in biotecnologia Corso di Statistica Medica Analisi della varianza ad 1 criterio di classificazione 49 nel caso di 5 confronti otteniamo: = 1 - (0,95)5 = 1- 0,774 = 0,226 L'errore di primo tipo complessivo (che almeno uno dei confronti dia risultato significativo solo per effetto del caso) è 22,6% Per ovviare questo inconveniente Bonferroni ha proposto la seguente correzione: α ' = α /numero_confronti La soglia di rifiuto dell'ipotesi nulla viene quindi fissata a α / numero_confronti Il numero di confronti è il numero di confronti che si intende effettuare, come pianificato nel disegno dell'analisi statistica Università del Piemonte Orientale Corso di laurea in biotecnologia Corso di Statistica Medica Analisi della varianza ad 1 criterio di classificazione 50 I confronti sono condotti usando il test t per il confronto tra le medie di due campioni indipendenti. Nella lettura del valore di p viene applicata la correzione di Bonferroni. Riportiamo i risultati dei calcoli eseguiti con il programma XLstats. Università del Piemonte Orientale Corso di laurea in biotecnologia Corso di Statistica Medica Analisi della varianza ad 1 criterio di classificazione 51 Tests for comparing two categories Cat. 1: 1 Categories Cat. 2: 2 Two-Sample t-tests (Differences Between Means, µ) Sample Data n1 10 x 1 5,445 s1 0,975981 Assume equal standard deviations Hypothesis Tests H0: µ1 - µ2 = 0 Alternative > ≠ < H1: µ1 - µ2 ≠ T DF p-value = Residuals Analysis 0 3,320116 18 0,003808 n2 10 x 2 3,999 s2 0,97175 x 1 − x 2 1,446 SE Difference 0,435527 Mann-Whitney Test (Differences Between Medians) F-Test for Variance Randomised 2-Group Test Confidence Intervals for µ1 - µ2 Type (2,U,L) 2 Level 0,95 Upper ME Lower 0,915008 0,530992 2,361008 Power Analysis Sample Size Determination Università del Piemonte Orientale Corso di laurea in biotecnologia Corso di Statistica Medica Analisi della varianza ad 1 criterio di classificazione 52 Tests for comparing two categories Cat. 1: 1 Categories Cat. 2: 3 Two-Sample t-tests (Differences Between Means, µ) Sample Data n1 10 x 1 5,445 s1 0,975981 n2 10 x 2 4,487 s2 0,974714 x 1 − x 2 0,958 SE Difference 0,436189 Assume equal standard deviations Hypothesis Tests H0 : µ1 - µ2 = 0 Alternative > ≠ < H1 : µ1 - µ2 ≠ T DF p-value = 0 2,196297 18 0,041413 Man (Diff Betw Med F-Te Varia Rand 2-Gr Confidence Intervals for µ1 - µ2 Type (2,U,L) 2 Level 0,95 Upper ME Lower 0,916399 0,041601 1,874399 Power Analysis Università del Piemonte Orientale Corso di laurea in biotecnologia Corso di Statistica Medica 53 Analisi della varianza ad 1 criterio di classificazione Tests for comparing two categories Cat. 1: 2 Categories Cat. 2: 3 Two-Sample t-tests (Differences Between Means, µ) Sample Data n1 10 x 1 3,999 s1 0,97175 n2 10 x 2 4,487 s2 0,974714 x 1 − x 2 -0,488 SE Difference 0,435243 Assume equal standard deviations Hypothesis Tests H0 : µ1 - µ 2 = 0 Alternative > ≠ < H1 : µ1 - µ 2 ≠ T DF p-value = 0 -1,12121 18 0,276934 Man (Diff Betw Med F-Te Varia Rand 2-Gr Confidence Intervals for µ1 - µ2 Type (2,U,L) 2 Level 0,95 ME Lower Upper 0,914412 -1,40241 0,426412 Power Analysis Università del Piemonte Orientale Corso di laurea in biotecnologia Corso di Statistica Medica Analisi della varianza ad 1 criterio di classificazione 54 Conclusioni? Quali dei tre confronti sono significativi? Se siamo interessati ad un errore α complessivo < 0,05 ed applichiamo la correzione di Bonferroni dovremo considerare solo in confronti il cui valore di p è < 0,05 / 3 p < 0,05 / 3 p < 0,0167 a vs. b -> rifiuto H0 a vs. c -> non rifiuto H0 b vs. c -> non rifiuto H0 Università del Piemonte Orientale Corso di laurea in biotecnologia Corso di Statistica Medica Analisi della varianza ad 1 criterio di classificazione 55 Approfondimento sugli errori conseguenti all'uso dell'ANOVA quando i tre gruppi hanno diverse varianze In questo esempio la varianza è uguale nei tre gruppi. In simili situazioni la probabilità di rifiutare l'ipotesi nulla in assenza di differenza nella media dei tre gruppi è simile al valore nominale (alpha o probabilità dell'errore di primo tipo). Results of 1000 Replication Experiment alpha = .05 Reject Null Hypothesis Università del Piemonte Orientale Corso di laurea in biotecnologia Corso di Statistica Medica 5,6% alpha = .01 0,8% Analisi della varianza ad 1 criterio di classificazione 56 In questo esempio la varianza è diversa nei tre gruppi. In simili situazioni la probabilità di rifiutare l'ipotesi nulla in assenza di differenza nella media dei tre gruppi è sistematicamente diversa dal valore nominale. Results of 1000 Replication Experiment alpha = .05 Reject Null Hypothesis Università del Piemonte Orientale Corso di laurea in biotecnologia Corso di Statistica Medica 8,2% alpha = .01 2,0% Analisi della varianza ad 1 criterio di classificazione 57 In questo esempio i tre gruppi hanno la stessa varianza e tre medie diverse. Qui l'analisi della varianza è appropriata Università del Piemonte Orientale Corso di laurea in biotecnologia Corso di Statistica Medica Analisi della varianza ad 1 criterio di classificazione 58 Approfondimento sulla simulazione di analisi della varianza Immaginiamo di condurre un esperimento ripetuto 1000 volte con campioni tratti dalla stessa popolazione: la distribuzione delle medie campionarie. Università del Piemonte Orientale Corso di laurea in biotecnologia Corso di Statistica Medica Analisi della varianza ad 1 criterio di classificazione 59 Analisi della varianza ad 1 criterio di classificazione 60 la distribuzione della statistica F. Università del Piemonte Orientale Corso di laurea in biotecnologia Corso di Statistica Medica Il numero di campioni che avrebbe portato al rifiuto dell'ipotesi nulla. Università del Piemonte Orientale Corso di laurea in biotecnologia Corso di Statistica Medica Analisi della varianza ad 1 criterio di classificazione 61 Le corrispondenti immagini nel caso di campioni da tre diverse popolazioni Università del Piemonte Orientale Corso di laurea in biotecnologia Corso di Statistica Medica Analisi della varianza ad 1 criterio di classificazione 62 Esercizi dal testo p 226 n 2 p 226 n 4 p 226 n 6 p 226 n 7 p 226 n 8 Università del Piemonte Orientale Corso di laurea in biotecnologia Corso di Statistica Medica Analisi della varianza ad 1 criterio di classificazione 63