Corso di laurea in Scienze Motorie Corso di Statistica Docente: Dott.ssa Immacolata Scancarello Lezione 14: Analisi della varianza (ANOVA) 1 Analisi della varianza Analisi della varianza (ANOVA) ANOVA ad un solo fattore ANOVA a due fattori Test sulla varianza (2-Variances) Si utilizza questo test per verificare se due campioni dimostrano o meno di avere le stessa varianza. 2 L’analisi della varianza • Consente la valutazione di differenze fra i valori medi per due o più trattamenti (o popolazioni) • Differenza rispetto al test t – Possibilità di confrontare più di due trattamenti – Si vuole confrontare l’effetto di un nuovo farmaco nella cure della depressione rispetto a un farmaco standard tenendo conto che i pazienti provengono da ospedali diversi e quindi l’azione congiunta farmaco-ospedale può influenzare l’esito della cura ANOVA a più fattori 3 Definizioni • • • • Variabile indipendente: una variabile che il ricercatore sottopone a manipolazione sperimentale Variabile quasi-indipendente: una variabile utilizzata per distinguere fra diversi gruppi di risultati Variabile dipendente: una variabile il cui valore è determinato da quello dei fattori Nell’analisi della varianza le variabili indipendenti e quasi-indipendenti si chiamano fattori ANOVA valuta l’effetto dei fattori sulla variabile dipendente 4 ANOVA a un solo fattore: misure indipendenti Con ANOVA si confrontano due stime indipendenti della varianza (test F). Sia µ la media della variabile dipendente e siano µ1, µ2, ..., µk le medie delle popolazioni delle variabili dipendenti misurate nei trattamenti indipendenti. H0: µ1= µ2 =…= µk H1: almeno due medie µi e µj delle popolazioni dei trattamenti sono fra loro diverse 5 Il rapporto F Il rapporto F e il test t restituiscono le stesse informazioni: una forte differenza fra le medie (una elevata varianza) è indice della presenza di una differenza significativa test t: differenza fra due medie ≠ rapporto F: varianza di due o più medie F= varianza delle medie varianza ipotizzata 6 Il rapporto F con misure indipendenti • F ~ 1 Il trattamento non ha alcun effetto • F ≠ 1 Il trattamento ha un effetto significativo F= = varianza fra i campioni varianza all' interno dei campioni varianzatrattamento + varianzacasuale varianzacasuale Se il trattamento non ha effetto F= 0 + varianzacasuale varianzacasuale = =1 varianzacasuale varianzacasuale 7 Procedura di ANOVA Passo 1: Si calcolano le deviazioni quadratiche su – Popolazione – Tra campioni – All’interno dei campioni Passo 2: Si individuano i gradi di liberta Passo 3: Si calcola la varianza Passo 4: Si calcola il rapporto F Passo 5: La decisione 8 Passo 1: deviazioni quadratiche Trattamento 1 Media Trattamento 2 Trattamento 3 DATO01 DATO 06 DATO 11 DATO02 DATO 07 DATO 12 DATO03 DATO 08 DATO 13 DATO04 DATO 09 DATO 14 DATO05 DATO 10 DATO 15 MEDIA 1 MEDIA 2 MEDIA 3 Si calcola il totale delle deviazioni quadratiche per l’intera popolazione Media totale dei 15 dati 15 dev.q totale = ∑ (Dato i - Media totale) 2 i =1 Si calcola la somma delle deviazioni quadratiche per ciascun campione dev.q int = ∑ ∑ (Dato j - Media i) 2 Il valore per le deviazioni quadratiche fra campioni si calcola come la differenza fra dev.qtotale e dev.qall’interno dei dev.q totale = dev.q fra + dev.q int 3 5 i =1 j =1 dev.q fra = dev.q totale − dev.q int campioni 9 Passo 1: deviazioni quadratiche Trattamento 1 Media Si calcola il totale delle deviazioni quadratiche per l’intera popolazione Si calcola la somma delle deviazioni quadratiche per ciascun campione Il valore per le deviazioni quadratiche fra campioni si calcola come la differenza fra dev.qtotale e dev.qall’interno dei campioni Trattamento 2 Trattamento 3 1 2 2 3 1 2 3 1 4 2 0 0 1 1 7 2 1 3 Somma delle deviazioni quadratiche = 44 dev.q Tr.1 4 dev.q Tr.2 2 dev.q Tr.3 28 SOMMA 34 dev.q totale = dev.q fra + dev.q int dev.q fra = dev.q totale − dev.q int dev.q fra = 44 − 34 = 10 10 Passo 2: gradi di libertà • gdltotale=N-1=15-1=14 Media Trattamento 1 Trattamento 2 Trattamento 3 1 2 2 3 1 2 3 1 4 2 0 0 1 1 2 2 1 2 • gdlint=gdlTr.1+gdlTr.2+gdlTr.3 =4+4+4=12 • gdlfra = gdltotale-gdlinterno =14-12=2 11 Passi 3-4: varianza e rapporto F Media Trattamento 1 Trattamento 2 Trattamento 3 1 2 2 3 1 2 3 1 4 2 0 0 1 1 2 2 1 2 Osservazione Il rapporto F è un rapporto fra due varianze (sempre positive) Il valore di F è sempre positivo Formula di riferimento dev.q varianza = gdl varianzafra = dev.q fra 5 = = 2,5 2 gdl fra varianzainterno = dev.q interno 39 = = 3,25 12 gdl interno varianzafra 2,5 F= = = 0,77 varianzaint 3,25 12 Passo 5: la decisione Anche per il rapporto F si confronta il valore calcolato con la distribuzione statistica Media Trattamento 1 Trattamento 2 Trattamento 3 1 2 2 3 1 2 3 1 4 2 0 0 1 1 2 2 1 2 1. 2. 3. F=0,77 Fcrit=3,89 per α=0,05, gdlint=12, gdlfra =2 Si accetta l’ipotesi nulla L’analisi della varianza non dimostra dunque una differenza significativa: F(2,14)=0,77 13 Validità di ANOVA (ad un solo fattore) • Occorre assumere che la popolazione sia distribuita normalmente • Osservazioni indipendenti • I campioni devono avere la stessa varianza 14 ANOVA a due fattori I fenomeni realmente osservati sono il risultato dell’interazione fra più fattori In questo contesto, si analizza il modello a due fattori che studia quanta parte della varianza dipenda dal primo fattore, dal secondo fattore (effetti principali) e dalla loro interazione 15 ANOVA a due fattori Un primo passo è lo studio degli effetti principali. – Analisi della varianza per il fattore A – Analisi della varianza per il fattore B Un secondo passo è lo studio della presenza o meno di effetti dovuti all’interazione tra i due fattori – Presenza di interazioni. Il fattore A esercita il suo effetto solo in presenza del fattore B – Assenza di interazioni. I fattori A e B esercitano il loro effetto in modo autonomo uno dall’altro. 16 Formulazione delle ipotesi H0 e H1 • H0: tutti i valori osservati possono essere spiegati in termini degli effetti principali • H1: esiste almeno un valore che non può essere spiegato solo in termini di effetti principali 17 Processo decisionale 1. 2. 3. Analisi della varianza per effetto A Analisi della varianza per effetto B Analisi della varianza per interazione degli effetti A e B Decisione 18 Condizioni di validità per l’ANOVA a due fattori • Occorre assumere che la popolazione sia distribuita normalmente • Osservazioni indipendenti • I campioni devono avere la stessa varianza 19