12/10/2010 ANOVA (ANalysis Of VAriance) Un caso di studio Ip punti vendita di un’azienda sono classificati in base all’ubicazione (centro, semicentro, periferia) Corso di C Statistica per l’impresa Sulla base delle osservazioni campionarie si vuole verificare se in media il risultato operativo differisce o no a seconda dell’ubicazione Prof. A. Regoli a.a. 2010-2011 L’ubicazione (con 3 modalità) rappresenta il fattore o criterio di classificazione Corso di Statistica per l'impresa a.a. 2010-2011 – Univ. NA Parthenope - Prof. Regoli 1 ANOVA (Analisi della varianza ad un fattore) Corso di Statistica per l'impresa a.a. 2010-2011 – Univ. NA Parthenope - Prof. Regoli ANOVA (Analisi della varianza ad un fattore) Il problema si riconduce in termini inferenziali alla verifica dell’ipotesi di uguaglianza di m medie (m>2) m popolazioni (m>2) definite in base alle modalità di un fattore o criterio di classificazione (trattamenti) È l’estensione l estensione del test t per il confronto di 2 medie Si assume che le m popolazioni siano distribuite d st bu te normalmente o a e te co con varianza a a a comune σ2 incognita Si estraggono m campioni indipendenti di numerosità n1, n2,…,nm Corso di Statistica per l'impresa a.a. 2010-2011 – Univ. NA Parthenope - Prof. Regoli 2 3 Corso di Statistica per l'impresa a.a. 2010-2011 – Univ. NA Parthenope - Prof. Regoli 4 1 12/10/2010 Uguaglianza tra più di due medie Finalità dell’ANOVA Sulla base dell’evidenza empirica, vogliamo verificare ifi lla seguente t ipotesi i t i H0: μ1= μ2=… μm= μ (μi-μ=0 per tutte le medie) H1: μi-μ ≠ 0 (per almeno una media) • Le differenze tra le medie campionarie sono dovute a variazioni casuali che si possono verificare anche nel caso in cui si campiona dalla stessa popolazione? si accetta H0 • Oppure sono dovute alle diverse modalità del fattore? si accetta H1 Accettare H0 significa concludere che i campioni provengono dalla stessa popolazione (il fattore non discrimina) Corso di Statistica per l'impresa a.a. 2010-2011 – Univ. NA Parthenope - Prof. Regoli Corso di Statistica per l'impresa a.a. 2010-2011 – Univ. NA Parthenope - Prof. Regoli 5 Medie di gruppo e media complessiva Informazioni campionarie xij i=1,2,…,m j=1,2,…,ni m: numero dei trattamenti ((dei campioni) p ) ni: numerosità di ogni campione 1 x11 x12 … x1j … x1n1 2 x21 x22 … x2j … x2n2 Campioni (gruppi) 3 … i x31 … xi1 x32 … xi2 … … … x3j … xij … … … x3n3 … xini … … … … … … … xi = m xm1 xm2 … xmj … xmnm Corso di Statistica per l'impresa a.a. 2010-2011 – Univ. NA Parthenope - Prof. Regoli 6 x= 7 1 ni ni ∑ j=1 x ij Media dell’i-esimo gruppo 1m n 1m xij = ∑ xini ∑ ∑ n i=1 j=1 n i=1 i p Media complessiva Corso di Statistica per l'impresa a.a. 2010-2011 – Univ. NA Parthenope - Prof. Regoli 8 2 12/10/2010 Variabilità di gruppo e variabilità complessiva Media del gruppo i xi = 1 x11 x12 … x1j … x1n1 2 x21 x22 … x2j … x2n2 Campioni (gruppi) 3 … i x31 … xi1 x32 … xi2 … … … x3j … xij … … … x3n3 … xini 1 ni ni ∑ j=1 x ij si2 = ni … … … … … … … m xm1 xm2 … xmj … xmnm m m ni m ni i=1 2 m ni i=1 2 i=1 j=1 DEVTOT = DEVTRA + DEVENTRO 9 10 La variabilità ENTRO i gruppi dipende dalla dispersione dei valori all’interno di ogni gruppo DEVENTRO=0 se e solo se c’è omogeneità all’interno di ogni gruppo, cioè se xij = xi per ogni j all' interno di ogni gruppo i DEVENTRO DEVTRA m ni m m ni s2 (n − 1) = ∑∑ (xij − x) = ∑ (xi − x) ni + ∑∑ (xij − xi ) 2 La variabilità TRA i gruppi dipende dalle differenze tra le medie di gruppo DEVTRA=0 se e solo se tutti i gruppi hanno la stessa media cioè se xi = x per ogni i Corso di Statistica per l'impresa a.a. 2010-2011 – Univ. NA Parthenope - Prof. Regoli Scomposizione della devianza i=1 j=1 i=1 j=1 Corso di Statistica per l'impresa a.a. 2010-2011 – Univ. NA Parthenope - Prof. Regoli m Devianza totale = Devianza TRA i gruppi + Devianza ENTRO i gruppi s2 (n − 1) = ∑∑ (xij − x) = ∑ (xi − x) ni + ∑∑ (xij − xi ) i=1 j=1 2 i=1 j=1 DEVENTRO 2 Devianza dell’i-esimo gruppo s2 (n − 1) = ∑∑ (xij − x) = ∑ (xi − x) ni + ∑∑ (xij − xi ) Il confronto tra le medie dei gruppi si effettua a partire dalla scomposizione della devianza totale nelle due componenti, TRA i gruppi e ENTRO i gruppi DEVTRA 2 V i Varianza dell’i-esimo d ll’i i gruppo j=1 Scomposizione della devianza 2 i si2 (ni − 1) = ∑ (xij − xi ) Corso di Statistica per l'impresa a.a. 2010-2011 – Univ. NA Parthenope - Prof. Regoli m ni 1 n (xij − xi )2 ∑ (ni − 1) j=1 11 2 i=1 2 2 i=1 j=1 Corso di Statistica per l'impresa a.a. 2010-2011 – Univ. NA Parthenope - Prof. Regoli 12 3 12/10/2010 Confronto tra componenti di variabilità (tra e entro gruppi) Varianza TRA e varianza ENTRO • Dai dati campionari si ricavano due stime puntuali indipendenti della varianza incognita σ2 • VARTRA e VARENTRO si ottengono da DEVTRA e DEVENTRO dividendo per gli opportuni gradi di libertà m (xi − x )2 ni ∑ DEV Osservazioni del gruppo I Osservazioni del gruppo II Osservazioni del gruppo III a) La variabilità tra gruppi non è grande rispetto alla variabilità entro i gruppi. Si tende a accettare H0: μ1= μ2= μ3 b) VAR TRA = La variabilità tra gruppi è grande rispetto alla variabilità entro i gruppi. Si tende a rifiutare H0: μ1= μ2= μ3 Corso di Statistica per l'impresa a.a. 2010-2011 – Univ. NA Parthenope - Prof. Regoli TRA m −1 i=1 m −1 m VAR ENTRO 13 DEVENTRO = = n−m ni ∑ ∑ (x i=1 j=1 − xi ) m 2 ij n−m = ∑ s (n i =1 m 2 i ∑ (n i − 1) − 1) i Corso di Statistica per l'impresa a.a. 2010-2011 – Univ. NA iParthenope - Prof. Regoli =1 14 Statistica test Stimatori di σ2 1. VARTRA è uno stimatore NON distorto di σ2 solo se è vera H0. Quando non è vera H0, VARTRA produce una stima distorta verso l’alto E(VARTRA)≥σ2 E(VARTRA)=σ2 solo se Ho è vera Le due stime di σ2 vengono confrontate usando un test F Il rapporto VARTRA/VARENTRO è una statistica F Infatti, ricordando che DEV TRA ~ χ 2me −1 σ2 DEV ENTRO ~ χ n2 − m σ2 DEVTRA VAR TRA σ2 (m − 1) = ~ Fm−1,n−m DEVENTRO VAR ENTRO σ2 (n − m) 2. VARENTRO è sempre uno stimatore NON distorto di σ2 E(VARENTRO)=σ2 Corso di Statistica per l'impresa a.a. 2010-2011 – Univ. NA Parthenope - Prof. Regoli = 15 Corso di Statistica per l'impresa a.a. 2010-2011 – Univ. NA Parthenope - Prof. Regoli 16 4 12/10/2010 Regione critica del test Regione critica del test La regione critica del test comprende valori di F > Fα;m−1,n−m Se H0 è vera, ci aspettiamo di osservare un valore empirico di F intorno a 1 in quanto è il rapporto tra due stime, entrambe non distorte, dello stesso parametro incognito Se H0 è falsa, ci aspettiamo un valore di F maggiore di 1 in quanto una stima di σ2 di t t verso l’alto distorta l’ lt è rapportata t t ad d una stima non distorta dello stesso parametro Fα;m-1,n-m Corso di Statistica per l'impresa a.a. 2010-2011 – Univ. NA Parthenope - Prof. Regoli Corso di Statistica per l'impresa a.a. 2010-2011 – Univ. NA Parthenope - Prof. Regoli 17 Regola di decisione Si accetta H0 se F < Fα ;m−1,n−m concludendo che le osservazioni campionarie provengono dalla stessa popolazione Tavola ANOVA le m popolazioni sono normali, con la stessa varianza e la stessa media, quindi sono un’unica grande popolazione Si rifiuta H0 se F > Fα;m−1,n−m concludendo che almeno una media di gruppo differisce dalle altre Corso di Statistica per l'impresa a.a. 2010-2011 – Univ. NA Parthenope - Prof. Regoli 18 19 Fonte Devianza della (Somma dei variazione quadrati) g.d.l. Varianza (Media dei quadrati) Statistica test TRA i gruppi DEVTRA m-1 VARTRA= DEVTRA/(m-1) VARTRA/VARENTRO =Fm-1,n-m ENTRO i gruppi DEVENTRO n-m n m VARENTRO= DEVENTRO/(n-m) Totale DEVTOT n-1 Corso di Statistica per l'impresa a.a. 2010-2011 – Univ. NA Parthenope - Prof. Regoli 20 5 12/10/2010 Analisi della varianza – Output Excel Analisi della varianza – Output Excel H0: il risultato operativo medio è uguale nei tre gruppi H1: c’è ’è almeno l un gruppo per il quale l il risultato i l operativo medio differisce da quello degli altri gruppi I punti vendita sono raggruppati in base all’ubicazione (fattore di classificazione a 3 modalità) La variabile di analisi è il risultato operativo Origine della variazione Il campione è di 20 unità Gruppi Conteggio Somma Media Varianza SQ F 6879,06 2 3439,53 5891,67 58803 89 58803,89 17 3459,05 3459 05 2622,00 Totale 65682,95 19 9 818 90,89 3174,61 Semicentro 4 550 137,50 Periferia 7 833 119,00 C’è differenza tra le medie osservate. Ma queste differenze sono sufficientemente elevate da farci rifiutare l’ipotesi nulla di uguaglianza tra le medie? Corso di Statistica per l'impresa a.a. 2010-2011 – Univ. NA Parthenope - Prof. Regoli Valore di significatività (p-value) 0,994 F crit (α=0,05) 0,390 3,592 Si accetta H0, non ci sono differenze significative tra il risultato operativo medio dei tre gruppi F<F crit Corso di Statistica per l'impresa a.a. 2010-2011 – Univ. NA Parthenope - Prof. Regoli 21 Esercizio ANOVA 22 Esercizio ANOVA Quindici partecipanti ad un programma di addestramento sono assegnati casualmente a tre corsi che usano metodi didattici differenti. Alla fine dei corsi si esegue g un test p per valutare l’apprendimento. pp I punteggi ottenuti in base al corso frequentato sono i seguenti: Corso 1 Corso 2 Corso 3 90 86 78 76 79 85 88 81 70 82 70 71 89 84 71 Ricaviamo medie e devianze dei tre gruppi Per il primo gruppo (Corso 1): x1 = n1 xij ∑ j=1 = 1 (90 + 76 + 88 + 82 + 89 ) = 85 5 n1 ∑ (x j =1 − x1 ) = 2 1j = (90 − 85 ) + (76 − 85 ) + (88 − 85 ) + (82 − 85 ) + 2 2 2 2 + (89 − 85 ) = 140 2 Per i tre g gruppi pp e p per il totale: H0: μ1= μ2=μ3= μ Corso di Statistica per l'impresa a.a. 2010-2011 – Univ. NA Parthenope - Prof. Regoli 1 n1 s12 (n1 − 1) = Verificare l’ipotesi nulla che il punteggio medio non è influenzato dal tipo di corso frequentato [α=0,05] (μi-μ=0 per tutte le medie) H1: μi-μ ≠ 0 (per almeno una media) MQ Entro i gruppi Centro Tra gruppi gdl 23 Corso 1 Corso 2 Corso 3 Media 85 80 75 Totale 80 Devianza 140 154 166 710 n 5 5 5 15 Corso di Statistica per l'impresa a.a. 2010-2011 – Univ. NA Parthenope - Prof. Regoli 24 6 12/10/2010 Esercizio ANOVA Esercizio ANOVA Ricaviamo devianza TRA e devianza ENTRO: 3 ∑ (x DEV TRA = i =1 (85 − 80 ) 2 DEV i − x ) ni = Fonte della variazione × 5 + (80 − 80 ) × 5 + (75 − 80 ) × 5 = 250 2 3 ENTRO Costruiamo la tavola: 2 = ni ∑ ∑ (x i=1 j=1 2 − xi ) = 2 ij = 140 + 154 + 166 3 ∑ i=1 s i2 (n i − 1 ) = = 460 g.d.l. Varianza (Media dei quadrati) Tra gruppi 250 2 125 Entro i gruppi 460 12 38,33 Totale 710 14 Statistica test 3,26 Il valore soglia (α=0,05) della distribuzione F con 2 e 12 gdl è pari a 3,885 Poiché 3,26 < 3,885 Sulla base dei dati campionari non si può rifiutare l’ipotesi nulla Si conclude che il punteggio medio del test è uguale indipendentemente dal tipo di corso frequentato La scomposizione della devianza è verificata perché: DEVTOT = DEVTRA + DEVENTRO 710 = 250 + 460 Corso di Statistica per l'impresa a.a. 2010-2011 – Univ. NA Parthenope - Prof. Regoli Devianza (Somma dei quadrati) 25 Corso di Statistica per l'impresa a.a. 2010-2011 – Univ. NA Parthenope - Prof. Regoli 26 7