12/10/2010
ANOVA (ANalysis Of VAriance)
Un caso di studio
Ip
punti vendita di un’azienda sono
classificati in base all’ubicazione (centro,
semicentro, periferia)
Corso di
C
Statistica per l’impresa
Sulla base delle osservazioni campionarie si
vuole verificare se in media il risultato
operativo differisce o no a seconda
dell’ubicazione
Prof. A. Regoli
a.a. 2010-2011
L’ubicazione (con 3 modalità) rappresenta il
fattore o criterio di classificazione
Corso di Statistica per l'impresa a.a. 2010-2011 – Univ. NA Parthenope - Prof. Regoli
1
ANOVA (Analisi della varianza ad
un fattore)
Corso di Statistica per l'impresa a.a. 2010-2011 – Univ. NA Parthenope - Prof. Regoli
ANOVA (Analisi della varianza ad
un fattore)
Il problema si riconduce in termini
inferenziali alla verifica dell’ipotesi di
uguaglianza di m medie (m>2)
m popolazioni (m>2)
definite in base alle modalità di un fattore o
criterio di classificazione (trattamenti)
È l’estensione
l estensione del test t per il confronto di 2
medie
Si assume che le m popolazioni siano
distribuite
d
st bu te normalmente
o a e te co
con varianza
a a a
comune σ2 incognita
Si estraggono m campioni indipendenti di
numerosità n1, n2,…,nm
Corso di Statistica per l'impresa a.a. 2010-2011 – Univ. NA Parthenope - Prof. Regoli
2
3
Corso di Statistica per l'impresa a.a. 2010-2011 – Univ. NA Parthenope - Prof. Regoli
4
1
12/10/2010
Uguaglianza tra più di due medie
Finalità dell’ANOVA
Sulla base dell’evidenza empirica, vogliamo
verificare
ifi
lla seguente
t ipotesi
i t i
H0: μ1= μ2=… μm= μ
(μi-μ=0 per tutte le
medie)
H1: μi-μ ≠ 0 (per almeno una media)
• Le differenze tra le medie campionarie
sono dovute a variazioni casuali che si
possono verificare anche nel caso in cui si
campiona dalla stessa popolazione?
si accetta H0
• Oppure sono dovute alle diverse modalità
del fattore?
si accetta H1
Accettare H0 significa concludere che i
campioni provengono dalla stessa
popolazione (il fattore non discrimina)
Corso di Statistica per l'impresa a.a. 2010-2011 – Univ. NA Parthenope - Prof. Regoli
Corso di Statistica per l'impresa a.a. 2010-2011 – Univ. NA Parthenope - Prof. Regoli
5
Medie di gruppo
e media complessiva
Informazioni campionarie
xij
i=1,2,…,m
j=1,2,…,ni
m: numero dei trattamenti ((dei campioni)
p
)
ni: numerosità di ogni campione
1
x11
x12
…
x1j
…
x1n1
2
x21
x22
…
x2j
…
x2n2
Campioni (gruppi)
3
…
i
x31
…
xi1
x32
…
xi2
…
…
…
x3j
…
xij
…
…
…
x3n3
…
xini
…
…
…
…
…
…
…
xi =
m
xm1
xm2
…
xmj
…
xmnm
Corso di Statistica per l'impresa a.a. 2010-2011 – Univ. NA Parthenope - Prof. Regoli
6
x=
7
1
ni
ni
∑
j=1
x ij Media dell’i-esimo gruppo
1m n
1m
xij = ∑ xini
∑
∑
n i=1 j=1
n i=1
i
p
Media complessiva
Corso di Statistica per l'impresa a.a. 2010-2011 – Univ. NA Parthenope - Prof. Regoli
8
2
12/10/2010
Variabilità di gruppo e
variabilità complessiva
Media del gruppo i
xi =
1
x11
x12
…
x1j
…
x1n1
2
x21
x22
…
x2j
…
x2n2
Campioni (gruppi)
3
…
i
x31
…
xi1
x32
…
xi2
…
…
…
x3j
…
xij
…
…
…
x3n3
…
xini
1
ni
ni
∑
j=1
x ij
si2 =
ni
…
…
…
…
…
…
…
m
xm1
xm2
…
xmj
…
xmnm
m
m ni
m ni
i=1
2
m ni
i=1
2
i=1 j=1
DEVTOT = DEVTRA + DEVENTRO
9
10
La variabilità ENTRO i gruppi dipende dalla dispersione dei
valori all’interno di ogni gruppo
DEVENTRO=0 se e solo se c’è omogeneità all’interno di ogni
gruppo, cioè se xij = xi per ogni j all' interno di ogni gruppo i
DEVENTRO
DEVTRA
m ni
m
m ni
s2 (n − 1) = ∑∑ (xij − x) = ∑ (xi − x) ni + ∑∑ (xij − xi )
2
La variabilità TRA i gruppi dipende dalle differenze tra le
medie di gruppo
DEVTRA=0 se e solo se tutti i gruppi hanno la stessa media
cioè se xi = x per ogni i
Corso di Statistica per l'impresa a.a. 2010-2011 – Univ. NA Parthenope - Prof. Regoli
Scomposizione della devianza
i=1 j=1
i=1 j=1
Corso di Statistica per l'impresa a.a. 2010-2011 – Univ. NA Parthenope - Prof. Regoli
m
Devianza totale = Devianza TRA i gruppi + Devianza ENTRO i gruppi
s2 (n − 1) = ∑∑ (xij − x) = ∑ (xi − x) ni + ∑∑ (xij − xi )
i=1 j=1
2
i=1 j=1
DEVENTRO
2
Devianza dell’i-esimo gruppo
s2 (n − 1) = ∑∑ (xij − x) = ∑ (xi − x) ni + ∑∑ (xij − xi )
Il confronto tra le medie dei gruppi si effettua a
partire dalla scomposizione della devianza totale nelle
due componenti, TRA i gruppi e ENTRO i gruppi
DEVTRA
2
V i
Varianza
dell’i-esimo
d ll’i
i
gruppo
j=1
Scomposizione della devianza
2
i
si2 (ni − 1) = ∑ (xij − xi )
Corso di Statistica per l'impresa a.a. 2010-2011 – Univ. NA Parthenope - Prof. Regoli
m ni
1 n
(xij − xi )2
∑
(ni − 1) j=1
11
2
i=1
2
2
i=1 j=1
Corso di Statistica per l'impresa a.a. 2010-2011 – Univ. NA Parthenope - Prof. Regoli
12
3
12/10/2010
Confronto tra componenti di
variabilità (tra e entro gruppi)
Varianza TRA e varianza ENTRO
• Dai dati campionari si ricavano due stime
puntuali indipendenti della varianza incognita
σ2
• VARTRA e VARENTRO si ottengono da DEVTRA e
DEVENTRO dividendo per gli opportuni gradi di
libertà
m
(xi − x )2 ni
∑
DEV
Osservazioni del gruppo I
Osservazioni del gruppo II
Osservazioni del gruppo III
a)
La variabilità tra gruppi non è grande
rispetto alla variabilità entro i gruppi.
Si tende a accettare H0: μ1= μ2= μ3
b)
VAR TRA =
La variabilità tra gruppi è grande
rispetto alla variabilità entro i gruppi.
Si tende a rifiutare H0: μ1= μ2= μ3
Corso di Statistica per l'impresa a.a. 2010-2011 – Univ. NA Parthenope - Prof. Regoli
TRA
m −1
i=1
m −1
m
VAR ENTRO
13
DEVENTRO
=
=
n−m
ni
∑ ∑ (x
i=1 j=1
− xi )
m
2
ij
n−m
=
∑ s (n
i =1
m
2
i
∑ (n
i
− 1)
− 1)
i
Corso di Statistica per l'impresa a.a. 2010-2011 – Univ. NA iParthenope
- Prof. Regoli
=1
14
Statistica test
Stimatori di σ2
1. VARTRA è uno stimatore NON distorto di
σ2 solo se è vera H0. Quando non è vera
H0, VARTRA produce una stima distorta
verso l’alto
E(VARTRA)≥σ2
E(VARTRA)=σ2
solo se Ho è vera
Le due stime di σ2 vengono confrontate
usando un test F
Il rapporto VARTRA/VARENTRO è una statistica F
Infatti, ricordando che
DEV TRA
~ χ 2me
−1
σ2
DEV ENTRO
~ χ n2 − m
σ2
DEVTRA
VAR TRA
σ2 (m − 1)
=
~ Fm−1,n−m
DEVENTRO
VAR ENTRO
σ2 (n − m)
2. VARENTRO è sempre uno stimatore NON
distorto di σ2
E(VARENTRO)=σ2
Corso di Statistica per l'impresa a.a. 2010-2011 – Univ. NA Parthenope - Prof. Regoli
=
15
Corso di Statistica per l'impresa a.a. 2010-2011 – Univ. NA Parthenope - Prof. Regoli
16
4
12/10/2010
Regione critica del test
Regione critica del test
La regione critica del test comprende valori
di F > Fα;m−1,n−m
Se H0 è vera, ci aspettiamo di osservare un
valore empirico di F intorno a 1 in quanto è il
rapporto tra due stime, entrambe non
distorte, dello stesso parametro incognito
Se H0 è falsa, ci aspettiamo un valore di F
maggiore di 1 in quanto una stima di σ2
di t t verso l’alto
distorta
l’ lt è rapportata
t t ad
d una
stima non distorta dello stesso parametro
Fα;m-1,n-m
Corso di Statistica per l'impresa a.a. 2010-2011 – Univ. NA Parthenope - Prof. Regoli
Corso di Statistica per l'impresa a.a. 2010-2011 – Univ. NA Parthenope - Prof. Regoli
17
Regola di decisione
Si accetta H0 se F < Fα ;m−1,n−m
concludendo che le osservazioni
campionarie provengono dalla
stessa popolazione
Tavola ANOVA
le m popolazioni
sono normali, con la
stessa varianza e la
stessa media, quindi
sono un’unica
grande popolazione
Si rifiuta H0 se F > Fα;m−1,n−m
concludendo che almeno una media
di gruppo differisce dalle altre
Corso di Statistica per l'impresa a.a. 2010-2011 – Univ. NA Parthenope - Prof. Regoli
18
19
Fonte
Devianza
della
(Somma dei
variazione quadrati)
g.d.l.
Varianza
(Media dei
quadrati)
Statistica test
TRA i
gruppi
DEVTRA
m-1
VARTRA=
DEVTRA/(m-1)
VARTRA/VARENTRO
=Fm-1,n-m
ENTRO i
gruppi
DEVENTRO
n-m
n
m
VARENTRO=
DEVENTRO/(n-m)
Totale
DEVTOT
n-1
Corso di Statistica per l'impresa a.a. 2010-2011 – Univ. NA Parthenope - Prof. Regoli
20
5
12/10/2010
Analisi della varianza –
Output Excel
Analisi della varianza –
Output Excel
H0: il risultato operativo medio è uguale nei tre gruppi
H1: c’è
’è almeno
l
un gruppo per il quale
l il risultato
i l
operativo medio differisce da quello degli altri gruppi
I punti vendita sono raggruppati in base
all’ubicazione (fattore di classificazione a 3 modalità)
La variabile di analisi è il risultato operativo
Origine
della
variazione
Il campione è di 20 unità
Gruppi
Conteggio Somma
Media
Varianza
SQ
F
6879,06
2 3439,53
5891,67
58803 89
58803,89
17 3459,05
3459 05
2622,00
Totale
65682,95
19
9
818
90,89
3174,61
Semicentro
4
550
137,50
Periferia
7
833
119,00
C’è differenza tra le medie osservate.
Ma queste differenze sono sufficientemente elevate da farci
rifiutare l’ipotesi nulla di uguaglianza tra le medie?
Corso di Statistica per l'impresa a.a. 2010-2011 – Univ. NA Parthenope - Prof. Regoli
Valore di
significatività
(p-value)
0,994
F crit
(α=0,05)
0,390
3,592
Si accetta H0, non ci sono differenze
significative tra il risultato operativo
medio dei tre gruppi
F<F crit
Corso di Statistica per l'impresa a.a. 2010-2011 – Univ. NA Parthenope - Prof. Regoli
21
Esercizio ANOVA
22
Esercizio ANOVA
Quindici partecipanti ad un programma di
addestramento sono assegnati casualmente a tre
corsi che usano metodi didattici differenti. Alla fine dei
corsi si esegue
g
un test p
per valutare l’apprendimento.
pp
I
punteggi ottenuti in base al corso frequentato sono i
seguenti:
Corso 1
Corso 2
Corso 3
90
86
78
76
79
85
88
81
70
82
70
71
89
84
71
Ricaviamo medie e devianze dei tre gruppi
Per il primo gruppo (Corso 1):
x1 =
n1
xij
∑
j=1
=
1
(90 + 76 + 88 + 82 + 89 ) = 85
5
n1
∑ (x
j =1
− x1 ) =
2
1j
= (90 − 85 ) + (76 − 85 ) + (88 − 85 ) + (82 − 85 ) +
2
2
2
2
+ (89 − 85 ) = 140
2
Per i tre g
gruppi
pp e p
per il totale:
H0: μ1= μ2=μ3= μ
Corso di Statistica per l'impresa a.a. 2010-2011 – Univ. NA Parthenope - Prof. Regoli
1
n1
s12 (n1 − 1) =
Verificare l’ipotesi nulla che il punteggio medio non è
influenzato dal tipo di corso frequentato [α=0,05]
(μi-μ=0 per tutte le
medie)
H1: μi-μ ≠ 0 (per almeno una media)
MQ
Entro i
gruppi
Centro
Tra gruppi
gdl
23
Corso 1
Corso 2
Corso 3
Media
85
80
75
Totale
80
Devianza
140
154
166
710
n
5
5
5
15
Corso di Statistica per l'impresa a.a. 2010-2011 – Univ. NA Parthenope - Prof. Regoli
24
6
12/10/2010
Esercizio ANOVA
Esercizio ANOVA
Ricaviamo devianza TRA e devianza ENTRO:
3
∑ (x
DEV TRA =
i =1
(85 − 80 )
2
DEV
i
− x ) ni =
Fonte della
variazione
× 5 + (80 − 80 ) × 5 + (75 − 80 ) × 5 = 250
2
3
ENTRO
Costruiamo la tavola:
2
=
ni
∑ ∑ (x
i=1
j=1
2
− xi ) =
2
ij
= 140 + 154 + 166
3
∑
i=1
s i2 (n i − 1 ) =
= 460
g.d.l. Varianza
(Media dei
quadrati)
Tra gruppi
250
2
125
Entro i gruppi
460
12
38,33
Totale
710
14
Statistica
test
3,26
Il valore soglia (α=0,05) della distribuzione F con 2 e
12 gdl è pari a 3,885
Poiché 3,26 < 3,885
Sulla base dei dati campionari non si può rifiutare
l’ipotesi nulla
Si conclude che il punteggio medio del test è uguale
indipendentemente dal tipo di corso frequentato
La scomposizione della devianza è verificata perché:
DEVTOT = DEVTRA + DEVENTRO
710 = 250 + 460
Corso di Statistica per l'impresa a.a. 2010-2011 – Univ. NA Parthenope - Prof. Regoli
Devianza
(Somma dei
quadrati)
25
Corso di Statistica per l'impresa a.a. 2010-2011 – Univ. NA Parthenope - Prof. Regoli
26
7