Confronto fra gruppi: il metodo ANOVA
Nicola Tedesco (Statistica Sociale)
Confronto fra gruppi: il metodo ANOVA
1 / 23
1
Nella popolazione, per ciascun gruppo la distribuzione della variabile risposta
y è normale
2
Nella popolazione, la deviazione standard della variabile risposta è identica in
ciascun gruppo. Indichiamo questo valore comune con σ
3
I campioni sono campioni casuali e indipendenti
Rappresentazione grafica delle assunzioni 1 e 2:
Group 3
Relative
Frequency
Group 1
Group 2
y
Nicola Tedesco (Statistica Sociale)
Confronto fra gruppi: il metodo ANOVA
2 / 23
Esempio — Ideologia politica e partito politico
Gruppo
Democratico
Independente
Repubblicano
1
9
7
0
2
20
11
2
Ideologia Politica
3
4
5
17 36 4
17 48 12
7 23 23
6
5
11
17
7
0
5
2
n
91
111
74
Media
3.23
3.90
4.70
SD
1.28
1.43
1.10
1 = estremamente liberale, 2 = liberale, 3 = leggermente liberale,
4 = moderato, 5 = leggermente conservatore, 6 = conservatore,
7 = estremamente conservatore
La tabella mostra i dati in una tabella di contingenza e quindi potremo
utilizzare una statistica come il chi-quadro
Ma in tal caso non verrebbe considerata la natura ordinale della variabile
ideologia politica
Nicola Tedesco (Statistica Sociale)
Confronto fra gruppi: il metodo ANOVA
3 / 23
Quando H0 è vera, la statistica test F ha una distribuzione campionaria F di
Fisher
La distribuzione F , come il chi-quadro assume solo valori non negativi ed è
asimmetrica positiva
0
0
(a)
Sample 1
Sample 2
Sample 3
(b)
La forma della distribuzione dipende da due parametri che sono i gradi di
libertà
df1 = k − 1, il numero dei gruppi del modello − 1
df2 = n − k = n − numero dei gruppi
La media della distribuzione F è pari a df2 /(df2 − 2)
Nicola Tedesco (Statistica Sociale)
Confronto fra gruppi: il metodo ANOVA
4 / 23
Esempio — Ideologia politica e partito politico
I risultati dell’applicazione del test vengono riassunti dai software in una
tabella chiamata Tabella ANOVA
Source
Between-Groups (Party ID)
Within-Groups (Error)
Total
Sum of
Squares
88.43
459.52
547.95
df
2
273
275
Mean
Square
44.21
1.68
F
26.3
Sig
.000
Le due “mean squares” sono le stime fra-i-gruppi e nei-gruppi della varianza
della popolazione σ 2
La statistica test F è il rapporto delle due “mean squares”
Nicola Tedesco (Statistica Sociale)
Confronto fra gruppi: il metodo ANOVA
5 / 23
Esempio — Ideologia politica e partito politico
Source
Between-Groups (Party ID)
Within-Groups (Error)
Total
Sum of
Squares
88.43
459.52
547.95
Mean
Square
44.21
1.68
df
2
273
275
F
26.3
Sig
.000
Per il test F abbiamo
df1 = g − 1 = n. gruppi − 1
e
df2 = N − g
= Dimensione campionaria totale − n. gruppi.
df1 = g − 1 = 3 − 1 = 2 and df2 = N − g = 276 − 3 = 273
Nella riga “fra-i-gruppi”, la SS divisa per df1 ci dà la “Mean Square” 88.43/2 = 44.21
Nella riga “nei-gruppi” la SS divisa per df2 ci dà l’altra media quadratica
459.52/273 = 1.68
La statistica test F per H0 : µ1 = µ2 = µ3 è il rapporto tra le stime delle varianze stimate,
cioè il rapporto tra le due medie quadratiche F = 44.21/1.68 = 26.3
La somma delle due SS è chiamata somma dei quadrati totale TSS
X
TSS =
(y − ȳ )2 = SS fra-i-gruppi + SS nei-gruppi
TSS = 547.95 = 88.43 + 459.52
Nicola Tedesco (Statistica Sociale)
Confronto fra gruppi: il metodo ANOVA
6 / 23
Esempio — Ideologia politica e partito politico
L’intervallo per µ3 − µ1 (differenza fra Repubblicani e Democratici)
(ȳ2 − ȳ1 ) ± ts
r
1
1
+
n1
n2
=
=
Groups
(Independent, Democrat)
(Republican, Democrat)
(Republican, Independent)
Nicola Tedesco (Statistica Sociale)
Difference
of Means
µi − µj
µ2 − µ1
µ3 − µ1
µ3 − µ2
r
1
1
+
91 74
1.47 ± 0.49 o (0.98, 1.96).
(4.70 − 3.23) ± 2.41(1.30)
Estimated
Difference
ȳi − ȳj
0.67
1.47
0.80
Bonferroni
95% CI
(0.23, 1.11)∗
(0.98, 1.96)∗
(0.33, 1.27)∗
Confronto fra gruppi: il metodo ANOVA
7 / 23
Esempio — Ideologia politica e partito politico
Per la variabile partito politico consideriamo 3 categorie. Il modello di
regressione per la procedura ANOVA è
E (y ) = α + β1 z1 + β2 z2
Dependent Variable: IDEOLOGY
Parameter Estimate Std Error
(Constant)
4.534
0.0759
PARTY 1
-0.717
0.1033
2
-0.541
0.1054
3
0.000
0.
t
59.73
-6.94
-5.13
0.
Sig
0.0001
0.0001
0.0001
0.
L’equazione di previsione è ŷ = 4.53 − 0.72z1 − 0.54z2
I coefficienti dell’equazione di previsione sono in relazione con le medie
campionarie allo stesso modo in cui i parametri della regressione sono in
relazione con le medie di popolazione
α = µ3 è stimato con 4.53 = ȳ3 , la media campionaria per i Repubblicani
Allo stesso modo il coefficiente di z1 è −0.72 = ȳ1 − ȳ3 e il coefficiente di z2
è −0.54 = ȳ2 − ȳ3
Nicola Tedesco (Statistica Sociale)
Confronto fra gruppi: il metodo ANOVA
8 / 23
Esempio — Ideologia politica e partito politico
Source
Regression
Residual
Total
Sum of
Squares
88.43
459.52
547.95
df
2
273
275
Mean
Square
44.21
1.68
F -value
26.3
Sig
.000
La tabella mostra i risultati dell’adattamento di un modello di regressione con
variabili dummy ai dati sull’ideologia politica. La tabella è simile a quella
costruita per adattare l’ANOVA
La “between-groups sum of squares” è la “regression sum of squares”
La “within-groups sum of squares” è la “residual sum of squares” (SSE)
Il rapporto fra la “regression mean square” e il “mean square error” è la
statistica F (F = 26.3), con df1 = 2 e df2 = 273, per H0 : β1 = β2 = 0
Questa ipotesi è equivalente a H0 : µ1 = µ2 = µ3 per le tre categorie della
variabile “Party ID”
Nicola Tedesco (Statistica Sociale)
Confronto fra gruppi: il metodo ANOVA
9 / 23
Esempio — Ideologia politica, partito politico e sesso
Ideologia politica
3
4
5
6
35
98
20
24
25
41
15
15
Partito
Democratico
Sex
F
M
1
5
6
2
30
20
Independente
F
M
4
4
17
16
27
20
83
59
16
21
Repubblicano
F
M
2
0
10
9
17
13
63
36
32
33
Dependent Variable: IDEOLOGY
Sum of
Source
Squares
df
Model
86.693
3
Error
1569.525
939
Total
1656.218
942
Source
PARTY
GENDER
Nicola Tedesco (Statistica Sociale)
Type III SS
84.2516
1.3110
df
2
1
7
3
3
n
215
125
Media
3.85
3.77
Dev.
Std.
1.26
1.43
17
23
5
1
169
144
3.95
4.04
1.24
1.30
33
28
5
9
162
128
4.43
4.66
1.26
1.31
Mean
Square
28.898
1.671
F
17.29
Sig
0.0001
Mean Square
42.1258
1.3110
F
25.20
0.78
Sig
0.0001
0.3760
Confronto fra gruppi: il metodo ANOVA
10 / 23
La differenza fra femmine e maschi nell’ideologia politica media è −1 per
ciascun partito
Allo stesso modo la differenza fra ciascuna coppia di partiti politici è la stessa
per ciascun sesso: ad es. la differenza fra Repubblicani e Democratici è pari a
2.0 sia per le femmine che per i maschi
Mean
Political
Ideology
6
Males
5
Females
4
3
2
Democrat
Independent
Republican
Party Identification
Nicola Tedesco (Statistica Sociale)
Confronto fra gruppi: il metodo ANOVA
11 / 23
Questa tabella e la figura rappresentano delle medie di popolazione che
mostrano interazione fra le variabili
Sesso
Femmine
Maschi
Democratici
3.0
5.0
Mean
Political
Ideology
Indipendenti
4.0
4.0
Repubblicani
5.0
3.0
6
Females
5
4
3
Males
2
Democrat
Independent
Republican
Party Identification
Nicola Tedesco (Statistica Sociale)
Confronto fra gruppi: il metodo ANOVA
12 / 23
Per le sei combinazioni fra le categorie delle variabili sesso e partito politico
osserviamo le medie di popolazione in termini di parametri della regressione
Sesso
Femmina
Maschio
Identificazione
Partitica
Democratico
Indipendente
Repubblicano
Democratico
Indipendente
Repubblicano
Variabili Dummy
p1 p2
s
1
0
1
0
1
1
0
0
1
1
0
0
0
1
0
0
0
0
Media di Popolazione di y
α + β1 p 1 + β2 p 2 + β3 s
α + β1 + β3
α + β2 + β3
α + β3
α + β1
α + β2
α
Per ciascun partito al differenza fra le medie dei maschi e delle femmine è
pari a β3
L’ipotesi nulla di nessuna differenza fra le medie di maschi e femmine,
tenendo sotto controllo il partito di appartenenza è: H0 : β3 = 0
Nicola Tedesco (Statistica Sociale)
Confronto fra gruppi: il metodo ANOVA
13 / 23
Dependent Variable: IDEOLOGY
Parameter
B
Std. Error
Intercept 4.5768
0.0897
PARTY 1 -0.7112
0.1035
2 -0.5423
0.1054
3
0
.
GENDER 1 -0.0758
0.0856
2
0
.
t
51.02
-6.87
-5.15
.
-0.89
.
Sig
0.0001
0.0001
0.0001
.
0.3760
.
Sostituendo i valori delle variabili dummy nell’equazione di previsione si
hanno le medie stimate per il modello di assenza di interazione
Ad esempio, per le femmine repubblicane, p1 = p2 = 0 e s = 1, cosı̀ che
ŷ = 4.58 − 0.71(0) + 0.54(0) − 0.08(1) = 4.50
Nicola Tedesco (Statistica Sociale)
Confronto fra gruppi: il metodo ANOVA
14 / 23
Dependent Variable: IDEOLOGY
Sum of
Source
Squares
df
Model
90.332
5
Error
1565.886
937
Total
1656.218
942
Source
PARTY
GENDER
PARTY*GENDER
Type III SS
87.795
1.488
3.640
df
2
1
2
Mean
Square
18.066
1.671
F
10.81
Sig
0.0001
Mean Square
43.898
1.488
1.820
F
26.27
0.89
1.09
Sig
0.0001
0.3456
0.3370
La somma dei quadrati per l’effetto interazione è riportata nella riga intestata
con PARTY*GENDER e corrisponde alla quota di variabilità spiegata dai due
termini di interazione
Essa è pari alla differenza fra la SSE calcolata con e senza questo termine
La “mean square” dell’interazione è una stima di σ 2 basata su
SS Interazione
3.64
=
= 1.82
df
2
Nicola Tedesco (Statistica Sociale)
Confronto fra gruppi: il metodo ANOVA
15 / 23
Ad esempio, per il modello che assume l’assenza di interazioni, β̂1 = −0.71 è
la stima della differenza fra l’ideologia politica media dei democratici e dei
repubblicani
Dependent Variable: IDEOLOGY
Parameter
B
Std. Error
t
Sig
Intercept 4.5768
0.0897
51.02 0.0001
PARTY 1 -0.7112
0.1035
-6.87 0.0001
2 -0.5423
0.1054
-5.15 0.0001
3
0
.
.
.
GENDER 1 -0.0758
0.0856
-0.89 0.3760
2
0
.
.
.
Lo se di questa stima è 0.104; l’IC al 95% è −0.71± 1.96(0.104), o
(−0.9, −0.5)
Per ciascun valore della variabile sesso, i democratici, sono, in media, meno
conservatori
L’approccio alla Bonferroni dell’ANOVA a una-via può essere esteso a
all’ANOVA a più-vie
Un confronto per tutte e tre le coppie di partiti politici con un livello di errore
di 0.05 impiega una probabilità di errore pari a 0.05/3 = 0.0167 nel
determinare il t-score per ciascun intervallo
Nicola Tedesco (Statistica Sociale)
Confronto fra gruppi: il metodo ANOVA
16 / 23
Esempio — Condizionamenti sui bambini
In una recente GSS è stato chiesto a più di 1000 intervistati di rispondere alla
seguente domanda “I bambini sono sottoposti a molti condizionamenti nella loro vita
quotidiana. Che tipo di influenza, positiva o negativa, ritieni abbiano Film – TV – Rock?”
Soggetto
1
2
3
4
5
6
7
8
9
10
11
12
Media
Condizionamento
Film
TV
Rock
−1
0
−1
1
0
0
0
1
−2
2
0
1
0
−1
−1
−2
−2
−2
−1
−1
0
0
1
−1
−1
−1
−1
1
0
1
1
1
−1
−1
−1
−2
−0.08
−0.25
−0.75
Possibili risposte: molto negativa, negativa, neutra, positiva, molto positiva
Codifiche: −2, −1, 0, 1, 2
(Primi 12 soggetti)
Nicola Tedesco (Statistica Sociale)
Confronto fra gruppi: il metodo ANOVA
17 / 23
Esempio — Condizionamenti sui bambini
Il test confronta le medie di popolazione per i tre tipi di condizionamento è,
quindi, il test per l’effetto principale per la variabile di colonna dell’ANOVA a
due-vie:
H0 : Medie di popolazione uguali per i tre tipi di condizionamento
Source
Model
Error
Total
Source
INFLUENCE
SUBJECT
Sum of
Squares
27.861
12.444
40.306
df
13
22
35
Type III SS
2.889
24.972
df
2
11
Mean
Square
2.143
0.566
Mean
Square
1.444
2.270
F
3.79
Sig
0.003
F
2.55
4.01
Sig
0.101
0.003
La statistica F è la media quadratica per i condizionamenti divisa per la
media quadratica dell’errore F = 1.44/0.57 = 2.55, df1 = 2 e df2 = 22. Le
prove contro H0 non sono forti
Nicola Tedesco (Statistica Sociale)
Confronto fra gruppi: il metodo ANOVA
18 / 23
Test of Within-Subjects Effects
Type III Sum
Mean
Source
of Squares
df Square
Sphericity assumed
Influence
2.889
2
1.444
Error
12.444
22
.566
F
Sig.
2.55
.101
La tabella mostra i risultati ottenuti con un software che permette
l’adattamento di modelli per osservazioni ripetute
L’ANOVA per misure ripetute assume la sfericità. Il significato di questa
assunzione è . . .
. . . Per ogni coppia di gruppi consideriamo la differenza fra due osservazioni,
una per ciascun gruppo Questa differenza è una variabile e la condizione di
sfericità consiste nell’assumere che la deviazione standard della distribuzione
di queste differenze è identica per ciascuna coppia di gruppi
Nicola Tedesco (Statistica Sociale)
Confronto fra gruppi: il metodo ANOVA
19 / 23
ANOVA a due-vie con misure ripetute
Esempio — Confronti di tre trattamenti contro l’anoressia
Spesso i dataset con misure ripetute hanno più di un effetto fisso. Le misure
ripetute si osservano rispetto alle categorie di un fattore ma sono
indipendenti rispetto alle categorie dell’altro
La tabella mostra i pesi (in libbre) osservati per 72 ragazze malate di
anoressia
Cognitive Behavioral
Weight
Weight
Before
After
80.5
82.2
..
..
.
.
..
..
.
.
94.9
98.4
76.3
93.4
79.7
83.6
84.5
84.6
80.8
96.2
87.4
86.7
Nicola Tedesco (Statistica Sociale)
Family Therapy
Weight
Weight
Before
After
83.8
95.2
..
..
.
.
..
..
.
.
76.9
76.8
94.2
101.6
Confronto fra gruppi: il metodo ANOVA
Control
Weight Weight
Before
After
80.7
80.2
..
..
.
.
..
..
.
.
87.3
75.1
75.1
86.7
89.0
78.8
20 / 23
ANOVA a due-vie con misure ripetute
Esempio — Confronti di tre trattamenti contro l’anoressia
Treatment
Cognitive Behavioral (CB)
Family Therapy (FT)
Control (C)
Treatment: Cognitive Behavioral
Time: Before
After
Time
Before After
82.7
85.7
83.2
90.5
81.6
81.1
Family Therapy
Before
After
Control
Before
After
0
0
0
Nicola Tedesco (Statistica Sociale)
Confronto fra gruppi: il metodo ANOVA
21 / 23
ANOVA a due-vie con misure ripetute
Come nella normale ANOVA a due-vie, possiamo saggiare ciascun effetto
principale cosı̀ come l’interazione fra gli stessi
Tuttavia i test per il fattore within-subjects (sia il suo effetto principale sia le
sue interazioni con gli altri effetti fissi) impiegano un diverso termine di errore
rispetto a quello impiegato per l’effetto principale between-subjects
L’ordinario termine di errore della somma dei quadrati viene partizionato in
due parti
Una utilizza la variabilità fra i punteggi medi dei soggetti (between-subjects
factor)
L’altra è basata su come i punteggi medi variano nei soggetti (within-subject
factor)
Total
Between
subjects
Treatment
Nicola Tedesco (Statistica Sociale)
Within
subjects
Error
Time
Treatment 3 Time
Confronto fra gruppi: il metodo ANOVA
Error
22 / 23
ANOVA a due-vie con misure ripetute
Esempio — Confronti di tre trattamenti contro l’anoressia
Tests of Within-Subject Effects
Type III Sum
Source
of Squares
TIME
366.04
TIME*TREATMENT
307.32
Error(TIME)
1955.37
df
1
2
69
Mean Square
366.04
153.66
28.34
F
12.92
5.42
Sig
0.001
0.006
Tests of Between-Subjects Effects.
Type III Sum
Source
of Squares
TREATMENT
644.23
Error
3584.03
df
2
69
Mean Square
322.12
51.94
F
6.20
Sig
0.003
Ciascuna SS riassume la variabilità riferita al corrispondente termine: si tratta della
riduzione della SSE quando quel particolare termine viene aggiunto al modello
Nicola Tedesco (Statistica Sociale)
Confronto fra gruppi: il metodo ANOVA
23 / 23