Facoltà di Scienze Politiche
Università di Macerata
Corso di S
Statistica So
ociale
Prof.ssa C. Davino
L’analisi
L
analisi bivariata
Distribuzioni di frequenza
Genere
Distribuzione unitaria multipla
Corso di
Statistica Sociale
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
:
L’analisi bivariata
d
docente:
t C
Cristina
i ti
D
Davino
i
a.a.: 2013-2014
Genere
Tipo
diploma
Femmina
Femmina
Femmina
Femmina
Masc hio
Femmina
Femmina
Femmina
Femmina
Femmina
Masc hio
Femmina
Femmina
Femmina
Femmina
Masc hio
Masc hio
Femmina
Femmina
Masc hio
Masc hio
Masc hio
Femmina
:
IT C
IT C
Classic o
IT C
IT C
Sc ientif.
IT C
Classic o
IT C
IT C
Sc ientif.
IT C
Sc ientif.
IT C
IT C
Sc ientif.
Sc ientif.
IT C
Sc ientif.
ientif
IT C
IT C
IT C
Sc ientif.
:
Maschio
Femmina
Totale
Frequenza
97
130
227
Tipo diploma
Liceo classico
Liceo Scientifico
ITC
Altro
Totale
%
42,7
57,3
100,0
Frequenza
10
64
141
12
227
%
4,4
28,2
62,1
5,3
100,0
Tabella
di contingenza
gg
Genere
Maschio
Femmina
Totale
Liceo
classico
6
4
10
Tipo dploma
Liceo
ITC
Scientifico
30
55
34
86
64
141
Relazioni statistiche o probabilistiche
Non si individuano nessi di causa
causa-effetto
effetto
Tabelle di contingenza
Esempio Reddito / Consumi
Consumi p.c.
5-10mila
Reddito
p.c.
Di ti i
Distinzione
t variabili
tra
i bili indipendenti
i di
d ti e dipendenti
di
d ti
Totale
10000-12500
12500-15000
10-15mila
275
151
14
15-20mila
28
151
165
14
358
20-25mila
20
25mila
14
14
413
96
537
83
83
193
1418
25-30mila
Variabile indipendente
Nominale
Variabile
dipendente
Nominale
Tabelle di
contingenza
Cardinale
Analisi della
varianza
i
Cardinale
Regressione e
correlazione
l i
Totale
15-20mila
317
316
592
440
Corso di S
Statistica So
ociale
L’analisi
L
analisi bivariata
Totale
97
130
227
Prof.ssa C. Davino
Corso di S
Statistica So
ociale
Prof.ssa C. Davino
Altro
6
6
12
Reddito
p.c.
Totale
5-10mila
10000-12500
12500-15000
10-15mila
275
151
14
15-20mila
28
151
165
14
358
20-25mila
20
25mila
14
14
413
96
83
193
1418
25-30mila
317
Totale
316
592
15-20mila
Esempio Reddito / Consumi
Consumi p.c.
5-10mila
Reddito
p.c.
Distribuzioni
marginali
Totale
10000-12500
12500-15000
15-20mila
10-15mila
275
151
14
15-20mila
28
151
165
14
358
537
20-25mila
20
25mila
14
14
413
96
537
83
25-30mila
83
83
193
1418
440
317
Totale
316
592
440
Esempio Reddito / Consumi
Consumi p.c.
Reddito
p.c.
Totale
5-10mila
10000-12500
12500-15000
10-15mila
275
151
14
15-20mila
28
151
165
14
358
20-25mila
0 5
a
14
14
413
96
537
83
83
193
1418
25-30mila
Totale
317
316
592
15-20mila
440
Distribuzioni
marginali
Distribuzioni
condizionate
Distribuzioni
marginali
Distribuzioni
condizionate
Prof.ssa C. Davino
Corso di S
Statistica So
ociale
Prof.ssa C. Davino
Tabelle di contingenza
Corso di S
Statistica So
ociale
Esempio Reddito / Consumi
Tabelle di contingenza
Corso di S
Statistica So
ociale
Tabelle di contingenza
Consumi p.c.
Prof.ssa C. Davino
Corso di S
Statistica So
ociale
Prof.ssa C. Davino
Analisi delle tabelle di contingenza
Esempio: Pratica religiosa / età
18-34
35-54
Oltre 54
totale
Praticanti
223
313
182
718
Saltuari
266
317
88
671
Non praticanti
425
504
168
1097
totale
914
1134
438
2486
18-34
Tabella delle
percentuali
t li sull
totale
Praticanti
Saltuari
35-54
Oltre 54
totale
9,0
12,6
7,3
28,9
10,7
12,7
3,5
26,9
Non praticanti
17,1
20,3
6,8
44,2
totale
36 8
36,8
45 6
45,6
17 6
17,6
100
18-34
35-54
totale
Oltre 54
43,6
,
25,3
,
100
39,6
47,3
13,1
100
38,7
46,0
15,3
100
36,8
45,6
17,6
100
31,1
,
Saltuari
Non praticanti
Totale
Tabella delle
percentuali di
riga
18-34
Tabella delle
percentuali
t li di
colonna
35-54
Oltre 54
24,4
27,6
41,5
28,9
Saltuari
29,1
28,0
20,1
26,9
Non praticanti
totale
46,5
44,4
38,4
44,2
100 0
100,0
100 0
100,0
100 0
100,0
100 0
100,0
Si scelgono i profili colonna quando si vuole analizzare
l’influenza che la variabile posta in colonna ha sulla variabile
posta in riga
Si scelgono i profili riga quando si vuole analizzare l’influenza
che la variabile posta in riga ha sulla variabile posta in
colonna
totale
Praticanti
Un criterio
Risposte alla domanda “Lei è soddisfatto dell’operato del
governo?” per ampiezza del comune di residenza (in migliaia)
governo?
>250
10-50
1-10
totale
<1
Tabella delle
percentuali
di colonna
100-250
50-100
10-50
<10
18 8
18,8
12 8
12,8
10 8
10,8
34
3,4
86
8,6
Poco
32,5
35,3
36,5
38,7
31,3
26
29
22
62
10
246
71
99
249
253
8
848
89
36
49
118
153
1
446
Molto
0,6
1,0
0,7
1,2
1,8
159
66
92
246
326
5
894
Totale
100
100
100
100
100
N
516
201
271
643
833
100-250
50-100
Molto
3
2
2
8
14
1
30
Totale
516
201
271
643
808
25
2464
>250
Tabella delle
percentuali
di colonna
>250
Per nulla
97
Non so
Abbastanza
50-100
Analisi delle tabelle di contingenza
168
Per nulla
Poco
100-250
Prof.ssa C. Davino
Corso di S
Statistica So
ociale
Prof.ssa C. Davino
Analisi delle tabelle di contingenza
100-250
100
250
50-100
50
100
10-50
10
50
18,8
12,8
10,8
3,4
8,6
Poco
32,5
35,3
36,5
38,7
31,3
Non so
17 3
17,3
18 0
18,0
18 0
18,0
18 4
18,4
18 5
18,5
Abbastanza
30,8
32,9
34,0
38,3
39,8
0,6
1,0
0,7
1,2
1,8
Molto
Non so
17,3
18,0
18,0
18,4
18,5
Abb t
Abbastanza
30 8
30,8
32 9
32,9
34 0
34,0
38 3
38,3
39 8
39,8
>250
<10
Per nulla
Totale
l
100
00
100
00
100
00
100
00
100
00
N
516
201
271
643
833
Corso di S
Statistica So
ociale
Esempio: Pratica religiosa / età
Analisi delle tabelle di contingenza
Corso di S
Statistica So
ociale
Analisi delle tabelle di contingenza
Praticanti
Prof.ssa C. Davino
Corso di S
Statistica So
ociale
Prof.ssa C. Davino
Tabella delle
percentuali
di colonna
10-50
<10
Per nulla + poco
51,3
48,1
47,3
42,1
Non so
17,3
18,0
18,0
18,4
18,5
Abbastanza + Molto
31 4
31,4
33 9
33,9
34 7
34,7
39 5
39,5
41 6
41,6
Totale
IDP
39,9
100
100
100
100
100
-19,9
-14,2
-12,6
-2,6
+1,7
Indice di differenza percentuale
35-54
Oltre 54
totale
223
313
182
718
Saltuari
266
317
88
671
Non praticanti
425
504
168
1097
totale
914
1134
438
2486
Indipendenza
p
nij
ni.

ni ' j
ni '.

n. j
n..
35-54
Oltre 54
31 1
31,1
43 6
43,6
25 3
25,3
100
Saltuari
39,6
47,3
13,1
100
Non praticanti
38,7
46,0
15,3
Totale
36,8
45,6
17,6
nijj
ni.
(in caso di indipendenza)
L indice
L’indice
chi-quadrato
2


i
n
n. j

n..
ˆij 
 n
35-54
Oltre 54
223
313
182
Saltuari
266
317
88
671
Non praticanti
425
504
168
1097
totale
914
1134
438
2486
718
35-54
Oltre 54
264 0
264,0
327 5
327,5
126 5
126,5
Saltuari
246,7
306,1
118,2
671
100
Non praticanti
403,3
500,4
193,3
1097
100
Totale
914
1134
438
2486
Le frequenze teoriche:
(in caso di indipendenza)
ni.  n. j
L’indice
chi-quadrato
n
ˆij 
n
2


i
j
n
ˆij 
n
2
ij
ˆij
n
223  264, 0
264, 0
 ...  45, 47
ˆij
n
j


i
j
n
ij
ˆij 
n
2
ˆij
n
223  264, 0
2

264, 0
 ...  45,
45 47
IL valore dell
dell’indice
indice è significativamente diverso da zero?
Ipotesi
H0 :
H1 :
indipendenza
no indipendenza
Livello di
significati ità
significatività
=0.05
Prof.ssa C. Davino
Corso di S
Statistica So
ociale
Il test del chi
chi-quadrato
quadrato
2
718
2

Prof.ssa C. Davino
L’indice
chi-quadrato
totale
18-34
P ti
Praticanti
ti
2
ij
totale
18-34
Praticanti
totale
18-34
P ti
Praticanti
ti
Le frequenze teoriche:
Analisi delle tabelle di contingenza
Il test del chi
chi-quadrato
quadrato
Ipotesi
H0 :
H1 :
indipendenza
no indipendenza
Statistica
t t
test
2


i
j
n
ij
Livello di
significatività
=0

0.05
05
 c2
 9, 488
ˆij 
n
2
ˆij
n
P-value
P
value
p  value  P( 2  45, 47) 0, 001
Regola di decisione:
Rifiutiamo H0, con una probabilità di errore
pari a , se 2oss> 2c
2c è il valore
l
critico
iti che
h sii trova
t
nella
ll coda
d di
destra della distribuzione con (r-1)(c-1) gdl
Più piccolo è il p-value, più
p
appare
pp
l’ipotesi
p
nulla!
improbabile
Statistica
test
2
 45,, 47
Rifiutiamo H0
Corso di S
Statistica So
ociale
18-34
Corso di S
Statistica So
ociale
Analisi delle tabelle di contingenza
Praticanti
Prof.ssa C. Davino
Corso di S
Statistica So
ociale
Prof.ssa C. Davino
L’effetto della numerosità del campione
totale
35-54
Oltre 54
22
31
18
Saltuari
27
32
9
68
Non praticanti
43
50
17
110
totale
92
113
44
249
Ipotesi
H0 :
H1 :
71
Livello di
significatività
indipendenza
 c2
L’indice phiquadrato:
quad
ato
Statistica
test
2
=0.05
0 05
no indipendenza


i
2 
j
2
n
n
ij
ˆij 
n
2
max
ˆij
n
    n  min  k  1 ;  h  1
2
 
max 2  min  k  1 ;  h  1 
 4,547
4 547
L’indice V di
Cramer:
Accettiamo H0
 9,
9 488
L’indice chiquadrato:
2
V 
2
min  k  1 ;  h  1 

2
n  min  k  1 ;  h  1 
Misure di cograduazione fra variabili ordinali
a) Forza o intensità della relazione
b) Segno (positivo o negativo) della relazione
Basso
Medio
Alto
Basso
Alto
20
40
150
Medio
45
250
30
Basso
400
50
15
Alto
Medio
- coppia di casi discordante
- coppia di casi appaiata
Misure di cograduazione fra variabili ordinali
Le misure di cograduazione si basano sul confronto fra i valori assunti dalle
variabili X e Y su tutte le possibili coppie di casi:
- coppia di casi concordante (P)
- coppia di casi discordante (Q)
- coppia di casi appaiata
Alto
250
75
45
Medio
45
150
60
Basso
30
45
300
Le misure di cograduazione si basano sul confronto fra i valori assunti dalle
variabili X e Y su tutte le possibili coppie di casi:
pp di casi concordante
- coppia
Prof.ssa C. Davino
Corso di S
Statistica So
ociale
Prof.ssa C. Davino
P Q
 di

PQ
Goodman e
Kruskal
+1: perfetta relazione positiva
0: assenza di relazione
-1:
1 perfetta
f tt relazione
l i
negativa
ti
Corso di S
Statistica So
ociale
18-34
Misure di associazione
Corso di S
Statistica So
ociale
Il test del chi
chi-quadrato
quadrato
Praticanti
Prof.ssa C. Davino
Corso di S
Statistica So
ociale
Prof.ssa C. Davino
(rapporti di probabilità - odds)
Totale
Atteggiamento
verso la pena
di morte
1188
Favorevoli
p
604
Contrari
Totale
Rapporto di
probabilità:
Proporzione di
gg
favorevoli:
soggetti
1188
 0, 663
1792
Rapporti di probabilità e di associazione
Istruzione
Atteggiamento
verso la pena
di morte
1792

1188
 1,97
604
Rapporto fra la probabilità che un individuo, estratto a caso dalla
popolazione, appartenga ad una categoria e la probabilità che non
vi appartenga

pi
f1

f 2 1  pi
Favorevoli
[0, [
a
1027
b
161
1188
c
397
d
207
604
1424
368
1792
1027
Proporzioni
p1 
 0, 721
1424
condizionate:
p2 
161
 0, 438
368
Rapporti di
probabilità
condizionati:
2 
161
 0, 77
207
1 
Rapporti di
associazione
(odds ratio):
• =1: le due categorie della variabile hanno lo stesso peso
Totale
Contrari
Totale
“ci sono quasi due favorevoli per
ogni persona contraria”
Superiore
Inferiore
1027
 2,59
397
 1 a c ad 1027207



 3,33
3 33
 2 b d bc 397  161
1
1
2
1
1
2
 1 a c ad


 2 b d bc
[0 [
[0,+
A
Associazione
i i
positiva
i i tra le
l variabili
i bili
(i soggetti della categoria X1 hanno probabilità di collocarsi
nella categoria Y1 maggiore di quanto sia la probabilità dei
soggetti
tti nella
ll categoria
t
i X2)
L’analisi
L
analisi bivariata
Relazioni statistiche o probabilistiche
Non si individuano nessi di causa
causa-effetto
effetto
Di ti i
Distinzione
t variabili
tra
i bili indipendenti
i di
d ti e dipendenti
di
d ti
Associazione negativa tra le variabili
Variabile indipendente
Nominale
• L’odds ratio cambia se si inverte l’ordine delle righe o delle colonne
• LL’odds
odds ratio resta immutato se si cambia ll’orientamento
orientamento della tavola
• L’odds ratio non risente della dimensione del campione
• L’odds ratio non cambia se le frequenze di una riga o di una colonna sono
moltiplicate per una costante
• Gli odds ratio possono essere calcolati solo su tabelle 22
Corso di S
Statistica So
ociale
Rapporti
pp
di
associazione
(odds ratio):
Prof.ssa C. Davino
Corso di S
Statistica So
ociale
Prof.ssa C. Davino
Rapporti di probabilità e di associazione
Corso di S
Statistica So
ociale
Relazioni tra variabili categoriali
Prof.ssa C. Davino
Corso di S
Statistica So
ociale
Prof.ssa C. Davino
Variabile
dipendente
Nominale
Tabelle di
contingenza
Cardinale
Analisi della
varianza
i
Cardinale
Regressione
eg ess o e
Mutabile indipendente
Y Reddito p.c.
Variabile dipendente
Conteggio
10-15mila
Zona
geografica
Nord
Centro
Sud e Isole
1
31
32
Totale
Reddito p.c. (in euro)
15-20mila 20-25mila
7
34
18
5
1
26
39
25-30mila
5
1
6
Totale
46
25
32
103
L’analisi della varianza (ANOVA)
X Zona geografica
Mutabile indipendente
Y Reddito p.c.
Variabile dipendente
Conteggio
10-15mila
Zona
geografica
Nord
Centro
Sud e Isole
1
31
32
Totale
Medie
condizionate:
1
M(Y|X=Nord)  n
X


k
y
1
i 1
j
Reddito p.c. (in euro)
15-20mila 20-25mila
7
34
18
5
1
26
39
Medie
condizionate:
 n1, j
Corso di S
Statistica So
ociale
L’analisi della varianza (ANOVA)
X Zona geografica
Prof.ssa C. Davino
Corso di S
Statistica So
ociale
Prof.ssa C. Davino
6
M(Y) 
12,5  0  17,5  7  22,5  34  27,5  5
46
M(Y|X=Nord)
1025
 22,28
46
M(Y|X=Centro) = 18,7
M(Y|X=Sud)
25-30mila
5
1
1
n

= 22,3
Y è indipendente in media da X
se al variare delle modalità di X le
medie condizionate di Y rimangono
costanti.
Totale
46
25
32
103
h
y
j
i 1
 n. j
Media generale:
12,5  32  17,5  26  22,5  39  27,5  6 
103
 18,, 4
M(Y)  22,3 
= 12,7
46
25
32
 18,7 
 12,7 
103
103
103
Y Reddito p.c.
Mutabile indipendente
Variabile dipendente
Conteggio
10-15mila
Zona
geografica
Totale
Nord
Centro
Sud e Isole
1
31
32
Reddito p.c. (in euro)
15-20mila 20-25mila
7
34
18
5
1
26
39
25-30mila
5
1
6
Totale
46
25
32
103
M(Y) = 18,4
Dev Y  
 y
i
L’analisi della varianza (ANOVA)
X Zona geografica
Mutabile indipendente
Y Reddito p.c.
Variabile dipendente
Conteggio
10-15mila
Zona
geografica
 y   ni
2
i
Totale
n
Corso di S
Statistica So
ociale
L’analisi della varianza (ANOVA)
X Zona geografica
Prof.ssa C. Davino
Corso di S
Statistica So
ociale
Prof.ssa C. Davino
Nord
Centro
Sud e Isole
1
31
32
Reddito p.c. (in euro)
15-20mila 20-25mila
7
34
18
5
1
26
39
25-30mila
5
1
6
Totale
46
25
32
103
M(Y) = 18,4
Dev Y  
 y
i
 y   ni
2
i
n
Reddito
M(Y) = 18,4
( )
(…)
Reddito
Variabile dipendente
Conteggio
10-15mila
Zona
geografica
Nord
Centro
Sud e Isole
Totale
1
31
32
Reddito p.c. (in euro)
15-20mila 20-25mila
7
34
18
5
1
26
39
25-30mila
5
1
6
M(Y) = 18,4
Totale
46
25
32
103
Dev Y  
Mutabile indipendente
Y Reddito p.c.
Variabile dipendente
Conteggio
Reddito p.c. (in euro)
15-20mila 20-25mila
7
34
18
5
1
26
39
10-15mila
 y
i
X Zona geografica
Zona
geografica
 y   ni
2
i
Nord
Centro
Sud e Isole
1
31
32
Totale
n
Corso di S
Statistica So
ociale
Mutabile indipendente
Y Reddito p.c.
L’analisi della varianza (ANOVA)
25-30mila
5
1
M(Y|X=Nord)
n
6
M(Y) = 18,4
Totale
46
25
32
103
Dev Y  
 y
i
 y   ni
2
i
= 22,3
M(Y|X=Centro) = 18,7
Nord
M(Y|X=Sud)
Nord
= 12,7
Centro
Centro
Sud
Sud
Reddito
Reddito
M(Y|X=Sud) = 12,7
M(Y|X=Centro) = 18,7
M(Y|X=Nord) = 22,3
L’analisi della varianza (ANOVA)
La decomposizione
p
della devianza
Dev Y  
Conteggio
10-15mila
Zona
geografica
Totale
Nord
Centro
Sud e Isole
1
31
32
Reddito p.c. (in euro)
15-20mila 20-25mila
7
34
18
5
1
26
39
25-30mila
5
1
6
Totale
46
25
32
103
 y
i
 y   ni
2
i
Prof.ssa C. Davino
Corso di S
Statistica So
ociale
Prof.ssa C. Davino
L’analisi della varianza (ANOVA)
X Zona geografica
Mutabile indipendente
Y Reddito p.c.
Variabile dipendente
Conteggio
Dev Y   Dev W   Dev  B 
Zona
geografica
Dev(Y) = Dev(Within) + Dev(Between)
Totale
10-15mila
Nord
Centro
Sud e Isole
1
31
32
Reddito p.c. (in euro)
15-20mila 20-25mila
7
34
18
5
1
26
39
25-30mila
5
1
6
Totale
46
25
32
103
n
Nord
Centro
Dev Y   Dev W   Dev  B 
Dev Y  
 y
Dev W  
  y
Dev  B  
 y
Sud
Reddito
M(Y|X=Sud) = 12,7
M(Y|X=Centro) = 12,7
M(Y|X=Nord) = 12,7
i
i
j
j
j
i
y

2
 ni
 y i   nij
2
ij
y

2
 nj
E’ la devianza totale. Esprime la dispersione della nube di punti
attorno alla media generale.
E’ la devianza Within, o entro i gruppi. Esprime la dispersione dei
k gruppi attorno alle rispettive medie. Si ottiene sommando le k
devianze interne ai k gruppi.
E la devianza Between o fra i gruppi.
E’
gruppi Esprime la dispersione delle
medie dei k gruppi attorno alla media generale.
Corso di S
Statistica So
ociale
L’analisi della varianza (ANOVA)
X Zona geografica
Prof.ssa C. Davino
Corso di S
Statistica So
ociale
Prof.ssa C. Davino
Mutabile indipendente
Y Reddito p.c.
Variabile dipendente
Conteggio
10-15mila
Zona
geografica
Nord
Centro
Sud e Isole
Totale
1
31
32
Reddito p.c. (in euro)
15-20mila 20-25mila
7
34
18
5
1
26
39
25-30mila
5
1
6
Una misura della forza della relazione
X Zona geografica
Mutabile indipendente
Y Reddito p.c.
Variabile dipendente
Conteggio
Il rapporto di
correlazione:
2
(di Pearson)

Zona
geografica
Dev  B 
Dev Y 
Nord
Centro
Sud e Isole
Totale
M(Y|X=N)
22,283
M(Y|X=N)
22,283
M(Y|X=C)
18,700
M(Y|X=C)
18,700
M(Y|X=S)
12,656
M(Y|X=S)
12,656
M(Y)
18,422
Dev(Y|X=N)
297,83
D (Y|X C)
Dev(Y|X=C)
214 00
214,00
Dev(Y|X=S)
24,22
M(Y)
18,422
Dev(Y|X=N)
297,83
D (Y|X C)
Dev(Y|X=C)
214 00
214,00
Dev(Y|X=S)
24,22
Dev(B)
1751,33
Dev(TOT)
2287 38
2287,38
Eta quadro
k

2

Dev  B 
Dev Y 

 y
i 1
h
 y
j 1
i
i
y
y
Reddito p.c. (in euro)
15-20mila 20-25mila
7
34
18
5
1
26
39
10-15mila
Totale
46
25
32
103

2

2
 ni.
 n. j
Rapporto di correlazione (di Pearson): proporzione della
devianza generale “spiegata”
spiegata dalla variabile indipendente
0,77
Dev(B)
1751,33
Dev(TOT)
2287 38
2287,38
Eta quadro
1
31
32
25-30mila
5
1
6
Totale
46
25
32
103
k

2

Dev  B 
Dev Y 

 y
i 1
h
 y
j 1
i
i
Il rapporto di
correlazione:
y

 ni.
y

 n. j
2
2
0
H0: 1=2=…=
= =k = 
• ANOVA
a 1, 2, …, k fattori
Statistica test: F 
s B2
sW2
Dev  B 
Dev Y 
 2  1
2 = 0: nessuna relazione
t le
tra
l due
d
variabili
i bili
2 = 1: relazione perfetta
0,77
Corso di S
Statistica So
ociale
Verifica l’uguaglianza tra più valori medi attraverso stime
diverse della variabilità il cui rapporto,
pp
, sotto l’ipotesi
p
H0 di
nessuna differenza tra i valori medi, si distribuisce come una
v.c. di Fisher, con opportuni gradi di libertà.

Prof.ssa C. Davino
Corso di S
Statistica So
ociale
• ANOVA
2
(di Pearson)
Prof.ssa C. Davino
La significatività della relazione
Corso di S
Statistica So
ociale
Una misura della forza della relazione
X Zona geografica
Prof.ssa C. Davino
Corso di S
Statistica So
ociale
Prof.ssa C. Davino
La significatività della relazione
D Y   Dev
Dev
D W  Dev
D  B
Fonte di
variabilità
Devianza
Gradi di
libertà
Esterna
DB
k -1
Interna
DW
n-k
Totale
DT
n -1
Varianza
stimata
sB2 
sW2 
DB
k 1
DW
nk
F- calcolata
F 
sB2
2
sW
F 
H0: 1=2=…=k = 
Se H0 è falsa :
2
B
2
W
s
s
Il numeratore F sarà maggiore del
denominatore il rapporto sarà >1
Una misura della forza della relazione
X Zona geografica
Mutabile indipendente
Y Reddito p.c.
Variabile dipendente
F 
s B2
sW2
Conteggio
10-15mila
Zona
geografica
Livello di
Significatività: =0.05
Corso di S
Statistica So
ociale
La significatività della relazione
Prof.ssa C. Davino
Corso di S
Statistica So
ociale
Prof.ssa C. Davino
Nord
Centro
Sud e Isole
1
31
32
Totale
Reddito p.c. (in euro)
15-20mila 20-25mila
7
34
18
5
1
26
39
25-30mila
5
1
6
Totale
46
25
32
103
gdl
Dev(B)
Dev(W)
Livello di
Significatività:
Dev(TOT)
0 05
=0.05
Regola di decisione:
1751 334
1751.334
3-1
3
1
536.050
103-3
F
163 35
163.35
2287.379
Fc=3.10
Rifiutiamo H0, con una probabilità di
errore pari a , se F>Fc
Regola di decisione:
Rifiutiamo H0, con una probabilità di errore
pari a , perché
hé F>Fc
Molte
l relazioni
l i i bivariate
bi
i
sono ingannevoli:
i
li statisticamente sono
inattaccabili ma la covariazione può essere dovuta all’azione di una
terza variabile
Z
• Relazione spuria
Relazione spuria
1. La successione oraria dei prezzi dei cavoletti di
Bruxelles venduti nel mercato di Londra e la
corrispondente altezza del Tamigi
giungono
g
a
2. Il numero di turisti canadesi che g
Roma e il numero di gelati venduti nella capitale
3. Il numero di case con nidi di cicogna sul tetto ed
il numero di case in cui nascono più bambini
• Relazione indiretta
• Relazione condizionata
X
Y
Z
X
Y
La relazione tra X e Y è provocata da una
terza variabile Z che agisce causalmente
sia su X che su Y
Corso di S
Statistica So
ociale
Introduzione di una terza variabile
Prof.ssa C. Davino
Corso di S
Statistica So
ociale
Prof.ssa C. Davino
Relazione spuria
1.
La successione oraria dei prezzi dei cavoletti di Bruxelles
venduti nel mercato di Londra e la corrispondente altezza del
Tamigi (Z=ora del giorno)
2.
Il numero di turisti canadesi che giungono a Roma e il numero
di gelati venduti nella capitale (Z
(Z=temperatura)
temperatura)
3.
Il numero di case con nidi di cicogna sul tetto ed il numero di
case in cui nascono più bambini (Z=collocazione
urbano-rurale
u
ba o u a e delle
de e case)
Z
X
• Z è la variabile di controllo
Y
• Bisogna analizzare la relazione tra X e Y
in sub-campioni nei quali Z sia costante
Corso di S
Statistica So
ociale
Prof.ssa C. Davino