MZ2009_6.0_MONOVARIATA - Dipartimento di Sociologia e

“Teoria e metodi della ricerca sociale e organizzativa”
Corso di Laurea in Scienze dell’Organizzazione
Facoltà di Sociologia
Università Milano-Bicocca
2009
Simone Sarti
1
Lezione
Analisi monovariata
Corbetta, capitolo 12
2
L’analisi monovariata
L’analisi monovariata costituisce la
forma più semplice di analisi del
fenomeno indagato.
Essa consiste in un’analisi descrittiva
focalizzata su una sola variabile.
3
L’Analisi Monovariata
Tratta lo studio della distribuzione dei dati
osservati sugli stati di una variabile.
Distribuzione di frequenza
Serve ad avere una prima impressione sul
fenomeno preso in esame e soprattutto a
verificarne la plausibilità ed eventuali squilibri.
Essa costituisce l’analisi più elementare e
serve anche a facilitare agli altri studiosi la
lettura di analisi più complesse.
4
La distribuzione di frequenza
La prima è più elementare delle analisi
è la distribuzione di frequenza.
Essa consiste in un banale conteggio
delle modalità di una variabile.
5
LA MATRICE DEI DATI: CASI PER VARIABILI
6
Distribuzioni di frequenza: il genere
V15 SESSO
Valid
1 maschio
2 femmina
Total
Frequency
26091
27617
53708
Il conteggio
dei casi
osservati
Percent
48.6
51.4
100.0
Valid Percent
48.6
51.4
100.0
Cumulative
Percent
48.6
100.0
7
Distribuzioni di frequenza
V15 SESSO
Valid
1 maschio
2 femmina
Total
Frequency
26091
27617
53708
Percent
48.6
51.4
100.0
Le quote
percentuali
delle modalità
Valid Percent
48.6
51.4
100.0
Cumulative
Percent
48.6
100.0
8
Distribuzioni di frequenza
V15 SESSO
Valid
1 maschio
2 femmina
Total
Frequency
26091
27617
53708
Percent
48.6
51.4
100.0
Valid Percent
48.6
51.4
100.0
Cumulative
Percent
48.6
100.0
Le percentuali sui
casi validi, al netto
dei casi mancanti
9
Distribuzioni di frequenza
V131 FREQUENZA CON CUI SI INCONTRA CON AMICI (nel tempo libero)
Valid
Mis sing
Total
1 tutti i giorni
2 più di una volta a s ettimana
3 una volta a s ettimana
4 qualche volta al mese
5 qualche volta all'anno
6 mai
7 non ho amici
Total
Sys tem
Frequency
14237
14251
9231
7143
3177
1880
734
50653
3055
53708
Percent
26.5
26.5
17.2
13.3
5.9
3.5
1.4
94.3
5.7
100.0
Le quote
percentuali
delle modalità
Valid Percent
28.1
28.1
18.2
14.1
6.3
3.7
1.4
100.0
Cumulative
Percent
28.1
56.2
74.5
88.6
94.8
98.6
100.0
10
Distribuzioni di frequenza
V131 FREQUENZA CON CUI SI INCONTRA CON AMICI (nel tempo libero)
Valid
Mis sing
Total
1 tutti i giorni
2 più di una volta a s ettimana
3 una volta a s ettimana
4 qualche volta al mese
5 qualche volta all'anno
6 mai
7 non ho amici
Total
Sys tem
Frequency
14237
14251
9231
7143
3177
1880
734
50653
3055
53708
Percent
26.5
26.5
17.2
13.3
5.9
3.5
1.4
94.3
5.7
100.0
Valid Percent
28.1
28.1
18.2
14.1
6.3
3.7
1.4
100.0
Cumulative
Percent
28.1
56.2
74.5
88.6
94.8
98.6
100.0
Le percentuali sui casi
validi, al netto dei casi
mancanti
11
Distribuzioni di frequenza
V131 FREQUENZA CON CUI SI INCONTRA CON AMICI (nel tempo libero)
Valid
Mis sing
Total
1 tutti i giorni
2 più di una volta a s ettimana
3 una volta a s ettimana
4 qualche volta al mese
5 qualche volta all'anno
6 mai
7 non ho amici
Total
Sys tem
Frequency
14237
14251
9231
7143
3177
1880
734
50653
3055
53708
Percent
26.5
26.5
17.2
13.3
5.9
3.5
1.4
94.3
5.7
100.0
Valid Percent
28.1
28.1
18.2
14.1
6.3
3.7
1.4
100.0
Cumulative
Percent
28.1
56.2
74.5
88.6
94.8
98.6
100.0
Le percentuali
cumulative
12
V383 N STANZE CHE COMPONGONO L'ABITAZIONE
Valid
Mis sing
Total
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
Total
Sys tem
Frequency
217
2421
8982
17218
13690
5746
2423
1284
410
354
36
62
14
17
8
4
6
52892
816
53708
Percent
.4
4.5
16.7
32.1
25.5
10.7
4.5
2.4
.8
.7
.1
.1
.0
.0
.0
.0
.0
98.5
1.5
100.0
Valid Percent
.4
4.6
17.0
32.6
25.9
10.9
4.6
2.4
.8
.7
.1
.1
.0
.0
.0
.0
.0
100.0
Cumulative
Percent
.4
5.0
22.0
54.5
80.4
91.3
95.9
98.3
99.1
99.7
99.8
99.9
99.9
100.0
100.0
100.0
100.0
13
Rappresentazioni grafiche di
distribuzioni di frequenza
Titolo di studio (3 fasce)
300
Frequency
250
DIAGRAMMA A
BARRE
200
150
100
50
0
licenza media
diploma
Titolo di studio (3 fasce)
Cases weighted by peso
laurea
Rappresentazioni grafiche di
distribuzioni di frequenza
Titolo di studio (3 fasce)
licenza media
diploma
laurea
DIAGRAMMA A
TORTA
Cases weighted by peso
Le distribuzioni di frequenza
come distribuzioni di probabilità
V15 SESSO
Valid
1 maschio
2 femmina
Total
Frequency
26091
27617
53708
Percent
48.6
51.4
100.0
Valid Percent
48.6
51.4
100.0
Cumulative
Percent
48.6
100.0
Le proporzioni delle modalità possono essere
interpretate come probabilità.
Maschi
Femmine
Totale
Pm
Pf
Pm+f
0,486
0,514
1,000
16
Maschi
Femmine
Totale
Pm
Pf
Pm+f
0,486
0,514
1,000
Una probabilità può variare tra 0 e 1
Un evento è certo quando ha probabilità 1
Un evento è irrealizzabile quando ha probabilità 0
La somma delle probabilità di tutti gli eventi possibili è uguale a 1
Nell’esempio abbiamo che la probabilità di estrarre a caso una
femmina dal nostro campione è 0,514. La probabilità di estrarre un
maschio è di 0,486. Estraendo a caso un soggetto dal nostro
campione abbiamo più probabilità di estrarre una femmina che
non un maschio. Siamo certi (probabilità uguale ad 1) di estrarre o
un maschio o una femmina.
17
L’analisi monovariata: le statistiche
Le statistiche servono a dare una
descrizione sintetica del fenomeno.
Esse si applicano in modo diverso
secondo la scala di misurazione con la
quale sono rilevate le variabili.
18
L’analisi monovariata: le statistiche
Esistono misure di tendenza centrale che
sintetizzano l’informazione contenuta
nella variabile in un valore caratteristico.
Esistono misure di dispersione che
indicano la varietà delle informazioni
presenti in una variabile.
19
Le misure di tendenza centrale
su variabili NOMINALI
LA MODA:
E’ la modalità più frequente.
20
MODA in una distribuzione di frequenza
v5_gener 5_Genere musicale preferito
Valid
Mis sing
Total
1 rock e hardrock
2 leggera
3 pop
4 hiphop e dance
5 lirica
6 etnica er eggae
Total
Sys tem
Frequency
137
160
104
35
6
12
454
26
480
Percent
28.5
33.3
21.6
7.3
1.2
2.6
94.5
5.5
100.0
Valid Percent
30.2
35.2
22.8
7.8
1.2
2.7
100.0
Cumulative
Percent
30.2
65.4
88.3
96.0
97.3
100.0
21
Le misure di tendenza centrale
su variabili ORDINALI
LA MEDIANA:
E’ la modalità che occupa il posto di mezzo
nella distribuzione ordinata dei casi
secondo quella modalità.
22
Le misure di tendenza centrale
su variabili ORDINALI
Dato un elenco ordinato di N casi, la
mediana è la modalità che si trova in
corrispondenza del caso (N+1)/2
quando N è dispari.
Se invece N è pari le mediane sono le
modalità in corrispondenza del caso
(N/2) e del caso (N/2 +1).
23
MEDIANA (N dispari)
1°
2°
3°
4°
5°
Graduatoria di 5 competitori.
N 1
 3
2
La mediana è la modalità relativa al
caso in TERZA posizione.
24
MEDIANA (N pari)
1°
2°
3°
4°
5°
6°
Graduatoria di 6 competitori.
N
 3
2
N
 1  4
2
La mediana è rappresentata da due
modalità: sono le modalità relative ai
casi in TERZA e QUARTA posizione.
25
MEDIANA , N dispari in una variabile ordinale
V79 PERCEZIONE DELLO STATO DI SALUTE (dove 1 indica lo stato peggiore e 5
il migliore)
Valid
Mis sing
Total
1 peggiore
2
3
4
5 migliore
Total
Sys tem
Frequency
1392
2633
8530
14511
25881
52947
761
53708
Percent
2.6
4.9
15.9
27.0
48.2
98.6
1.4
100.0
MEDIANA = stato 4
Valid Percent
2.6
5.0
16.1
27.4
48.9
100.0
Cumulative
Percent
2.6
7.6
23.7
51.1
100.0
50%
26
MEDIANA , N pari in una variabile metrica
eta Età esatta
Valid
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
Total
Frequency
3
14
29
50
76
67
48
24
42
37
25
20
18
14
12
480
Percent
.7
2.9
6.1
10.5
15.7
14.0
10.0
5.0
8.7
7.8
5.2
4.1
3.8
3.0
2.4
100.0
Valid Percent
.7
2.9
6.1
10.5
15.7
14.0
10.0
5.0
8.7
7.8
5.2
4.1
3.8
3.0
2.4
100.0
Cumulative
Percent
.7
3.7
9.8
20.3
36.0
50.0
60.0
65.0
73.7
81.5
86.7
90.8
94.6
97.6
100.0
50%
MEDIANA = 19,5
27
Le misure di tendenza centrale
su variabili CARDINALI
LA MEDIA ARITMETICA:
Equivale alla somma dei
valori di tutti i casi diviso
il numero dei casi.
N= numero dei casi
Xi=i-esimo caso
N
x
x
i 1
i
N
28
ETA’ MEDIA
5 studenti con età differenti
20
x1
20
x2
25
x3
27
x4
33
x5
N
x
x
i 1
i
N
25  20  27  33  20
x
 25
5
L’età media degli studenti è 25 anni
29
MEDIA
su una distribuzione di frequenza
Modalità k=4
Età
20
Freq.
2
x1.f1
1
x2.f2
27
1
x3.f3
33
1
x4.f4
25
Numerosità N=5
k
x
x f
i i
i 1
N
20  2  25 1  27 1  33 1
x
 25
5
30
In una variabile dicotomica,
dove i valori sono 0 e 1
la media corrisponde alla
proporzione dei casi sulla
modalità 1
k
x
x f
i i
i 1
N
p0  p1  1
x
f
0
80
1
20
N=100
0  f 0  1 f1 1 f1 f1


  p1
N
N
N
20
p1 
 0,2
100
31
Proprietà della MEDIA
La somma degli scarti dalla media è uguale a ZERO.
k
 x
i 1
i
 x  fi  0
32
Proprietà della MEDIA
La somma degli scarti dalla media è uguale a ZERO.
ISCRITTI scarti
98
156
75
80
17
78
23
79
66
77
78
99
101
19
77
-4
1
-62
-1
-56
0
-13
-2
-1
20
22
1027
79.0
-80
-60
-40
-139
-20
0
20
40
60
80
100
+139
media
33
VALORI CARATTERISTICI
eta Età esatta
Valid
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
Total
Frequency
3
14
29
50
76
67
48
24
42
37
25
20
18
14
12
480
Percent
.7
2.9
6.1
10.5
15.7
14.0
10.0
5.0
8.7
7.8
5.2
4.1
3.8
3.0
2.4
100.0
Valid Percent
.7
2.9
6.1
10.5
15.7
14.0
10.0
5.0
8.7
7.8
5.2
4.1
3.8
3.0
2.4
100.0
Cumulative
Percent
.7
3.7
9.8
20.3
36.0
50.0
60.0
65.0
73.7
81.5
86.7
90.8
94.6
97.6
100.0
Statistics
eta Età es atta
N
Valid
Mis sing
Mean
Median
Mode
480
0
20.30
19.50
18
34
Se la distribuzione è asimmetrica la media “risente” dei
valori estremi. In questi casi il valore caratteristico
preferibile è la mediana. ESEMPIO: il reddito.
n
Valori estremi
0
1300
2400
12000
Reddito
Mediana Media
35
Le misure di dispersione
su variabili NOMINALI
L’indice di omogeneità
36
Indice di omogeneità
Misura la dispersione in una variabile nominale
k
Op
i 1
2
i
Dove k è il numero di modalità e pi è la proporzione di casi che si trovano
nella categoria i-esima.
L’indice di omogeneità O è dato quindi dalla somma dei quadrati delle
frequenze proporzionali.
k
E  1   pi2  1  O
i 1
Indice di eterogeneità
k
Indice di omogeneità
O   pi2
i 1
È massimo (=1) quando tutti i casi assumono la stessa modalità.
È minimo (=1/k) quando la distribuzione è massimamente
eterogenea, i casi si distribuiscono ugualmente nelle diverse
modalità.
ESEMPIO con due modalità (p,1- p)
O
1
Omin = 0,502 + 0,502 = 0,50
1/2
0
Omax = 02 + 12 = 1
1/2
1
p
Video di Faidate presenti su youtube e categoria tematica
Maggiore è questo indice più è la concentrazione dei contenuti del rispettivo dominio:
elevata omogeneità in Spagna e Germania, dove spiccano poche categorie, ed una
minore in Francia, dove invece i contenuti sono dispersi tra più categorie.
Mondo
Entertainment, music
Vehicles,motors
Business
Tech, electronics, gadgets
Computers and internet
Education
Parenting, love&sex
Fashion, style, beauty
Cooking
Health, fitness, sports
Hobbies, leisure
Home, DIY, house
Religion, philosophy
Weapons
Totale
Indice di omogeneità
Regno
Unito
Germania Francia
Spagna
Italia
9
2
0
31
14
8
6
3
0
14
9
0
2
3
100
13
9
0
10
10
3
5
30
1
5
7
3
0
4
100
5
8
0
32
21
2
0
6
0
2
15
3
3
5
100
2
10
2
14
22
6
6
14
2
4
6
0
0
12
100
6
12
0
21
33
10
2
4
0
2
8
2
2
0
100
8
2
0
22
24
2
0
20
6
4
14
0
0
0
100
0,16
0,15
0,19
0,13
0,19
0,18
39
Indice di omogeneità relativa
Per confrontare distribuzioni con
un diverso numero di modalità.
Varia tra 0 (minima omogeneità)
ed 1 (massima omogeneità).
Orel
kO  1

k 1
Le misure di dispersione
su variabili ORDINALI
La differenza interquartile
41
Quartili
Corrispondono ai valori/modalità che
occupano nella distribuzione ordinata
dei casi la posizione
al 25%, al 50%(la mediana) e al 75%
dei casi
42
QUARTILI
eta Età esatta
Valid
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
Total
Frequency
3
14
29
50
76
67
48
24
42
37
25
20
18
14
12
480
Percent
.7
2.9
6.1
10.5
15.7
14.0
10.0
5.0
8.7
7.8
5.2
4.1
3.8
3.0
2.4
100.0
Valid Percent
.7
2.9
6.1
10.5
15.7
14.0
10.0
5.0
8.7
7.8
5.2
4.1
3.8
3.0
2.4
100.0
Cumulative
Percent
.7
3.7
9.8
20.3
36.0
50.0
60.0
65.0
73.7
81.5
86.7
90.8
94.6
97.6
100.0
Statistics
eta Età es atta
N
Valid
Mis sing
Median
Percentiles 25
50
75
480
0
19.50
18.00
19.50
23.00
43
La differenza interquartile
Misura la dispersione in una variabile ordinale
Q  Q3  Q1
Dove Q3 è il terzo quartile e Q1 è il primo.
Nell’esempio precedente:
Q  23  18  5
Le misure di dispersione
su variabili CARDINALI
Campo di variazione
Scostamento semplice medio
Deviazione standard
e
Varianza
45
Campo di variazione (o Range)
Semplicemente offre una misura
della variazione in una
distribuzione calcolando la
differenza tra il valore massimo
ed il valore minimo.
46
CAMPO DI VARIAZIONE (o RANGE)
eta Età esatta
Valid
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
Total
Frequency
3
14
29
50
76
67
48
24
42
37
25
20
18
14
12
480
Percent
.7
2.9
6.1
10.5
15.7
14.0
10.0
5.0
8.7
7.8
5.2
4.1
3.8
3.0
2.4
100.0
Valid Percent
.7
2.9
6.1
10.5
15.7
14.0
10.0
5.0
8.7
7.8
5.2
4.1
3.8
3.0
2.4
100.0
Cumulative
Percent
.7
3.7
9.8
20.3
36.0
50.0
60.0
65.0
73.7
81.5
86.7
90.8
94.6
97.6
100.0
Statistics
eta Età es atta
N
Valid
Mis sing
Range
Minimum
Maximum
480
0
14
14
28
47
Lo scostamento semplice medio
Lo scostamento semplice
medio, si calcola
attraverso la somma
degli scarti assoluti dalla
media.
k
ssm 
 x x f
i 1
i
N
48
i
La deviazione standard
La deviazione standard
costituisce una misura
della variabilità della
distribuzione.
k

 x  x 
i 1
2
i
N
Equivale alla somma
degli scarti dalla media al
quadrato.
49
fi
La varianza
La varianza costituisce la
misura statistica più
importante. Per le sue
proprietà essa costituisce
una sintesi
dell’informazione
presente nella
distribuzione della
variabile.
k
 
2
 x  x 
i 1
2
i
N
50
fi
Età
20
25
Freq.
VARIANZA
su una distribuzione di frequenza
2
1
27
1
33
1
k
x  25
N=5
 
2
 x  x 
i 1
2
i
fi
N
2
2
2
2
(
20

25
)

2

(
25

25
)

(
27

25
)

(
33

25
)
2 

5
50  0  4  64

 29,5
5
La varianza campionaria
Quando si lavora su campioni la stima
statisticamente più corretta per calcolare la
varianza del campione si trova:
k
S 
2
 x  x 
i 1
2
i
fi
N 1
NB: S è la deviazione standard campionaria.
52
TRASFORMAZIONE DELLE VARIABILI CARDINALI
Esistono alcune procedure che trasformano le
variabili cardinali:
- normalizzazione
- standardizzazione
53
QUALSIASI DISTRIBUZIONE CONTINUA
PUO’ ESSERE NORMALIZZATA
Valore osservato i-esimo
xi  xmin
x 
xmax  xmin
01
i
La nuova variabile x01 varierà tra 0 ed 1.
54
DUE SCALE CON DIVERSO RANGE POSSONO
ESSERE RESE COMPARABILI
Voto “vecchio” di maturità
Voto “nuovo” di maturità
Minimo 36
Minimo 60
Massimo 60
Massimo 100
xi  36
x 
60  36
xi  60
x 
100  60
01
i
36
60
0
01
i
48
80
0,5
60
100
1
NB: la distanza relativa tra i casi rimane la stessa.
55
QUALSIASI DISTRIBUZIONE CONTINUA PUO’
ESSERE STANDARDIZZATA
zi 
xi  x

Una distribuzione standardizzata ha media uguale
a 0 e deviazione standard (o varianza) uguale a 1.
Z può variare tra meno e più infinito
56
DUE DISTRIBUZIONI POSSONO ESSERE COMPARATE IN TERMINI
DI PUNTI STANDARD, A PARITA’ DI MEDIA E DI DISPERSIONE.
Si standardizza rispetto ad un contesto di riferimento.
Voto corso A
Media 23
Dev.std 3,8
xi  23
z1 
 1,3
3,8
Voto A
18
18
18
21
22
26
26
27
27
27
Voto B
11
15
15
18
18
28
28
27
30
30
Voto corso B
Media 22
Dev.std 6,9
xi  22
z2 
 0,6
6,9
NB: la distanza relativa tra i casi cambia.
Nelle nuove distribuzioni la varianza = 1, la media = 0.