STATISTICA PSICOMETRICA a.a. 2004/2005 Corsi di laurea

STATISTICA PSICOMETRICA a.a. 2004/2005
Corsi di laurea
Scienze e tecniche neuropsicologiche
Modulo 1
Statistica descrittiva Monovariata
1
Modulo 1
Statistica descrittiva Monovariata
•Distribuzioni semplici di frequenza e loro rappresentazioni
•Operatori di tendenza centrale
•Operatori di dispersione
•Momenti omogenei ed indici di forma (simmetria/curtosi
(simmetria/curtosi))
•Standardizzazione di variabili cardinali
2
1
Statistica descrittiva Monovariata
Distribuzioni semplici di frequenza e loro rappresentazioni
Dalla distribuzione unitaria
alla distribuzione semplice di frequenze
ident
1
2
3
4
5
6
7
8
9
10
11
12
13
genere
1
2
1
1
2
1
1
2
1
2
1
1
2
(sconnessa,ordinata,seriazione)
Matrice CxV:
tante righe quanti
sono i casi (N) !
genere
n
1
2
8
5
Distribuzione di
frequenza : tante
righe quante sono le
modalità della
variabile (K) ! 3
Statistica descrittiva Monovariata
Distribuzioni semplici di frequenza e loro rappresentazioni
Frequenze:
Assolute
nk
K
∑n
k =1
Relative
n
fk = k
N
k
K
∑f
k =1
K
Percentuali
qk = f k • 100
∑q
k =1
k
k
=N
=1
= 100
4
2
Statistica descrittiva Monovariata
Distribuzioni semplici di frequenza e loro rappresentazioni
ident
1
2
3
4
5
6
7
8
9
10
11
12
13
residenza
1
2
1
1
2
3
4
2
1
3
4
3
1
residenza
1
2
3
4
totale
n
f
q
5
3
3
2
0,38
0,23
0,23
0,15
38,5
23,1
23,1
15,4
13
1
100
5
Statistica descrittiva Monovariata
Distribuzioni semplici di frequenza e loro rappresentazioni
Se la variabile è ordinale parliamo di serie ordinata di
frequenze Î posso calcolare le frequenze cumulate
ident
1
2
3
4
5
6
7
8
9
10
11
12
13
titolo di
studio
1
2
1
2
3
2
1
2
3
3
2
1
2
titolo di
studio
1=obbligo
2=med. Sup.
3=laurea
n
4
6
3
f
0,31
0,46
0,23
q
30,8
46,2
23,1
n'
f'
4
10
13
0,31
0,77
1,00
q'
30,8
76,9
100,0
… quanti soggetti hanno al massimo …?
6
3
Statistica descrittiva Monovariata
Distribuzioni semplici di frequenza e loro rappresentazioni
Rappresentazioni Grafiche
n
sud
15%
Serie sconnessa
Îdiagramma a torta (o a barre)
nord
39%
isole
23%
centro
23%
50,0
Serie ordinata
Îistogramma
46,2
45,0
40,0
35,0
30,8
30,0
23,1
25,0
20,0
15,0
10,0
5,0
0,0
1=obbligo
2=med. Sup.
3=laurea
7
Statistica descrittiva Monovariata
Operatori monovariati
Un operatore statistico monovariato è:
un procedimento di calcolo che produce una statistica con
le seguenti caratteristiche
1. È costituita da un unico scalare
2. Si riferisce ad una singola variabile
3. È appropriata al livello di scala
4. È insensibile all’ordine in cui i dati vengono registrati
8
4
Statistica descrittiva Monovariata
Operatori monovariati
Un operatore statistico monovariato può essere
1. Un operatore di tendenza centrale (il valore che rappresenta al
meglio la distribuzione intera)
2. Un operatore di dispersione (il valore che informa circa la
diversità esistente tra le osservazioni)
3. Un operatore di forma (relativi alla simmetria o alla curtosi della
distribuzione)
9
Statistica descrittiva Monovariata
Operatori di tendenza centrale
Î Moda
Î Mediana
Î Media
10
5
Statistica descrittiva Monovariata
Operatori di tendenza centrale: Moda
Moda= modalità della variabile con frequenza più elevata
Idonea per scale nominali, ordinali e cardinali
moda
residenza
nord
centro
isole
sud
n
5
3
3
2
La moda è “Nord” , perché è la modalità della variabile RESIDENZA che
si presenta con la frequenza più elevata (n=5)
11
Statistica descrittiva Monovariata
Operatori di tendenza centrale: Mediana
Mediana= modalità a cui appartiene il caso (caso mediano)
che divide esattamente in due la distribuzione
Idonea per scale ordinali e cardinali
Se N (numero totale dei casi) è dispari il caso mediano sarà
uno solo
C Mdn =
( N + 1)
2
Se N (numero totale dei casi) è pari avremo due casi mediani
1°C Mdn =
N
2
2°C Mdn =
N
+1
2
12
6
Statistica descrittiva Monovariata
Operatori di tendenza centrale: Mediana
I casi sono dispari (13) quindi c’è solo un caso mediamo
C Mdn
( N + 1)
=
2
C Mdn =
titolo di
studio
1=obbligo
2=med. Sup.
3=laurea
n
4
6
3
(13 + 1) 14
=
=7
2
2
f
0,31
0,46
0,23
q
30,8
46,2
23,1
n'
4
10
13
Calcolando le frequenze cumulate vediamo che il 7° caso
cade nella categoria Media superiore.
Media superiore rappresenta quindi la mediana della
distribuzione
13
Statistica descrittiva Monovariata
Operatori di tendenza centrale: Media Aritmetica
Media (aritmetica): la media si ottiene sommando tutti i valori
di X (da 1 a N) e dividendo tale somma per il numero dei
casi (N)
Idonea per scale cardinali
1
x=
N
N
∑x
i =1
i
14
7
Statistica descrittiva Monovariata
Operatori di tendenza centrale: Media Aritmetica
ident
peso
1
2
3
4
5
x=
1
x=
N
72
58
65
78
49
N
∑x
i =1
i
(72 + 58 + 65 + 78 + 49) 322
=
= 64,4
5
5
15
Statistica descrittiva Monovariata
Operatori di tendenza centrale: Media Aritmetica
Proprietà della media
Î La somma algebrica degli scarti dei valori dalla loro media
aritmetica è uguale a zero
N
∑ ( x − x) = 0
i =1
ident
i
peso
1
2
3
4
5
scarto
72
58
65
78
49
somma
7,6
-6,4
0,6
13,6
-15,4
0,0
16
8
Statistica descrittiva Monovariata
Operatori di tendenza centrale: Media Aritmetica
Proprietà della media
Î La somma algebrica dei quadrati degli scarti dei valori
dalla loro media aritmetica è minima
N
∑ ( x − a)
i =1
i
2
= min
se
a=x
17
Statistica descrittiva Monovariata
Operatori di tendenza centrale: Altri indici di posizione
Così come la mediana è la modalità nella quale cade il caso
che divide in 2 parti uguali la distribuzione possiamo
pensare ad indici che dividono in più parti uguali la
distribuzione
Ad esempio i quartili sono le categorie nelle quali cadono i 3
casi che dividono in 4 parti uguali la distribuzione
Idonea per scale ordinali e cardinali
Quartili – decili – centili
quantili
18
9
Statistica descrittiva Monovariata
Operatori di dispersione
Î Mutabilità Categoriale
Î Varibilità non metrica Ordinale
Î Variabilità metrica Cardinale
19
Statistica descrittiva Monovariata
Operatori di dispersione
Un operatore di dispersione produce uno scalare con cui si
valuta sinteticamente la diversità esistente tra le osservazioni
ID
Campione 1
età
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
ID
27
25
32
27
25
27
31
30
32
27
26
26
33
30
25
33
27
34
30
26
età
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
45
34
67
34
25
18
17
6
21
8
24
39
41
15
26
45
10
24
63
11
Campione 2
20
10
Statistica descrittiva Monovariata
Operatori di dispersione
I due campione hanno media identica
ID
età
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
ID
27
25
32
27
25
27
31
30
32
27
26
26
33
30
25
33
27
34
30
26
Media
Campione 1
età
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
21
20
Media
Campione 2
28,65
45
34
67
34
25
18
17
6
21
8
24
39
41
15
26
45
10
24
63
11
Statistica descrittiva Monovariata
Operatori di dispersione
Sono molto diversi invece per quanto riguarda il campo di
variazione
ID
età
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
ID
27
25
32
27
25
27
31
30
32
27
26
26
33
30
25
33
27
34
30
26
25
Campione 1
34
Campione 2
6
67
età
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
22
20
45
34
67
34
25
18
17
6
21
8
24
39
41
15
26
45
10
24
63
11
11
Statistica descrittiva Monovariata
Operatori di dispersione: mutabilità
Per variabili categoriali
Eterogeneità
Omogeneità
Ciascuna modalità
della variabile ha la
medesima frequenza
(N/K)
Capitale preferita
Parigi
Londra
Berlino
Madrid
Praga
Tutte le osservazioni
si riferiscono ad una
sola modalità
Capitale preferita
n
n
Parigi
Londra
Berlino
Madrid
Praga
20
20
20
20
20
0
100
0
0
0
23
Statistica descrittiva Monovariata
Operatori di dispersione: mutabilità
Indice di GINI
Uno meno la sommatoria per k che va da 1 a K del quadrato
delle frequenze relative
K
E1 = 1 − ∑ f k2
k =1
(K-1)/K
Eterogeneità
0
Omogeneità
24
12
Statistica descrittiva Monovariata
Operatori di dispersione: mutabilità
Indice di GINI: esempio
Capitale
preferita
Parigi
Londra
Berlino
Madrid
Praga
n
f2
f
21
18
35
11
15
0,21
0,18
0,35
0,11
0,15
somma=
E1
Praga
15%
0,044
0,032
0,123
0,012
0,023
Capitale preferita
Parigi
Londra
Berlino
Madrid
Praga
n
7
11
15
16
51
0,234
0,766
f2
f
0,07
0,11
0,15
0,16
0,51
0,325
0,675
somma=
E1
Parigi
21%
Parigi
7%
0,005
0,012
0,023
0,026
0,26
Londra
11%
Madrid
11%
Londra
18%
Berlino
15%
Praga
51%
Madrid
16%
Berlino
35%
25
Statistica descrittiva Monovariata
Operatori di dispersione: mutabilità
Indici relativi
Tramite l’operazione di ranging possiamo far variare l’indice
di GINI tra 0 ed 1
Le misure relative (e) si ottengono sottraendo a quelle
assolute (E) il valore minimo che possono raggiungere e
dividendo il risultato per il suo intervallo di variazione
E − min
e=
max − min
26
13
Statistica descrittiva Monovariata
Operatori di dispersione: mutabilità
Indici relativi
Nel caso dell’indice di GINI
e1 =
E1 − 0
E1
K
=
=
E
( K − 1)
( K − 1) K − 1 1
−0
K
K
27
Statistica descrittiva Monovariata
Operatori di dispersione: mutabilità
Altri indici
Nome
Gini
Formula
K
E1 = 1 − ∑ f k2
min
0
k =1
Leti
max
K −1
K
1
E3 =
K
f
∏ fk k
1
K
0
log a K
k =1
Entropia
K
E2 = 1 − ∑ f k log a f k
k =1
28
14
Statistica descrittiva Monovariata
Operatori di dispersione: variabilità non metrica
Per variabili ordinali
In una variabile ordinale è ragionevole considerare come più
simili le osservazioni che cadono in modalità contigue,
piuttosto che osservazioni che cadono in modalità estreme.
L’operatore D* gode di queste proprietà
K −1
[ (
D = 2∑ f k' 1 − f k'
*
)]
k =1
Valore minimo =0
K −1 
1 
1− 2 

Se N è dispari
2  N 
Valore massimo =
K −1
2
Se N è pari
29
Statistica descrittiva Monovariata
Operatori di dispersione: variabilità non metrica
Per variabili ordinali
Titolo di studio
Elementari
Media inferiore
Media Superiore
Laurea
f
0,3
0,2
0,2
0,3
K −1
[ (
f'
0,3
0,5
0,7
1
D = 2∑ f k' 1 − f k'
*
1-f' f' (1-f' )
0,7 0,21
0,5 0,25
0,3 0,21
0
)]
k =1
D * = 2(0,21 + 0,25 + 0,21) = 2(0,67) = 1,34
30
15
Statistica descrittiva Monovariata
Operatori di dispersione: variabilità metrica
Per variabili cardinali
Prendiamo in considerazione due famiglie di operatori
• intervalli di variazione
•Scarti da un valore centrale
31
Statistica descrittiva Monovariata
Operatori di dispersione: variabilità metrica
Gli intervalli di variazione sono operatori che quantificano la
variabilità misurando la diversità tra due particolari termini
della distribuzione
RANGE
W = Xmax – Xmin
SEMIDIFFERENZA INTERQUARTILE
W’ = Q3 – Q1
32
16
Statistica descrittiva Monovariata
Operatori di dispersione: variabilità metrica
Scarti da un valore centrale
(
N
Devianza
DEV = ∑ xi − x
Varianza
∑ (x − x )
)
2
i =1
2
N
S =
2
i
i =1
N
∑ (x − x )
2
N
Deviazione Standard
S =
Coefficiente di variazione
i
i =1
N
cv =
s
⋅100
x 33
Statistica descrittiva Monovariata
Operatori di dispersione: variabilità metrica
Esempio:range
Campione 1
ID
età
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
27
25
32
27
25
27
31
30
32
27
26
26
33
30
25
33
27
34
30
26
ID
W=34-25=9
W=67-6=61
età
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
45
34
67
34
25
18
17
6
21
8
24
39
41
15
26
45
10
24
63
11
Campione 2
34
17
Statistica descrittiva Monovariata
Operatori di dispersione: variabilità metrica
Esempio.devianza
Campione 1
ID
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
media=
età
scarti
27
-1,65
25
-3,65
32
3,35
27
-1,65
25
-3,65
27
-1,65
31
2,35
30
1,35
32
3,35
27
-1,65
26
-2,65
26
-2,65
33
4,35
30
1,35
25
-3,65
33
4,35
27
-1,65
34
5,35
30
1,35
26
-2,65
28,65 DEV=
2
scarti
2,723
13,323
11,223
2,723
13,323
2,723
5,523
1,823
11,223
2,723
7,022
7,022
18,923
1,823
13,323
18,923
2,723
28,623
1,823
7,022
N
(
DEV = ∑ xi − x
i =1
)
2
35
174,550
Statistica descrittiva Monovariata
Operatori di dispersione: variabilità metrica
Esempio.devianza
Campione 2
ID
età
1
45
2
34
3
67
4
34
5
25
6
18
7
17
8
6
9
21
10
8
11
24
12
39
13
41
14
15
15
26
16
45
17
10
18
24
19
63
20
11
scarti
16,35
5,35
38,35
5,35
-3,65
-10,65
-11,65
-22,65
-7,65
-20,65
-4,65
10,35
12,35
-13,65
-2,65
16,35
-18,65
-4,65
34,35
-17,65
media= 28,65 DEV=
scarti2
267,32
28,62
1470,72
28,62
13,32
113,42
135,72
513,02
58,52
426,42
21,62
107,12
152,52
186,32
7,02
267,32
347,82
21,62
1179,92
311,52
5658,55
N
(
DEV = ∑ xi − x
i =1
)
2
36
18
Statistica descrittiva Monovariata
Operatori di dispersione: variabilità metrica
Esempio: varianza , deviazione standard, coefficiente var.
(
N
DEV = ∑ xi − x
Devianza
i =1
∑ (x
N
Varianza
S2 =
Deviazione
standard
i =1
i
)
2
−x
Coefficiente di
variazione
Campione
2
174,6
5658,6
8,73
282,93
2,95
16,82
10,31
58,71
N
∑ (x − x )
2
N
S =
)
2
Campione
1
i =1
i
N
s
cv = ⋅100
x
37
Statistica descrittiva Monovariata
Momenti omogenei ed indici di forma
Momento omogeneo= media dei valori di una variabile presa
con esponente positivo
r = ordine del momento
r
N
M=
∑ (x )
i
i =1
N
∑ (x − x )
r
N
M =
i =1
i
N
Momento non centrale
Momento centrale
non è uno scarto dalla media
è uno scarto dalla media
38
19
Statistica descrittiva Monovariata
Momenti omogenei ed indici di forma
Ordine
tipo
Informazione
1
non centrale
Esempio
3
centrale
tendenza centrale
della distribuzione
dispersione della
distribuzione
Asimmetria
4
centrale
Curtosi
centrale
2
1
N
x=
S2 =
1
N
N
∑x
i
i =1
∑ (x
N
i =1
i
)
2
−x
β1
β2
39
Statistica descrittiva Monovariata
Momenti omogenei ed indici di forma
β1
Asimmetria
positiva
Asimmetria
negativa
-
0
+
x = mdn = mod
x < mdn < mod
x > mdn > mod
40
20
Statistica descrittiva Monovariata
Momenti omogenei ed indici di forma
Leptocurtica
Platicurtica
β2
-
0
+
41
Statistica descrittiva Monovariata
Standardizzazione di una variabile cardianle
Dispositivo per rendere confrontabili distribuzioni diverse.
Le distribuzioni vengono trasformate in distribuzioni con
media =0 e deviazione standard=1
Centratura
Varaibile X
Scarti dalla media
Uniformazione
Punti Z
Divisione per s
42
21
Statistica descrittiva Monovariata
Standardizzazione di una variabile cardianle
Dispositivo per rendere confrontabili distribuzioni diverse.
Le distribuzioni vengono trasformate in distribuzioni con
media =0 e deviazione standard=1
zi
(
x − x)
=
i
s
43
Statistica descrittiva Monovariata
Standardizzazione di una variabile cardianle
zi =
ident
1
2
3
4
5
media
s
(x − x )
i
s
altezza
peso
1,72
1,65
1,81
1,75
1,82
1,75
0,062
72
65
93
61
73
alezza z peso z
-0,48
-0,07
-1,61
-0,71
0,96
1,83
0,00
-1,07
1,12
0,02
72,8
11,034
44
22