Elementi di Psicometria con Laboratorio di SPSS 1

Elementi di Psicometria con Laboratorio di SPSS 1
03-Medie, variabilità e dispersione
vers. 1.0 (15 ottobre 2014)
Germano Rossi1
[email protected]
1 Dipartimento
di Psicologia, Università di Milano-Bicocca
2014-2015
G. Rossi (Dip. Psicologia)
ElemPsico
2014-2015
1 / 47
Introduzione
I dati della tabella 3.1 (del libro) rappresentati graficamente. Possiamo vedere
che 13 valori sono su 4 valori e 11 su 8.
Possiamo descrivere numericamente questi dati?
G. Rossi (Dip. Psicologia)
ElemPsico
2014-2015
2 / 47
Introduzione
Ci sono almeno due informazioni che possiamo raccogliere su
dati quantitativi:
la tendenza centrale: un valore che meglio rappresenta tutta la
distribuzione
la variabilità: quanto i valori si disperdono attorno al valore
centrale
Un ulteriore blocco di informazioni si chiamano indici di posizione.
G. Rossi (Dip. Psicologia)
ElemPsico
2014-2015
3 / 47
Tendenza centrale
Tendenza centrale
La tendenza centrale è un’indicazione generica di come sta
andando la distribuizione della variabile
Ci sono diversi indici che “misurano” la tendenza centrale, alcuni
poco informativi, altri molto informativi
Livello nominale: Moda
Livello ordinale: Mediana
Livello intervallo/rapporto: Media
Ricordiamo che ogni livello “eredita” dai livelli precedenti
G. Rossi (Dip. Psicologia)
ElemPsico
2014-2015
4 / 47
Tendenza centrale
Moda
Tendenza centrale: Moda
La Moda (Mo) è la frequenza più elevata di una distribuzione
Se c’è una sola moda, la distribuzione si dice Unimodale
Se sono 2, Bimodale
Se sono più di 2, Multimodale (ma non si utilizza)
Esempio
M=17, F=13 ⇒ Maschi perché ha frequenza 17
Se ci sono molte categorie, oppure poche categorie tutte con
frequenze simili, la moda non ha molto senso.
Esempio
1112222333
G. Rossi (Dip. Psicologia)
Mo=2 (ma non ha molto senso)
ElemPsico
2014-2015
5 / 47
Tendenza centrale
Moda
Spss: moda
Tramite
Analizza |
Statistiche
descrittive |
Frequenze...
pulsante
Statistiche
,
possiamo far
calcolare la moda.
poi Continua e
OK
G. Rossi (Dip. Psicologia)
ElemPsico
2014-2015
6 / 47
Tendenza centrale
Mediana
Tendenza centrale: Mediana
La mediana (Mdn) divide la distribuzione a metà (corrisponde, ma non
è sempre uguale, a Q2 )
Se N è dispari, la Mdn è il valore in posizione centrale,
corrispondente a (N + 1)/2
Esempio
Dati grezzi
Ordinati
5
1
2
1
1
1
3
2
5
3
1
3
⇑
4
4
4
4
3
5
1
5
5
5
(11 + 1)/2 = 6 ⇒ Mdn=3
G. Rossi (Dip. Psicologia)
ElemPsico
2014-2015
7 / 47
Tendenza centrale
Mediana
Tendenza centrale: Mediana
Se N è pari, la Mdn è il valore fra le 2 posizioni centrali (se
esiste) cioè fra N/2 e (N/2) + 1
Se i due valori sono uguali, quello è il valore della mediana
Esempio
Dati grezzi
Ordinati
5
1
5 1
3 3
⇑ ⇑
(N/2) + 1 = 5 + 1 = 6 ⇒ Mdn=3
G. Rossi (Dip. Psicologia)
2
1
1
1
3
2
4
4
ElemPsico
4
4
3
5
1
5 N/2 = 10/2 = 5 e
2014-2015
8 / 47
Tendenza centrale
Mediana
Tendenza centrale: Mediana
Se i due valori sono diversi
se la scala è ordinale: entrambi costituiscono la mediana
se è quantitativa: si fa la media fra i due valori
Esempio
Dati grezzi
Ordinati
5
1
2
1
1
1
4
2
5 1 4 4 3 1
3 4 4 4 5 5 N/2 = 10/2 = 5 e
⇑ ⇑
(N/2) + 1 = 5 + 1 = 6 ⇒ Mdn=3;4 (ORD) ⇒ 3,5 (I/R)
Attenzione
Spss (e la maggior parte dei software statistici) fanno sempre la
media fra i due valori!
G. Rossi (Dip. Psicologia)
ElemPsico
2014-2015
9 / 47
Tendenza centrale
Mediana
Tendenza centrale: Mediana
Esercizio
1 Mdn (3,5,7,9,11)
G. Rossi (Dip. Psicologia)
ElemPsico
2014-2015
10 / 47
Tendenza centrale
Mediana
Tendenza centrale: Mediana
Esercizio
1 Mdn (3,5,7,9,11)
2
Soluzione
1 N=5; pos=3; Mdn=7
Mdn (2,3,5,7,9,11,12)
G. Rossi (Dip. Psicologia)
ElemPsico
2014-2015
10 / 47
Tendenza centrale
Mediana
Tendenza centrale: Mediana
Esercizio
1 Mdn (3,5,7,9,11)
2
Mdn (2,3,5,7,9,11,12)
3
Mdn (3,4,5,5,6,7)
Soluzione
1 N=5; pos=3; Mdn=7
2
N=7; pos=4; Mdn=7
Se aggiungiamo lo stesso numero di valori all’inizio e alla fine di una
distribuzione, la Mdn non cambia
G. Rossi (Dip. Psicologia)
ElemPsico
2014-2015
10 / 47
Tendenza centrale
Mediana
Tendenza centrale: Mediana
Esercizio
1 Mdn (3,5,7,9,11)
Soluzione
1 N=5; pos=3; Mdn=7
2
Mdn (2,3,5,7,9,11,12)
2
N=7; pos=4; Mdn=7
3
Mdn (3,4,5,5,6,7)
3
N=6; pos=3 e 4; Mdn=5
4
Mdn (3,4,5,6,7,8)
Se aggiungiamo lo stesso numero di valori all’inizio e alla fine di una
distribuzione, la Mdn non cambia
G. Rossi (Dip. Psicologia)
ElemPsico
2014-2015
10 / 47
Tendenza centrale
Mediana
Tendenza centrale: Mediana
Esercizio
1 Mdn (3,5,7,9,11)
Soluzione
1 N=5; pos=3; Mdn=7
2
Mdn (2,3,5,7,9,11,12)
2
N=7; pos=4; Mdn=7
3
Mdn (3,4,5,5,6,7)
3
N=6; pos=3 e 4; Mdn=5
4
Mdn (3,4,5,6,7,8)
4
N=6; pos=3 e 4; Mdn=5;6 (5,5)
5
Mdn (4,5,7,9,13)
Se aggiungiamo lo stesso numero di valori all’inizio e alla fine di una
distribuzione, la Mdn non cambia
G. Rossi (Dip. Psicologia)
ElemPsico
2014-2015
10 / 47
Tendenza centrale
Mediana
Tendenza centrale: Mediana
Esercizio
1 Mdn (3,5,7,9,11)
Soluzione
1 N=5; pos=3; Mdn=7
2
Mdn (2,3,5,7,9,11,12)
2
N=7; pos=4; Mdn=7
3
Mdn (3,4,5,5,6,7)
3
N=6; pos=3 e 4; Mdn=5
4
Mdn (3,4,5,6,7,8)
4
N=6; pos=3 e 4; Mdn=5;6 (5,5)
5
Mdn (4,5,7,9,13)
5
N=5; pos=3; Mdn=7
6
Mdn (1,5,7,9,25)
Se aggiungiamo lo stesso numero di valori all’inizio e alla fine di una
distribuzione, la Mdn non cambia
G. Rossi (Dip. Psicologia)
ElemPsico
2014-2015
10 / 47
Tendenza centrale
Mediana
Tendenza centrale: Mediana
Esercizio
1 Mdn (3,5,7,9,11)
Soluzione
1 N=5; pos=3; Mdn=7
2
Mdn (2,3,5,7,9,11,12)
2
N=7; pos=4; Mdn=7
3
Mdn (3,4,5,5,6,7)
3
N=6; pos=3 e 4; Mdn=5
4
Mdn (3,4,5,6,7,8)
4
N=6; pos=3 e 4; Mdn=5;6 (5,5)
5
Mdn (4,5,7,9,13)
5
N=5; pos=3; Mdn=7
6
Mdn (1,5,7,9,25)
6
N=5; pos=3; Mdn=7
Se aggiungiamo lo stesso numero di valori all’inizio e alla fine di una
distribuzione, la Mdn non cambia
Se cambiano i valori estremi della distribuzione, la Mdn non cambia
G. Rossi (Dip. Psicologia)
ElemPsico
2014-2015
10 / 47
Tendenza centrale
Media
Tendenza centrale: media
Se 4 amici escono a
mangiare la pizza e poi
pagano in parti
uguali. . . stanno
usando la media
Ovvero:
(18 + 16.5 + 22 + 17.5)/4
Ovvero: 18.5 ∗ 4
Qualcuno paga di più e
qualcuno di meno, ma,
alla fine, il “di più” si
annulla con il “di meno”
G. Rossi (Dip. Psicologia)
pizza, bibita e dessert
Marco
18.0
Clara
16.5
Daniela
22.0
Andrea
17.5
Totale
74.0
a testa
18.5
Marco
18.0 − 18.5 =
Clara
16.5 − 18.5 =
Daniela 22.0 − 18.5 =
Andrea 17.5 − 18.5 =
Totale
74.0 − 74.0 =
ElemPsico
0.5
2.0
−3.5
1.0
0
2014-2015
11 / 47
Tendenza centrale
Media
Tendenza centrale: Media [aritmetica]
X
La media aritmetica (X̄, Md, M) è la somma ( ) di tutti i valori di una
distribuzione, divisa per la numerosità (N)
PN
X=
i=1 Xi
N
P
=
X
N
Esempio
M(10, 15, 16, 18, 20, 24, 32, 35, 38, 40) = 24.8
10 + 15 + 16 + 18 + 20 + 24 + 32 + 35 + 38 + 40
248
=
10
10
G. Rossi (Dip. Psicologia)
ElemPsico
2014-2015
12 / 47
Tendenza centrale
Media
Tendenza centrale: Media [aritmetica]
Esercizio
1 M(1,2,3,4,5)
G. Rossi (Dip. Psicologia)
Soluzione
ElemPsico
2014-2015
13 / 47
Tendenza centrale
Media
Tendenza centrale: Media [aritmetica]
Esercizio
1 M(1,2,3,4,5)
2
Soluzione
1 (1+2+3+4+5)/5=15/5=3
M(3,4,5,6,7)
G. Rossi (Dip. Psicologia)
ElemPsico
2014-2015
13 / 47
Tendenza centrale
Media
Tendenza centrale: Media [aritmetica]
Esercizio
1 M(1,2,3,4,5)
2
M(3,4,5,6,7)
3
M(2,4,6,8,10)
G. Rossi (Dip. Psicologia)
Soluzione
1 (1+2+3+4+5)/5=15/5=3
2
(3+4+5+6+7)/5=25/5=5
ElemPsico
2014-2015
13 / 47
Tendenza centrale
Media
Tendenza centrale: Media [aritmetica]
Esercizio
1 M(1,2,3,4,5)
Soluzione
1 (1+2+3+4+5)/5=15/5=3
2
M(3,4,5,6,7)
2
(3+4+5+6+7)/5=25/5=5
3
M(2,4,6,8,10)
3
(2+4+6+8+10)/5=30/5=6
G. Rossi (Dip. Psicologia)
ElemPsico
2014-2015
13 / 47
Tendenza centrale
Media
Tendenza centrale: Media [aritmetica]
Esercizio
1 M(1,2,3,4,5)
1
Soluzione
1 (1+2+3+4+5)/5=15/5=3
2
M(3,4,5,6,7)
2
(3+4+5+6+7)/5=25/5=5
3
M(2,4,6,8,10)
3
(2+4+6+8+10)/5=30/5=6
i numeri da 1 a 5
G. Rossi (Dip. Psicologia)
ElemPsico
2014-2015
13 / 47
Tendenza centrale
Media
Tendenza centrale: Media [aritmetica]
Esercizio
1 M(1,2,3,4,5)
Soluzione
1 (1+2+3+4+5)/5=15/5=3
2
M(3,4,5,6,7)
2
(3+4+5+6+7)/5=25/5=5
3
M(2,4,6,8,10)
3
(2+4+6+8+10)/5=30/5=6
1
i numeri da 1 a 5
2
i numeri della prima serie sommati a 2
G. Rossi (Dip. Psicologia)
ElemPsico
2014-2015
13 / 47
Tendenza centrale
Media
Tendenza centrale: Media [aritmetica]
Esercizio
1 M(1,2,3,4,5)
Soluzione
1 (1+2+3+4+5)/5=15/5=3
2
M(3,4,5,6,7)
2
(3+4+5+6+7)/5=25/5=5
3
M(2,4,6,8,10)
3
(2+4+6+8+10)/5=30/5=6
1
i numeri da 1 a 5
2
i numeri della prima serie sommati a 2
3
i numeri della prima serie moltiplicati per 2
G. Rossi (Dip. Psicologia)
ElemPsico
2014-2015
13 / 47
Tendenza centrale
Media
Tendenza centrale: Media [aritmetica]
Esercizio
1 M(1,2,3,4,5)
Soluzione
1 (1+2+3+4+5)/5=15/5=3
2
M(3,4,5,6,7)
2
(3+4+5+6+7)/5=25/5=5
3
M(2,4,6,8,10)
3
(2+4+6+8+10)/5=30/5=6
1
i numeri da 1 a 5
2
i numeri della prima serie sommati a 2
3
i numeri della prima serie moltiplicati per 2
Proprietà della media 1: Aggiungendo, sottraendo, moltiplicando o
dividendo una costante a tutti i dati della distribuzione, anche la media
subisce la stessa trasformazione
Proprietà della media 2: Gli scarti dalla media sommano a 0
G. Rossi (Dip. Psicologia)
ElemPsico
2014-2015
13 / 47
Tendenza centrale
Media
Spss: media
La media viene visualizzata da Spss in molte procedure. Quelle
specifiche sono:
Analizza | Statistiche descrittive |
Frequenze... (fra le varie statistiche che è possibile stampare
vi è anche la media)
Analizza | Statistiche descrittive |
Descrittive... (è la procedura specifica per le statistiche
descrittive)
Analizza | Statistiche descrittive | Esplora...
(stampa la media come una delle diverse statistiche per capire
l’andamento e la distribuzione di una variabile)
G. Rossi (Dip. Psicologia)
ElemPsico
2014-2015
14 / 47
Tendenza centrale
Media
Spss: Media con Frequenze. . .
Dopo aver scelto le variabili,
click-are su Statistiche... e
selezionare Media
Quindi, click-are su
Continua
Con variabili quantitative conviene
de-selezionare anche
oppure in
Poi
Formato...
OK
G. Rossi (Dip. Psicologia)
ElemPsico
2014-2015
15 / 47
Tendenza centrale
Media
Spss: Media con Descrittive. . .
Dopo aver scelto le variabili,
click-are su
Opzioni...
Normalmente Media è già
selezionato
Potete ordinare i risultati in vari
modi
Poi
OK
G. Rossi (Dip. Psicologia)
ElemPsico
2014-2015
16 / 47
Tendenza centrale
Media
Tendenza centrale: Media con dati dicotomici
Se una variabile è dicotomica (D) ed è stata categorizzata con 0 e
1, la media di D equivale alla proporzione della categoria 1.
Infatti, possiamo pensare a D come la somma di tutti gli 0 e la
somma di tutti gli 1.
P
di
0 · f0 + 1 · f1
D=
=
N
N
Ma la somma degli 0 è 0 e la somma degli 1 è uguale alla
frequenza degli 1.
f1
Quindi la media di una variabile dicotomica è D =
N
L’equivalenza non vale se categorizziamo con numeri diversi da 0
e 1.
G. Rossi (Dip. Psicologia)
ElemPsico
2014-2015
17 / 47
Tendenza centrale
Media
Confronto fra statistiche
Moda (Nominale): è il peggior indice
Mediana (Ordinale): non è per nulla sensibile ai valori estremi
Media (Intervallo/Rapporto):
è il miglior indice di tendenza centrale
ma è molto sensibile ai valori estremi della distribuzione
In una distribuzione simmetrica normale, media, mediana e moda
coincidono
Se la media è minore della mediana la distribuzione è
asimmetrica a sinistra
Se la media è maggiore della mediana, la distribuzione è
asimmetrica a destra
G. Rossi (Dip. Psicologia)
ElemPsico
2014-2015
18 / 47
Misure di posizione
Indici di posizione - Quantili
Dopo aver ordinato i valori di una distribuzione, possiamo
suddividere l’intera distribuzione di frequenza in n parti uguali.
Se divisa in 100 parti, Centili (C1 , C2 . . . , C99 ) o Percentili (P1 ,
P2 . . . )
se divisa in 10 parti, Decili (D1 , D2 . . . , D9 )
se divisa in 4 parti, Quartili (Q1 , Q2 , Q3 )
se divisa in 3 parti, Terzili
Notate che
D1 = P10 , e così via
Q1 = P25 ,
Q2 = P50 = D5 è anche chiamato “Mediana”,
Q3 = P75
G. Rossi (Dip. Psicologia)
ElemPsico
2014-2015
19 / 47
Misure di posizione
Quartili
I quartili suddividono la distribuzione in 4 parti uguali
Q1
Q2
Q3
Si usano solitamente il primo e il terzo quartile (Q1 e Q3)
Q1 ha sotto di sé il 25% dei dati
25%
Q2 ha sotto di sé il 50% dei dati
50%
Q3 ha sotto di sé il 75% dei dati
75%
G. Rossi (Dip. Psicologia)
ElemPsico
75%
50%
25%
2014-2015
20 / 47
Misure di posizione
Quartili: formule
La posizione in cui cadono i quartili si trova con:
Q1 =
Q2 =
Q3 =
1
(N + 1)
(N + 1) =
4
4
2
2(N + 1)
N +1
(N + 1) =
=
4
4
2
3
3(N + 1)
(N + 1) =
4
4
Se la posizione trovata non è un intero, si tronca (ovvero si usa
l’intero inferiore)
Una volta trovata la posizione si identifica il valore del quartile (il
valore che corrisponde alla posizione)
G. Rossi (Dip. Psicologia)
ElemPsico
2014-2015
21 / 47
Misure di posizione
Quartili
Esempio
2 4 6 8 10 12 14 16 18 21 22 24 26 28 30
Q1 = (1/4)*(15+1)=16/4=4 ⇒ Q1=8
Q2 = (15+1)/2 = 8 ⇒ Q2=16
Q3 = (3/4)*(15+1)=48/4=12 ⇒ Q3=24
Esercizio
2 4 5 9 10 12
1
Q1 = ?
2
Q2 = ?
3
Q3 = ?
G. Rossi (Dip. Psicologia)
ElemPsico
2014-2015
22 / 47
Misure di posizione
Quartili
Esempio
2 4 6 8 10 12 14 16 18 21 22 24 26 28 30
Q1 = (1/4)*(15+1)=16/4=4 ⇒ Q1=8
Q2 = (15+1)/2 = 8 ⇒ Q2=16
Q3 = (3/4)*(15+1)=48/4=12 ⇒ Q3=24
Esercizio
2 4 5 9 10 12
Soluzione
2 4 5 9 10 12
1
Q1 = ?
1
N=6; pos=1.75; Q1=2
2
Q2 = ?
2
N=6; pos=3.5; Q2=5
3
Q3 = ?
3
N=6; pos=5.25; Q3=10
G. Rossi (Dip. Psicologia)
ElemPsico
2014-2015
22 / 47
Misure di posizione
Spss: n-tili (Frequenze)
In Statistiche...
Quartili calcola i quartili
Punti di divisione divide in
n parti uguali
Percentili: scrivete il
percentile che volete e
aggiungete
Qui abbiamo chiesto: i quartili, i
terzili e il 45esimo percentile
G. Rossi (Dip. Psicologia)
ElemPsico
2014-2015
23 / 47
Misure di posizione
Spss: Esplora. . .
Dopo aver scelto le variabili, metterle in Variabili
dipendenti
poi
click-are su
Statistiche...
e
scegliere Percentili
Quindi, click-are su
Continua
Poi
OK
G. Rossi (Dip. Psicologia)
ElemPsico
2014-2015
24 / 47
Misure di posizione
Spss: Esplora. . .
Esplora non permette di scegliere, ma fornisce alcuni n-tili notevoli
I tre quartili e i valori corrispondenti al 5% e 10% su entrambi i lati.
Questi valori hanno particolarmente senso con variabili “normali”
(capiremo più avanti).
G. Rossi (Dip. Psicologia)
ElemPsico
2014-2015
25 / 47
Misure di variabilità
Misure di variabilità
Gli indici di variabilità ci dicono quanto i valori sono dipersi attorno alla
tendenza centrale.
Esempio
valori
77654443
10 10 9 7 5 4 3 2 0 0
P
X/N = M
40/8=5
50/10=5
A livello di scala intervallo/rapporto ci sono diversi indici di variabilità:
Campo di variazione o gamma (di oscillazione) o range
Differenza interquartilica (IQR)
Deviazione media o scostamento semplice medio
Varianza e deviazione standard
G. Rossi (Dip. Psicologia)
ElemPsico
2014-2015
26 / 47
Misure di variabilità
Misure di variabilità: campo di variazione
Il campo di variazione o gamma (di oscillazione) o range o
intervallo (per SPSS) è la differenza fra il valore massimo e quello
minimo
gamma = max − min
Esempio
valori
77654443
10 10 9 7 5 4 3 2 0 0
G. Rossi (Dip. Psicologia)
campo var.
7-3=4
10-0=10
ElemPsico
2014-2015
27 / 47
Misure di variabilità
Misure di variabilità: differenza interquartilica
La differenza interquartilica (DI, IQR) è la differenza fra il terzo e il
primo quartile
IQR = Q3 − Q1
e corrisponde al 50% centrale dei valori centrali della distribuzione
Esempio
valori
77654443
10 10 9 7 5 4 3 2 0 0
Q3-Q1
6-4
7-0
IQR
2
7
La semi-differenza interquartilica è la metà dell’IQR e corrisponde
al 25% dei valori sopra o sotto la mediana
G. Rossi (Dip. Psicologia)
ElemPsico
2014-2015
28 / 47
Misure di variabilità
Misure di variabilità
Gli scarti dalla media potrebbero essere una misura di variabilità,
sennonché abbiamo visto che
la somma degli scarti dalla media è sempre pari a 0 (zero)
Alcune soluzioni sono:
Deviazione media (DM) o scostamento semplice medio (SSM):
considerare gli scarti senza il segno (in valore assoluto) e fare la
loro media
PN
|Xi − X|
DM = i=1
N
Varianza (var): elevare gli scarti a quadrato e fare la loro media
PN
var =
G. Rossi (Dip. Psicologia)
i=1 (Xi
ElemPsico
− X)2
N
2014-2015
29 / 47
Misure di variabilità
Misure di variabilità
La scelta generale è caduta sulla varianza, perché minimizza le
piccole differenze e massimizza le grandi differenze
Però la varianza è un quadrato (un’area) e quindi si introduce
anche una versione lineare (che è una distanza), lo scarto
quadratico medio.
Lo scarto quadratico medio (sqm) o deviazione standard (ds) è la
radice quadrata della varianza
s
P
√
(Xi − X)2
ds = var =
N
G. Rossi (Dip. Psicologia)
ElemPsico
2014-2015
30 / 47
Misure di variabilità
Misure di variabilità
Esempio
Var(1,2,3,4,5) =
[(1 − 3)2 + (2 − 3)2 + (3 − 3)2 + (4 − 3)2 + (5 − 3)2 ]
=
5
4+1+0+1+4
[(−2)2 + (−1)2 + (0)2 + (1)2 + (2)2 ]
=
=
5
5
10
=2
5
√
DS(1,2,3,4,5)= 2 = 1.41
G. Rossi (Dip. Psicologia)
ElemPsico
2014-2015
31 / 47
Misure di variabilità
Misure di variabilità
la varianza finora vista è calcolata sul campione
PN
var =
i=1 (Xi
− X)2
N
possiamo però usare il campione per stimare la varianza della
popolazione, in tal caso la formula diventa:
PN
varstimata =
G. Rossi (Dip. Psicologia)
ElemPsico
− X)2
N −1
i=1 (Xi
2014-2015
32 / 47
Misure di variabilità
Misure di variabilità: formula alternativa
Calcolare gli scarti dalla media, nella maggior parte dei casi, produce
valori decimali che possono generare imprecisioni nei calcoli. Esiste
quindi una formula alternativa da usare con i dati grezzi:
Somma
Media
X
2
2
3
3
4
14
2,8
X −M
-0,8
-0,8
0,2
0,2
1,2
(X − M )2
0,64
0,64
0,04
0,04
1,44
2,8
0,56
X2
4
4
9
9
16
42
8,4
V ar =
42
− 2.82
5
= 8.4 − 7.84 =
=
= 0.56
P 2
X
2
=
−X
N
La varianza è quindi uguale a. . . la media dei quadrati meno il
quadrato della media
G. Rossi (Dip. Psicologia)
ElemPsico
2014-2015
33 / 47
Misure di variabilità
Misure di variabilità: formula alternativa
X2
2
−X =
N
P
var =
P
X2
P
(X)2
−
N
N
Con N − 1 la formula non è così semplice, ma bisogna “aggiustarla”
P
P 2
(X)2
P 2
P 2
X
−
X
X
N
2
2
N
−X =
−X =
var stimata =
N −1 N
N
N −1
G. Rossi (Dip. Psicologia)
ElemPsico
2014-2015
34 / 47
Misure di variabilità
Proprietà della varianza (e dev. st)
Esercizio
1 var(1,2,3,4,5)
Soluzione
1
5/4 ∗ (55/5 − 32 ) = 2.5, s = 1.58
2
var(3,4,5,6,7)
2
5/4 ∗ (135/5 − 52 ) = 2.5, s = 1.58
3
var(2,4,6,8,10)
3
5/4 ∗ (220/5 − 62 ) = 10, s = 3.16
G. Rossi (Dip. Psicologia)
ElemPsico
2014-2015
35 / 47
Misure di variabilità
Proprietà della varianza (e dev. st)
Esercizio
1 var(1,2,3,4,5)
Soluzione
1
5/4 ∗ (55/5 − 32 ) = 2.5, s = 1.58
2
var(3,4,5,6,7)
2
5/4 ∗ (135/5 − 52 ) = 2.5, s = 1.58
3
var(2,4,6,8,10)
3
5/4 ∗ (220/5 − 62 ) = 10, s = 3.16
1
i numeri da 1 a 5
2
i numeri della prima serie sommati a 2
3
i numeri della prima serie moltiplicati per 2
Proprietà della var 1: Aggiungendo, sottraendo, una costante a tutti i
dati della distribuzione, la varianza non subisce trasformazioni
Proprietà della var 2: Moltiplicando o dividendo per una costante, la
varianza cambia ma la dev. st. subisce la stessa trasformazione
G. Rossi (Dip. Psicologia)
ElemPsico
2014-2015
35 / 47
Misure di variabilità
Spss: Variabilità
Anche varianza e dev. st. sono visualizzate da Spss (sempre N-1) in
molte procedure. Quelle specifiche sono:
Analizza | Statistiche descrittive |
Frequenze... (fra le varie statistiche vi è anche quelle di
variabilità)
Analizza | Statistiche descrittive |
Descrittive... (è la procedura specifica per le statistiche
descrittive)
Analizza | Statistiche descrittive | Esplora...
(stampa le misure di variabilità come parte delle diverse statistiche
per capire l’andamento e la distribuzione di una variabile)
G. Rossi (Dip. Psicologia)
ElemPsico
2014-2015
36 / 47
Misure di variabilità
Spss: Variabilità con Frequenze. . .
Dopo aver scelto le variabili, click-are su
selezionare quelle che servono
Quindi, click-are su
Statistiche...
e
Continua
Con variabili quantitative conviene selezionare anche
oppure in
Poi
Formato...
OK
G. Rossi (Dip. Psicologia)
ElemPsico
2014-2015
37 / 47
Misure di variabilità
Spss: Variabilità con Descrittive. . .
Dopo aver scelto le variabili, click-are su
Poi
Continua
G. Rossi (Dip. Psicologia)
e
Opzioni...
OK
ElemPsico
2014-2015
38 / 47
Misure di variabilità
Confronto fra statistiche
Campo di variazione (Intervallo/Rapporto): è l’indice più
grossolano
Differenza interquartilica (Intervallo/Rapporto): poco usato in
psicologia
Semi-differenza interquartilica (Intervallo/Rapporto): pochissimo
usato in psicologia
Deviazione media (Intervallo/Rapporto): per nulla usato
Varianza, Deviazione standard (Intervallo/Rapporto): i più usati
G. Rossi (Dip. Psicologia)
ElemPsico
2014-2015
39 / 47
Valori anomali (Outlier)
Valori anomali
Alcuni indici non sono influenzati dai valori estremi (Mediana)
Altri sono influenzati (Media, Varianza)
C’è la necessità (non sempre) di identificare questi valori estremi,
chiamati valori anomali o outlier
La rappresentazione grafica (istogrammi) può aiutare, ma dipende
molto dall’abilità di chi guarda il grafico
Un indice che viene usato è basato su (IQR) ∗ 1.5
Anche un grafico è basato su (IQR) ∗ 1.5
variabile A ordinata: 22 22 24 24 24 24 24 27 27 27 27 30 30 31 31 32 33 33
33 33 34 35 35 36 36 36 37 39 39 41 42 42 42 44 45 45 45 46 46 54 54
Mediana=34 Q1 =27 Q3 =42 IGR=(42-27)=15 IGR∗1.5=(4.5; 64.5)
Siccome minimo e massimo sono più ampi dei limiti di outlier, questa
variabile non ha anomali
G. Rossi (Dip. Psicologia)
ElemPsico
2014-2015
40 / 47
Valori anomali (Outlier)
Diagramma a scatola e baffi
max
45
50
55
Tukey's Boxplot
35
40
Q3
Mdn
30
Il diagramma a scatola e baffi
(box-and-whiskers) è stato
ideato da Tukey nell’ambito
della EDA (Exploratory data
analysis). È più spesso
chiamato “box-plot”
25
Q1
La scatola è formata dai valori
corrispondenti al primo e al
terzo quartile
min
La linea spessa dentro la scatola corrisponde alla mediana
I baffi rappresentano cose diverse in base ai software: come
primo approccio useremo i valori minimo e massimo
G. Rossi (Dip. Psicologia)
ElemPsico
2014-2015
41 / 47
Valori anomali (Outlier)
Grafico a scatola [Box-plot] (I/R)
max
45
50
55
Tukey's Boxplot
Mdn
30
35
40
Q3
N=41; min=22;
Q1(10)=27;
Mdn(21)=34;
Q3(31)=42; max=54
25
Q1
variabile A ordinata: 22
22 24 24 24 24 24 27
27 27 27 30 30 31 31
32 33 33 33 33 34 35
35 36 36 36 37 39 39
41 42 42 42 44 45 45
45 46 46 54 54
min
G. Rossi (Dip. Psicologia)
ElemPsico
2014-2015
42 / 47
Valori anomali (Outlier)
Grafico a scatola
In realtà i box-plot di SPSS ed R non visualizzano i valori minimo
e massimo
Al loro posto viene usata la semi-differenza interquartilica
moltiplicata per 1,5; in una distribuzione normale, questo valore è
quasi sempre oltre il massimo e oltre il minimo (quindi si
visualizzano max e min)
inoltre visualizzano i singoli valori anomali (i valori oltre i baffi),
evidenziando quindi le code asimmetriche
L’utilità dei box-plot è più evidente se si incrociano con una
variabile categoriale, perché si possono fare confronti sulle
distribuzioni dei sotto-campioni
G. Rossi (Dip. Psicologia)
ElemPsico
2014-2015
43 / 47
Valori anomali (Outlier)
variabile Gross ordinata: 172
173 173 174 175 176 176 177
177 178 180 180 181 181 181
181 183 183 183 184 184 184
185 188 190 191 192 194 197
199 199 202 202 205 206 207
211 213 215 216 217 218 219
226 228 229 233 234 235 239
241 242 242 246 250 251 256
257 260 260 262 268 286 290
294 306 309 311 313 318 329
330 339 357 404 431 435 461
601
IQR: (260 − 184) ∗ 1.5 = 114
baffi: 70 e 374
●
●
●
300
400
●
●
200
Vendita biglietti cinema
500
600
Grafico a scatola (I/R)
G. Rossi (Dip. Psicologia)
ElemPsico
2014-2015
44 / 47
Valori anomali (Outlier)
Grafico a scatola (I/R) suddiviso (N/O)
Per ogni valore della
variabile di
raggruppamento, viene
prodotto un box-plot
●
150
●
●
●
In questo modo si
possono vedere le
differenze di
distribuzione
100
50
Fondamentalismo
●
●
●
CrNPr
CrPr
NCrNPr
NCrPr
Credente
G. Rossi (Dip. Psicologia)
ElemPsico
2014-2015
45 / 47
Valori anomali (Outlier)
Spss: Box-plot (Esplora)
Spss produce i box-plot tramite Analizza | Statistiche
descrittive | Esplora... e dal pulsante Grafici...
assicuratevi di aver attivato una delle prime due opzioni di Grafici a
scatola
Se avete selezionato più
variabili, “Un grafico ogni
dipendente” produce
grafici separati
”Dipendenti insieme”
produce un unico grafico
G. Rossi (Dip. Psicologia)
ElemPsico
2014-2015
46 / 47
Valori anomali (Outlier)
Spss: Box-plot
Esempio di box-plot di Spss
G. Rossi (Dip. Psicologia)
ElemPsico
2014-2015
47 / 47