Variabili cardinali
DISTRIBUZIONI DI DATI CON VARIABILI CARDINALI
Le variabili cardinali si ottengono attraverso:

la trasformazione (operata dalla definizione operativa) di proprietà continue
Es. altezza

il conteggio di proprietà enumerabili
Es. numero di figli

lo scaling da proprietà continue non misurabili per assenza di unità di analisi
Es. autoritarismo.
LE SINGOLE CATEGORIE DELLE VARIABILI CARDINALI NON HANNO ALCUNA AUTONOMIA SEMANTICA
Diviene, quindi rilevante, l’andamento globale dell’intera distribuzione.
E’ comunque possibile ottenere una distribuzione con un numero molto alto di modalità.
Prof.ssa Amalia Caputo
1
Variabili cardinali
VALORI CARATTERISTICI
I valori caratteristici delle distribuzioni di dati con variabili cardinali devono tener conto:
 delle frequenze di tutte le modalità della distribuzione;
 del valore “cardinale” delle etichette
Per questo motivo si fa ricorso a :
a.
Valori di tendenza centrale
b.
Valori di dispersione
c.
Valori sintetici
Prof.ssa Amalia Caputo
2
Variabili cardinali
a)
VALORI DI TENDENZA CENTRALE
Xi

X
1.
Media
2.
Moda
Mo = caso con la frequenza più alta
3.
Mediana
Md = caso che lascia davanti e dietro di se il 50% dei casi
4.
Quartili/decili/percentili…
5.
Midrange
mediana
mediana
N
(valore minimo + valore massimo)/2
<
>
midrange
midrange
Prof.ssa Amalia Caputo
asimmetria positiva
asimmetria negativa
3
Variabili cardinali
LA MEDIA PONDERATA
Se i dati sono organizzati in una distribuzione di frequenza oppure sono raggruppati in classe le frequenze
rappresentano i “pesi” di ciascun valore Xi, quindi per individuare la media è necessario ponderare (pesare) le
Xi associate a ciascuna frequenza.
In questi casi si parla di media ponderata:
x
__
x ifi
 fi
n = numero dei valori distinti di Xi
fi = frequenza (peso) di ciascun valore Xi
Se i dati sono raggruppati in classe, prima di calcolare la media è necessario individuare xi che corrisponde al
valore medio (ossia la media dei due valori estremi) di ciascuna classe.
Esempio 1
Voti
(Xi)
18
25
26
28
29
30
∑fi
Frequenze
(fi)
4
11
8
3
6
8
40
Voti riportati da 40 studenti all’esame di Tecniche di ricerca
Calcoliamo la media ponderata:
18 * 4  (25 *11)  (26 * 8)  (28 * 3)  (29 * 6)  (30 * 8)
= 26,32
40
Esempio 2
val. centrale
di classe
Voti
(Xi)
Fr.
(fi)
60-69
1
(60+69)/2
= 64,5
70-79
10
(70+79)/2
= 74,5
80-89
15
(80+89)/2
= 84,5
90-100
12
(90+100)/2
= 95
∑fi
38
Voti riportati all’esame di maturità da.. studenti ripartiti
in classi
Calcoliamo la media ponderata:
(64,5 *1)  (74,5 *10)  (84,5 *15)  (95 *12)
 84,7
38
Prof.ssa Amalia Caputo
4
Variabili cardinali
b) VALORI DI DISPERSIONE
Concetto di dispersione
La dispersione indica di quanto i valori di una variabile differiscono dai valori di un'altra. Se ogni
valore della variabile fosse uguale all'altro, la dispersione sarebbe minima.
Le due distribuzioni rappresentate hanno la stessa media ma dispersioni diverse: la prima è
certamente meno dispersa rispetto alla seconda.
I valori di dispersione rilevano quanto la distribuzione è dispersa dai valori centrali
1. Scarto
 xi2
Xi  X
2. Scarto Medio Assoluto (SSM)
 xi
N
3. Campo di variazione (Range)
Valore massimo – Valore minimo
4. Intervallo di variazione
val. min  val. max
I quartile  III quartile
5. Scarto interquartile (Galton)
6. Differenze medie assolute
7. Differenza semplice media
2
 ai  ah2
n( n  1)
i=I caso h=II caso
 ai  ah
n(n  1)
Prof.ssa Amalia Caputo
5
Variabili cardinali
b)
VALORI SINTETICI (SOMMA)
Sono tutti i valori che si basano sulla media e, più precisamente, sul quadrato degli scarti dalla
media
 xi2 .
Un valore per essere sintetico deve:
1.considerare tutte le informazioni della distribuzione
2.essere applicabile a tutte le distribuzioni
3.essere semplice da calcolare
4.non risentire della “particolarità” dei valori della distribuzione
5.non risentire delle possibili trasformazioni della distribuzione
6.variare tra -1 e +1.
(Galtung J., 1967, Theory and Methods of Social Resaearch, Allen and Unwin, London.
I valori sintetici sono Quattro:
1.devianza
2.varianza
3.scarto tipo
4.coefficiente di variazione
Prof.ssa Amalia Caputo
6
Variabili cardinali
1.
Devianza
dev   xi2 xi  Xi  X 
 E’ influenzato dal N dei casi, all’aumentare di N la dispersione diminuisce
 Si utilizza per confrontare due distribuzioni con un N simile
 E’ una grandezza quadratica solo idealmente, in realtà è una sovrapposizione di quadrati
 E’ espressa in valori assoluti
Esempio:
X 7
Casi
a
b
c
Totale
2.
Xi
6
12
3
21
Xi  X
xi 2
-1
5
-4
0
1
25
16
42
Varianza
s2 
2
xi

N
 Si utilizza per confrontare distribuzioni con un N significativamente diverso;
 E’ una grandezza quadratica, idealmente è un quadrato ottenuto dalla media di tutti i quadrati degli
scarti
 E’ espresso in valori assoluti
3.
Scarto tipo (scarto quadratico medio, deviazione standard)
Prof.ssa Amalia Caputo
7
Variabili cardinali
s

2
xi

N
 Si utilizza per confrontare due differenti distruzioni aventi media uguale
 E’ espresso in valori assoluti
 E’ una grandezza lineare (graficamente è una linea).
4.
Coefficiente di variazione
V  s/ X
Si utilizza per confrontare due distribuzioni con medie molto differenti.
Prof.ssa Amalia Caputo
8
Variabili cardinali
ESEMPIO: ANALISI MONOVARIATA DELLA VARIABILE CARDINALE “REDDITO” A PARTIRE DAI SINGOLI
CASI
Xi
xi  Xi  X 
A
€ 1.000
-€ 1.364
€ 1.861.276
B
€ 1.800
-€ 564
€ 318.418
C
€ 2.000
-€ 364
€ 132.704
D
€ 2.100
-€ 264
€ 69.847
E
€ 2.300
-€ 64
€ 4.133
F
€ 2.350
-€ 14
€ 204
G
€ 5.000
€ 2.636
€ 6.946.990
€ 16.550
€0
€ 9.333.571
Caso
∑
xi 2
N=7
Moda
Valore più alto
Mediana
(N+1)/2
=
(7 +1) / 2 = 4° pos.
= € 2.100
Midrange
(val. max + val. min)/2
val. max - val. min
=
(5000 + 1000)/2
= € 3.000
=
5000 -1000
= € 4.000
=
16550 / 7
= € 2.364
Range o campo di variazione
Media
Mediana < Midrange
 xi / N
2000 < 3000
Asimmetria positiva
 xi2
Devianza
Varianza
= € 5.000
s 2   xi 2
= 9333571 / 7
=
€ 9.333.571
=
€ 1.333.367
=
€ 1.155
N
Scarto tipo o deviazione standard
s

 xi 2
=
s  133367
N
Coefficiente di variazione
V  s/ X
=
Prof.ssa Amalia Caputo
1333367/ 2364
= 0,488
9
Variabili cardinali
VALORI SINTETICI PER DATI RAGGRUPPATI
Quando la variabile è cardinale ed il numero dei casi è molto elevato, al fine di rappresentare più
agevolmente la distribuzione, è consigliabile raggruppare i dati in classi.
Valore centrale della classe = (val. max +val. min)/2
Moda
Mediana
=
Classe con la frequenza più alta
=
fi dispari = ( fi +1)/2
N pari = ( f i +1)/2 e f i /2
n
Media
X
 Xi f i
i 1
 fi
n
Devianza
dev =
 x 2i f i
i 1
n
s2 =
Varianza
 x 2ifi
i 1
 fi
n
 x 2i f i
s
Scarto tipo
i 1
=

fi
n
 x 2if i
i 1
Coefficiente di variazione
V=

fi
___
X
Prof.ssa Amalia Caputo
10
Variabili cardinali
ESEMPIO DI ANALISI MONOVARIATA DELLA VARIABILE CARDINALE “REDDITO” A PARTIRE DALLE
FREQUENZE
xi
fi
fi cum
x i fi
170 €
185 €
200 €
205 €
∑
1
1
1
2
5
1
2
3
5
170
185
200
410
965
__


 xi  x 


__ 

 xi  x 




-23
-8
7
12
529
64
49
144
2
2
__ 

 x i  x  fi




529
64
49
288
930
Midrange
(205 + 170)/2
=
193€
Range
(205 - 170)
=
35€
=
205€
(5 +1)/2
=
200 €
965
5
=
193€
=
930€
=
186€
=
13,64€
Moda
Mediana
fi dispari = ( fi +1)/2
n
Media
Devianza
X
X if i
=
i 1
 fi
dev. =
n
 x 2i f i
i 1
Varianza
s 2 = dev
Scarto tipo
s
Coeff. di variazione
V=
 fi
s2
=
s
___
=
930
5
=
186
=
13,64
193
X
Prof.ssa Amalia Caputo
=
0,07
11
Variabili cardinali
RAPPRESENTAZIONI GRAFICHE
1.CURVA DI FREQUENZA
Si ricorre alla curva di frequenza
quando il numero dei valori è elevato;
sull'ascissa si collocano i valori delle
modalità e in ordinata il numero dei dati
che hanno quel valore corrispondente in
ascissa. La curva che si ottiene non è né
una linea né una curva continua, ma una
serie di segmenti allineati che collegano
una serie di punti discontinui, ognuno
dei quali rappresenta un valore.
Infatti:

i casi non sono infiniti

i valori della variabile non sono
infiniti
La curva è un insieme di punti limitato e
finito.
2. ISTOGRAMMA
Si ricorre all’istogramma quando il
numero dei valori è limitato e derivano
da aggregazioni di stati contigui
effettuate mediante operazione operativa
o operate successivamente.
- Se le classi hanno uguale ampiezza, le
basi dei rettangoli devono essere uguali;
- Se le classi hanno ampiezze differenti,
le basi devono rispettare tale differenza.
Prof.ssa Amalia Caputo
12
Variabili cardinali
6
4
2
1
2
3
4
0
1
2
3
4
0.15
0.30
0
Si ricorre al diagramma a bastoncini quando i
valori sono in numero limitato e corrispondono a
stati discreti ed enumerabili oppure se sono
raggruppati in classi.
Dato un sistema di assi cartesiani, sull’ascissa
viene indicato il valore (oppure il valore centrale
delle classi) e su questi punti vengono disegnate
delle linee verticali la cui altezza rappresenta la
frequenza assoluta o quella relativa.
0.00
frequenza relativa
0
frequenza assoluta
3. DIAGRAMMA A BASTONCINI
4. POLIGONO DI FREQUENZA
Si ricorre al poligono di frequenza (detto anche
spezzata di frequenza o diagramma a
congiungenti) quando i valori sono in numero
elevato.
Si costruisce come un diagramma a barre, si
segnano poi sull’ascissa i valori rispettando la loro
natura cardinale ovvero facendo sì che le distanze
fra i punti siano proporzionali alle distanze tra le
relative cifre. Si congiungono, infine, i punti in
ordinata corrispondenti alle frequenze di ciascun
valore in ascissa con dei segmenti.
5. GRAFICO AD ALBERELLO
Il grafico ad alberelli - ideata da Alberto
Marradi – è l’evoluzione del grafico a barre;
questa rappresentazione grafica sintetizza
l’informazione fornita dal coefficiente di
variazione (V) ovvero la dispersione di una
distribuzione normalizzata (rappresentata dallo
scarto-tipo, il raggio della chioma), rapportata
alla media della variabile (il fusto dell’alberello).
_
Fig. A:
x s

VA  1

VB  1
_
Fig. B:
Prof.ssa Amalia Caputo
xs
13
Variabili cardinali
Prof.ssa Amalia Caputo
14