2.1 Statistica descrittiva (Richiami) Prima Parte

Distribuzioni di frequenza
Indici di tendenza centrale
Indici di posizione
Corso di Psicometria Progredito
2.1 Statistica descrittiva (Richiami)
Prima Parte
Gianmarco Altoè
Dipartimento di Pedagogia, Psicologia e Filosofia
Università di Cagliari, Anno Accademico 2013 - 2014
Indici di variabilità
Distribuzioni di frequenza
Indici di tendenza centrale
Sommario
1
Distribuzioni di frequenza
2
Indici di tendenza centrale
3
Indici di posizione
4
Indici di variabilità
Indici di posizione
Indici di variabilità
Distribuzioni di frequenza
Indici di tendenza centrale
Indici di posizione
Indici di variabilità
L’importanza della statistica descrittiva!
La statistica descrittiva serve a
scattare una prima fotografia ai
dati raccolti.
E’ utile per controllare,
descrivere ed esplorare i dati.
Serve a riassumere i dati
attraverso indici statistici,
tabelle e grafici.
Non esiste una buona analisi
statistica, senza una buona
analisi descrittiva.
Tukey, 1977. Exploratory Data Analysis
Distribuzioni di frequenza
Indici di tendenza centrale
Indici di posizione
Indici di variabilità
Il corso preparto
Si supponga di aver chiesto a
un gruppo di mamme che
partecipano ad un corso
pre-parto il numero di figli già
avuti
I dati raccolti sono presentati
nella seguente tabella
Codice mamma
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
Numero di figli
0
0
1
0
2
0
1
3
0
1
2
2
1
3
2
0
Distribuzioni di frequenza
Indici di tendenza centrale
Indici di posizione
Indici di variabilità
Alcune domande
Qual è l’unità statistica di riferimento?
Quante sono le unità statistiche rilevate?
Qual è la variabile rilevata?
Quali e quante sono le modalità della variabile rilevata?
Distribuzioni di frequenza
Indici di tendenza centrale
Indici di posizione
Notazioni fondamentali
Sia X la variabile numero di figli.
Sia Xj la modalità j − esi ma di X,
dove j = 1 . . . 4.
Sia n il totale delle unità statistiche (n = 16).
Indici di variabilità
Distribuzioni di frequenza
Indici di tendenza centrale
Indici di posizione
Indici di variabilità
Le frequenze assolute semplici
La frequenza assoluta semplice di una modalità è il numero
naturale di unità statistiche che presentano tale modalità
La generica frequenza assoluta semplice associata alla
modalità j si indica con il simbolo fj
Ad esempio nel nostro caso, f2 = 4, indica che 4 mamme
hanno già avuto un figlio
Distribuzioni di frequenza
Indici di tendenza centrale
Indici di posizione
Indici di variabilità
Le frequenze assolute cumulate
La frequenza assoluta cumulata di una modalità è la somma
delle frequenze assolute semplici delle modalità precedenti
alla modalità data più la frequenza assoluta semplice della
modalità data.
La generica frequenza assoluta cumulata associata alla
modalità j si indica con il simbolo Fj
Ad esempio, F2 = 10, indica che 10 mamme hanno avuto un
numero di figli uguale o inferiore a 1
Distribuzioni di frequenza
Indici di tendenza centrale
Indici di posizione
Indici di variabilità
Le frequenze relative semplici
La frequenza relativa semplice è data dal rapporto tra la
frequenza assoluta semplice di tale modalità e il numero
totale di unità statistiche osservate.
La generica frequenza relativa semplice associata alla
modalità j si indica con il simbolo pj
Ad esempio, p2 = .25, indica che il 25% delle mamme ha
avuto un figlio
NB. Una frequenza relativa semplice varia sempre tra 0 e 1
Distribuzioni di frequenza
Indici di tendenza centrale
Indici di posizione
Indici di variabilità
Le frequenze relative cumulate
La frequenza relativa cumulata di una modalità è la somma
delle frequenze relative semplice delle modalità precedenti
alla modalità data più la frequenza relativa semplice della
modalità data.
La generica frequenza relativa cumulata associata alla
modalità j si indica con il simbolo Pj
Ad esempio, P2 = .625, indica che il 62.5% delle mamme ha
avuto un numero di figli uguale o inferiore a 1
NB. Una frequenza relativa cumulata varia sempre tra 0 e 1
Distribuzioni di frequenza
Indici di tendenza centrale
Indici di posizione
Indici di variabilità
Aspetti computazionali
Supponiamo di aver rilevato su n unità statistiche la variabile X
avente k modalità: X1 , X2 . . . , Xk
Per la generica modalità j, dove j = 1, 2, . . . k avremo:
Frequenza assoluta semplice j
fj = numero di unità statistiche con modalità j
Frequenza assoluta cumulata j
Fj =
X
fi
i ≤j
Frequenza relativa semplice j
pj =
fj
n
Frequenza relativa cumulata j
Pj =
X
i ≤j
pi
Distribuzioni di frequenza
Indici di tendenza centrale
Indici di posizione
Indici di variabilità
Aspetti computazionali
Da quanto detto segue che ...
1
La frequenza assoluta cumulata riferita all’ultima modalità è
pari al numero totale delle unità statistiche:
Fk = n
2
La frequenza relativa cumulata riferita all’ultima modalità è
pari 1:
Pk = 1
ESERCIZIO
Dimostrare queste due semplici proprietà.
Distribuzioni di frequenza
Indici di tendenza centrale
Indici di posizione
Esempio: Il corso pre parto
Indice j
1
2
3
4
Xj
0
1
2
più di 2
fj
6
4
4
2
Fj
6
10
14
16
pj
.375
.250
.250
.125
Pj
.375
.625
.875
1
Distribuzione del numero di figli (X) per mamma
ESERCIZIO
Comprendere, interpretare e descrivere i risultati ottenuti.
Indici di variabilità
Distribuzioni di frequenza
Indici di tendenza centrale
Indici di posizione
Indici di variabilità
Esercizio: Un Maestro di clarinetto
Un maestro di clarinetto dopo
aver ascoltato le performance
dei suoi studenti, decide di
riassumere le sue valutazioni in
maniera sintetica.
Il prospetto creato dal Maestro
è presentato nella seguente
tabella
Valutazione
insufficiente
sufficiente
discreto
buono
ottimo
Numero di studenti
0
8
6
4
2
Individuare le unità statistiche e la variabile misurata.
Costruire una tabella riassuntiva contenente le frequenza assolute
semplici e cumulate e le frequenze relative semplici e cumulate.
Commentare i risultati.
Distribuzioni di frequenza
Indici di tendenza centrale
Indici di posizione
Introduzione agli indici di tendenza centrale
Un indice di tendenza centrale
è un valore che descrive e riassume
il centro di una distribuzione di dati.
Indici di variabilità
Distribuzioni di frequenza
Indici di tendenza centrale
Indici di posizione
Indici di variabilità
La Moda
La moda di una distribuzione di dati rilevati sulla variabile X,
è la modalità che si presenta con la massima frequenza.
Ad esempio, rispetto ai dati relativi al “corso preparto”, la
moda è la modalità 0 (nessun figlio) a cui è associata una
frequenza di 6.
Distribuzioni di frequenza
Indici di tendenza centrale
Indici di posizione
Indici di variabilità
La Mediana (o “il dato di mezzo”)
La mediana di una distribuzione di dati ordinati rilevati sulla
variabile X, è il dato che occupa la posizione centrale rispetto
alla distribuzione dei dati.
La mediana si indica con il simbolo Mdn.
Il calcolo della mediana differisce a seconda se i dati sono o
non sono raggruppati in classi di frequenza.
Distribuzioni di frequenza
Indici di tendenza centrale
Indici di posizione
Indici di variabilità
Calcolo della mediana per dati non raggruppati:
caso n dispari
Se n (la numerosità dei dati raccolti) è dispari il valore
centrale della serie ordinata dei dati è la mediana.
La posizione i del dato corrispondente alla mediana è dato
dalla seguente formula:
i=
n+1
2
Distribuzioni di frequenza
Indici di tendenza centrale
Indici di posizione
Indici di variabilità
Calcolo della mediana per dati non raggruppati:
caso n dispari
Esempio Calcolare la mediana dei seguenti dati che
rappresentano il voto di 5 studenti all’esame di archeologia:
voto: 18 ; 28 ; 19 ; 18 ; 22
Ordiniamo i dati: 18 ; 18 ; 19 ; 22 ; 28
Calcoliamo la posizione i del dato corrispondente alla
mediana:
n+1
5+1
i=
=
=3
2
2
Posizione mediana = 3
Mdn = 19
Distribuzioni di frequenza
Indici di tendenza centrale
Indici di posizione
Indici di variabilità
Calcolo della mediana per dati non raggruppati:
caso n pari
Se n è pari non esiste un valore della serie di dati che possa
essere definito centrale.
Si potrà unicamente dire che la mediana è compresa tra i
valori aventi le seguenti posizioni “centrali”
iinf =
n
n
e isup = + 1
2
2
Distribuzioni di frequenza
Indici di tendenza centrale
Indici di posizione
Indici di variabilità
Calcolo della mediana per dati non raggruppati:
caso n dispari
Esempio Calcolare la mediana dei seguenti dati che
rappresentano il voto di 6 studenti all’esame di storia del cinema:
voto: 24 ; 29 ; 30 ; 22 ; 22 ; 26
Ordiniamo i dati: 22 ; 22 ; 24 ; 26 ; 29 ; 30
Calcoliamo le posizioni centrali:
iinf =
6
6
= 3 isup = + 1 = 4
2
2
Concluderemo che la mediana (Mdn) dei dati è compresa tra
24 e 26.
Distribuzioni di frequenza
Indici di tendenza centrale
Indici di posizione
Indici di variabilità
Nota sull’uso dell’interpolazione lineare
Nel caso in cui n è pari e i dati a disposizione oltre che
ordinali sono anche continui è possibile stimare la mediana
attraverso l’interpolazione lineare:
XMdn =
Xiinf + Xisup
2
Con i dati dell’esempio sul voto all’esame di storia del cinema
avremo che:
24 + 26
= 25
XMdn =
2
In conclusione la mediana stimata è 25.
Distribuzioni di frequenza
Indici di tendenza centrale
Indici di posizione
Indici di variabilità
Calcolo della mediana per dati raggruppati in classe
di frequenze
Sei dati sono raggruppati in classi di frequenza ha senso
parlare di classe mediana più che di valore mediano.
Per determinare la classe mediana è necessario calcolare la
posizione mediana:
n+1
i=
2
La classe che contiene il dato avente la posizione mediana,
sarà denominata classe mediana
Anche in questo caso, se i dati oltre che ordinali sono
continui, può essere stimato un valore mediano (la formula,
che non vedremo, si trova in tutti i manuali di statistica di
base).
Distribuzioni di frequenza
Indici di tendenza centrale
Indici di posizione
Indici di variabilità
Calcolo della mediana per dati raggruppati in classe
di frequenze
Esempio
Calcolare la classe mediana dei seguenti dati:
Indice j
Xj
fj
Fj
pj
Pj
1
2
3
4
0
1
2
più di 2
6
4
4
2
6
10
14
16
.375
.250
.250
.125
.375
.625
.875
1
Distribuzione del numero di figli (X) per mamma
Calcoliamo la posizione mediana: i =
16+1
2
= 8.5
La mediana ricade quindi tra l’ottavo e il nono dato ordinato.
Sulla base delle frequenze cumulate si può concludere che la
classe mediana è quella con numero di figli pari a 1.
Distribuzioni di frequenza
Indici di tendenza centrale
Indici di posizione
Indici di variabilità
La Media aritmetica
La media aritmetica di una distribuzione di dati rilevati sulla
variabile X, è il data dalla somma dei dati divisa per il numero di
unità statistiche:
Pn
X=
i =1 Xi
n
Distribuzioni di frequenza
Indici di tendenza centrale
Indici di posizione
Indici di variabilità
La Media aritmetica
Esempio
Calcolare la media dei seguenti dati che rappresentano il voto di 5
studenti all’esame di archeologia:
voto: 18 ; 28 ; 19 ; 18 ; 22
Svolgimento
P5
X=
i=1 Xi
n
=
18 + 28 + 19 + 18 + 22
= 21
5
Distribuzioni di frequenza
Indici di tendenza centrale
Indici di posizione
Indici di variabilità
La Media aritmetica
Esercizio
Calcolare la media dei seguenti dati che rappresentano il voto di 6
studenti all’esame di storia del cinema:
voto: 24 ; 29 ; 30 ; 22 ; 22 ; 26
Distribuzioni di frequenza
Indici di tendenza centrale
Indici di posizione
Indici di variabilità
La Media aritmetica ponderata per dati in classi di
frequenza
Se i dati sono raccolti in classi di frequenza, la media
aritmetica si calcola associando a ciascun dato la frequenza
(“il peso”) con cui si manifesta.
Per questo motivo si usa il termine: media aritmetica
ponderata (“pesata”).
Dal punto di vista computazionale avremo:
Pk
i=1 Xi fi
X= P
k
i fi
dove k è il numero di modalità della variabile X
Distribuzioni di frequenza
Indici di tendenza centrale
Indici di posizione
Indici di variabilità
La Media aritmetica ponderata
Esempio
Sulla base dei dati riportati nella seguente tabella calcolare la
media dei voti ottenuti dai 22 studenti che hanno partecipato
all’ultimo appello di Statistica per l’Ambiente:
Indice i
voto Xi
frequenze fi
1
2
3
20
24
30
11
7
4
Svolgimento
P3
20 × 11 + 24 × 7 + 30 × 4
i=1 Xi fi
X= P
=
= 23.09
3
22
i=1 fi
Distribuzioni di frequenza
Indici di tendenza centrale
Indici di posizione
Indici di variabilità
Alcune proprietà della media
Aggiungendo a ciascun dato originale una costante k si
otterrà una media pari alla somma della media dei dati
originali e la costante k:
P
(Xi + k)
X=
= X dati originali + k
n
Moltiplicando ciascun dato per una costante k si otterrà una
media pari alla moltiplicazione tra la media dei dati originali e
la costante k:
P
(kXi )
X=
= kX dati originali
n
La somma degli scarti tra i dati rilevati e la media è pari a 0:
X
X=
(Xi − X) = 0
Distribuzioni di frequenza
Indici di tendenza centrale
Indici di posizione
Indici di variabilità
Alcune note su moda, mediana e media
Può accadere che data una distribuzione di dati, esista più di
una modalità a cui è associata la massima frequenza. In
questi casi non esiste un’unica Moda, e si parlerà a seconda
del caso di distribuzione bi-modale (con due mode),
tri-modale (con tre mode) ....
La mediana è poco influenzata (al contrario della media) da
valori estremamente grandi o piccoli presenti nella
distribuzione dei dati. Per questo viene detta stimatore
“robusto”
Distribuzioni di frequenza
Indici di tendenza centrale
Indici di posizione
Indici di variabilità
Note su moda, mediana e media: Un esercizio
Costruire un prospetto riepilogativo contenente moda, mediana e
media della distribuzione del peso (espresso in kilogrammi) per
ciascuna delle seguenti squadre di calcetto:
Longobarda: {80, 80, 85, 90, 90}
Equality: {85, 85, 85, 85, 85}
I Cardi: {60, 60, 85, 90, 95}
I Bistecconi: {75, 80, 85, 120, 120}
I Classici: {75 ,80 ,85, 90, 95}
Ragionare sui risultati ottenuti.
Distribuzioni di frequenza
Indici di tendenza centrale
Indici di posizione
Indici di tendenza centrale e scale di misura
Moda
Mediana
Media
Variabile
nominale
SI
NO
NO
Variabile
Ordinale
SI
SI
NO
Variabile
Quantitativa
SI
SI
SI
Applicabilità degli indici a seconda della scala di misura
Indici di variabilità
Distribuzioni di frequenza
Indici di tendenza centrale
Indici di posizione
Indici di variabilità
I quantili
Data una distribuzione di dati, si definisce come Quantile di
indice p e si indica con Qp , il dato al di sotto del quale si
situa una percentuale p di dati.
Ad esempio, la mediana può essere considerata come il
quantile Q50 , e cioè il dato al di sotto del quale si situa il
50% dei dati.
Distribuzioni di frequenza
Indici di tendenza centrale
Indici di posizione
Indici di variabilità
Le Diverse tipologie di quantili
Esistono diverse tipologie di quantili.
Rispetto all’utilizzo nelle applicazioni in psicologia, i più
importanti sono i Quartili e i Percentili.
Distribuzioni di frequenza
Indici di tendenza centrale
Indici di posizione
Indici di variabilità
I quartili
I quartili dividono in 4 parti uguali la distribuzione dei dati. Essi
sono:
Il primo quartile Q25 : il dato al di sotto del quale si situa il
25% dei dati.
Il secondo quartile (o mediana) Q50 : il dato al di sotto del
quale si situa il 50% dei dati.
Il terzo quartile Q75 : il dato al di sotto del quale si situa il
75% dei dati.
I quartili vengono rappresentati all’interno di un grafico molto
utile per descrivere i dati detto diagramma a scatola (boxplot) ...
che vedremo tra poco.
Distribuzioni di frequenza
Indici di tendenza centrale
Indici di posizione
Indici di variabilità
I percentili
I percentili, spesso indicati con la lettera maiuscola P, dividono in
cento parti la distribuzione dei dati.
Alcuni percentili molto importanti, sia dal punto di vista statistico
che rispetto alle applicazioni in psicologia, sono:
P5
P25
P50
P75
P95
Distribuzioni di frequenza
Indici di tendenza centrale
Indici di posizione
Indici di variabilità
Le abilità di calcolo
A 6 bambini di 8 anni è stato somministrato un test
standardizzato a livello nazionale sulle abilità di calcolo.
Il numero di risposte corrette al test è presentato nella seguente
tabella:
Codice Bambino
Punteggio
1
40
2
50
3
30
4
80
5
23
6
42
Valutare le prestazioni dei 6 bambini alla luce dei valori normativi
del test:
Percentile
Punteggio
P5
31
P25
42
P50
51
P75
68
P95
78
Distribuzioni di frequenza
Indici di tendenza centrale
Indici di posizione
Indici di variabilità
I Ranghi percentili
Il Rango percentile indica la posizione di un dato all’interno
di una distribuzione di dati.
Ad esempio, se ci riferiamo alla distribuzione del peso nei
maschi adulti italiani, e sappiamo che il rango percentile
associato al valore 90 kg è pari a 80 ( Rp90 = 80) ...
potremo affermare che l’80% dei maschi adulti italiani pesa
meno di 90 kg.
Naturalmente:
Rp90 = 80
=⇒
P80 = 90
Distribuzioni di frequenza
Indici di tendenza centrale
Indici di posizione
Introduzione agli indici di variabilità
“Variability is the reason why
people have had to develop
sophisticated statistical methods
to filter out any messages
from the surrounding noise.”
(Wild & Pfannkuch, 1999)
Indici di variabilità
Distribuzioni di frequenza
Indici di tendenza centrale
Indici di posizione
Indici di variabilità
A cosa servono gli indici di variabilità
Una distribuzione di dati contiene un insieme di informazioni
complesse e di per se poco maneggevole.
Il ricorso ad un indice di tendenza centrale comporta una
forte semplificazione, e da solo non fornisce informazioni
esaurienti sulla distribuzione.
E’ fondamentale capire quanto i dati siano dispersi
intorno all’indice di tendenza centrale.
Distribuzioni di frequenza
Indici di tendenza centrale
Indici di posizione
Indici di variabilità
Tizio, Caio o Sempronio?
Consideriamo i risultati dei compiti di Psicometria ottenuti dagli
studenti di tre diversi Professori:
Professor Tizio = {18, 22, 24, 16, 19, 22 , 18, 21}
Professor Caio = {10, 10, 12, 10, 30, 28 , 30, 30}
Professor Sempronio = {20, 20, 20, 20, 20, 20 , 20, 20}
In ciascun gruppo di studenti la media dei voti è pari a 20, ma è
evidente una diversa dispersione intorno a tale valore.
Distribuzioni di frequenza
Indici di tendenza centrale
Indici di posizione
Indici di variabilità
Gli indici di variabilità
Gli indici che vedremo servono a misurare la variabilità (o
dispersione) di una distribuzione di dati.
Per questo motivo vengono definiti come indici di variabilità
(o di dispersione).
Gli indici di variabilità possono assumere solo valori positivi
(non ha senso parlare di dispersione negativa) o nulli
(quando i dati osservati hanno tutti lo stesso valore).
Distribuzioni di frequenza
Indici di tendenza centrale
Indici di posizione
Indici di variabilità
La gamma
La gamma (o campo di variazione) di una distribuzione di dati è
la differenza tra il valore massimo e il valore minimo osservato:
gamma = Xmassimo − Xminimo
Esempio
Calcolare la gamma dei seguenti dati che rappresentano i
punteggi ad un test di abilità di 8 soggetti:
{90, 20, 50, 50, 50, 10, 40, 80}
Svolgimento
gamma = Xmassimo − Xminimo = 90 − 10 = 80
Distribuzioni di frequenza
Indici di tendenza centrale
Indici di posizione
Indici di variabilità
La differenza interquartilica
La differenza interquartilica di una distribuzione è la differenza
tra il terzo e il primo quartile (o equivalentemente tra il
75 − esimo e il 25 − esi mo percentile) dei dati:
Q = Q75 − Q25
La differenza interquartilica è un indice di variabilitàrobusto,
risente cioè poco della presenza di valori anomali (outliers)
nei dati.
La differenza interquartilica, viene rappresentata all’interno di
un grafico molto utile per descrivere i dati detto diagramma
a scatola (boxplot) ... che vedremo tra poco.
Distribuzioni di frequenza
Indici di tendenza centrale
Indici di posizione
Indici di variabilità
La varianza
La varianza σ 2 di un insieme di dati è la media degli scarti al
quadrato tra i dati e la media dei dati stessi:
Pn
(Xi − X)2
2
σ = i
n
Nota bene. La varianza assume valore minimo 0 quando
tutti i dati sono uguali tra loro e aumenta all’aumentare della
dispersione dei dati rispetto alla media:
σ2 ≥ 0
Distribuzioni di frequenza
Indici di tendenza centrale
Indici di posizione
Indici di variabilità
Il calcolo della varianza: formula ridotta
La varianza può essere calcolata anche attraverso la seguente
formula, che consente un calcolo più agevole e veloce:
Pn 2 Pn 2
X
2
i Xi
σ = i i −
n
n
=
X2
−
(X)2
La varianza può essere quindi vista come:
la media dei quadrati meno il quadrato della media
Distribuzioni di frequenza
Indici di tendenza centrale
Indici di posizione
Indici di variabilità
Il calcolo della varianza: un esempio
Un ricercatore ha valutato la capacità di memoria di 10 bambini
in età prescolare ottenendo i dati riportati in tabella.
La capacità di memoria viene usualmente espressa dal digit span,
cioè dal numero di cifre che un soggetto è in grado di ricordare
(Keppel, 1992).
Soggetto
1
2
3
4
5
6
7
8
9
10
Calcolare la varianza dei dati.
Digit Span
8
6
7
7
9
6
7
9
4
7
Distribuzioni di frequenza
Indici di tendenza centrale
Indici di posizione
Indici di variabilità
Il calcolo della varianza: formula generale
Per prima cosa calcoliamo la media dei dati:
P10
Xi
8 + 6 + ... + 4 + 7
70
X = i=1
=
=
=7
n
10
10
Utilizziamo ora la formula generale per il calcolo della
varianza:
Pn
(Xi − X)2
2
σ = i
n
(8 − 7)2 + (6 − 7)2 + . . . + (4 − 7)2 + (7 − 7)2
=
10
20
=
=2
10
Distribuzioni di frequenza
Indici di tendenza centrale
Indici di posizione
Il calcolo della varianza: formula ridotta
Per prima cosa calcoliamo la media dei quadrati:
X2 =
82 + 6 2 + . . . + 4 2 + 7 2
510
=
= 51
10
10
Calcoliamo il quadrato della media:
(X)2 = 72 = 49
Utilizziamo la formula ridotta:
σ 2 = X 2 − (X)2 = 51 − 49 = 2
... i conti tornano :-)
Indici di variabilità
Distribuzioni di frequenza
Indici di tendenza centrale
Indici di posizione
Indici di variabilità
Il calcolo della varianza: per dati raggruppati in
classi di frequenza
Se i dati sono raggruppati in classi di frequenza, per il calcolo
della varianza, si utilizzerà la seguente formula:
2
σ =
Pn
i
(Xi − X)2 fi
n
L’idea è quella di pesare i singolari scarti dalla media per le
relative frequenze associate.
Distribuzioni di frequenza
Indici di tendenza centrale
Indici di posizione
Indici di variabilità
La deviazione standard
La deviazione standard (o scarto quadratico medio) è la radice
della varianza:
√
σ = σ2
La deviazione standard è molto utile in chiave interpretativa
perché, a differenza della varianza, è espressa nella stessa unità di
misura del fenomeno studiato.
Esempio
In campione di 20 soggetti è stata rilevata la variabile peso.
In tale campione la media è pari a 70 kg e la deviazione standard
è pari a 10.7.
Si potrà affermare che i soggetti differiscono mediamente di
10.7 kg dal peso medio di 70 kg.
Distribuzioni di frequenza
Indici di tendenza centrale
Indici di posizione
Indici di variabilità
Il coefficiente di variazione
Il coefficiente di variazione è dato dal rapporto tra la deviazione
standard e il valore assoluto della media dei dati:
σ
CV = X Il CV è un indice di variabiltà relativa che tiene conto, oltre
che della deviazione standard dei dati, anche della media.
Per questo motivo è molto utile per eseguire dei confronti in
termini di variabilità tra fenomeni “diversi” tra loro.
Distribuzioni di frequenza
Indici di tendenza centrale
Indici di posizione
Indici di variabilità
Neonati e papà
Nel reparto di ostetricia di un ospedale è stato rilevato il peso di
un campione di 80 neonati maschi e contemporaneamente il peso
dei rispettivi papà:
gruppo
neonati
papà
media
3.4 Kg
82 Kg
deviazione standard
0.8
15
Esiste più variabilità nel peso dei neonati o in quello dei papà?
Distribuzioni di frequenza
Indici di tendenza centrale
Indici di posizione
Indici di variabilità
Neonati e papà
Naturalmente confrontare le deviazioni standard non è di
grande aiuto. Esse dipendono fortemente dalle media dei dati
su cui sono state calcolate.
Per poter operare un confronto sulla variabilità dei due gruppi
è opportuno calcolare i rispettivi coefficienti di variazione:
CVneonati =
CVpapà =
0.8
= .24
3.4
15
= .18
82
Osservando i risultati si può concludere che il gruppo dei
bambini presenta una maggiore variabilità rispetto a quello
dei papà.
Distribuzioni di frequenza
Indici di tendenza centrale
Indici di posizione
Indici di variabilità
Il consiglio del buon vecchio J. W. Tukey:
The five number summary
Per avere una prima idea sulla
distribuzione dei dati raccolti,
Tukey suggeriva di utilizzare il
riassunto a 5 numeri :
Minimo
25-esimo percentile
Mediana
75-esimo percentile
Massimo
Tukey, 1977. Exploratory Data Analysis