Variabili statistiche - Sommario
• Definizioni preliminari
• Statistica descrittiva
• Misure della tendenza centrale e della dispersione di
un campione
1
Introduzione
• La variabile statistica rappresenta i risultati di
un’analisi
un
analisi effettuata su un campione estratto da una
popolazione statistica.
• Il settore della statistica che si preoccupa dello
studio di queste variabili prende il nome di statistica
descrittiva.
2
Statistica - M.Grosso
Variabili Statistiche
1
Definizioni preliminari
• Interpretazione grafica
Popolazione
Statistica
Campione
Campagna sperimentale
3
Statistica descrittiva
Introduzione
• La variabile statistica rappresenta i risultati di
un’analisi
un
analisi effettuata su un campione estratto da una
popolazione statistica.
• Il settore della statistica che si preoccupa dello
studio di queste variabili prende il nome di statistica
descrittiva.
Campione
Scopo:
Caratterizzazione del
campione
4
Statistica - M.Grosso
Variabili Statistiche
2
Statistica descrittiva
Introduzione
• La Statistica Descrittiva è la branca della Statistica
che studia i criteri di rilevazione, di classificazione e
di sintesi delle informazioni relative a una popolazione
oggetto di studio.
• Ha come obiettivo il sintetizzare i dati di un campione
in una scrittura di facile lettura.
• Definizione
• Dimensione N del campione: numero di osservazioni
di cui è costituito il campione
5
Statistica descrittiva – Esempio discreto
• Una azienda intende monitorare i giorni di assenza dal
lavoro dei p
propri
p impiegati.
p g
• X : numero di giorni di assenza per ogni impiegato
• L’indagine viene eseguita su 20 dipendenti scelti a
caso, osservando i seguenti risultati
•
X : {5, 6, 4, 4, 10, 4, 8, 7, 5, 7, 3, 2, 1, 6, 6, 5, 6, 6, 8, 3}
• O
Ognii dipendente
di
d t preso in
i considerazione
id
i
è un evento
t
ovvero un esito dell’esperienza che non è noto a priori
• La dimensione del campione a disposizione e’ N = 20.
6
Statistica - M.Grosso
Variabili Statistiche
3
Statistica descrittiva – Esempio discreto
• I dati sono riportati nella seguente tabella riassuntiva
Numero di giorni
d'
d'assenza
Ri
Ripartizione
ti i
dei
d i 20
X
impiegati
1
2
3
4
5
6
7
8
Definizioni
Frequenza
F
f
Frequenza relativa
F
l ti
f/n
1
0.05
1
0.05
2
0.10
3
0.15
3
0.15
4
0.25
2
0.10
2
0.10
0
0.00
1
0.05
n = 20
1.00
∏
∏
∏∏
∏∏∏
∏∏∏
∏∏∏∏∏
∏∏
∏∏
9
10
∏
La frequenza assoluta
rappresenta il numero
di volte che un dato
risultato si osserva nel
campione considerato
La frequenza relativa
si ottiene dividendo la
frequenza per il
numero totale di prove
7
Statistica descrittiva – Esempio discreto
4
0.2
2
0.1
1
2
3
4
5
6
7
8
9
Frequenza
relativa
frequenza
• Rappresentando i risultati in un grafico
(ISTOGRAMMA) è possibile ottenere informazioni
qualitative sul
qu
u comportamento
mp
m
dei dipendenti
p
10
• Per esempio, esistono dei risultati più ricorrenti?
8
Statistica - M.Grosso
Variabili Statistiche
4
Statistica descrittiva –
Frequenza relativa
1. La frequenza relativa può assumere valori almeno
uguali a zero e al più uguali a 1
2. La somma delle frequenze relative è sempre pari a 1
• I valori che possono assumere i risultati del campione
vanno da 1 a 10. È possibile osservare m = 10 distinti
valori interi. Per definizione:
fi =
•
Ni
N
∀i ∈ m
Essendo Ni il numero di volte che
sii è osservato
t il valore
l
ii-esimo
i
Da notare che
m
∑f
i =1
i
= 1.0
Statistica descrittiva –
Frequenza relativa e cumulativa
• Da notare che la frequenza relativa, dal punto di vista
matematico, può essere vista come una funzione
funzione:
⎧f
f ( y) = ⎨ j
⎩0
Statistica - M.Grosso
Variabili Statistiche
se
y = yj
altrove
5
Statistica descrittiva –
Frequenza cumulativa
• Ci si può porre il problema di determinare quale è la
frazione delle osservazioni che assume valori inferiori
ad un certo valore
• Ad ogni y si associa la somma di tutte le frequenze
relative corrispondenti ai valori del campione più
piccoli o uguali ad y.
F ( y ) = ∑ f (t )
t≤ y
0.30
1.2
0 25
0.25
1 0
1.0
frequenza cumulativa
frequenza relativa
Statistica descrittiva –
Frequenza cumulativa
0.20
0.15
0.10
0.6
0.4
0.2
0.05
0.00
0.8
0.0
0
2
4
6
8
10
numero di g
giorni di assenza
Frequenza relativa
12
0
2
4
6
8
10
numero g
giorni di assenza
Frequenza cumulativa
La frequenza cumulativa è una funzione a gradini, crescente, che
parte da 0 e arriva a 1
Statistica - M.Grosso
Variabili Statistiche
6
Statistica descrittiva –
Frequenza cumulativa
• La distribuzione cumulativa è molto importante:
• Si consideri per esempio di voler sapere la frazione
del campione di dipendenti che ha maturato tra le 5 e
le 8 giornate di malattia
• % impiegati con X ≤ 8 = 0.95
• % impiegati con X < 5 = % impiegati con X ≤ 5 = 0.35
• La percentuale di impiegati con 5 ≤X ≤8 =
0.95-0.35 = 0.60
Statistica descrittiva – Esempio continuo
• Si consideri una serie di 50 misure di concentrazione
di composti azotati su un’acqua di scarico di un
impianto industriale.
• Le misure sono state effettuate sempre nelle stesse
condizioni (esercizio dell’impianto costante etc.)
• Le fluttuazioni presenti nella misura possono essere
dovute a:
– Errori di misura
– Fluttuaz
Fluttuazioni
on nella corrente d
di scar
scarico
co do
dovute
ute a
variazioni delle condizioni esterne (meteo,
temperatura, etc.)
– altro
14
Statistica - M.Grosso
Variabili Statistiche
7
Statistica descrittiva – Esempio continuo
• Esempio di misure:
• X = {1.434, 1.401, 1.464,
…, 1.478, 1.490, 1.405, 1.394}
• In questo caso non abbiamo più un numero finito (o
numerabile) di possibili risultati ma ciascun elemento
del campione può assumere un qualunque numero reale
• N.B.
N B nonostante la concentrazione sia stata riportata
con una precisione alla terza cifra decimale, il numero
di cifre significative può essere infinito
15
Statistica descrittiva – Esempio continuo
• Non si può parlare di frequenza di un valore specifico
di X ((non si avrà mai lo stesso valore p
per due
differenti misure).
• Su un istogramma costruito con la filosofia del caso
discreto avremmo tanti picchi di altezza unitaria in
corrispondenza di ciascuna misura sperimentale, il che
non avrebbe senso dal punto di vista applicativo.
• Al contrario si può determinare il numero di volte che
si osserva un valore in un certo intervallo finito
(classe) Δx
• Tale numero prende il nome di frequenza assoluta
corrispondente alla classe
16
Statistica - M.Grosso
Variabili Statistiche
8
Statistica descrittiva – Esempio continuo
• Considero, per esempio, 9 distinte classi che partono
da 1.15 sino a 1.60 ciascuna delle quali è costituita da
un intervallo pari a 0.05:
0 05:
1
1.15
3
1.20
6
7
4
1.25
1.30
1.35
7
1.40
15
1.45
5
1.50
2
1.55
n = 50
0
1.60
1.65
Misura della concentrazione
17
Statistica descrittiva – Esempio continuo
• I risultati possono ancora essere rappresentati in un
istogramma
0.30
frrequenza
30%
10
14% 14%
12%
5
2%
1.15
8%
6%
1.20
1.25
1.30
1.35
0.20
10%
0 10
0.10
4%
1.40
1.45
1.50
1.55
1.60
frequenza rellativa
15
1.65
Misura della concentrazione
18
Statistica - M.Grosso
Variabili Statistiche
9
Statistica descrittiva – Percentili
• Gli istogrammi delle frequenze (sia assolute che
relative) sono molto utili e permettono con una
semplice
p
ispezione
p
grafica
g f
di trarre conclusioni
• Per esempio si consideri una misura di concentrazione
pari a 1.24. Tale misura si trova nell’estremità
superiore della seconda classe e si possono per
esempio valutare quante sono le osservazioni
sperimentali con valore inferiore. In questo caso:
% prima
i
cllasse (1.15
15 ÷ 1.20
1 20 ) + % seconda
d classe
l
1 20 ÷ 1.25
1 25 ) =
(1.20
2% + 6% = 8%
• Il valore di concentrazione 1.24 cade nell’8mo
percentile
19
Statistica descrittiva – Percentili
• Percentili importanti:
– Primo quartile: è il percentile 25
25°, ovvero il 25% del
campione assume valore inferiore
– Mediana: è il percentile 50°, corrisponde al valore
centrale che divide in dati in due parti uguali
– Terzo quartile: è il percentile 75°, solo il 25% delle
osservazioni assume un valore superiore
20
Statistica - M.Grosso
Variabili Statistiche
10
Statistica descrittiva – Percentili
• Per l’esempio corrente:
x=1.33
Primo quartile
1.15
1.20
1.25
1.30
1.35
Minimo valore
del campione
x=1.47
Terzo quartile
1.40
1.45
1.50
1.55
1.60
1.65
Massimo valore
del campione
x=1.43
Mediana
21
Statistica descrittiva – Percentili
• Rappresentazione del campione tramite “diagrammi a
scatola” (in inglese: “box-plots”)
1.15
1.20
1.25
1.30
1.35
1.40
1.45
1.50
1.55
1.65
Valore
massimo
Valore
minimo
1° quartile
Statistica - M.Grosso
Variabili Statistiche
1.60
mediana 3° quartile
22
11
Statistica descrittiva
Esercizio riepilogativo
• In un’università americana un campione scelto a caso
di 5 professori di sesso femminile ha fornito la
seguente distribuzione dei salari annuali (Katz, 1973)
• Y = {9, 12, 8, 10, 16}
• I dati sono forniti in Kdollari
• Tracciare i diagrammi a scatola del campione in esame
• Suggerimento
S
i
: ordinare
di
i dati
d i iin senso crescente ed
d
individuare l’osservazione “centrale” per la mediana.
Per i percentili si ha che il 25% di 5 è circa 1 e quindi
sono le osservazioni alle estremità
23
Statistica descrittiva
Esercizio riepilogativo
• Nella stessa università, un campione di 25 professori maschi ha
fornito la seguente distribuzione di salari annuali (stessa fonte.
unità di misura sempre in Kdollari)
• X = {13, 11, 19, 11, 22, 27, 14, 16, 13, 24, 21, 18, 11, 9, 13, 22, 13,
11, 17, 13, 31, 9, 12, 15, 15}
• Tracciare i diagrammi a scatola del campione in esame
• Suggerimento : ordinare i dati in senso crescente la mediana
sarà il valore per cui 12 punti siano inferiori e 12 superiori. Per i
quartili si ha che il 25% di 25 è circa 6 e dobbiamo q
q
quindi
prendere il 6° e il 19° punto della successione.
• Da una analisi qualitativa, è possibile concludere se ci sono
differenze tra i due campioni?
• Classificare inoltre i dati in classi di centro 10, 15,20,25,30
24
Statistica - M.Grosso
Variabili Statistiche
12
Misure centro di una distribuzione di dati
• Con la rappresentazione grafica delle frequenze è
possibile ottenere delle informazioni qualitative sul
nostro campione
• Ci sono differenti modi per rappresentare il centro di
una distribuzione di dati
25
Misure centro di una distribuzione di dati
• Moda
il valore più frequente nel campione di dati
– ovvero quello cui corrisponde il maggior numero di
osservazioni
– Esempi:
• Esempio discreto col numero dei giorni di
malattia: moda = 6 giorni
• Esempio continuo con le misure di
concentrazione: moda corrisponde alla classe
[1.45 - 1.50] ~ 1.475
26
Statistica - M.Grosso
Variabili Statistiche
13
Misure centro di una distribuzione di dati
• Mediana
il 50° percentile
– Esempi:
• Esempio discreto col numero dei giorni di
malattia: mediana = 5.5 giorni
p continuo con le misure di
• Esempio
concentrazione: mediana = 1.4276
27
Misure centro di una distribuzione di dati
• Media aritmetica
• Corrisponde alla somma di tutte le osservazioni diviso
per il numero N di osservazioni
N
x
w ∑ i x + x + ... + xN
x = i =1 = 1 2
N
N
• Esempio
p discreto numero giorni
g
di malattia
x=
5+6+4+6+1+10+...+0+3+3+13+8
= 4.9375
50
• Esempio continuo con le misure di concentrazione
x=
Statistica - M.Grosso
Variabili Statistiche
1.43+1.27+1.47...+1.40+1.46
= 1.4059
50
28
14
Misure centro di una distribuzione di dati
• Nel caso di campioni di grandi dimensioni l’applicazione
della formula per la media può risultare oneroso, se
eseguito manualmente senza l’ausilio di strumenti di
calcolo.
• Ma i calcoli possono essere significativamente ridotti
ricorrendo ai dati raggruppati in classe
• Consideriamo una generica collezione di dati da
sommare e ordiniamoli in ordine crescente
• All’interno di ciascun insieme di dati appartenenti alla
stessa classe approssimiamo ogni osservazione con il
centro della rispettiva classe
29
Misure centro di una distribuzione di dati
• Si può scrivere
x≅
Statistica - M.Grosso
Variabili Statistiche
x cade nella p
prima classe
Ø
x1
x cade nella seconda classe
Ø
x2
1
(( x1 + x1 + K) + (x2 + x2 + K) + K) = 1 [x1 f1 + x2 f 2 + K]
N
N
La x cade f1
volte nella
classe
rappresentata
da x1
La x cade f2
volte nella
classe
rappresentata
da x2
x ~ x1
x ~ x2
f1 , f2 , …
frequenze assolute
relative alle classi
x 1, x 2 , …
30
15
Misure centro di una distribuzione di dati
• In conclusione per una serie di dati raggruppati
possiamo scrivere
1
x = ∑ x fA
fA: frequenza assoluta
N
• Essendo f la frequenza assoluta delle osservazioni
nelle classi
• Nel caso si usi la frequenza relativa f:
p
x = ∑ xj f j
j =1
Essendo p il numero di classi in cui è
stato suddiviso il campione
xj è il valore associato ad ogni classe, fj
è la frequenza relativa osservata per la
classe j-esima
31
Misure centro di una distribuzione di dati
• Esercizio 1:
• Si stimi la media degli stipendi universitari sia per la
distribuzione maschile che per quella femminile
• Nel caso del campione maschile si sfrutti
l’approssimazione per i dati raggruppati
• Nota: la media del campione maschile è pari a 16.00 se
non sii ricorresse
i
alle
ll approssimazioni
i
i i
32
Statistica - M.Grosso
Variabili Statistiche
16
Misure centro di una distribuzione di dati
• Esercizio 2:
• Si considerino i due campioni di dati A e B di seguito
riportati e si valutino per essi media e mediana
• A = {1.01, 1.49, 0.99, 2.01, 2.50}
• B = {1.594, 1.604, 1.589, 1.604, 1609}
33
Statistica descrittiva
Osservazioni sull’esercizio
• La valutazione del centro della distribuzione dei dati è
un’informazione
un
informazione utile ma non esaustiva.
• Nel secondo esercizio si era visto come due campioni
che presentano lo stesso valore di media, sono
comunque ben differenti (perché?)
• Il secondo campione di dati registra infatti delle
fluttuazioni intorno al valore medio che sono molto più
piccole
piccole.
• Potrebbe per esempio essere associato ad una misura
più precisa
34
Statistica - M.Grosso
Variabili Statistiche
17
Statistica descrittiva
Misure dispersione di una distribuzione
• È quindi interessante anche misurare quanto le misure
siano disperse intorno al valore medio.
• Vi sono diverse misure della dispersione dei dati:
• Intervallo (in inglese; range)
valore massimo – valore minimo
• È una misura un po
po’ “sensibile”
sensibile dato che dipende
completamente da due sole osservazioni
• Esempio: calcolare l’intervallo per i due campioni A e B
introdotti precedentemente
35
Statistica descrittiva
Misure dispersione di una distribuzione
• Intervallo (o Estensione) Interquartile EIQ
EIQ = (t
(terzo quartile)
til ) – (primo
( i
quartile)
til )
• È più “stabile” del semplice intervallo (perché?)
• Esistono altre misure della dispersione che sono
usate.
• Per la loro implementazione è necessario prima
definire la seguente grandezza:
d i = xi − x
• che rappresenta la distanza della singola prova
rispetto al trend centrale.
36
Statistica - M.Grosso
Variabili Statistiche
18
Statistica descrittiva
Misure dispersione di una distribuzione
•
È facile dimostrare che:
N
N
i =1
i =1
∑ d i = ∑ (xi − x ) = 0
• Infatti:
N
N
N
N
i =1
i =1
∑( x − x ) = ∑ x − ∑ x = ∑ x − N x = N x − N x = 0
i =1
i
i =1
i
i
• Deviazioni positive e negative dal valore centrale si
annullano. È quindi necessario prendere tale
deviazione in valore assoluto
37
Statistica descrittiva
Misure dispersione di una distribuzione
• Scarto assoluto medio
SAM =
Statistica - M.Grosso
Variabili Statistiche
1
N
N
∑d
i =1
i
=
1
N
N
∑ x −x
i =1
i
19
Statistica descrittiva
Dispersione di una distribuzione di dati
• Scarto quadratico medio:
SQM =
1
N
N
∑(x − x )
i =1
2
i
• In genere la formula utilizzata è una piccola modifica
dello scarto quadratico medio:
• Varianza
s2 =
1 N
2
( xi − x )
∑
N − 1 i =1
La somma dei
quadrati è divisa
per (N-1) anziché N
39
Statistica descrittiva
Dispersione di una distribuzione di dati
• Varianza: perché dividere per (n-1)?
• La dimostrazione matematica rigorosa è molto articolata e
complessa.
l
• È possibile dare comunque un’interpretazione intuitiva di tale
necessità, ricorrendo a dei casi estremamente semplici.
• Si consideri, per esempio, un campione di dati costituito da N = 1
osservazione.La media fornisce un’idea di quale sia il trend
centrale della popolazione da cui proviene.
• Ma in tale campione, la dispersione è nulla e non si può
concludere n
niente
ente sulla d
dispersione
spers one della popolaz
popolazione.
one.
• In maniera empirica, si può affermare che, per un generico
campione di dimensione N, si hanno (N-1) elementi di
informazione che possono essere sfruttati per la varianza (detti
anche gradi di libertà): Un grado di libertà è stato già sfruttato
per il calcolo della media
40
Statistica - M.Grosso
Variabili Statistiche
20
Statistica descrittiva
Misure dispersione di una distribuzione
• Deviazione standard
• È la radice quadrata della varianza
s=
1 N
2
( xi − x )
∑
N − 1 i =1
• Utile perché ha le stesse dimensioni della variabile x
presa in considerazione
p
• È compresa tra il minimo ed il massimo dei valori
assoluti degli scarti
di = xi − x
41
Statistica descrittiva
Misure dispersione di una distribuzione
• Da notare che:
1 N
1 ⎛ N 2
⎞
2
s2 =
xi − N x 2 ⎟
( xi − x ) =
∑
∑
⎜
N − 1 i =1
N − 1 ⎝ i =1
⎠
• Dimostrazione:
1 N
1 N 2
2
s2 =
x
−
x
=
(
)
∑ i
∑ ( xi − 2 xi x + x 2 ) =
N − 1 i =1
N − 1 i =1
N
N
N
1 ⎛ N 2
1 ⎛ N 2
⎞
2⎞
x
−
2
x
x
+
x
=
x
−
2
x
xi + Nx 2 ⎟ =
∑
∑
∑
∑
∑
i
i
i
⎜
⎟
⎜
N − 1 ⎝ i =1
i =1
i =1
i =1
⎠ N − 1 ⎝ i =1
⎠
1 ⎛ N 2
1 ⎛ N 2
⎞
2
2⎞
x
−
2
Nx
+
Nx
=
xi − Nx 2 ⎟
∑
∑
i
⎜
⎟
⎜
N − 1 ⎝ i =1
⎠ N − 1 ⎝ i =1
⎠
Statistica - M.Grosso
Variabili Statistiche
CVD
21
Statistica descrittiva
Misure dispersione di una distribuzione
• Per una distribuzione classificata, si può stimare la
varianza
varianza:
2
2
1 p
N p
s2 =
x
x
N
f
xj − x ) f j
−
=
(
)
(
∑
∑
j
j
N − 1 j =1
N − 1 j =1
• Per grandi dimensioni del campione (N » 1)
s = ∑( xj − x ) f j
p
2
2
j =1
• Analogamente la deviazione standard
s=
2
N p
xj − x ) f j
(
∑
N − 1 j =1
43
Statistica descrittiva
Misure dispersione di una distribuzione
• Esercizio:
• Si calcoli la varianza per i dati degli stipendi
universitari sia per il campione femminile sia per il
campione maschile
• Nel secondo caso, ricorrere ai dati raggruppati per
classi
44
Statistica - M.Grosso
Variabili Statistiche
22
Altri indici di posizione e dispersione
campionari
• Il momento campionario di ordine k è definito come:
n
~ = 1∑
m
xik
k
N i =1
• Il momento centrale campionario di ordine k è
definito come:
1 n
~
k
M k = ∑ ( xi − x )
N i =1
45
Altri indici di posizione e dispersione
campionari
• Indice campionario di asimmetria
~
M3
β= 3
s
• Indice campionario di curtosi
~
M4
γ= 22
(s )
46
Statistica - M.Grosso
Variabili Statistiche
23
Statistica descrittiva
Sommario
•
•
•
•
Statistica - M.Grosso
Variabili Statistiche
Con la statistica descrittiva è possibile ricavare informazioni sulla popolazione da
un campione finito di dati:
Distribuzioni frequenze del campione
Sono stati introdotti gli scalari fondamentali per una caratterizzazione
preliminare di un campione
Media, varianza per una variabile di un campione
24