Statistica ...per immagini

Statistica descrittiva
Testi e figure liberamente tratti da dispense di
Prof. Elisa Francini (Università di Firenze)
Prof. Alberto Morabito (Università di Milano)
La Statistica si occupa dell’analisi
quantitativa dei fenomeni collettivi
(cioè fenomeni composti da un
grande numero di unità elementari).
Esempi di fenomeni collettivi:
 L’insieme degli studenti di un corso
universitario.
Quali sono le loro caratteristiche?
 L’insieme dei potenziali pazienti che soffrono
di ipertensione.
Il farmaco A è più efficace del farmaco B?
Gli scopi della statistica sono



Descrivere
Generalizzare
Prevedere
La statistica è l’insieme dei metodi, fondati
sul calcolo delle probabilità, che
consentono, da un lato la corretta
programmazione di un esperimento o di
una osservazione pianificata e, dall’altro,
l’elaborazione dei dati così raccolti.
La statistica moderna può
essere divisa in tre parti:

Statistica descrittiva

Statistica matematica

Statistica inferenziale
La Statistica descrittiva

Lo scopo della statistica descrittiva è
quello di descrivere efficacemente
una grande massa di dati mediante
tabelle e grafici e di sintetizzare le
informazioni in indici matematici in
modo da individuare le caratteristiche
fondamentali del campione
La Statistica matematica

La Statistica matematica si avvale del
Calcolo delle Probabilità e presenta le
distribuzioni teoriche per misure discrete
e continue
La Statistica inferenziale

La Statistica inferenziale si occupa di
dedurre leggi generali disponendo di un
campione variabile. In pratica è l’insieme
dei metodi che consentono di pervenire a
delle conclusioni che vanno al di là della
stretta evidenza empirica
Il linguaggio della Statistica
descrittiva



Popolazione statistica: è l’insieme di tutti
i possibili oggetti dell’indagine statistica
Individuo (o unità statistica): è un
qualsiasi elemento della popolazione
Variabile: è una qualsiasi caratteristica di
ogni individuo della popolazione, soggetta
a variazioni di valore da un individuo
all’altro
Indagine sulle domande di adozione nel
distretto della Corte d’Appello di Torino
nel 2003 (dati Istat)



Tipo di indagine: censimento
Popolazione: coppie che hanno presentato
domanda di adozione nel distretto della
Corte d’Appello di Torino nel 2003
Individuo: una qualunque coppia

Variabili: domande poste alle coppie
mediante un questionario:
 Età dei coniugi
 Titolo di studio dei coniugi
 Reddito familiare
 Tipo di matrimonio
 Numero di figli
 Tipo di adozione (nazionale o
internazionale)
Classificazione delle variabili
nominali
Qualitative
ordinali
Quantitative
discrete
continue
Età dei coniugi
Titolo di studio dei
coniugi
Reddito familiare
Tipo di matrimonio
Numero di figli
Tipo di adozione
quantitativa discreta (?)
qualitativa ordinale
quantitativa continua
qualitativa nominale
quantitativa discreta
qualitativa nominale
Coppie che hanno presentato domanda di adozione
alla corte di appello di Torino – anno 2003
1
35
34
n. coppia
età marito
età moglie
Tit.studio
marito
LAUREA
Tit. studio
moglie
Tipo di
matrimoni
o
Reddito
3
38
39
4
51
45
5 6
32 …
30 …
DIP. SUP.
DOTTO
RATO
LIC.
MEDIA
DIP. SUP.
…
LAUREA
DIP. SUP.
LAUREA
DIP. SUP.
LAUREA
…
RELIG.
RELIG.
CIVILE
RELIG.
RELIG.
…
40.700 35.850 45.225
Numero
Figli
Tipo
Adozione
2
42
36
0
INTERN.
1
INTERN.
35.000
30.315
…
1
0
…
0
NAZ.
INTERN.
INTERN. E
NAZ.
…
FREQUENZA

La frequenza di un valore è il numero di
individui della popolazione per i quali la
variabile assume tale valore
TITOLO DI STUDIO DELLA MOGLIE
TITOLO DI STUDIO
Dottorato o specializ.
Laurea
Diploma universitario o
laurea breve
Diploma di scuola media
superiore
Licenza di scuola media
inferiore
Licenza elementare
Non indicato
Totale
FREQUENZA
15
139
22
249
113
3
4
545
TITOLO DI STUDIO DELLA MOGLIE
TORINO
FIRENZE
TITOLO DI STUDIO
FREQUENZA
TITOLO DI STUDIO
FREQUENZA
Dottorato o specializ.
15
139
Dottorato o specializ.
Laurea
16
65
22
Diploma universitario
o laurea breve
18
249
Diploma di scuola
media superiore
160
Laurea
Diploma universitario o
laurea breve
Diploma di scuola
media superiore
Licenza di scuola
media inferiore
Licenza elementare
Non indicato
Totale
113
3
4
545
Licenza di scuola
media inferiore
Licenza elementare
Non indicato
Totale
72
4
2
337
FREQUENZA RELATIVA

La frequenza relativa è il rapporto tra la
frequenza del valore e il numero di
individui della popolazione:
freq. relat. = freq. ass. / totale individui

La frequenza percentuale si ottiene
normalizzando a 100 il totale della
popolazione:
freq. percentuale = freq. relativa * 100
FREQUENZE RELATIVE
TORINO
FIRENZE
TITOLO
DI
STUDIO
Dott. o
spec.
Laurea
Diploma
univers.
Diploma
superiore
Licenza
media
Licenza
elem.
Non
indicato
Totale
FREQUENZA FREQUENZA
RELATIVA
PERCENTUA
LE
TITOLO
DI
STUDIO
FREQUENZA
RELATIVA
FREQUENZA
PERCENTUA
LE
0,0275 2,75%
0,2550 25,50%
Dott. o
spec.
Laurea
0,0475 4,75%
0,1929 19,29%
0,0404
Diploma
univers.
0,0534
0,4569 45,69%
Diploma
superiore
0,4748 47,48%
0,2073 20,73%
Licenza
media
0,2136 21,36%
0,0055
0,55%
Licenza
elem.
0,0119
1,19%
0,73%
100%
Non
indicato
0,0059
1
0,59%
100%
0,0073
1
4,04%
Totale
5,34%
FREQUENZE CUMULATIVE (TORINO)
TITOLO DI
STUDIO
FREQ
Dott. o
spec.
15
Laurea
139
Diploma
univers.
22
FREQ.
RELAT.
FREQ.
PERC.
0,0275
FREQ.
CUMUL.
FREQ. CUM.
%
2,75%
0,0275
2,75%
0,2550 25,50%
0,2825
28,25%
0,0404
4,04%
0,3229
32,29%
Diploma
superiore
249
0,4569 45,69%
0,7798
77,98%
Licenza
media
113
0,2073 20,73%
0,9871
98,71%
Licenza
elem.
3
0,0055
0,55%
0,9926
99,26%
Non
indicato
4
0,0073
0,73%
1
100%
545
1
100%
Totale
Distribuzione
La funzione che ad ogni valore della
variabile associa la sua frequenza ( o
frequenza relativa) si dice distribuzione
della variabile.
Attenzione: se la variabile è continua o se i possibili
valori sono troppi, si possono dividere in classi
Esempio: età del marito
CLASSE
FREQ.
FREQ. REL.
FREQ. CUMUL.
11
2,02%
2,02% < 30
113
20,73%
22,75% < 35
214
39,27%
62,02% <40
Da 41 a 45
133
24,40%
86,42% <45
Da 46 a 50
49
8,99%
95,41% <50
Da 51 a 55
21
3,85%
99,27% <55
4
0,73%
545
100,00%
Da 26 a 30
Da 31 a 35
Da 36 a 40
Non indicato
Totale
100,00%
Rappresentazioni grafiche
Istogramma
250
200
150
Marito
Moglie
100
50
0
5
-5
51
0
-5
46
5
-4
41
0
-4
36
5
-3
31
0
-3
25
Rappresentazioni grafiche
Diagramma a torta
Dottorato
Laurea
Laurea breve
Diploma superiore
Licenza media
Licenza elementare
Non indicato
INDICATORI SINTETICI
MISURE DI TENDENZA
CENTRALE
Sono quantità che individuano i valori
intorno ai quali i dati sono raggruppati.
MEDIA
 MODA
 MEDIANA

Media Aritmetica Semplice
Esempio: “Rossi ha la media del 25”
Popolazione: insieme degli esami sostenuti
da Rossi
Variabile: voto ottenuto nell’esame
Media aritmetica semplice =
somma dei voti ottenuti / numero esami
sostenuti
Media Aritmetica Semplice
N = numero di individui di una popolazione
X = variabile numerica
xi = valore che la variabile assume sull’i-esimo
individuo della popolazione
La media è definita da
1
X
N
( x1  x2  ...  xN )
xi 

N
i 1
N
La media aritmetica può essere calcolata
anche conoscendo solo la distribuzione della
variabile.
Siano xj, per j=1,…, m, i valori che la variabile
X può assumere e siano fj le corrispondenti
frequenze. Allora
m
X
x
j 1
j
 fj
m
f
j 1
j
Voti ottenuti negli esami
25 27 23 25 23 27 25
M. aritm. =(25+27+23+25+23+27+25)/7=25
(23*2+25*3+27*2)/(2+3+2)=25
Quando la variabile è suddivisa in classi, ad ogni
classe si associa il valore medio dell’intervallo
CLASSE
Da 26 a 30
Da 31 a 35
Da 36 a 40
Da 41 a 45
Da 46 a 50
Da 51 a 55
Totale
FREQ.
VALORE MEDIO
11
113
214
28
33
38
133
49
21
43
48
53
541
28 11  33 113  38  214  43 133  48  49  53  21
X
 39,4
541
Media armonica
1 11 1
1
    ... 
H N  x1 x2
xN



Questa media è la stima più corretta per distribuzioni
di dati dei quali devono essere usati gli inversi
La città A dista 100 km dalla città B;
andiamo da A a B con un’auto che
viaggia a 50 km/h e torniamo con una
che viaggia a 70 km/h.
Quanto tempo impieghiamo?
T = 100/50 + 100/70 = 3,43 h
Media aritmetica delle velocità=60 km/h
t = 2*100/60 = 3,33 h
Media armonica=2(1/50+1/70)-1=58,33 km/h
t = 2*100/58,33 = 3,43 h
Media geometrica
G  x1  x2  ... xN 
1/ N
Questa media è adatta, per esempio a stimare i
tassi di interesse o di inflazione.
Supponiamo che un certo investimento abbia
ottenuto un tasso annuale in quattro anni
successivi pari al 5%, 4%, 1% e 2,8%.
Qual è il tasso nei quattro anni?
t = (1,05)*(1,04)*(1,01)*(1,028) = 1,1338
Media aritmetica = 1,032
T = (1,032)4 = 1,1343
Media geometrica = 1,0318
t = (1,0318)4 = 1,1338
Errore comune
T = 1 + 0,032*4 = 1,128
Moda


La moda è il valore più frequente di una
distribuzione. Può essere definita anche
per variabili qualitative.
Una distribuzione può avere due (o più)
massimi di frequenze paragonabili. Si
parla allora di distribuzione bimodale.
Moda
50
45
40
35
30
25
20
15
10
5
0
1
2
3
4
5
6
Mediana


La mediana è il valore che occupa la
posizione centrale in un insieme ordinato
di dati. E’ definita solo per variabili ordinali.
In una distribuzione o serie di dati, ogni
valore estratto a caso ha la stessa
probabilità di essere inferiore o superiore
alla mediana.
Come si calcola la mediana

Si dispongono i dati in ordine crescente o
decrescente e se ne conta il numero totale n

Se n è dispari la mediana corrisponde al
valore che occupa la posizione centrale
(n+1)/2
Se n è pari la mediana è la media tra i valori
nelle posizioni n/2 e (n+2)/2

Confronto media e mediana
Serie:
23 45 67 73 96 108 132 156 177
Media = 97.44
Serie:
1 1 1 2
mediana
96 560 754 930 1000
Media = 371.67
Centili (percentili, frattili, quartili)
Misure di dispersione
La dispersione o variabilità è la seconda importante
caratteristica di una distribuzione di dati. Essa misura
la forma più o meno raccolta della distribuzione
intorno al valore centrale.
Distribuzioni diverse
10
9
8
7
6
5
4
3
2
1
Serie1
Serie2
S1
27
25
23
21
19
media = 15,47
deviazione standard = 6,45 / 4,76
17
15
13
11
9
7
5
3
1
0
Range (campo di variazione)
W  xmax  xmin

Misura puramente descrittiva e poco informativa
Es. Le altezze di 10 esemplari di una pianta sono:
10 22 33 44 46 51 67 74 79 85
W=85-10=75
Le altezze di altri 10 esemplari sono invece
10 11 11 12 13 14 15 16 20 85
W=85-10=75
Varianza di una popolazione

È la media dei quadrati degli scarti tra i valori
della variabile e la media.
1
V
N
 V
 x  X
2
N
i 1
i
Si chiama deviazione
standard o scarto quadratico
medio
Alcune formule

Con la distribuzione
V
m
f
j 1
Teorema
 f  x
m
1
j 1
j
j
X

2
j
di König
V
m
1
f
m
f
j 1
j 1
j
j
x  X
2
j
2
Variabili continue
Frequenza, distribuzione, densità di probabilità.
b
P a  X  b    f x dx
a
Disuguaglianza di Čebišev
Una variabile X con media μ e deviazione standard
σ verifica la disuguaglianza
1
P  X  μ  kσ   2
k
Dimostrazione: Se Y è una variabile positiva, allora
E Y  



0
a
a
 xf x dx   xf x dx  a  f x dx  a P Y  a
Posto Y = (X - μ)2 ed a = k 2 σ 2 risulta


σ 22  E Y   k 2 σ 2 P  X - μ 2  k 2 σ 2  k 2 σ 2 P  X - μ  kσ 
Istogramma della
distribuzione di probabilità
Lancio di due dadi
0,18
0,16
0,14
0,12
0,1
0,08
0,06
0,04
0,02
0
1
2
3
4
5
6
7
8
9
10
11
12
13
Istogramma della
distribuzione di probabilità
Lancio di tre dadi
0,14
0,12
0,1
0,08
0,06
0,04
0,02
0
1
2
3
4
5
6
7
8
9
10 11 12 13 14 15 16 17 18 19 20
Istogramma della
distribuzione di probabilità
Lancio di quattro dadi
0,12
0,1
0,08
0,06
0,04
0,02
0
1 2 3 4 5
6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26
Istogramma della
distribuzione di probabilità
Lancio di cinque dadi
0,12
0,1
0,08
0,06
0,04
0,02
0
1
3
5
7
9
11
13
15
17
19
21
23
25
27
29
31
33
Istogramma della
distribuzione di probabilità
Lancio di sei dadi
0,1
0,08
0,06
0,04
0,02
0
1
3
5
7
9
11 13 15 17 19 21 23 25 27 29 31 33 35 37 39
Istogramma della
distribuzione di probabilità
Lancio di venti dadi
0,06
0,05
0,04
0,03
0,02
0,01
0
1
8
15 22 29 36 43 50 57 64 71 78 85 92 99 106 113 120 127 134
Funzione Gaussiana
1
f y 
e
 2

y   2

2 2
Distribuzione normale
Teorema centrale del limite
Se X1, X2, … , Xn sono variabili indipendenti
con media μ e deviazione standard σ , allora la
distribuzione della variabile
X 1  X 2    X n  nμ
σ n
Tende alla distribuzione normale standard al
crescere di n (per n che tende a + ).
Correlazione lineare
La media e la deviazione standard possono
essere usate per descrivere una singola
distribuzione di frequenza ma non ci dicono
nulla sulle eventuali relazioni tra due variabili.
Potremmo, ad esempio, essere interessati a
valutare il grado di associazione o relazione tra
l'altezza e il peso “della stessa persona”
all’interno di un gruppo di persone, tra il reddito
medio pro-capite di un Paese e il tasso di
mortalità neonatale, tra l’età della madre e il
numero di nati affetti da sindrome di Down e
così via.
Il primo passo da compiere quando si vuole
studiare una relazione tra due variabili consiste
nel rappresentarle graficamente.
Esperimento 1
Consideriamo un insieme di coppie (xi, yi) di valori
di uricemia, misurati con due metodi (X ed Y) in un
gruppo di 10 uomini anziani.
Si consideri che ciascun prelievo di sangue (uno per
soggetto) è stato ripartito in due aliquote, l'una
analizzata con il metodo X e l'altra con il metodo Y.
Metodi
soggetti
1 2 3 4 5 6 7 8 9 10
Metodo X 5.8 6.2 6.9 6.1 5.4 6.2 5.9 5.5 6.6 6.4
Metodo Y 6.0 6.3 6.8 6.2 5.4 6.4 6.1 5.4 6.8 6.6
L'esame visivo del diagramma di dispersione
fornisce una prima idea dell'entità e della forma
della relazione.
Ogni punto rappresenta
una coppia (xi , yi),
la linea verticale rossa
la media (x) delle xi, e
La linea orizzontale rossa
la media (y) delle yi.
Metodo Y (mg/dl)
7
6
5
5
6
Metodo X (mg/dl)
7
URICEMIA (mg/dl): Metodo Y
Poiché ogni coppia di misure si riferisce ad uno
stesso soggetto, ci si aspetta che, se una misura xi è
maggiore della media, anche la corrispondente
misura yi sia maggiore della media.
Ci aspettiamo che a scarti
7
x- / y+
dalla media (xi - x) positivi
x+ / y+
sull'asse x corrispondano
scarti dalla media (yi - y)
6
positivi sull’asse y, e che a
scarti negativi sull’asse x
corrispondano scarti negativi
x+ / yx- / ysull’asse y. In effetti, questo
5
5
6
7
è quanto accade per i punti
URICEMIA (mg/dl): Metodo X
(xi,yi) in figura.
Esperimento 2
Un singolo prelievo di sangue viene suddiviso in 10
provette, ed il contenuto di ogni provetta è ripartito
in due aliquote, analizzate l'una con il metodo X e
l'altra con il metodo Y.
Nell'insieme di 10 coppie (xi , yi) di misure di un
unico valore, le fluttuazioni attorno alle medie sono
dovute solo ad errori di misura.
Metodi
provette
1 2 3 4 5 6 7 8 9 10
Metodo_X 5.1 4.9 5.0 4.9 5.0 5.1 5.0 5.3 4.9 4.8
Metodo_Y 4.9 4.6 5.1 4.8 4.8 4.8 4.9 5.0 4.9 5.2
Come previsto i punti del
grafico non hanno direzioni
privilegiate e si dispongono
più uniformemente attorno
al loro baricentro.
Cerchiamo adesso un
metodo per quantificare
questa disposizione nei
grafici di dispersione.
Regressione lineare
L’idea è di scegliere la retta
che meglio approssima i punti
del grafico considerando la
somma degli scarti quadratici
tra i dati misurati e i dati
previsti.
Metodo Y (mg/dl)
y = ax + b
14
12
10
8
6
4
2
0
0
2
4
6
8 10 12 14
Metodo X (mg/dl)
Si tratta dunque di minimizzare la funzione
n
1
2
E a, b    y i  a  bx i 
n i 1
Il minimo sarà un punto critico della funzione E(a,b).
Quindi ...
n
 E
 2  y i  a  bxi  0

 a
i 1

n

E

 2  y i  a  bxi xi  0
 b
i 1



b 



da cui
a  y  bx
n
 xi  x y i  y 
i 1
n
 xi  x xi  x 
i 1
con
= n var(xi)

1 n
 x   xi
n i 1


n
1
y 
yi


n i 1
Quindi
n
1
2
a  y  bx
E a, b    y i  a  bxi 
n i 1
cov x, y 
n
b
1
2
var x 
  y i  y  bxi  x 
n i 1
2 n
n
1
2 b
2
xi  x   2b cov x, y 
  y i  y  

n i 1
n i 1
2
2 

cov x, y 
cov x, y  

 var y  
 var y   1 
 var x  var y  
var x 


Coefficiente di

correlazione lineare
cov x, y 
var x  var y 
ESEMPIO DI CALCOLO (1)
n
1
2
3
4
5
6
7
8
9
10

xi
5.8
6.2
6.9
6.1
5.4
6.2
5.9
5.5
6.6
6.4
61.0
yi
6.0
6.3
6.8
6.2
5.4
6.4
6.1
5.4
6.8
6.6
62.0
xi -x
yi -y
(xi -x) 2
(yi -y) 2
(xi -x)(yi -y)
-0.3
+0.1
+0.8
0.0
-0.7
+0.1
-0.2
-0.6
+0.5
+0.3
0.0
-0.2
+0.1
+0.6
0.0
-0.8
+0.2
-0.1
-0.8
+0.6
+0.4
0.0
0.09
0.01
0.64
0.00
0.49
0.01
0.04
0.36
0.25
0.09
1.98
0.04
0.01
0.36
0.00
0.64
0.04
0.01
0.64
0.36
0.16
2.26
+0.06
+0.01
+0.48
0.00
+0.56
+0.02
+0.02
+0.48
+0.30
+0.12
2.05
Schema di calcolo degli indici di Correlazione Lineare per l'esperimento 1.
x  61.0 10  6.1
y  62.0 10  6.2
Cxy  2.05
Dx  1.98
Dy  2.26
r  2.05
1.98  2.26  0.9691
ESEMPIO DI CALCOLO (2)
n
1
2
3
4
5
6
7
8
9
10

xi
yi
x2
i
y2
i
x i yi
5.8
6.2
6.9
6.1
5.4
6.2
5.9
5.5
6.6
6.4
61.0
6.0
6.3
6.8
6.2
5.4
6.4
6.1
5.4
6.8
6.6
62.0
33.64
38.44
47.61
37.21
29.16
38.44
34.81
30.25
43.56
40.96
374.08
36.00
39.69
46.24
38.44
29.16
40.96
37.21
29.16
46.24
43.56
386.66
34.80
39.06
46.92
37.82
29.16
39.68
35.99
29.70
44.88
42.24
380.25
Schema di calcolo degli indici di Correlazione Lineare per l'esperimento 1.
61.02
Dx  374.08 
 1.98
x  61.0 10  6.1
2
10
62.0
y  62.0 10  6.2
Dy  386.66 
 2.26
10
61.0  62.0
r  2.05 1.98  2.26  0.9691
Cxy  380.25 
 2.05
10
COME APPARE LA CORRELAZIONE:
I dati si riferiscono alla correlazione tra i valori di
uricemia rilevati con due metodi di misura (X e Y) su un
campione di 100 soggetti anziani.
14
r = 0.290
12
uno studente
all'ultima lezione
10
8
6
4
2
Metodo Y (mg/dl)
uno studente
alla 1° lezione
Metodo Y (mg/dl)
14
r = 0.861
12
10
8
6
4
2
0
0
0
2
4
6
0
8 10 12 14
un analista
esperto
r = 0.036
12
10
8
6
4
2
14
Metodo Y (mg/dl)
Metodo Y (mg/dl)
14
4
6
8 10 12 14
Metodo X (mg/dl)
Metodo X (mg/dl)
uno studente
alla 2° lezione
2
r = 0.661
12
10
8
6
4
2
0
0
0
2
4
6
8 10 12 14
Metodo X (mg/dl)
0
2
4
6
8 10 12 14
Metodo X (mg/dl)
Il coefficiente di correlazione lineare è indice di quanto i punti
si allineano su di una retta, e non risente dell'inclinazione della
retta, salvo che per due importanti eccezioni.
Y
Y
r = 0.95
r = 0.80
X
X
Y
Y
r = 0.95
r = 0.80
X
X
Grafici di dispersione per variabili a correlazione elevata
o molto elevata.
Y
Y
r = 0.60
r = 0.95
X
X
r = 0.80
r = 0.99
Variabile Y
Y
Variabile X
X
X
Grafici di dispersione per variabili a correlazione
nulla o lieve.
Y
Y
r = 0.40
r = 0.00
X
Y
r = 0.10
V ar iab ile X
X
X
Il coefficiente di correlazione ha il segno del coefficiente
angolare della migliore retta approssimante. Il coefficiente di
correlazione è indeterminato soltanto se la varianza di una serie è nulla.
Y
Y
r = -0.99
Variabile Y
r = 0.99
Variabile X
X
X
Y
r = 0.99
r = 0.99
X
Il coefficiente di correlazione lineare è indice di quanto i punti si
allineano su di una retta: vi possono essere associazioni forti non
lineari con coefficiente di correlazione quasi nullo.
Y
Y
r = -0.084
Variabile Y
Variabile Y
r = -0.194
Variabile X
Variabile X
X
Y
r = -0.041
Variabile Y
Variabile Y
r = -0.158
X
Variabile X
Variabile X
X