La media e la mediana sono
“indicatori di centralità”, che
indicano un centro dei dati.
Un indicatore che sintetizza in un
unico numero tutti i dati,
nascondendo quindi la
molteplicità dei dati.
Per esempio, il reddito medio è un
numero che ci consente di
confrontare la ricchezza di un
Paese con un altro.
Ma nasconde il fatto che in un
singolo Paese possono esserci
famiglie estremamente ricche e
altre molto povere.
Esempio
Vengono testati 2 farmaci concorrenti
A e B. I risultati, in termini di
sopravvivenza, su due gruppi di 5
pazienti sono i seguenti:
A
3
4,5
5
6
6,5
B
1,2
2
4
8
9,8
Quale farmaco ha dato i migliori
risultati?
A
B
3
1,2
4,5
2
5
4
6
8
6,5
9,8
La sopravvivenza media prodotta dal
farmaco A e dal farmaco B è data da
3 + 4,5 + 5 + 6 + 6,5 25
xA =
=
=5
5
5
1,2 + 3 + 4 + 8 + 8,8 25
xB =
=
=5
5
5
La media è la stessa! Quindi…quale farmaco scegliere?
Consideriamo un insieme di dati
statistici x1, x2, …, xn.
Sia
x
la loro media aritmetica.
I valori
x1 − x, x2 − x, … xn − x
si chiamano scarti
La varianza dell’insieme di dati
statistici x1, x2, …, xn è il numero
1
2
Var = ∑ (x − x i )
n i =1
n
cioè la media aritmetica degli scarti
al quadrato.
Tale numero è una misura di
quanto i dati sono mediamente
dispersi attorno alla loro media.
Calcoliamo la Varianza dei dati
dell’esempio precedente.
A
B
3
1,2
4,5
2
5
4
6
8
6,5
9,8
Varianza per i dati relativi al farmaco A:
VarA = ( (3 – 5)2 + (4,5 – 5)2 + (5 – 5)2 +
+ (6 – 5)2 + (6,5 – 5)2 ) / 5
=(22 + (-0,5)2 + 02 + 12 + 1,52) / 5
= 1,5
A
B
3
1,2
4,5
2
5
4
6
8
6,5
9,8
Varianza per i dati relativi al farmaco B:
VarB = ( (1,2 – 5)2 + (2 – 5)2 + (4 – 5)2 +
+ (8 – 5)2 + (9,8 – 5)2 ) / 5
=((-3,8)2 + (-3)2 + (-1)2 + 32 + 4,82) / 5
= 11,3
I risultati che produce il farmaco A sono
quindi più “affidabili” di quelli del farmaco B.
Nella pratica alla varianza si preferisce la
sua radice quadrata, che è chiamata deviazione standard (o scarto quadratico medio):
s = Var
=
1 n
2
(x − x i )
∑
n i =1
Tale numero ha il vantaggio di avere la
stessa dimensione dei dati x1, … xn, e dà
una misura di quanto i dati sono distanti
dalla loro media.
Con riferimento all’esempio precedente,
abbiamo che la deviazione standard relativa al
farmaco A è
s A = Var A =
1,5 = 1,22
mentre quella relativa al farmaco B è
s B = Var B = 11,3 = 3,36
Quando i dati vengono forniti
attraverso una tabella delle
frequenze, sappiamo che la media
aritmetica è una “media ponderata”.
Anche nel calcolo della varianza, e
quindi la deviazione standard, si
deve tener conto dei “pesi” dati
dalle frequenze.
In presenza di una tabella delle frequenze
dato
x1
x2
…
xk
frequenza
f1
f2
…
fk
per il calcolo della
varianza e della
deviazione standard
si usa la formula
k
∑ f (x − x
i
Var =
k
i =1
)
,
i =1
∑f
i
2
i
s =
Var
Esempio – Riprendiamo l’esempio di ieri del
giudizio degli studenti
Giudizio
Frequenza
1
10
2
20
3
30
4
25
5
40
6
25
7
25
8
20
9
3
10
2
Avevamo calcolato una
media aritmetica
(ponderata) di 4,9.
Si calcoli la deviazione
standard.
Conviene considerare la seguente tabella, per
facilitare i calcoli:
Giudizio
Frequenza
1
10
2
20
3
30
4
25
5
40
6
25
7
25
8
20
9
3
10
2
xi – 4,9
(xi – 4,9)2
Giudizio (xi) Frequenza (fi)
xi – 4,9
(xi – 4,9)2
1
10
-3,9
15,21
2
20
-2,9
8,41
3
30
-1,9
3,61
4
25
-0,9
0,81
5
40
0,1
0,01
6
25
1,1
1,21
7
25
2,1
4,41
8
20
3,1
9,61
9
3
4,1
16,81
10
2
5,1
26,01
Vogliamo usare la formula
k
∑ f (x − x )
i
Var =
2
i
,
i =1
k
∑f
i =1
i
s = Var
Giudizio Frequenza
xi
fi
1
10
xi – 4,9
(xi – 4,9)2
fi (xi – 4,9)2
-3,9
15,21
152,1
2
20
-2,9
8,41
168,2
3
30
-1,9
3,61
108,3
4
25
-0,9
0,81
20,25
5
40
0,1
0,01
0,4
6
25
1,1
1,21
30,25
7
25
2,1
4,41
110,25
8
20
3,1
9,61
192,2
9
3
4,1
16,81
50,43
10
2
5,1
26,01
52,02
somma: 884,4
Si ottiene dunque che
Var = 884,4 / 200 = 4,42
e
s = 2,10
Distribuzione a due caratteri e
regressione lineare
Finora ci siamo concentrati su
una sola caratteristica di una
data popolazione (per esempio
il giudizio degli studenti,
l’efficacia di un farmaco, ecc)
Consideriamo ora una
situazione nuova.
Vogliamo cioè studiare due
caratteristiche di una data
popolazione e vedere se c’è
una correlazione tra di esse.
Per esempio, dato un certo insieme
di persone, studiamo due caratteristiche di questa popolazione:
età
pressione arteriosa
L’obiettivo è capire se c’è una
relazione tra queste due grandezze
Supponiamo che la nostra
popolazione sia composta da n
persone.
Per ciascuna persona ci
annotiamo
- l’età xi
- la pressione yi
Età (x)
Pressione (y)
25
120
30
125
42
135
55
140
55
145
63
140
70
160
In generale otteniamo così
n coppie
(x1,y1), (x2,y2), …. (xn,yn)
che individuano n punti
P1, P2, …. Pn
in un sistema di assi cartesiani
Si ottiene così una
“nube” di punti.
Essenzialmente può capitare
uno dei seguenti 4 casi.
a) Nel primo caso, al crescere di
x anche i corrispondenti valori di
y tendono a crescere. Vi è
quindi una correlazione positiva
b) Nel secondo caso, al
crescere di x anche i
corrispondenti valori di y
tendono a diminuire. Si parla di
correlazione negativa
c) Nel terzo caso, al crescere di
x anche i corrispondenti valori di
y tendono a rimanere costanti.
Si parla di indifferenza della
caratteristica y rispetto alla x
d) Nell’ultimo caso la nube di
punti evidenzia l’assenza di
alcuna correlazione tra i valori di
x e di y
Il nostro obiettivo è di studiare i
casi a) e b), cioè quando la nube di
punti evidenzia una correlazione tra
la variabile x e la y.
Vogliamo trovare una legge
matematica che esprima una tale
correlazione.
Più precisamente vogliamo
capire se è possibile esprimere
la y come funzione lineare della
variabile x
Tornando all’esempio,
rappresentiamo sul piano
cartesiano le 7 coppie di punti
che avevamo annotato
Età (x)
Pressione (y)
25
120
30
125
42
135
55
140
55
145
63
140
70
160
170
160
150
Pre s s ione
140
130
120
110
100
90
80
0
10
20
30
40
Età
50
60
70
80
È quindi lecito supporre che
possa esservi una relazione
lineare tra età di una persona e
pressione arteriosa.
Vogliamo esprimere
quantitativamente questa
relazione lineare.
Il grafico di una funzione lineare è
una retta.
Quello che noi vogliamo trovare è
quindi una retta … che passi “bene in
mezzo” ai punti P1, P2, … Pn, e che
quindi possa esprimere con la
migliore approssimazione possibile la
relazione tra la variabile x (età) e y
(pressione).
Tale retta si chiama
retta di regressione lineare
180
170
160
150
Pressione
140
130
120
110
100
90
80
0
10
20
30
40
50
Età
60
70
80
90
100
Esiste una tale retta?
È unica?
Come trovarne l’equazione?
Consideriamo una generica retta
y = mx +q
In corrispondenza delle ascisse
x1, x2, …, xn
le rispettive ordinate saranno
yi = mxi + q
L’errore che si commette nell’approssimare la nostra serie di punti
P1(x1,y1), P1(x1,y1), … Pn(xn,yn)
con i punti della retta y = mx + q
è misurato dalla somma delle
lunghezze
|yi – (mxi + q)|
Si dimostra che esiste un’unica
retta (cioè esistono unici
m e q) affinché la quantità
n
∑ (y
i
− (mxi + q ))
2
i =1
sia la più piccola possibile.
Tale retta si chiama retta di
regressione lineare.
Si dimostra che
1. Il coefficiente angolare della retta
di regressione è dato dalla formula
n
∑(x
m=
i
− x )( y i − y )
i =1
n
∑(x
i =1
i
− x)
2
2. La retta di regressione passa per il
punto
M ( x, y )
cioè il punto (chiamato baricentro) le cui
coordinate sono le medie aritmetiche
delle ascisse e delle ordinate dei punti
P1(x1,y1), P2(x2,y2), …, Pn(xn,yn).
Quindi l’equazione della retta di
regressione è
y = mx + q
con
n
∑(x
m=
i
− x )( y i − y )
,
i =1
n
∑(x
i =1
i
− x)
2
q = y − mx
A titolo di esempio calcoliamo la
retta di regressione per la serie di
dati relativi alle osservazioni di età
e pressione.
Intanto si ha subito che
x = 48,57
e
y = 137,86
Età
x
25
Pressione
y
120
xi – 48,57
yi – 137,86
-23,57
-17,86
30
125
-18,57
-12,86
42
135
-6,57
-2,86
55
140
6,43
2,14
55
145
6,43
7,14
63
140
14,43
2,14
70
160
21,43
22,14
xi – 48,57 yi – 137,86 (xi – 48,57 )(yi – 137,86)
(xi – 48,5)2
-23,57
-17,86
420,92
555,61
-18,57
-12,86
238,78
344,90
-6,57
-2,86
18,78
43,18
6,43
2,14
13,78
41,33
6,43
7,14
45,92
41,33
14,43
2,14
30,92
208,18
21,43
22,14
474,49
459,18
somma
1243,57
1693,71
Quindi
n
∑ (x
m=
i
− x )(y i − y )
i =1
n
∑ (x
2
i
− x)
1243,57
=
= 0,73
1693,71
i =1
q = y − mx = 137,9 − 0,73 ⋅ 48,57 = 102,4
La retta ha dunque equazione
y = 0,73 x +102,4
Quanto la retta trovata
approssima bene i dati?
Cioè con quale bontà la retta di
regressione riesce a dare una
schematizzazione fedele del
fenomeno?
Viene introdotto il seguente
numero, chiamato coefficiente di
correlazione (o coefficiente di
Pearson)
n
∑ (x
r =
i
− x )(y i − y )
i =1
n
∑ (x
i =1
2
i
− x)
n
∑ (y
i =1
2
i
−y)
Si dimostra che –1 ≤ r ≤ 1.
Quanto più r è vicino a 1 oppure
a -1 tanto più i punti P1, P2, …,
Pn sono vicini alla retta e la retta
di regressione descrive con
sempre maggiore
approssimazione il fenomeno.
Quando r = 1 oppure r = -1, i
punti P1, P2, … Pn sono allineati
e sono punti appartenenti alla
retta di regressione.
Invece, valori di r prossimi a 0
stanno a significare che non vi è
alcuna correlazione lineare tra
le due variabili x e y.
Quindi la retta di regressione
non è adatta per schematizzare
il fenomeno.
Cionondimeno potrebbero
esserci correlazioni di altro tipo
(esponenziale, quadratica, ecc.)
tra le due variabili.