Modulo
STATISTICA MATEMATICA
1
Unità Didattiche:
1 – Relazioni tra variabili statistiche
2 – Regressione e correlazione lineari
OBIETTIVI DIDATTICI
2
SAPERE:
definire i concetti di interpolazione, perequazione ed
estrapolazione statistica;
distinguere l’interpolazione fra punti e l’interpolazione per punti;
illustrare il Metodo dei Minimi Quadrati;
illustrare la regressione lineare;
illustrare la correlazione lineare;
SAPER FARE:
la costruzione del diagramma a dispersione;
il calcolo della retta dei Minimi Quadrati;
il calcolo delle rette di regressione lineare;
il calcolo del coefficiente di correlazione lineare;
l’interpretazione grafica del coefficiente di correlazione lineare.
1 – RELAZIONI TRA VARIABILI
STATISTICHE
3
PRESENTAZIONE
4
Nelle Matematiche Applicate e nelle Scienze Sperimentali si
osserva l’esistenza di relazioni tra due o più grandezze.
Sorge allora il problema di determinare una funzione che
rappresenti queste relazioni e permetta di analizzare meglio
i fenomeni osservati.
Gli obiettivi della ricerca di tale funzione sono tanti:
•
•
•
•
•
Descrivere analiticamente la relazione
Determinare la legge di distribuzione dei dati
Calcolare dati eventualmente mancanti (INTERPOLAZIONE)
Correggere dati chiaramente sbagliati (PEREQUAZIONE)
Effettuare delle previsioni (ESTRAPOLAZIONE)
DIAGRAMMA A DISPERSIONE
5
Esempi di relazioni tra due sole grandezze:
reddito e risparmio di una popolazione,
altezza e peso dei giovani di leva,
Y
prezzo e domanda di un bene.
X : x1 , x2 , x3 ,...xn
Y : y1 , y2 , y3 ,... yn
grandezze o variabili
statistiche
( xi ; yi )
Pi
valori reali o misurati
i = 1,…n
punti
yi
0
Pi
X
xi
diagramma a dispersione
non esiste una relazione
esiste una relazione:
1° grado, 2° grado, esponenziale
ESEMPIO N. 1 – DIAGRAMMA A DISPERSIONE
6
Costruire il diagramma a dispersione che rappresenti la
produzione di vino in Italia durante il primo decennio
postbellico (1946 – 1955).
VINO
(milioni di hl)
60
X
Y
55
1946
33,75
1947
36,45
1948
40,39
1949
41,04
1950
41,05
1951
49,76
1952
44,85
1953
52,54
1954
50,47
1955
58,58
milioni di hl
ANNI
50
45
40
35
30
1946
1947
1948
1949
1950
1951
anni
1952
1953
1954
1955
PROCEDIMENTI: “FRA PUNTI” E “PER PUNTI”
7
Per rappresentare analiticamente la relazione tra due grandezze
o variabili statistiche si può determinare una funzione y = f (x )
il cui grafico:
si accosta il più possibile ai punti del diagramma a dispersione,
cioè passa fra i punti assegnati della distribuzione statistica
(INTERPOLAZIONE FRA PUNTI NOTI);
passa esattamente per i punti assegnati della distribuzione
statistica (INTERPOLAZIONE PER PUNTI NOTI).
y
y
0
x
fra punti
0
x
per punti
METODO DEI MINIMI QUADRATI (MMQ)
8
Valori reali o misurati
( xi ; yi )
METODO DI
INTERPOLAZIONE FRA PUNTI NOTI
Y
Funzione
y = f (x)
ŷi
y=f(x)
Valori teorici o calcolati
( xi ; yˆ i )
ŷi
yi
di
Differenze
d i = yi − yˆ i
Condizione di accostamento
n
2
ˆ
(
y
−
y
)
∑ i i = min
i =1
0
X
xi
CONDIZIONE DI ACCOSTAMENTO DEL MMQ
9
Funzione
1° grado y=mx+q
2° grado y=ax2+bx+c
proporzionalità inversa y=a/x
Esponenziale y=ex
Logaritmica y=lgx
y = f ( x) = f ( x; a, b, c,...k )
Condizione di accostamento
n
F ( a, b, c,...k ) = ∑ [ yi − f ( xi ; a, b, c,...k )] = min
2
i =1
Funzione reale di due o più variabili reali, cioè i parametri
a,b,c,…k, che deve essere resa minima utilizzando il metodo
analitico basato su:
calcolo delle derivate parziali
applicazione della condizione necessaria e sufficiente
SVILUPPO DEL MMQ: caso generale
10
Condizione necessaria, sistema delle derivate parziali
prime uguagliate a zero:
∂f
n
 ∂F
[
]
−
=0
(
;
,
,
,...
)
y
f
x
a
b
c
k
i
i
 ∂a = 0 ∑
∂
a
 i =1

n
 ∂F = 0  [ y − f ( x ; a, b, c,...k )] ∂f = 0
∑
i
→  i =1 i
∂b
 ∂b
...........
...................................................


n
∂
F
∂f


=0
[
−
(
;
,
,
,...
)
]
=0
y
f
x
a
b
c
k
∑
i
i
 ∂k

∂k
 i =1
Sistema lineare di n equazioni in n incognite a,b,c,…k
Condizione sufficiente, costruzione dell’Hessiano formato
dalle derivate parziali seconde:
La funzione F è una somma di quadrati pertanto è sempre
positiva, al più nulla, e può avere solo un minimo.
INDICI DI SCOSTAMENTO
11
LINEARE:
I 1=
n
∑y
i =1
i
− yˆ i
n
∑ yˆ
i =1
≤ 0,1 → (0,01)
i
n
QUADRATICO:
2
ˆ
(
)
y
−
y
∑ i i
i =1
I 2=
n
≤ 0,1 → (0,01)
n
∑ yˆ
i =1
n
i
SVILUPPO DEL MMQ: caso lineare y = a + bx
12
Condizione di accostamento:
n
n
F ( a, b) = ∑ [ yi − ( a + bxi )] = ∑ ( yi − a − bxi ) 2
i =1
2
i =1
Condizione necessaria:
n
n
 n
 ∂F
( yi − a − bxi )(−1) = 0
− ∑ yi + na + b∑ xi = 0
 ∂a = 0 ∑
 i =1
i =1
i =1
→
→

n
 n
n
n
 ∂F = 0  ( y − a − bx )(− x ) = 0 − x y + a x + b ( x ) 2 = 0
∑
∑
i
i
i
i i
i
i
 ∂b
∑
 ∑
i =1
i =1
i =1
i =1
n
n

na + b∑ xi = ∑ yi

i =1
i =1
 n
n
n
a x + b ( x ) 2 = x y
∑
∑
i
i
i i
 ∑
i =1
i =1
i =1
sistema lineare: 2x2
incognite: a b
metodo di Cramer: Det(A)≠o
CONTINUAZIONE: Metodo di Cramer
13

x
∑
i 
i =1

n
2
( xi ) 
∑
i =1


 n
A= n

 ∑ xi
 i =1
n

 n
B= n

 ∑ xi
 i =1
n
∑ xi
i =1
n
2
(
x
)
∑ i
i =1

y
∑
i 
i =1

n

xi yi 
∑
i =1

n
n
∑x
n
Det ( A) =
n
∑x
i =1
i
2
n


2
i =1
= n∑ ( xi ) −  ∑ xi  ≠ 0 → Det ( A) > 0
n
 i =1 
∑ ( xi ) 2 i=1
i
i =1
n
CONTINUAZIONE: soluzioni del sistema
14
n
n
∑y
∑x
i
i =1
n
i
i =1
n
∑ x y ∑ (x )
a=
i
i =1
i
i =1
n
n
i
i =1
n
n
∑ y ∑ (x ) − ∑ x y ∑ x
i =1
i
i
i =1
i
i =1
i
 n 
n∑ ( xi ) −  ∑ xi 
i =1
 i =1 
n
i =1
2
i
2
n
∑ x ∑ (x )
i =1
=
i
i =1
n
2
i
∑x
n
n
2
2
i
n
∑y
n
i =1
n
n
i
∑x ∑x y
b=
y= a + b x
a = ordinata all’origine
b = coefficiente angolare
i =1
i
i =1
n
i
i
∑x
n
i
i =1
n
n
∑ x ∑ (x )
i =1
=
i
i =1
i
2
n
n
n
i =1
i =1
i =1
n∑ xi yi − ∑ xi ∑ yi
 n 
2
n∑ ( xi ) −  ∑ xi 
i =1
 i =1 
n
2
CONTINUAZIONE: Condizione sufficiente
15
∂2F
=n>0
2
∂a
n
∂2F
∂2F
=
= ∑ xi
∂a∂b
∂b∂a
i =1
n
∂2F
2
=
(
x
)
∑ i
∂b 2 i =1
∂2F
2
∂
a
H= 2
∂ F
∂a∂b
∂2F
∂b∂a =
∂2F
∂b 2
n
∑x
n
n
∑x
i =1
i
2


2
=
n
(
x
)
−
x
∑ i  > 0
∑
i
n
2
i =1
 i =1 
(
x
)
∑ i
i =1
i
i =1
è proprio un minimo!
n
n
NELLA PRATICA APPLICAZIONE …
16
Si calcola
il coefficiente angolare b b=
n
n
n
i =1
i =1
i =1
n∑ xi yi − ∑ xi ∑ yi
 n 
2
n∑ ( xi ) −  ∑ xi 
i =1
 i =1 
n
n
n
i =1
i =1
2
na + b∑ xi = ∑ yi
Si calcola
l’ordinata all’origine a n
n
i =1
i =1
na = ∑ yi − b∑ xi
n
a=
∑y
i =1
n
i
− b∑ xi
i =1
n
n
=
∑y
i =1
n
n
i
−b
∑x
i =1
i
n
a = y − bx
Si sostituiscono a e b nella equazione della retta:
y = a + bx → y = y − bx + bx → y − y = b( x − x )
BARICENTRO DELLA DISTRIBUZIONE
17
Valori medi della distribuzione dei dati:
n
n
x=
∑x
i =1
n
i
y=
∑y
i =1
i
n
G( x , y )
Baricentro della distribuzione dei dati:
Equazione della retta passante per il punto G ed
avente coefficiente angolare b:
y − y = b( x − x )
RIASSUMENDO: MMQ – teorico
18
si calcolano le incognite:
n
n
n
n
∑ y ∑ (x ) − ∑ x y ∑ x
2
a=
i =1
i
i =1
i
i =1
i
i


n∑ ( xi ) 2 −  ∑ xi 
i =1
 i =1 
n
n
i =1
2
i
b=
n
n
n
i =1
i =1
i =1
n∑ xi yi − ∑ xi ∑ yi


n∑ ( xi ) 2 −  ∑ xi 
i =1
 i =1 
n
si calcolano i valori teorici:
si calcolano gli indici di scostamento:
I 1=
∑
i =1
yi − yˆ i
n
∑ yˆi
i =1
2
xi → yˆ i = a + bxi
n
n
n
∑ (y
i =1
≤ 0,1 → (0,01)
I 2=
− yˆ i )
2
i
n
n
∑ yˆ
i =1
≤ 0,1 → (0,01)
i
n
si disegna la retta nel diagramma a dispersione.
RIASSUMENDO: MMQ – pratico
19
si calcolano il baricentro e il coefficiente angolare:
n
x=
n
∑x
i
i =1
y=
n
∑y
i =1
i
n
b=
n
n
n
i =1
i =1
i =1
n∑ xi yi − ∑ xi ∑ yi


n∑ ( xi ) 2 −  ∑ xi 
i =1
 i =1 
n
n
si calcolano i valori teorici:
si calcolano gli indici di scostamento:
xi → yˆ i = y + b( xi − x )
n
n
I 1=
∑y
i =1
i
− yˆ i
n
∑ yˆ
i =1
i
∑ (y
i =1
≤ 0,1 → (0,01)
2
I 2=
2
ˆ
)
y
−
i
i
n
≤ 0,1 → (0,01)
n
∑ yˆ
i =1
i
n
si disegna la retta nel diagramma a dispersione.
ESEMPIO N. 1 – TABELLA DI CALCOLO
(metodo teorico)
20
Costruire la retta dei minimi quadrati che rappresenta la produzione
di vino in Italia durante il primo decennio postbellico (1946 – 1955).
X
X
Y
X2
XY
Ŷ
Y- Ŷ
│Y- Ŷ│
(Y- Ŷ)2
1946
1
33,75
1
33,75
33,91
-0,16
0,16
0,03
1947
2
36,45
4
72,90
36,35
0,10
0,10
0,01
1948
3
40,39
9
121,17
38,79
1,60
1,60
2,56
1949
4
41,04
16
164,16
41,23
-0,19
0,19
0,04
1950
5
41,05
25
205,25
43,67
-2,62
2,62
6,86
1951
6
49,76
36
298,56
46,11
3,65
3,65
13,34
1952
7
44,85
49
313,95
48,55
-3,70
3,70
13,67
1953
8
52,54
64
420,32
50,99
1,55
1,55
2,41
1954
9
50,47
81
454,23
53,43
-2,96
2,96
8,74
1955
10
58,58
100
585,80
55,87
2,71
2,71
7,37
55
448,88
385
2670,09
448,88
19,24
55,02
ordinata all'origine
coefficiente angolare
indice di scostamento lineare
indice di scostamento quadratico
a=
b=
IL =
IQ =
31,47133
2,439394
0,042866
0,052254
ESEMPIO N. 1 – GRAFICO (metodo teorico)
21
60
milioni di hl
55
50
45
40
35
30
1946
1947
1948
1949
1950
1951
1952
anni
V. MISURATI
V. CALCOLATI
1953
1954
1955
ESEMPIO N. 1 – TABELLA DI CALCOLO
(metodo pratico)
22
Costruire la retta dei minimi quadrati che rappresenta la produzione
di vino in Italia durante il primo decennio postbellico (1946 – 1955).
X
X
Y
X2
XY
Ŷ
Y- Ŷ
│Y- Ŷ│
(Y- Ŷ)2
1946
1
33,75
1
33,75
33,91
-0,16
0,16
0,03
1947
2
36,45
4
72,90
36,35
0,10
0,10
0,01
1948
3
40,39
9
121,17
38,79
1,60
1,60
2,56
1949
4
41,04
16
164,16
41,23
-0,19
0,19
0,04
1950
5
41,05
25
205,25
43,67
-2,62
2,62
6,86
1951
6
49,76
36
298,56
46,11
3,65
3,65
13,34
1952
7
44,85
49
313,95
48,55
-3,70
3,70
13,67
1953
8
52,54
64
420,32
50,99
1,55
1,55
2,41
1954
9
50,47
81
454,23
53,43
-2,96
2,96
8,74
1955
10
58,58
100
585,80
55,87
2,71
2,71
7,37
55
448,88
385
2670,09
448,88
19,24
55,02
coordinate del baricentro G
coefficiente angolare
indice di scostamento lineare
indice di scostamento quadratico
5,5
Xm =
44,888
Ym =
b = 2,439394
IL = 0,042866
IQ = 0,052254
ESEMPIO N. 1 – GRAFICO (metodo pratico)
23
60
milioni di hl
55
50
45
40
35
30
1946
1947
1948
1949
1950
1951
1952
1953
anni
V. MISURATI
V. CALCOLATI
G(Xm,Ym)
1954
1955
ESEMPIO N. 2 – TABELLA DI CALCOLO
(metodo pratico)
24
Costruire la retta dei minimi quadrati che rappresenta la produzione
di un dato prodotto, in tonnellate, rilevata ogni due anni.
X
Y
X2
XY
Ŷ
Y- Ŷ
│Y- Ŷ│
(Y- Ŷ)2
1
1400
1
1400
1580
-180
180
32400
3
3000
9
9000
2700
300
300
90000
5
3500
25
17500
3820
-320
320
102400
7
5400
49
37800
4940
460
460
211600
9
5800
81
52200
6060
-260
260
67600
25
19100
165
117900
19100
1520
504000
coordinate del baricentro G
coefficiente angolare
indice di scostamento lineare
indice di scostamento quadratico
Xm =
5
Ym =
3820
560
b=
IL = 0,079581
IQ = 0,083113
ESEMPIO N. 2 – GRAFICO (metodo pratico)
25
7000
produzione (t)
6000
5000
4000
3000
2000
1000
0
1
3
5
7
anni
V. MISURATI
V. CALCOLATI
G(Xm;Ym)
9
2 – REGRESSIONE E CORRELAZIONE
LINEARI
26
REGRESSIONE E CORRELAZIONE
27
1.
REGRESSIONE studio del legame di dipendenza di una
variabile statistica dall’altra.
2.
CORRELAZIONE studio dell’intensità del legame tra due
variabili statistiche.
In particolare:
REGRESSIONE LINEARE e CORRELAZIONE LINEARE
in quanto tra le variabili statistiche esiste una relazione lineare
accertata con il MMQ.
REGRESSIONE LINEARE
28
1°
X variabile indipendente
Y variabile dipendente
retta di regressione di Y rispetto a X
b1 =
n
n
n
i =1
i =1
i =1
n∑ xi yi − ∑ xi ∑ yi
b1=coefficiente di regressione lineare di Y rispetto a X
è un coefficiente angolare


n∑ ( xi ) 2 −  ∑ xi 
i =1
 i =1 
n
n
2
xi → yˆ i = y + b1 ( xi − x )
2°
Y variabile indipendente
X variabile dipendente
retta di regressione di X rispetto a Y
b2=coefficiente di regressione lineare di X rispetto a Y
è l’inverso di un coefficiente angolare
xi → yˆ i = y +
1
( xi − x )
b2
b2 =
n
n
n
i =1
i =1
i =1
n∑ xi yi − ∑ xi ∑ yi
 n 
2
n ∑ ( yi ) −  ∑ yi 
i =1
 i =1 
n
2
yi → xˆi = x + b2 ( yi − y )
OSSERVAZIONI
29
b1 è un coefficiente angolare;
b2 NON è un coefficiente angolare;
b1 e b2 sono concordi:
Se positivi, quando cresce una variabile, cresce anche l’altra;
Se negativi, quando cresce una variabile, decresce l’altra.
Se b1 = b2 il legame è perfetto;
Se b1 = b2 = 0 NON ESISTE regressione lineare;
Le due rette di regressione si intersecano in G(Xm;Ym).
y
0
y
x
b1, b2 > 0
0
y
y
x
b1, b2 < 0
0
x
b1 = b2
0
x
b1 = b2 = 0
CORRELAZIONE LINEARE
30
σ xy
r=
σ xσ y
Coefficiente di correlazione lineare
Coefficiente di BRAVAIS-PEARSON
n
σx =
n
∑ (xi − x )
σy =
i =1
n
scarto quadratico medio di X
n
σ 2x =
∑ (x − x )
i =1
i
varianza di X
σ 2y =
i =1
n
scarto quadratico medio di Y
n
2
n
2
(
)
y
−
y
∑ i
2
∑ (y
i =1
i
− y)
n
varianza di Y
n
2
σ xy =
∑ (x − x )( y
i =1
i
i
− y)
n
covarianza di X e Y
SIGNIFICATO ANALITICO DI r
31
è un numero puro;
il suo campo di variabilità è:
r
r
r
r
r
=
=
=
>
<
− 1 ≤ r ≤ +1
+1 correlazione perfetta diretta;
-1 correlazione perfetta inversa;
0 NON esiste correlazione lineare;
0 correlazione diretta;
0 correlazione inversa;
gode della proprietà della media geometrica: r = ± b1b 2
il segno + se sono positivi
il segno – se sono negativi
SIGNIFICATO GEOMETRICO DI r
32
y
y
y
y
y=ym
x=x
m
0
x
r>0
(r=0,7)
FORTE
0
y
0
x
r>0
(r=0,4)
DEBOLE
y
x
r<0
(r=-0,7)
FORTE
0
x
0
r=+1
(b1=b2)
y
x
r<0
(r=-0,4)
DEBOLE
0
x
r=-1
(b1=b2)
0
x
r=0
(b1=b2=0)
ESEMPIO N. 3 – TESTO
33
Studiare la correlazione lineare tra il prodotto nazionale lordo (P.N.L.)
pro-capite, in Euro per abitante,e il consumo di surgelati pro-capite,
in grammi per abitante, in Italia.
anni
P.N.L. pro-capite
(euro/ab.)
consumo di
alimenti surgelati
(g/ab.)
1994
747,0
115
1995
766,0
160
1996
804,4
225
1997
853,7
229
1998
902,9
391
1999
948,9
499
2000
988,2
605
ESEMPIO N. 3 – REGRESSIONE L. DI Y X
34
X
Y
X2
XY
Ŷ1
Y- Ŷ
│Y- Ŷ│
(Y- Ŷ)2
747,0
115
558009,00
85905,00
99,24
15,76
15,76
248,31
766,0
160
586756,00
122560,00
136,39
23,61
23,61
557,22
804,4
225
647059,36
180990,00
211,48
13,52
13,52
182,76
853,7
229
728803,69
195497,30
307,88
-78,88
78,88
6222,29
902,9
391
815228,41
353033,90
404,09
-13,09
13,09
171,25
948,9
499
900411,21
473501,10
494,03
4,97
4,97
24,66
988,2
605
976539,24
597861,00
570,88
34,12
34,12
1164,15
6011,1
2224
5212806,91
2009348,30
2224,00
183,94
8570,64
coordinate del baricentro G
coefficiente angolare
indice di scostamento lineare
indice di scostamento quadratico
Xm =
Ym =
b1 =
IL =
IQ =
858,7
318
1,96
0,0827
0,1101
ESEMPIO N. 3 – REGRESSIONE L. DI X Y
35
X
Y
Y2
XY
Ŷ2
Y- Ŷ
│Y- Ŷ│
(Y- Ŷ)2
747,0
115
13225
85905,00
89,62
25,38
25,38
644,05
766,0
160
25600
122560,00
128,41
31,59
31,59
997,92
804,4
225
50625
180990,00
206,80
18,20
18,20
331,12
853,7
229
52441
195497,30
307,45
-78,45
78,45
6154,17
902,9
391
152881
353033,90
407,89
-16,89
16,89
285,26
948,9
499
249001
473501,10
501,80
-2,80
2,80
7,83
988,2
605
366025
597861,00
582,03
22,97
22,97
527,68
6011,1
2224
909798
2009348,30
2224,00
196,27
8948,05
coordinate del baricentro G
coefficiente angolare
indice di scostamento lineare
indice di scostamento quadratico
Xm =
Ym =
b2 =
IL =
IQ =
858,7
318
0,49
0,0883
0,1125
ESEMPIO N. 3 – CORRELAZIONE LINEARE
36
X
Y
X-Xm
(X-Xm)2
Y-Ym
(Y-Ym)2
(X-Xm)(Y-Ym)
747,0
115
-111,73
12483,27
-203
41093
22648,98
766,0
160
-92,73
8598,59
-158
24874
14624,62
804,4
225
-54,33
2951,59
-93
8596
5037,03
853,7
229
-5,03
25,29
-89
7870
446,11
902,9
391
44,17
1951,12
73
5371
3237,13
948,9
499
90,17
8130,89
181
32865
16346,79
988,2
605
129,47
16762,85
287
82533
37195,29
6011,1
2224
203201
99535,96
coordinate del baricentro G
scarto quadratico medio di X
scarto quadratico medio di Y
covarianza di X Y
coefficiente di Bravais-Pearson
50903,59
Xm =
Ym =
σX =
σY =
σXY =
r=
858,7
318
85,28
170,38
14219,42
0,9787
0,9787
ESEMPIO N. 3 – GRAFICO
37
700
consumo surgelati pro-capite (g/ab.)
600
500
400
300
200
100
0
700
750
800
850
900
P.N.L. pro-capite (euro/ab.)
Y
retta Y-X
retta X-Y
G(Xm;Ym)
950
1000