STATISTICA
a.a. 2002-2003
– METODO DEI MINIMI QUADRATI
– REGRESSIONE
– CORRELAZIONE
RELAZIONE FRA VARIABILI
– Spesso si vuole trovare la relazione che
lega due o più variabili (es. la pressione di
un gas dipende da temperatura e volume)
– Vogliamo esprimere questa relazione in
forma matematica
INTERPOLAZIONE
– Dobbiamo raccogliere dati che mostrino
valori corrispondenti delle variabili
– Riportiamo i punti (Xi,Yi) delle due variabili
su un sistema di coordinate
– Vogliamo individuare una curva (relazione
non lineare) o una retta interpolante
INTERPOLAZIONE
– Il tipo più semplice è la retta
Y = a0 + a1 X
– Dati due punti qualsiasi (X1 Y1) e (X2 Y2) ,
vogliamo determinare a0 e a1 .
INTERPOLAZIONE
 Y2  Y1 
( X  X 1 )
Y  Y1  
 X 2  X1 
Y2  Y1
 a1
X 2  X1
INTERPOLAZIONE
a1
coefficiente angolare
a0 e’ Y per X=0 (ordinata all’origine).
METODO DEI MINIMI
QUADRATI
METODO DEI MINIMI
QUADRATI
• Chiamiamo Dn la deviazione (o errore) fra il
valore Yn e il corrispondente valore della curva
(positiva o negativa)
• Una misura della “bontà dell’interpolazione” è la
somma
D12 + D22 …..+ Dn2
METODO DEI MINIMI
QUADRATI
• La curva avente la proprietà che
D12 + D22 …..+ Dn2
è minima è detta migliore interpolante o
retta/curva dei minimi quadrati.
METODO DEI MINIMI
QUADRATI
• La retta dei minimi quadrati può essere
espressa nella forma
Y = a0 + a1 X
dove a0 e a1 si trovano risolvendo il sistema
SY = a0 N+ a1 SX
SXY = a0 S X+ a1 SX2
equazioni normali della retta dei minimi quadrati.
METODO DEI MINIMI
QUADRATI
• Si ottiene
( Y )(  X )  ( X )(  XY )
2
a0 
a1 
N  X  ( X )
2
N  XY   X  Y
N  X  ( X )
2
2
2
METODO DEI MINIMI
QUADRATI
• La prima delle due equazioni si ottiene dalla
sommatoria di entrambi i membri di
Y = a0 + a1 X ,
la seconda moltiplicando i membri per X e poi
facendo la sommatoria.
– Per derivare le equazioni si minimizzano le
derivate della retta
METODO DEI MINIMI
QUADRATI
Y1 = a0 + a1 X1
Y2= a0 + a1 X2
….
S=(a0 + a1 X2 -Y1)2 +(a0 + a1 X2 – Y2)2 +….
+ (a0 + a1 Xn - Yn)2
S
0
a0
S
0
a1
LA REGRESSIONE
• Vogliamo stimare il valore di una variabile Y
corrispondente a un dato valore di una variabile X.
• Si può ottenere questo stimando il valore di Y per
mezzo di una curva dei minimi quadrati che interpoli i
dati campionari.
• Questa è detta CURVA DI REGRESSIONE di X su Y.
• Se X è il tempo (variabile indipendente) i dati
indicano i valori di Y in diversi tempi e vengono detti
SERIE TEMPORALE.
• La retta/curva di regressione è detta retta/curva del
trend e viene usata per scopi di previsione.
CORRELAZIONE E
REGRESSIONE
• La correlazione indica il grado di relazione fra
le variabili.
• Cercheremo di determinare quanto bene
un’equazione spiega tale relazione
• Se tutti i valori delle variabili soddisfano
esattamente un’equazione diciamo che le
variabili sono perfettamente correlate
(esempio: raggio e circonferenza; altezza e
peso saranno in parte correlate).
CORRELAZIONE E
REGRESSIONE
• Date due variabili X e Y costruiamo un
diagramma di dispersione con i loro
valori.
• Se tutti i punti giacciono più o meno su
una retta, la correlazione è detta lineare
e la relazione fra le variabili sarà retta
da un’equazione lineare.
CORRELAZIONE E
REGRESSIONE
• Se Y cresce al crescere di X la
correlazione è positiva o diretta:
CORRELAZIONE E
REGRESSIONE
• Se Y decresce al crescere di X, la
correlazione è detta negativa o inversa:
• Se i punti stanno su una curva, la
correlazione è non lineare.
CORRELAZIONE E
REGRESSIONE
• Se non c’è relazione fra le variabili
diciamo che sono incorrelate:
CORRELAZIONE E
REGRESSIONE
(1)
Y = a0 + a1 X
Può essere riscritta come
xy

y
x
x
2
dove
xX X
y  Y Y
xy

x
y
y
2
CORRELAZIONE E
REGRESSIONE
– Chiamiamo Ystim i valori di Y per dati valori
di X secondo una stima compiuta per
mezzo della (1).
– Una misura della dispersione intorno alla
retta di regressione di Y su X è
SYX 
S
2
YX

2
(
Y

Y
)

stim
oppure
N
2
Y
  a0  Y  a1  XY
N
errore
standard
della stima
CORRELAZIONE E
REGRESSIONE
– Il denominatore può anche essere
posto a N-2 .
– L’errore standard della stima ha
proprietà analoghe a quelle dello
scarto quadratico medio.
COEFFICIENTE DI
CORRELAZIONE
– Chiamiamo devianza totale di Y la
somma dei quadrati degli scarti dei
valori di Y dalla media Y¯.
– Si può anche scrivere
2
2
2
(
Y

Y
)

(
Y

Y
)

(
Y

Y
)


 stim
stim
devianza totale
devianza residua
devianza spiegata
COEFFICIENTE DI
DETERMINAZIONE
devianza _ spiegata
r 
devianza _ totale
2
(Y


 (Y
stim
Y )
2
 Y )2
– Se la devianza spiegata è zero (ossia la devianza
totale equivale alla residua), r2=0
– Se la devianza residua è uguale a zero, cioè
devianza totale = devianza spiegata , r2=1
– Dunque r2 è sempre positiva e varia fra 0 e 1.
COEFFICIENTE DI
CORRELAZIONE
– Allora definiamo
devianza _ spiegata
r 
devianza _ totale

 (Y
 (Y
stim
r coefficiente di correlazione
Y )
Y )
2
2
COEFFICIENTE DI
CORRELAZIONE
r varia fra +1 e –1 (+ o – a seconda di correlazione
positiva o negativa).
2
(
Y

Y
)
– Poiché

Sy 
N
S yx 
2
(
Y

Y
)

stim
N
allora
2
yx
S
r  1 2
Sy
S yx  S y 1  r
2
COEFFICIENTE DI
CORRELAZIONE
– Si dimostra che
r
 xy
x y
2
dove
xX X
y  Y Y
2
COEFFICIENTE DI
CORRELAZIONE
che dà automaticamente il segno di r.
– Si può riscriverla come
r
N  XY   X  Y
( N  X  ( X ) )( N  Y  ( Y ) )
2
2
2
2