metodo dei minimi quadrati

METODO DEI MINIMI QUADRATI
Vogliamo determinare una funzione lineare che meglio
approssima i nostri dati sperimentali e poter decidere
sulla bontà di questa approssimazione.
Sia f(x) = mx + q , la coppia di dati (xi , yi) appartiene al
grafico di f(x) se e solo se vale la relazione
yi = mxi + q; quindi l’errore δ i = mxi + q - yi misura la distanza che
c’è tra il dato sperimentale (xi , yi) ed il dato teorico (xi , f(xi)). METODO DEI MINIMI QUADRATI
Abbiamo quindi n errori δ 1 , δ 2, …., δ n Prendiamo come misura di quanto f(x) approssima i dati
la media aritmetica degli errori elevati al quadrato:
n
  f(m,q)= Σ (mxi + q - yi)2 / n
 
i=1
 Vogliamo determinare m e q in modo tale da rendere
minima f(m,q)
METODO DEI MINIMI QUADRATI
Abbiamo già visto che la media aritmetica è l’unico
punto di minimo della funzione n
f(x) = i=1
Σ (x-xi)2
Possiamo quindi dire che, fissato m, abbiamo che
q* = y* -mx*
è senz’altro il valore di q che rende minima la media
degli errori al quadrato. Sostituiamo q* nella media degli
errori al quadrato
METODO DEI MINIMI QUADRATI
Σ (mxi - mx*+y* - yi)2 / n
n
 
 
i=1
 Dobbiamo ora determinare m in modo da rendere
minima la precedente funzione
 Se sviluppiamo il quadrato, troviamo una funzione
quadratica nell’incognita m
 f(m)= {[ Σ(xi-x*)2 ]·m2 -[2· Σ(xi -x*)(yi -y*)]·m + [ Σ(yiy*)2 ]}/n  Il punto di minimo si ha per  m*= Σ(xi -x*)(yi -y*)/ Σ(xi-x*)2 = Covx,y / Varx
METODO DEI MINIMI QUADRATI
 Possiamo anche scrivere:
  *= Σ(xi - x*)(yi - y*)/ Σ(xi-x*)2 =
m
 = [Σ(xi·yi )/n- x*·y*]/[Σ(xi)2/n- (x*)2]=
 = [(x·y)* - x*·y*]/[(x2 )* - (x*)2]
  bbiamo quindi trovato la funzione lineare che meglio
A
approssima i dati; rimane da stabilire la bontà
dell’approssimazione…
METODO DEI MINIMI QUADRATI
  ossiamo calcolare f(m*), il valore minimo assunto:
P
 vale a dire l’ordinata del vertice della parabola- grafico
della funzione da minimizzare:
f  (m*)=Σ(yi-y*)2 /n - [Σ(xi·yi )/n - x*·y*]2/[Σ(xi)2/n(x*)2]=  Σ(yi)2/n- (y*)2- [Σ(xi·yi )/n- x*·y*]2/[Σ(xi)2/n- (x*)2]
f  (m*, q*)≥0 ed è f(m*, q*)=0 se e solo se le coppie dei
dati stanno tutte sulla retta, per cui più f(m*, q*) è vicino
a 0 e più l’approssimazione è buona
METODO DEI MINIMI QUADRATI
Poiché f(m*,q*) misura la media degli errori (assoluti) al
quadrato nelle ordinate, un indice migliore della bontà
dell’adattamento della legge lineare ai dati è
f(m*,q*)/Vary
Si ottiene
1 - {[(x·y)* - x*·y*]2 /[((x2 )* - (x*)2)·((y2 )* - (y*)2)]}
Poiché si ha f(m*,q*)/Vary ≥0, ne segue che {[(x·y)* - x*·y*]2 /[((x2 )* - (x*)2)·((y2 )* - (y*)2)]} ≤1
più è vicino a 1 migliore è l’approssimazione
METODO DEI MINIMI QUADRATI
La radice quadrata di {[(x·y)* - x*·y*]2 /[((x2 )* - (x*)2)·((y2 )* - (y*)2)]}
è
|(x·y)* - x*·y*| / sqr([((x2 )* - (x*)2)·((y2 )* - (y*)2)]
più vicina è a 1, migliore è l’approssimazione.
Togliendo il valore assoluto al numeratore, otteniamo il
coefficiente di correlazione o coefficiente di Pearson (CP)
CP= [(x·y)* - x*·y*]/ (DSx · DSy ) ∈[-1, 1]
METODO DEI MINIMI QUADRATI
Applichiamo dunque il metodo dei minimi quadrati per
determinare la retta di regressione che più si avvicina ai
dati sperimentali:
5
10
15
20
25
30
35
Saccarosio in gr/l : s
Lunghezza radice in mm: l
33
44
62
56
74
71
80
Abbiamo visto che il coefficiente angolare della retta di
regressione è dato da m = [(l·s)* - l*·s*]/[(s2 )* - (s*)2] =
Covs,l / Vars , mentre il termine noto q = l* -ms*
Per determinare tutti gli indici necessari costruiamo
un’opportuna tabella:
METODO DEI MINIMI QUADRATI
s
l
s2
l2
s·l
5
33
25
1089
165
10
44
100
1936
440
15
62
225
3844
930
20
56
400
3136
1120
25
74
625
5476
1850
30
71
900
5041
2130
35
80
1225
6400
2800
s*=20
l*=60
(s2 )*=500
(l2)*=3846
(s·l)*=1347.86
METODO DEI MINIMI QUADRATI
Possiamo procedere al calcolo di m e di q:
m = (1347.68 - (20)·(60))/(500-(20)2 ) = 1.4786
q = 60 - (1.4786)·(20) = 30.428
Vediamo se la retta approssima bene i dati sperimentali,
calcolando il coefficiente di correlazione, detto anche di
Pearson (CP):
METODO DEI MINIMI QUADRATI
CP =(s·l)* - s*·l* / sqr([((s2 )* - (s*)2)·((l2 )* - (l*)2)]
=(1347.86 - (20)·(60)) / sqr [(500-(20)2 )·(3846 - (60)2)]
= 0.94
Dunque, essendo CP vicino ad 1, l’approssimazione è
buona.
METODO DEI MINIMI QUADRATI
METODO DEI MINIMI QUADRATI
Dall’analisi grafica si osserva una certa differenza tra i
dati del campione per i valori più grandi di s e quelli
previsti in base al modello di regressione lineare. La
crescita sembra aumentare con l’aumentare del contenuto
di saccarosio non linearmente, ma piuttosto con una
relazione che potrebbe essere, ragionevolmente, di radice
quadrata. Possiamo determinare la retta di regressione per
i dati trasformati in modo da prendere ancora y=l, mentre
x=√s, vale a dire l(s) = m√s +q. Sostituiamo quindi nella
tabella precedente le opportune colonne dei dati
trasformati √s e √s·l METODO DEI MINIMI QUADRATI
s
l
√s
l2
√s·l
5
33
2.24
1089
73.92
10
44
3.16
1936
139.04
15
62
3.87
3844
239.94
20
56
4.47
3136
250.32
25
74
5
5476
370
30
71
5.48
5041
389.08
35
80
5.92
6400
473.6
s*=20
l*=60
(√s)*=4.31
(l2)*=3846
(√s·l)*=276.56
METODO DEI MINIMI QUADRATI
Nella tabella precedente i dati sono stati calcolati
arrotondando alla seconda cifra decimale.
Calcoliamo coefficiente angolare m’ ed intercetta q’ per
questa nuova “retta” di regressione
m’ = [(√s·l)* - √s*·l*]/[s * - ((√s)*)2] = 11.89
q’ = 60 - 11.89·4.31 = 8.75
Calcoliamo CP
CP = [(√s·l)*- (√s)*·l* ]/sqr[(s * - ((√s)*)2)·((l2 )* - (l*)2)]
= 17.96/350.28 = 0.96
Quindi questa curva approssima meglio i dati.