METODO DEI MINIMI QUADRATI NOTA. Una esposizione chiara e dettagliata del metodo dei minimi quadrati si può trovare, per esempio, nel Capitolo 21 (pagg. 685 e seguenti) del libro: Marcellini - Sbordone “Calcolo”, Liguori Editore. Ricordiamo il simbolo di sommatoria: dati a1 , a2 , . . . , an numeri reali, per indicare la loro somma S = a1 + a2 + · · · + an scriveremo n X ai . S= i=1 1. Retta di regressione lineare. Lo scopo di molti esperimenti è di descrivere un certo fenomeno tramite una funzione y = f (x) della variabile indipendente x. Un caso particolarmente favorevole si ha quando tale funzione è lineare, ossia il suo grafico risulta una retta. Eseguiamo un esperimento relativo ad un certo fenomeno. Scegliamo n valori x1 , x2 , . . . , xn della variabile indipendente x, e determiniamo sperimentalmente i corrispondenti valori y1 , y2 , . . . , yn . Disegnando i punti Pi = (xi , yi ) nel piano cartesiano, supponiamo di renderci conto che essi sono approssimativamente allineati. Dedurremo allora che il fenomeno è descritto da una funzione lineare y = m0 x + q0 della variabile indipendente x. La retta y = m0 x + q0 è tradizionalmente chiamata retta di regressione lineare. Naturalmente, a causa delle inevitabile imprecisione delle misurazioni, o semplicemente poiche’ quella lineare è solo una prima approssimazione, i punti Pi = (xi , yi ) (1 ≤ i ≤ n) non saranno mai esattamente allineati. Il problema è quello di determinare la retta che meglio approssima gli n punti Pi . A questo scopo si adopera il metodo dei minimi quadrati. 2. Distanza della retta dai punti Pi . Si consideri una generica funzione lineare y = mx + q, ove m, q sono numeri reali. Il suo valore in xi è mxi + q, ed il corrispondente punto sulla retta è Ai = (xi , mxi + q). Allora la distanza di Ai da Pi = (xi , yi ) risulta d(Ai , Pi ) = |mxi + q − yi |. Si noti che questa distanza rappresenta anche la distanza verticale della retta dal punto Pi . Consideriamo la somma, per 1 ≤ i ≤ n dei quadrati di tali distanze E= n X (mxi + q − yi )2 i=1 (naturalmente il valore della somma E = E(m, q) varierà al variare di m e q). Con i metodi dell’analisi matematica si prova che esistono due numeri reali m0 e q0 tali che la corrispondente somma di quadrati E = E(m0 , q0 ) assume un valore minimo (ciò giustifica l’espressione “metodo dei minimi quadrati”). Si prova anche che questi valori di m0 e q0 sono univocamente determinati. È allora naturale pensare che la retta y = m0 x + q0 sia quella che meglio approssima i punti P1 , P2 , . . . , Pn (essendo quella che, mediamente, dista il meno possibile da essi). 1 2 METODO DEI MINIMI QUADRATI La retta y = m0 x + q0 sarà quindi la retta di regressione lineare del nostro esperimento. 3. Formule per determinare m0 , q0 . Diamo le formule per calcolare m0 e q0 . Introdurremo anche qualche termine usato in statistica. Consideriamo le medie aritmetiche dei valori x1 , . . . xn e y1 , . . . , yn : n n 1X 1X xi ; ȳ = yi . x̄ = n i=1 n i=1 Il punto P = (x̄, ȳ) è detto il baricentro del sistema di punti P1 , . . . , Pn . Si chiama varianza il valore n 1X s2 = (x̄ − xi )2 n i=1 (essendo un numero reale positivo, la varianza è un quadrato, e quindi si può scrivere nella forma s2 ). La radice quadrata s della varianza è chiamata deviazione standard. Si prova che la varianza si può esprimere anche con la seguente formula: n 1X 2 s2 = x − x̄2 . n i=1 i Consideriamo ora le due varianze (rispetto a x1 , . . . , xn e y1 , . . . , yn ): 1X 2 x − x̄2 ; n i=1 i n s2x = 1X 2 y − ȳ 2 n i=1 i n s2y = e consideriamo anche il seguente valore cxy , detto covarianza 1X xi yi − x̄ȳ. n i=1 n cxy = La formula per m0 è la seguente: 1 Pn xi yi − x̄ȳ cxy n m0 = 1 Pi=1 = 2 n 2 2 sx i=1 xi − x̄ n Una volta determinato m0 , la formula per q0 è la seguente: n n 1X 1X q0 = yi − m 0 xi = ȳ − m0 x̄. n i=1 n i=1 Si noti che la retta di regressione lineare passa per il baricentro (x̄, ȳ) del sistema: infatti dalla precedente formula si ricava ȳ = m0 x̄ + q0 . 4. Esempio. Consideriamo un esempio di particolare semplicità. Supponiamo di osservare un oggetto A in movimento rettilineo. Possiamo verificare la posizione di A (distanza dall’origine delle coordinate) ogni secondo per 10 secondi. Otteniamo, nell’ordine, i seguenti 10 valori, misurati in metri: 4.42; 7.61; 8.03; 11.16; 12.8; 14.12; 14.63; 16.79; 19.8; 21.77. Nella notazione precedente, xi = i, 1 ≤ i ≤ 10, e yi è il valore della distanza al secondo i-esimo (per esempio, y6 = 14.12). Si nota che i punti Pi = (i, yi ) sono all’incirca allineati. METODO DEI MINIMI QUADRATI 3 Nelle notazioni della terza sezione si trova: x̄ = (1 + 2 + · · · + 10)/10 = 5.5; ȳ = 13.113; s2x = 8.25 : cxy = 14.8505. La retta di regressione lineare rispetto ai dati sperimentali risulta allora y = 1.8001x + 3.2125. La retta approssima la funzione s(x) che misura lo spazio percorso da A in funzione del tempo (qui indicato con la variabile x per conformità con le notazioni precedenti). Si noti che m0 = 1.8001 = s0 (x) = v rappresenta la velocità di A (in m/sec). Essa quindi è approssimativamente costante.