Modulo STATISTICA MATEMATICA 1 Unità Didattiche: 1 – Relazioni tra variabili statistiche 2 – Regressione e correlazione lineari OBIETTIVI DIDATTICI 2 SAPERE: definire i concetti di interpolazione, perequazione ed estrapolazione statistica; distinguere l’interpolazione fra punti e l’interpolazione per punti; illustrare il Metodo dei Minimi Quadrati; illustrare la regressione lineare; illustrare la correlazione lineare; SAPER FARE: la costruzione del diagramma a dispersione; il calcolo della retta dei Minimi Quadrati; il calcolo delle rette di regressione lineare; il calcolo del coefficiente di correlazione lineare; l’interpretazione grafica del coefficiente di correlazione lineare. 1 – RELAZIONI TRA VARIABILI STATISTICHE 3 PRESENTAZIONE 4 Nelle Matematiche Applicate e nelle Scienze Sperimentali si osserva l’esistenza di relazioni tra due o più grandezze. Sorge allora il problema di determinare una funzione che rappresenti queste relazioni e permetta di analizzare meglio i fenomeni osservati. Gli obiettivi della ricerca di tale funzione sono tanti: • • • • • Descrivere analiticamente la relazione Determinare la legge di distribuzione dei dati Calcolare dati eventualmente mancanti (INTERPOLAZIONE) Correggere dati chiaramente sbagliati (PEREQUAZIONE) Effettuare delle previsioni (ESTRAPOLAZIONE) DIAGRAMMA A DISPERSIONE 5 Esempi di relazioni tra due sole grandezze: reddito e risparmio di una popolazione, altezza e peso dei giovani di leva, Y prezzo e domanda di un bene. X : x1 , x2 , x3 ,...xn Y : y1 , y2 , y3 ,... yn grandezze o variabili statistiche ( xi ; yi ) Pi valori reali o misurati i = 1,…n punti yi 0 Pi X xi diagramma a dispersione non esiste una relazione esiste una relazione: 1° grado, 2° grado, esponenziale ESEMPIO N. 1 – DIAGRAMMA A DISPERSIONE 6 Costruire il diagramma a dispersione che rappresenti la produzione di vino in Italia durante il primo decennio postbellico (1946 – 1955). VINO (milioni di hl) 60 X Y 55 1946 33,75 1947 36,45 1948 40,39 1949 41,04 1950 41,05 1951 49,76 1952 44,85 1953 52,54 1954 50,47 1955 58,58 milioni di hl ANNI 50 45 40 35 30 1946 1947 1948 1949 1950 1951 anni 1952 1953 1954 1955 PROCEDIMENTI: “FRA PUNTI” E “PER PUNTI” 7 Per rappresentare analiticamente la relazione tra due grandezze o variabili statistiche si può determinare una funzione y = f (x ) il cui grafico: si accosta il più possibile ai punti del diagramma a dispersione, cioè passa fra i punti assegnati della distribuzione statistica (INTERPOLAZIONE FRA PUNTI NOTI); passa esattamente per i punti assegnati della distribuzione statistica (INTERPOLAZIONE PER PUNTI NOTI). y y 0 x fra punti 0 x per punti METODO DEI MINIMI QUADRATI (MMQ) 8 Valori reali o misurati ( xi ; yi ) METODO DI INTERPOLAZIONE FRA PUNTI NOTI Y Funzione y = f (x) ŷi y=f(x) Valori teorici o calcolati ( xi ; yˆ i ) ŷi yi di Differenze d i = yi − yˆ i Condizione di accostamento n 2 ˆ ( y − y ) ∑ i i = min i =1 0 X xi CONDIZIONE DI ACCOSTAMENTO DEL MMQ 9 Funzione 1° grado y=mx+q 2° grado y=ax2+bx+c proporzionalità inversa y=a/x Esponenziale y=ex Logaritmica y=lgx y = f ( x) = f ( x; a, b, c,...k ) Condizione di accostamento n F ( a, b, c,...k ) = ∑ [ yi − f ( xi ; a, b, c,...k )] = min 2 i =1 Funzione reale di due o più variabili reali, cioè i parametri a,b,c,…k, che deve essere resa minima utilizzando il metodo analitico basato su: calcolo delle derivate parziali applicazione della condizione necessaria e sufficiente SVILUPPO DEL MMQ: caso generale 10 Condizione necessaria, sistema delle derivate parziali prime uguagliate a zero: ∂f n ∂F [ ] − =0 ( ; , , ,... ) y f x a b c k i i ∂a = 0 ∑ ∂ a i =1 n ∂F = 0 [ y − f ( x ; a, b, c,...k )] ∂f = 0 ∑ i → i =1 i ∂b ∂b ........... ................................................... n ∂ F ∂f =0 [ − ( ; , , ,... ) ] =0 y f x a b c k ∑ i i ∂k ∂k i =1 Sistema lineare di n equazioni in n incognite a,b,c,…k Condizione sufficiente, costruzione dell’Hessiano formato dalle derivate parziali seconde: La funzione F è una somma di quadrati pertanto è sempre positiva, al più nulla, e può avere solo un minimo. INDICI DI SCOSTAMENTO 11 LINEARE: I 1= n ∑y i =1 i − yˆ i n ∑ yˆ i =1 ≤ 0,1 → (0,01) i n QUADRATICO: 2 ˆ ( ) y − y ∑ i i i =1 I 2= n ≤ 0,1 → (0,01) n ∑ yˆ i =1 n i SVILUPPO DEL MMQ: caso lineare y = a + bx 12 Condizione di accostamento: n n F ( a, b) = ∑ [ yi − ( a + bxi )] = ∑ ( yi − a − bxi ) 2 i =1 2 i =1 Condizione necessaria: n n n ∂F ( yi − a − bxi )(−1) = 0 − ∑ yi + na + b∑ xi = 0 ∂a = 0 ∑ i =1 i =1 i =1 → → n n n n ∂F = 0 ( y − a − bx )(− x ) = 0 − x y + a x + b ( x ) 2 = 0 ∑ ∑ i i i i i i i ∂b ∑ ∑ i =1 i =1 i =1 i =1 n n na + b∑ xi = ∑ yi i =1 i =1 n n n a x + b ( x ) 2 = x y ∑ ∑ i i i i ∑ i =1 i =1 i =1 sistema lineare: 2x2 incognite: a b metodo di Cramer: Det(A)≠o CONTINUAZIONE: Metodo di Cramer 13 x ∑ i i =1 n 2 ( xi ) ∑ i =1 n A= n ∑ xi i =1 n n B= n ∑ xi i =1 n ∑ xi i =1 n 2 ( x ) ∑ i i =1 y ∑ i i =1 n xi yi ∑ i =1 n n ∑x n Det ( A) = n ∑x i =1 i 2 n 2 i =1 = n∑ ( xi ) − ∑ xi ≠ 0 → Det ( A) > 0 n i =1 ∑ ( xi ) 2 i=1 i i =1 n CONTINUAZIONE: soluzioni del sistema 14 n n ∑y ∑x i i =1 n i i =1 n ∑ x y ∑ (x ) a= i i =1 i i =1 n n i i =1 n n ∑ y ∑ (x ) − ∑ x y ∑ x i =1 i i i =1 i i =1 i n n∑ ( xi ) − ∑ xi i =1 i =1 n i =1 2 i 2 n ∑ x ∑ (x ) i =1 = i i =1 n 2 i ∑x n n 2 2 i n ∑y n i =1 n n i ∑x ∑x y b= y= a + b x a = ordinata all’origine b = coefficiente angolare i =1 i i =1 n i i ∑x n i i =1 n n ∑ x ∑ (x ) i =1 = i i =1 i 2 n n n i =1 i =1 i =1 n∑ xi yi − ∑ xi ∑ yi n 2 n∑ ( xi ) − ∑ xi i =1 i =1 n 2 CONTINUAZIONE: Condizione sufficiente 15 ∂2F =n>0 2 ∂a n ∂2F ∂2F = = ∑ xi ∂a∂b ∂b∂a i =1 n ∂2F 2 = ( x ) ∑ i ∂b 2 i =1 ∂2F 2 ∂ a H= 2 ∂ F ∂a∂b ∂2F ∂b∂a = ∂2F ∂b 2 n ∑x n n ∑x i =1 i 2 2 = n ( x ) − x ∑ i > 0 ∑ i n 2 i =1 i =1 ( x ) ∑ i i =1 i i =1 è proprio un minimo! n n NELLA PRATICA APPLICAZIONE … 16 Si calcola il coefficiente angolare b b= n n n i =1 i =1 i =1 n∑ xi yi − ∑ xi ∑ yi n 2 n∑ ( xi ) − ∑ xi i =1 i =1 n n n i =1 i =1 2 na + b∑ xi = ∑ yi Si calcola l’ordinata all’origine a n n i =1 i =1 na = ∑ yi − b∑ xi n a= ∑y i =1 n i − b∑ xi i =1 n n = ∑y i =1 n n i −b ∑x i =1 i n a = y − bx Si sostituiscono a e b nella equazione della retta: y = a + bx → y = y − bx + bx → y − y = b( x − x ) BARICENTRO DELLA DISTRIBUZIONE 17 Valori medi della distribuzione dei dati: n n x= ∑x i =1 n i y= ∑y i =1 i n G( x , y ) Baricentro della distribuzione dei dati: Equazione della retta passante per il punto G ed avente coefficiente angolare b: y − y = b( x − x ) RIASSUMENDO: MMQ – teorico 18 si calcolano le incognite: n n n n ∑ y ∑ (x ) − ∑ x y ∑ x 2 a= i =1 i i =1 i i =1 i i n∑ ( xi ) 2 − ∑ xi i =1 i =1 n n i =1 2 i b= n n n i =1 i =1 i =1 n∑ xi yi − ∑ xi ∑ yi n∑ ( xi ) 2 − ∑ xi i =1 i =1 n si calcolano i valori teorici: si calcolano gli indici di scostamento: I 1= ∑ i =1 yi − yˆ i n ∑ yˆi i =1 2 xi → yˆ i = a + bxi n n n ∑ (y i =1 ≤ 0,1 → (0,01) I 2= − yˆ i ) 2 i n n ∑ yˆ i =1 ≤ 0,1 → (0,01) i n si disegna la retta nel diagramma a dispersione. RIASSUMENDO: MMQ – pratico 19 si calcolano il baricentro e il coefficiente angolare: n x= n ∑x i i =1 y= n ∑y i =1 i n b= n n n i =1 i =1 i =1 n∑ xi yi − ∑ xi ∑ yi n∑ ( xi ) 2 − ∑ xi i =1 i =1 n n si calcolano i valori teorici: si calcolano gli indici di scostamento: xi → yˆ i = y + b( xi − x ) n n I 1= ∑y i =1 i − yˆ i n ∑ yˆ i =1 i ∑ (y i =1 ≤ 0,1 → (0,01) 2 I 2= 2 ˆ ) y − i i n ≤ 0,1 → (0,01) n ∑ yˆ i =1 i n si disegna la retta nel diagramma a dispersione. ESEMPIO N. 1 – TABELLA DI CALCOLO (metodo teorico) 20 Costruire la retta dei minimi quadrati che rappresenta la produzione di vino in Italia durante il primo decennio postbellico (1946 – 1955). X X Y X2 XY Ŷ Y- Ŷ │Y- Ŷ│ (Y- Ŷ)2 1946 1 33,75 1 33,75 33,91 -0,16 0,16 0,03 1947 2 36,45 4 72,90 36,35 0,10 0,10 0,01 1948 3 40,39 9 121,17 38,79 1,60 1,60 2,56 1949 4 41,04 16 164,16 41,23 -0,19 0,19 0,04 1950 5 41,05 25 205,25 43,67 -2,62 2,62 6,86 1951 6 49,76 36 298,56 46,11 3,65 3,65 13,34 1952 7 44,85 49 313,95 48,55 -3,70 3,70 13,67 1953 8 52,54 64 420,32 50,99 1,55 1,55 2,41 1954 9 50,47 81 454,23 53,43 -2,96 2,96 8,74 1955 10 58,58 100 585,80 55,87 2,71 2,71 7,37 55 448,88 385 2670,09 448,88 19,24 55,02 ordinata all'origine coefficiente angolare indice di scostamento lineare indice di scostamento quadratico a= b= IL = IQ = 31,47133 2,439394 0,042866 0,052254 ESEMPIO N. 1 – GRAFICO (metodo teorico) 21 60 milioni di hl 55 50 45 40 35 30 1946 1947 1948 1949 1950 1951 1952 anni V. MISURATI V. CALCOLATI 1953 1954 1955 ESEMPIO N. 1 – TABELLA DI CALCOLO (metodo pratico) 22 Costruire la retta dei minimi quadrati che rappresenta la produzione di vino in Italia durante il primo decennio postbellico (1946 – 1955). X X Y X2 XY Ŷ Y- Ŷ │Y- Ŷ│ (Y- Ŷ)2 1946 1 33,75 1 33,75 33,91 -0,16 0,16 0,03 1947 2 36,45 4 72,90 36,35 0,10 0,10 0,01 1948 3 40,39 9 121,17 38,79 1,60 1,60 2,56 1949 4 41,04 16 164,16 41,23 -0,19 0,19 0,04 1950 5 41,05 25 205,25 43,67 -2,62 2,62 6,86 1951 6 49,76 36 298,56 46,11 3,65 3,65 13,34 1952 7 44,85 49 313,95 48,55 -3,70 3,70 13,67 1953 8 52,54 64 420,32 50,99 1,55 1,55 2,41 1954 9 50,47 81 454,23 53,43 -2,96 2,96 8,74 1955 10 58,58 100 585,80 55,87 2,71 2,71 7,37 55 448,88 385 2670,09 448,88 19,24 55,02 coordinate del baricentro G coefficiente angolare indice di scostamento lineare indice di scostamento quadratico 5,5 Xm = 44,888 Ym = b = 2,439394 IL = 0,042866 IQ = 0,052254 ESEMPIO N. 1 – GRAFICO (metodo pratico) 23 60 milioni di hl 55 50 45 40 35 30 1946 1947 1948 1949 1950 1951 1952 1953 anni V. MISURATI V. CALCOLATI G(Xm,Ym) 1954 1955 ESEMPIO N. 2 – TABELLA DI CALCOLO (metodo pratico) 24 Costruire la retta dei minimi quadrati che rappresenta la produzione di un dato prodotto, in tonnellate, rilevata ogni due anni. X Y X2 XY Ŷ Y- Ŷ │Y- Ŷ│ (Y- Ŷ)2 1 1400 1 1400 1580 -180 180 32400 3 3000 9 9000 2700 300 300 90000 5 3500 25 17500 3820 -320 320 102400 7 5400 49 37800 4940 460 460 211600 9 5800 81 52200 6060 -260 260 67600 25 19100 165 117900 19100 1520 504000 coordinate del baricentro G coefficiente angolare indice di scostamento lineare indice di scostamento quadratico Xm = 5 Ym = 3820 560 b= IL = 0,079581 IQ = 0,083113 ESEMPIO N. 2 – GRAFICO (metodo pratico) 25 7000 produzione (t) 6000 5000 4000 3000 2000 1000 0 1 3 5 7 anni V. MISURATI V. CALCOLATI G(Xm;Ym) 9 2 – REGRESSIONE E CORRELAZIONE LINEARI 26 REGRESSIONE E CORRELAZIONE 27 1. REGRESSIONE studio del legame di dipendenza di una variabile statistica dall’altra. 2. CORRELAZIONE studio dell’intensità del legame tra due variabili statistiche. In particolare: REGRESSIONE LINEARE e CORRELAZIONE LINEARE in quanto tra le variabili statistiche esiste una relazione lineare accertata con il MMQ. REGRESSIONE LINEARE 28 1° X variabile indipendente Y variabile dipendente retta di regressione di Y rispetto a X b1 = n n n i =1 i =1 i =1 n∑ xi yi − ∑ xi ∑ yi b1=coefficiente di regressione lineare di Y rispetto a X è un coefficiente angolare n∑ ( xi ) 2 − ∑ xi i =1 i =1 n n 2 xi → yˆ i = y + b1 ( xi − x ) 2° Y variabile indipendente X variabile dipendente retta di regressione di X rispetto a Y b2=coefficiente di regressione lineare di X rispetto a Y è l’inverso di un coefficiente angolare xi → yˆ i = y + 1 ( xi − x ) b2 b2 = n n n i =1 i =1 i =1 n∑ xi yi − ∑ xi ∑ yi n 2 n ∑ ( yi ) − ∑ yi i =1 i =1 n 2 yi → xˆi = x + b2 ( yi − y ) OSSERVAZIONI 29 b1 è un coefficiente angolare; b2 NON è un coefficiente angolare; b1 e b2 sono concordi: Se positivi, quando cresce una variabile, cresce anche l’altra; Se negativi, quando cresce una variabile, decresce l’altra. Se b1 = b2 il legame è perfetto; Se b1 = b2 = 0 NON ESISTE regressione lineare; Le due rette di regressione si intersecano in G(Xm;Ym). y 0 y x b1, b2 > 0 0 y y x b1, b2 < 0 0 x b1 = b2 0 x b1 = b2 = 0 CORRELAZIONE LINEARE 30 σ xy r= σ xσ y Coefficiente di correlazione lineare Coefficiente di BRAVAIS-PEARSON n σx = n ∑ (xi − x ) σy = i =1 n scarto quadratico medio di X n σ 2x = ∑ (x − x ) i =1 i varianza di X σ 2y = i =1 n scarto quadratico medio di Y n 2 n 2 ( ) y − y ∑ i 2 ∑ (y i =1 i − y) n varianza di Y n 2 σ xy = ∑ (x − x )( y i =1 i i − y) n covarianza di X e Y SIGNIFICATO ANALITICO DI r 31 è un numero puro; il suo campo di variabilità è: r r r r r = = = > < − 1 ≤ r ≤ +1 +1 correlazione perfetta diretta; -1 correlazione perfetta inversa; 0 NON esiste correlazione lineare; 0 correlazione diretta; 0 correlazione inversa; gode della proprietà della media geometrica: r = ± b1b 2 il segno + se sono positivi il segno – se sono negativi SIGNIFICATO GEOMETRICO DI r 32 y y y y y=ym x=x m 0 x r>0 (r=0,7) FORTE 0 y 0 x r>0 (r=0,4) DEBOLE y x r<0 (r=-0,7) FORTE 0 x 0 r=+1 (b1=b2) y x r<0 (r=-0,4) DEBOLE 0 x r=-1 (b1=b2) 0 x r=0 (b1=b2=0) ESEMPIO N. 3 – TESTO 33 Studiare la correlazione lineare tra il prodotto nazionale lordo (P.N.L.) pro-capite, in Euro per abitante,e il consumo di surgelati pro-capite, in grammi per abitante, in Italia. anni P.N.L. pro-capite (euro/ab.) consumo di alimenti surgelati (g/ab.) 1994 747,0 115 1995 766,0 160 1996 804,4 225 1997 853,7 229 1998 902,9 391 1999 948,9 499 2000 988,2 605 ESEMPIO N. 3 – REGRESSIONE L. DI Y X 34 X Y X2 XY Ŷ1 Y- Ŷ │Y- Ŷ│ (Y- Ŷ)2 747,0 115 558009,00 85905,00 99,24 15,76 15,76 248,31 766,0 160 586756,00 122560,00 136,39 23,61 23,61 557,22 804,4 225 647059,36 180990,00 211,48 13,52 13,52 182,76 853,7 229 728803,69 195497,30 307,88 -78,88 78,88 6222,29 902,9 391 815228,41 353033,90 404,09 -13,09 13,09 171,25 948,9 499 900411,21 473501,10 494,03 4,97 4,97 24,66 988,2 605 976539,24 597861,00 570,88 34,12 34,12 1164,15 6011,1 2224 5212806,91 2009348,30 2224,00 183,94 8570,64 coordinate del baricentro G coefficiente angolare indice di scostamento lineare indice di scostamento quadratico Xm = Ym = b1 = IL = IQ = 858,7 318 1,96 0,0827 0,1101 ESEMPIO N. 3 – REGRESSIONE L. DI X Y 35 X Y Y2 XY Ŷ2 Y- Ŷ │Y- Ŷ│ (Y- Ŷ)2 747,0 115 13225 85905,00 89,62 25,38 25,38 644,05 766,0 160 25600 122560,00 128,41 31,59 31,59 997,92 804,4 225 50625 180990,00 206,80 18,20 18,20 331,12 853,7 229 52441 195497,30 307,45 -78,45 78,45 6154,17 902,9 391 152881 353033,90 407,89 -16,89 16,89 285,26 948,9 499 249001 473501,10 501,80 -2,80 2,80 7,83 988,2 605 366025 597861,00 582,03 22,97 22,97 527,68 6011,1 2224 909798 2009348,30 2224,00 196,27 8948,05 coordinate del baricentro G coefficiente angolare indice di scostamento lineare indice di scostamento quadratico Xm = Ym = b2 = IL = IQ = 858,7 318 0,49 0,0883 0,1125 ESEMPIO N. 3 – CORRELAZIONE LINEARE 36 X Y X-Xm (X-Xm)2 Y-Ym (Y-Ym)2 (X-Xm)(Y-Ym) 747,0 115 -111,73 12483,27 -203 41093 22648,98 766,0 160 -92,73 8598,59 -158 24874 14624,62 804,4 225 -54,33 2951,59 -93 8596 5037,03 853,7 229 -5,03 25,29 -89 7870 446,11 902,9 391 44,17 1951,12 73 5371 3237,13 948,9 499 90,17 8130,89 181 32865 16346,79 988,2 605 129,47 16762,85 287 82533 37195,29 6011,1 2224 203201 99535,96 coordinate del baricentro G scarto quadratico medio di X scarto quadratico medio di Y covarianza di X Y coefficiente di Bravais-Pearson 50903,59 Xm = Ym = σX = σY = σXY = r= 858,7 318 85,28 170,38 14219,42 0,9787 0,9787 ESEMPIO N. 3 – GRAFICO 37 700 consumo surgelati pro-capite (g/ab.) 600 500 400 300 200 100 0 700 750 800 850 900 P.N.L. pro-capite (euro/ab.) Y retta Y-X retta X-Y G(Xm;Ym) 950 1000