Corso di Laurea: Diritto per le Imprese e le istituzioni a.a. 2016-17 Statistica Statistica Descrittiva Bivariata 2 Esercizi: 9, 10 Docente: Alessandra Durio 0 Corso di Laurea: Diritto per le Imprese e le istituzioni a.a. 2016-17 Statistica Statistica Descrittiva Bivariata 2 Esercizi: 9, 10 Docente: Alessandra Durio 1 Contenuti degli ESECIZI •La covarianza e il coefficiente di correlazione lineare •La regressione lineare 2 Esercizio 5.1 Esercizio 7.8: Testo Si sono eseguite 500 misurazioni della temperatura (Y) dell’acqua di un lago percorso da correnti a diverse profondità (X) ottenendo la seguente distribuzione di frequenze congiunte: Temperatura Y ! Profondità X # 5 a 10 10 a 15 15 a 20 5 |10 10 |20 20 |25 40 80 80 10 100 20 50 20 100 Si proceda a: calcolare media e varianza dell temperatura del lago; individuare la distribuzione della profondità condizionata alla temperatura massima; calcolare la covarianza di X e Y, nonché il corrispondente coefficiente di correlazione lineare. 3 Esercizio 5.1: soluzione (i) Esercizio 7.8 - Soluzione —i Riproponiamo la distribuzione di frequenze congiunte della v.s. (X, Y) aggiungendo alla tabella le frequenze marginali e i centri di classe: Temperatura Y ! Profondità X # 5 a 10 10 a 15 15 a 20 ni· (7.5) (12.5) (17.5) 5 a 10 10 a 20 20 a 25 (7.5) (15.0) (22.5) 40 80 80 200 10 100 20 130 50 20 100 170 n·j 100 200 200 500 4 Esercizio 7.8Esercizio - Soluzione — ii 5.1: soluzione (ii) Dalla distribuzione di frequenze di Y (con centri di classe) ⇢ ⇢ yj 7.5 15.0 22.5 Y⌘ = 200 130 170 n·j j=1,2,3 ricaviamo 1 E[Y] = (7.5 · 200 + 15.0 · 130 + 22.5 · 170) = 14.55 500 ⇣ ⌘ 1 E[Y 2 ] = 7.52 · 200 + 15.02 · 130 + 22.52 · 170 = 253.125 500 V[Y] = E[Y 2 ] (E[Y])2 = 253.125 14.552 = 41.4225 e pertanto scarto quadratico medio sY = p 41.4225 = 6.436031. 5 Esercizio 7.8 Esercizio - Soluzione — iii(iii) 5.1: soluzione Per rispondere al secondo quesito è sufficiente costruire la distribuzione di frequenze (in termini di frequenze relative) della v.s. condizionata X|Y = y3 . Pertanto dalla distribuzione di frequenze congiunte ricaviamo X|Y = y3 ⌘ ⇢ xi ni3 n.3 = i=1,2,3 ( ) 7.5 12.5 17.5 50 20 100 = 170 170 170 ⇢ 7.5 12.5 17.5 = 0.29 0.12 0.59 6 5.1: soluzione Esercizio 7.8 -Esercizio Soluzione — iv (iv) Ricordiamo innanzitutto che la Covarianza tra le variabili statistiche X e Y è definita come Cov[X, Y] = E[(X E[X]) · E[(Y E[Y])] mentre dal punto di vista computazionale conviene ricorrere alla proprietà Cov[X, Y] = E[X · Y] E[X] · E[Y] (1) Per rispondere al quesito occorrerà dunque calcolare i tre valori medi E[X · Y] E[X] E[Y] e successivamente applicare l’equazione (1). 7 Esercizio 5.1: soluzione (v) Esercizio 7.8 - Soluzione — v La media della v.s.Y è già stata calcolata ed è E[Y] = 14.55. Per la media della v.s. X, dalla distribuzione marginale ricaviamo E[X] = 1 (7.5 · 100 + 12.5 · 200 + 17.5 · 200) = 13.5 500 Per il valor medio E[X · Y], dalla distribuzione di frequenze congiunte della v.s. (X, Y) ricaviamo 1 r s E[X · Y] = Â Â xi · yj · nij = n i=1 j=1 1 = (7.5 · 7.5 · 40 + ·7.5 · 15.0 · 10 + . . . + 17.5 · 22.5 · 100) = 500 98812.5 = = 197.625 500 Sicché dalla (1): Cov[X, Y] = 197.625 13.5 · 14.55 = 1.2 8 Esercizio 7.8 -Esercizio Soluzione — vi (vi) 5.1: soluzione Quanto al coefficiente di correlazione lineare definito come Cov[X, Y] p r= V[X] · V[X] sapendo che V[Y] = 41.4225 e calcolata la varianza di X ⇣ ⌘ 1 E[X 2 ] = 7.52 · 100 + 12.52 · 200 + 27.52 · 200 = 196.25 500 V[X] = E[X 2 ] (E[X])2 = 196.25 13.52 = 14 avremo 1.2 r=p = 0.04983 41.4225 · 14 ...Tale risultato non deve sorprendere ... 9 5 10 15 µY = 14.55 0 Temperatura (Y) 20 µX = 13.5 25 Esercizio 7.8 - Soluzione — vii Esercizio 5.1: soluzione (vi)i 0 5 10 15 Profondità (X) 20 25 10 Esercizio 5.2 Esercizio 7.10: Testo Di una variabile statistica bivariata (X, Y) è noto che 1 E[X] = · E[Y] = 6 2 1 2 E[X ] = · E[Y 2 ] = 52 4 6 E[X · Y] = · E[X] · E[Y] 5 Calcolare Cov[X, Y] e rX,Y . Introdotte, ora, le trasformate Z= X µX sX W= Y µY sY 11 Esercizio 5.2: soluzione Esercizio 7.10 - Soluzione —i Dai dati in nostro possesso ricaviamo E[X] = 6 e E[Y] = 12 (essendo E[Y] = 2 · E[X]) E[X 2 ] = 52 e E[Y 2 ] = 208 (essendo E[Y 2 ] = 4 · E[X 2 ]) 6 E[X · Y] = · E[X] · E[Y] = 86.4 5 e pertanto V[X] = E[X 2 ] (E[X])2 = 52 V[Y] = E[Y 2 ] (E[Y])2 = 208 36 = 16 144 = 64 Cov[X, Y] = E[X · Y] E[X] · E[Y] = 86.4 14.4 Cov[X, Y] p rX,Y = = = 0.45 4 · 8 V[X] · V[Y] 72 = 14.4 12 Contenuti degli ESECIZI •La covarianza e il coefficiente di correlazione lineare •La regressione lineare 13 Esercizio .2: Testo Esercizio 5.3 La rilevazione del numero di dipendenti (X) e del fatturato giornaliero (Y), su un collettvo statistico costituito da 70 esercizi pubblici ha dato luogo alla seguente distribuzione di frequenze congiunte: X# 1 2 3 4 Y! 200 a 400 10 4 1 0 400 a 800 5 12 2 1 800 a 1000 2 2 11 6 1000 a 2000 0 1 3 10 Si proceda a: calcolare i parametri della retta di regressione Ŷ = a0 + a1 X; calcolare la varianza dei residui di regressione nonché il coefficiente di determinazione del modello. 14 Esercizio .2 - Soluzione —i Esercizio 5.3: soluzione (i) Iniziamo arricchendo la tabella della distribuzione di frequenze congiunte della v.s. bivariata (X, Y) con le frequenze marginali nonché i centri di classe X# Y! 200 a 400 (y1 = 300) 400 a 800 (y2 = 600) 800 a 1000 (y3 = 900) 1000 a 2000 (y4 = 1500) ni· 1 2 3 4 n·j 10 4 1 0 15 5 12 2 1 20 2 2 11 6 21 0 1 3 10 14 17 19 17 17 70 15 Esercizio 5.3: soluzione (ii) Esercizio .2 - Soluzione — ii 1000 800 600 400 200 Fatturato giornaliero (Y) 1400 Un diagramma a bolle ci è di aiuto nell’evidenziare graficamente l’eventuale legame di dipendenza funzionale tra le due componenti la v.s. doppia (X, Y). 0 1 2 3 4 5 # dipendenti (x) 16 Esercizio .2 - Soluzione iii (iii) Esercizio 5.3: — soluzione Anche in questo caso, pare che il modello di regressione Ŷ = a0 + a1 · X ben si presti a sintetizzare il legame funzionale esistente tra le v.s. X e Y. Si tratterà ora di determinare i valori dei parametri a0 e a1 . A tal fine, come abitudine, ricorreremo al metodo dei minimi quadrati misurare la bontà di adattamento del modello all’insieme dei dati osservati. Per questo costruiremo il diagramma a bolle dei residui e calcoleremo il coefficiente di determinazione. 17 Esercizio 5.3: soluzione (iv) Esercizio .2 - Soluzione — iv Com’è noto, ricorrendo al metodo dei minimi quadrati, il valore dei parametri della retta di regressione corrisponderano a a1 = Cov[X, Y] V[X] a0 = E[Y] a1 · E[X] e quindi, sulla base della distribuzione di frequenze congiunte della v.s. doppia (X, Y), calcoliamo la media e la varianza di X, quindi E[X], E[X 2 ] e V[X]. la media e la varianza di Y, quindi E[Y], E[Y 2 ] e V[Y]. Quest’ultima grandezza, come si vedrà, verrà utilizzata per il calcolo del coefficiente di determinazione. la media del prodotto X · Y, cioè E[X · Y], che utilizzeremo per il computo di Cov[X, Y]. 18 Esercizio 5.3: soluzione (v) Esercizio .2 - Soluzione — v Pertanto 1 r 1 E[X] = Â xi ni· = (1 · 17 + . . . + 4 · 17) = 2.485714 n i=1 70 1 r 2 1 2 E[X ] = Â xi ni· = 1 · 17 + . . . + 42 · 17 = 7.4 n i=1 70 2 V[X] = E[X 2 ] E[X] = 7.4 (2.485714)2 = 1.221224 1 s 1 E[Y] = Â yj n·j = (300 · 15 + . . . + 1500 · 14) = 805.7143 n j=1 70 1 s 2 1 E[Y ] = Â yj n·j = 3002 · 15 + . . . + 15002 · 14 = 815142.9 n j=1 70 2 V[Y] = E[Y 2 ] E[Y] = 4349.96 (805.7143)2 = 165967.3 1 r s 1 E[X · Y] = Â Â xi · yj · nij = (1 · 300 · 10 + . . . + 4 · 1500 · 10) = 2327.143 n i=1 j=1 70 19 Esercizio 5.3: soluzione (vi) Esercizio .2 - Soluzione — vi Infine, calcolata la covarianza tra le v.s. X e Y Cov[X, Y] = E[X · Y] E[X] · E[Y] = = 2327.143 2.485714 · 805.7143 = 324, 3673 otteniamo i valori dei coefficienti del modello di regressione in accordo al metodo dei minimi quadrati a1 = Cov[X, Y] 324, 3673 = = 265.6083 V[X] 1.221224 a0 = E[Y] a1 · E[X] = 805.7143 265.6083 · 2.485714 = 145.4880 In definitiva il modello di regressione proposto diviene Ŷ = 145.4880 + 265.6083 · X 20 Esercizio 5.3: soluzione (vii) Esercizio .2 - Soluzione — vii Se consideriamo ora la v.s. residui della regressione (Y Ŷ) e costruiamo il diagramma a bolle dei punti di cooordinate (xi ; yj ŷj ), pare che questi evidenzino una certa tendenza di fondo (nella figura successiva, lato destro, i residui hanno segno per lo più negativo). Ciò fa sorgere il dubbio che il modello di regressione adottato non si adatti bene ai dati. Quale misura della bontà di adattamento, ricorriamo al coefficiente di determinazione R2 che, nel caso il modello di regressione sia quello di una retta, coincide con il quadrato del coefficiente di correlazione lineare (R2 = r 2 ). Nel nostro caso otteniamo un valore di R2 piuttosto basso, infatti (Cov[X, Y])2 324, 36732 R =r = = = 0, 519106 V[X] · V[Y]] 1.221224 · 165967.3 2 2 Per inciso è r = 0.72049. 21 ! &!! <# = !>&# !"!!! !&!! <.=,+6,*+,*7.97.==,8/. "#!! #!! %!! '!! (!! 450067508*9,87/5:,.78*(;) "'!! "!!! Esercizio 5.3:— soluzione Esercizio .2 - Soluzione viii (viii) ! " # $ % )*+,-./+./0,*(2) & ! " # $ % & )*+,-./+./0,*(2) 22