ESERCITAZIONE 13 : STATISTICA DESCRITTIVA E ANALISI DI REGRESSIONE Giacomo Tommei e-mail: [email protected] web: www.dm.unipi.it/∼tommei Ricevimento: su appuntamento Dipartimento di Matematica, piano terra, studio 114 19 Febbraio 2013 Breve riepilogo Supponiamo di avere un insieme x1 , x2 , . . . , xn di n dati (un campione di ampiezza o numerosità n) Media campionaria x= n 1 X xi n i=1 Nota: prese comunque due costanti a e b, se si considera il nuovo insieme di dati yi = a xi + b, si ha y= n 1 X yi = a x + b n i=1 Giacomo Tommei Breve riepilogo Mediana campionaria Assegnato un insieme di dati di ampiezza n, lo si ordini dal minore al maggiore. Si dice mediana campionaria Se n è dispari, il valore del dato in posizione (n + 1)/2; se n è pari, la media aritmetica tra i valori dei dati che occupano le posizioni n/2 e n/2 + 1. Moda campionaria Se esiste, é l’unico valore che ha frequenza massima; se non vi è un solo valore con frequenza massima, ciascuno di essi è detto valore modale. Giacomo Tommei Breve riepilogo Varianza campionaria σ2 = n 1 X (xi − x)2 n i=1 (Attenzione: spesso, quando si parla di varianza campionaria, nella formula si divide per n − 1) Nota: prese comunque due costanti a e b, se si considera il nuovo insieme di dati yi = a xi + b, si ha σy2 = a2 σx2 Sommare a ciascun dato una costante non fa cambiare la varianza, mentre moltiplicare ciascun dato per un fattore costante fa sı́ che la varianza campionaria risulti moltiplicata per il quadrato di tale fattore. Giacomo Tommei Breve riepilogo Deviazione standard campionaria v u n u1 X σ=t (xi − x)2 n i=1 (Attenzione: spesso, quando si parla di deviazione standard campionaria, nella formula si divide per n − 1) Nota: la deviazione standard ha le stesse unità di misura dei dati sperimentali. Percentile Sia k un numero intero con 0 ≤ k ≤ 100. Assegnato un insieme di dati numerici, ne esiste sempre uno che è contemporaneamente maggiore o uguale di almeno il k percento dei dati, e minore o uguale di almeno il 100 − k percento dei dati. Se il dato con queste caratteristiche è unico, esso è per definizione il percentile k-esimo dell’insieme dei dati considerato. Se invece non è unico, allora sono esattamente due e in questo caso il percentile k-esimo è definito come la loro media aritmetica. Giacomo Tommei Esercizio 1 In una indagine medica, su un gruppo di pazienti si sono misurate le velocità di pulsazione V (battiti/minuto), ottenendo i risultati riportati nella tabella seguente: V 59 61 62 65 72 75 77 83 Num. pazienti 4 2 8 12 11 10 6 1 Calcola la velocità media di pulsazione campionaria e la relativa deviazione standard. Giacomo Tommei Esercizio 1 - Soluzione Calcoliamo la media: µ(V ) = 59 × 4 + 61 × 2 + 62 × 8 + 65 × 12 + 72 × 11 + 75 × 10 + 77 × 6 + 83 × 1 4 + 2 + 8 + 12 + 11 + 10 + 6 + 1 = 3721 54 ' 68.9 Per calcolare la varianza σ 2 utilizziamo la formula σ 2 2 2 = µ(V ) − (µ(V )) quindi σ 2 = 592 × 4 + 612 × 2 + 622 × 8 + 652 × 12 + 722 × 11 + 752 × 10 + 772 × 6 + 832 × 1 54 = 258555 54 − La deviazione standard è allora σ ' 6.3. Giacomo Tommei 3721 54 2 ' 39.8 − 3721 54 2 Esercizio 2 Negli organismi di una certa specie si osservano le seguenti misure, calcolate in Kg, relative al peso PC del corpo e a quello PS dello scheletro. Basandoti sui dati presenti nella tabella seguente ( nell’ultima riga si trovano i valori delle rispettive medie) conduci un’analisi di regressione per determinare: a) se sia ragionevole ipotizzare una relazione di tipo lineare di PC in funzione di PS ; b) se sia ragionevole ipotizzare che tra le due variabili ci sia una relazione di tipo allometrico PC = a (PS )b , fornendo una stima dei parametri a e b. PS 3.8 1.9 1.6 2.2 2.7 PC 17.3 6.7 4.7 10 9.7 2 PS 14.44 3.61 2.56 4.84 7.29 2 PC 299.29 44.89 22.09 100 94.09 ln PS 1.34 0.64 0.47 0.79 0.99 ln PC 2.85 1.90 1.55 2.30 2.27 (ln PS )2 1.80 0.41 0.22 0.62 0.98 (ln PC )2 8.12 3.61 2.40 5.29 5.15 PS PC 65.74 12.73 7.52 22 26.19 ln PS ln PC 3.82 1.22 0.73 1.82 2.25 2.44 9.68 6.55 112.07 0.85 2.17 0.81 4.91 26.84 1.97 Giacomo Tommei Formule per la regressione lineare Supponiamo di avere due insiemi di dati X = (xi ) e Y = (yi ), con i = 1, . . . , n e di ipotizzare una relazione lineare del tipo Y = aX + b Utilizzando il metodo dei minimi quadrati si arriva a stimare i coefficienti reali a e b: (X · Y )∗ − X ∗ · Y ∗ a= (X 2 )∗ − (X ∗ )2 b = Y ∗ − a X∗ dove ∗ indica la media aritmetica dei valori. Per misurare la bontà dell’approssimazione lineare serve il coefficente di Pearson: (X · Y )∗ − X ∗ · Y ∗ CP = p [(X 2 )∗ − (X ∗ )2 ] [(Y 2 )∗ − (Y ∗ )2 ] Giacomo Tommei Esercizio 2 - Soluzione a) Relazione di tipo lineare di PC in funzione di PS : m= 26.84 − 2.44 · 9.68 6.55 − 2.442 ' 5.4 q = 9.68 − 5.4 · 2.44 ' −3.5 CP = p 26.84 − 2.44 · 9.68 (6.55 − 2.442 ) (112.07 − 9.682 ) ' 0.97 b) Relazione di tipo allometrico PC = a (PS )b : log PC = log a + b log PS b= 1.97 − 0.85 · 2.17 0.81 − 0.852 ' 1.43 log a = 2.17 − 1.43 · 0.85 ' 0.95 CP = p a ' 2.59 1.97 − 0.85 · 2.17 (0.81 − 0.852 ) (4.91 − 2.172 ) Giacomo Tommei ' 0.95 Esercizio 3 Tra le variabili X e Y della tabella sottostante si ipotizza una relazione Y (X) = 1 aX + b dove a, b sono opportune costanti reali. I dati in tabella sono approssimati alla seconda cifra decimale e l’ultima riga contiene le rispettive medie. Determina mediante una opportuna analisi di regressione le costanti a e b. È buona l’approssimazione? Se sı̀, utilizzala per determinare Y (2.1). X 1.1 1.3 1.5 1.8 2.2 2.4 2.7 2.9 3.1 3.5 Y 0.42 0.35 0.28 0.21 0.18 0.16 0.13 0.12 0.13 0.11 X2 1.21 1.69 2.25 3.24 4.84 5.76 7.29 8.41 9.61 12.25 Y2 0.18 0.12 0.08 0.04 0.03 0.03 0.02 0.01 0.02 0.01 1/X 0.91 0.77 0.67 0.56 0.45 0.42 0.37 0.34 0.32 0.29 1/Y 2.38 2.86 3.57 4.76 5.56 6.25 7.69 8.33 7.69 9.09 (1/X)2 0.83 0.59 0.45 0.31 0.20 0.18 0.14 0.12 0.10 0.08 (1/Y )2 5.66 8.18 12.74 22.66 30.91 39.06 59.14 69.39 59.14 82.63 X (1/Y ) 2.69 2.20 5.36 8.57 12.23 15.00 20.76 24.16 23.84 31.82 Y (1/X) 0.38 0.27 0.19 0.12 0.08 0.07 0.05 0.04 0.04 0.03 2.25 0.209 5.655 0.05 0.51 5.818 0.30 38.95 14.66 0.127 Giacomo Tommei Esercizio 3 - Soluzione Indaghiamo, con un’analisi di regressione, se è plausibile una relazione, tra le due variabili X ed Y , del tipo 1 Y = aX + b con a, b ∈ R. Con la sostituzione 1 Z = Y si ottiene una relazione lineare tra X e Z: Z = aX + b Applicando le formule della regressione lineare (utilizzando le opportune medie della tabella data) si ha a= (X · Z)∗ − X ∗ · Z ∗ = (X 2 )∗ − (X ∗ )2 ed inoltre ∗ b = (Z) − a X ∗ 14.66 − 2.25 · 5.818 5.655 − 2.252 = 1.5695 0.5925 ' 2.65 ' 5.818 − 2.65 · 2.25 ' −0.14 Quindi la relazione cercata è Y = 1 2.65 X − 0.14 Il coefficente di Pearson vale (X · Z)∗ − X ∗ · Z ∗ p [(X 2 )∗ − (X ∗ )2 ] [(Z 2 )∗ − (Z ∗ )2 ] 1.5695 ' √ ' 0.90 0.5925 · 5.1 e quindi l’approssimazione è buona. Y (2.1) = 1 2.65 · 2.1 − 0.14 Giacomo Tommei ' 0.18 Esercizio 4 Ipotesi biologiche sulla crescita di una popolazione di batteri suggeriscono che il numero di individui N (t) della popolazione al tempo t possa essere espresso da una funzione del tipo N (t) = 2t bk−t dove b e k sono opportune costanti positive. Avendo a disposizione i seguenti dati sperimentali t N (t) 1 1 2 3 3 29 4 248 5 2062 a) conduci un’analisi di regressione per stimare b e k, quali valori ottieni? b) L’approssimazione è buona? Giacomo Tommei Esercizio 4 - Soluzione Nota che N (t) = 2t bk−t = 2t bk b−t = 2t bt bk =b −k t (2 b) Passando ai logaritmi (useremo il logaritmo in base 10) si ha log N (t) = log(b −k t (2 b) ) = −k log b + t log 2 b e possiamo quindi applicare le formule della regressione lineare per trovare la retta di regressione y = m x + q con y = log N (t), m = log 2 b e q = −k log b. t N (t) log N (t) t log N (t) t2 (log N (t))2 1 1 0 0 1 0 2 3 0.477 0.954 4 0.227 3 29 1.462 4.386 9 2.137 Giacomo Tommei 4 248 2.394 9.576 16 5.731 5 2062 3.314 16.57 25 10.982 3 468.6 1.5294 6.2972 11 3.8155 Esercizio 4 - Soluzione L’ultima colonna della precedente tabella contiene le medie. m= xy − x y x2 − x2 = 0.8545 q = y − m x = −1.0341 Possiamo quindi ricavare una stima dei parametri b e k: log 2 b = 0.8545 k= ⇔ b= 1.0341 log b 1 2 10 0.845 ' 3.50 ' 1.9 Il coefficiente di Pearson è dato da CP = q xy − x y ' 0.995 (x2 − x2 ) (y 2 − y 2 ) quindi l’approssimazione è buona. Nota che, se avessimo usato il logaritmo naturale invece del logaritmo in base 10, avremmo trovato una diversa retta di regressione y = 1.97 x − 2.38 ma un’identica stima dei parametri b e k. Giacomo Tommei