ESERCITAZIONE 13 : STATISTICA DESCRITTIVA E ANALISI DI

ESERCITAZIONE 13 : STATISTICA
DESCRITTIVA E ANALISI DI
REGRESSIONE
Giacomo Tommei
e-mail: [email protected]
web: www.dm.unipi.it/∼tommei
Ricevimento: su appuntamento
Dipartimento di Matematica, piano terra, studio 114
19 Febbraio 2013
Breve riepilogo
Supponiamo di avere un insieme x1 , x2 , . . . , xn di n dati (un campione di
ampiezza o numerosità n)
Media campionaria
x=
n
1 X
xi
n i=1
Nota: prese comunque due costanti a e b, se si considera il nuovo insieme di
dati yi = a xi + b, si ha
y=
n
1 X
yi = a x + b
n i=1
Giacomo Tommei
Breve riepilogo
Mediana campionaria
Assegnato un insieme di dati di ampiezza n, lo si ordini dal minore al
maggiore. Si dice mediana campionaria
Se n è dispari, il valore del dato in posizione (n + 1)/2;
se n è pari, la media aritmetica tra i valori dei dati che occupano le
posizioni n/2 e n/2 + 1.
Moda campionaria
Se esiste, é l’unico valore che ha frequenza massima; se non vi è un solo
valore con frequenza massima, ciascuno di essi è detto valore modale.
Giacomo Tommei
Breve riepilogo
Varianza campionaria
σ2 =
n
1 X
(xi − x)2
n i=1
(Attenzione: spesso, quando si parla di varianza campionaria, nella formula
si divide per n − 1)
Nota: prese comunque due costanti a e b, se si considera il nuovo insieme di
dati yi = a xi + b, si ha
σy2 = a2 σx2
Sommare a ciascun dato una costante non fa cambiare la varianza, mentre
moltiplicare ciascun dato per un fattore costante fa sı́ che la varianza
campionaria risulti moltiplicata per il quadrato di tale fattore.
Giacomo Tommei
Breve riepilogo
Deviazione standard campionaria
v
u
n
u1 X
σ=t
(xi − x)2
n i=1
(Attenzione: spesso, quando si parla di deviazione standard campionaria,
nella formula si divide per n − 1)
Nota: la deviazione standard ha le stesse unità di misura dei dati
sperimentali.
Percentile
Sia k un numero intero con 0 ≤ k ≤ 100. Assegnato un insieme di dati
numerici, ne esiste sempre uno che è contemporaneamente maggiore o
uguale di almeno il k percento dei dati, e minore o uguale di almeno il
100 − k percento dei dati. Se il dato con queste caratteristiche è unico, esso
è per definizione il percentile k-esimo dell’insieme dei dati considerato. Se
invece non è unico, allora sono esattamente due e in questo caso il percentile
k-esimo è definito come la loro media aritmetica.
Giacomo Tommei
Esercizio 1
In una indagine medica, su un gruppo di pazienti si sono misurate le
velocità di pulsazione V (battiti/minuto), ottenendo i risultati riportati
nella tabella seguente:
V
59
61
62
65
72
75
77
83
Num. pazienti
4
2
8
12
11
10
6
1
Calcola la velocità media di pulsazione campionaria e la relativa deviazione
standard.
Giacomo Tommei
Esercizio 1 - Soluzione
Calcoliamo la media:
µ(V ) =
59 × 4 + 61 × 2 + 62 × 8 + 65 × 12 + 72 × 11 + 75 × 10 + 77 × 6 + 83 × 1
4 + 2 + 8 + 12 + 11 + 10 + 6 + 1
=
3721
54
' 68.9
Per calcolare la varianza σ 2 utilizziamo la formula
σ
2
2
2
= µ(V ) − (µ(V ))
quindi
σ
2
=
592 × 4 + 612 × 2 + 622 × 8 + 652 × 12 + 722 × 11 + 752 × 10 + 772 × 6 + 832 × 1
54
=
258555
54
−
La deviazione standard è allora σ ' 6.3.
Giacomo Tommei
3721
54
2
' 39.8
−
3721
54
2
Esercizio 2
Negli organismi di una certa specie si osservano le seguenti misure, calcolate
in Kg, relative al peso PC del corpo e a quello PS dello scheletro. Basandoti
sui dati presenti nella tabella seguente ( nell’ultima riga si trovano i valori
delle rispettive medie) conduci un’analisi di regressione per determinare:
a) se sia ragionevole ipotizzare una relazione di tipo lineare di PC in
funzione di PS ;
b) se sia ragionevole ipotizzare che tra le due variabili ci sia una relazione
di tipo allometrico PC = a (PS )b , fornendo una stima dei parametri a
e b.
PS
3.8
1.9
1.6
2.2
2.7
PC
17.3
6.7
4.7
10
9.7
2
PS
14.44
3.61
2.56
4.84
7.29
2
PC
299.29
44.89
22.09
100
94.09
ln PS
1.34
0.64
0.47
0.79
0.99
ln PC
2.85
1.90
1.55
2.30
2.27
(ln PS )2
1.80
0.41
0.22
0.62
0.98
(ln PC )2
8.12
3.61
2.40
5.29
5.15
PS PC
65.74
12.73
7.52
22
26.19
ln PS ln PC
3.82
1.22
0.73
1.82
2.25
2.44
9.68
6.55
112.07
0.85
2.17
0.81
4.91
26.84
1.97
Giacomo Tommei
Formule per la regressione lineare
Supponiamo di avere due insiemi di dati X = (xi ) e Y = (yi ), con
i = 1, . . . , n e di ipotizzare una relazione lineare del tipo
Y = aX + b
Utilizzando il metodo dei minimi quadrati si arriva a stimare i coefficienti
reali a e b:
(X · Y )∗ − X ∗ · Y ∗
a=
(X 2 )∗ − (X ∗ )2
b = Y ∗ − a X∗
dove
∗
indica la media aritmetica dei valori.
Per misurare la bontà dell’approssimazione lineare serve il coefficente di
Pearson:
(X · Y )∗ − X ∗ · Y ∗
CP = p
[(X 2 )∗ − (X ∗ )2 ] [(Y 2 )∗ − (Y ∗ )2 ]
Giacomo Tommei
Esercizio 2 - Soluzione
a) Relazione di tipo lineare di PC in funzione di PS :
m=
26.84 − 2.44 · 9.68
6.55 − 2.442
' 5.4
q = 9.68 − 5.4 · 2.44 ' −3.5
CP = p
26.84 − 2.44 · 9.68
(6.55 − 2.442 ) (112.07 − 9.682 )
' 0.97
b) Relazione di tipo allometrico PC = a (PS )b :
log PC = log a + b log PS
b=
1.97 − 0.85 · 2.17
0.81 − 0.852
' 1.43
log a = 2.17 − 1.43 · 0.85 ' 0.95
CP = p
a ' 2.59
1.97 − 0.85 · 2.17
(0.81 − 0.852 ) (4.91 − 2.172 )
Giacomo Tommei
' 0.95
Esercizio 3
Tra le variabili X e Y della tabella sottostante si ipotizza una relazione
Y (X) =
1
aX + b
dove a, b sono opportune costanti reali. I dati in tabella sono approssimati
alla seconda cifra decimale e l’ultima riga contiene le rispettive medie.
Determina mediante una opportuna analisi di regressione le costanti a e b.
È buona l’approssimazione? Se sı̀, utilizzala per determinare Y (2.1).
X
1.1
1.3
1.5
1.8
2.2
2.4
2.7
2.9
3.1
3.5
Y
0.42
0.35
0.28
0.21
0.18
0.16
0.13
0.12
0.13
0.11
X2
1.21
1.69
2.25
3.24
4.84
5.76
7.29
8.41
9.61
12.25
Y2
0.18
0.12
0.08
0.04
0.03
0.03
0.02
0.01
0.02
0.01
1/X
0.91
0.77
0.67
0.56
0.45
0.42
0.37
0.34
0.32
0.29
1/Y
2.38
2.86
3.57
4.76
5.56
6.25
7.69
8.33
7.69
9.09
(1/X)2
0.83
0.59
0.45
0.31
0.20
0.18
0.14
0.12
0.10
0.08
(1/Y )2
5.66
8.18
12.74
22.66
30.91
39.06
59.14
69.39
59.14
82.63
X (1/Y )
2.69
2.20
5.36
8.57
12.23
15.00
20.76
24.16
23.84
31.82
Y (1/X)
0.38
0.27
0.19
0.12
0.08
0.07
0.05
0.04
0.04
0.03
2.25
0.209
5.655
0.05
0.51
5.818
0.30
38.95
14.66
0.127
Giacomo Tommei
Esercizio 3 - Soluzione
Indaghiamo, con un’analisi di regressione, se è plausibile una relazione, tra le due variabili X
ed Y , del tipo
1
Y =
aX + b
con a, b ∈ R.
Con la sostituzione
1
Z =
Y
si ottiene una relazione lineare tra X e Z:
Z = aX + b
Applicando le formule della regressione lineare (utilizzando le opportune medie della tabella
data) si ha
a=
(X · Z)∗ − X ∗ · Z ∗
=
(X 2 )∗ − (X ∗ )2
ed inoltre
∗
b = (Z) − a X
∗
14.66 − 2.25 · 5.818
5.655 − 2.252
=
1.5695
0.5925
' 2.65
' 5.818 − 2.65 · 2.25 ' −0.14
Quindi la relazione cercata è
Y =
1
2.65 X − 0.14
Il coefficente di Pearson vale
(X · Z)∗ − X ∗ · Z ∗
p
[(X 2 )∗ − (X ∗ )2 ] [(Z 2 )∗ − (Z ∗ )2 ]
1.5695
' √
' 0.90
0.5925 · 5.1
e quindi l’approssimazione è buona.
Y (2.1) =
1
2.65 · 2.1 − 0.14
Giacomo Tommei
' 0.18
Esercizio 4
Ipotesi biologiche sulla crescita di una popolazione di batteri suggeriscono
che il numero di individui N (t) della popolazione al tempo t possa essere
espresso da una funzione del tipo
N (t) =
2t
bk−t
dove b e k sono opportune costanti positive. Avendo a disposizione i
seguenti dati sperimentali
t
N (t)
1
1
2
3
3
29
4
248
5
2062
a) conduci un’analisi di regressione per stimare b e k, quali valori ottieni?
b) L’approssimazione è buona?
Giacomo Tommei
Esercizio 4 - Soluzione
Nota che
N (t) =
2t
bk−t
=
2t
bk b−t
=
2t bt
bk
=b
−k
t
(2 b)
Passando ai logaritmi (useremo il logaritmo in base 10) si ha
log N (t) = log(b
−k
t
(2 b) ) = −k log b + t log 2 b
e possiamo quindi applicare le formule della regressione lineare per trovare la retta di
regressione y = m x + q con y = log N (t), m = log 2 b e q = −k log b.
t
N (t)
log N (t)
t log N (t)
t2
(log N (t))2
1
1
0
0
1
0
2
3
0.477
0.954
4
0.227
3
29
1.462
4.386
9
2.137
Giacomo Tommei
4
248
2.394
9.576
16
5.731
5
2062
3.314
16.57
25
10.982
3
468.6
1.5294
6.2972
11
3.8155
Esercizio 4 - Soluzione
L’ultima colonna della precedente tabella contiene le medie.
m=
xy − x y
x2 − x2
= 0.8545
q = y − m x = −1.0341
Possiamo quindi ricavare una stima dei parametri b e k:
log 2 b = 0.8545
k=
⇔
b=
1.0341
log b
1
2
10
0.845
' 3.50
' 1.9
Il coefficiente di Pearson è dato da
CP = q
xy − x y
' 0.995
(x2 − x2 ) (y 2 − y 2 )
quindi l’approssimazione è buona.
Nota che, se avessimo usato il logaritmo naturale invece del logaritmo in base 10, avremmo
trovato una diversa retta di regressione
y = 1.97 x − 2.38
ma un’identica stima dei parametri b e k.
Giacomo Tommei