Analisi statistiche bivariate
Analisi congiunta di due caratteri (variabili)
osservati per una unità statistica (ad es. peso ed
altezza di n studenti)
Rappresentazione dei dati
tabelle
elencazione completa delle modalità
a doppia entrata
grafici
istogrammi
diagrammi di dispersione
Tabelle
Se il numero di dati è piccolo, essi possono
essere rappresentati in una tabella che riporta
in modo dettagliato tutti i valori delle due
variabili relativamente a ciascuna unità
statistica
Se il numero di osservazioni è grande, si
ricorre ad una tabella a doppia entrata, detta
tabella di contingenza, in cui ad ogni coppia di
modalità rilevate si fa corrispondere la sua
frequenza assoluta
Tabelle
(numero di dati ridotto)
unità
carattere X
carattere Y
1
x1
y1
2
x2
y2
3
x3
y3
…
…
…
n
xn
yn
Tabelle
Esempio:
grado di dolcezza e quantità (ppm) di pectina rilevati su
24 succhi di arancia
Campione Sweetness Pectina (ppm)
1
5.2
220
2
5.5
227
3
6
259
4
5.9
210
5
5.8
224
6
6
215
7
5.8
231
8
5.6
268
9
5.6
239
10
5.9
212
11
5.4
410
12
5.6
256
Campione Sweetness Pectina (ppm)
13
5.8
306
14
5.5
259
15
5.3
284
16
5.3
383
17
5.7
271
18
5.5
264
19
5.7
227
20
5.3
263
21
5.9
232
22
5.8
220
23
5.8
246
24
5.9
241
Tabelle a doppia entrata
(numero di dati elevato)
X
Y
y1
y2
x1
x2
.. ..
xm
n11
n2 1
n1 2
n2 2
.. ..
n1 m
n2 m
somme
per righe
n1.
n2.
:
:
yp
np1 np 2
somme per
n.1 n.2
colonne
frequenza della
coppia (x1,y2)
.. .. n p m
n p.
n.m
n
nij: frequenze congiunte
Tabelle a doppia entrata
(numero di dati elevato)
X
somme
x1
x2
..
..
xm
y1
y2
n1 1
n2 1
n1 2
n2 2
..
..
n1 m
n2 m
per righe
n1 .
n2.
:
:
yp
somme per
colonne
np1
np 2
..
..
np m
n p.
n. 1
n. 2
n. m
n
Y
frequenza delle
coppie (xi,y2)
m
frequenza delle
coppie (x1,yj)
ni. = ∑ nij
i = 1,K ,p
j =1
p
n. j = ∑ nij
j = 1,K ,m
i =1
Tabelle a doppia entrata
(numero di dati elevato)
X
Y
y1
y2
:
:
yp
somme per
colonne
x1
x2
..
..
xm
n1 1
n2 1
n1 2
n2 2
..
..
n1 m
n2 m
somme
per righe
n1 .
n2.
np1
np2
..
..
npm
n p.
n.1
n.2
n.m
n
}
frequenze marginali
Tabelle a doppia entrata
sweetness
pectina
210
212
215
220
224
227
231
232
239
241
246
256
259
263
264
268
271
284
306
383
410
5.2
5.3
5.4
5.5
5.6
5.7
5.8
5.9
n i.
6
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
n .j
1
3
1
3
3
2
5
4
2
Tabelle a doppia entrata
(raggruppamento per classi)
Sweetness
Pectina
200-225
5-5.2
5.2-5.4
5.4-5.6
1
225-250
250-275
1
275-300
1
5.6-5.8
5.8-6
ni.
2
3
6
2
3
2
7
4
1
1
7
1
300-325
1
1
325-350
350-375
375-400
1
1
400-425
1
1
n.j
1
4
6
7
6
24
1
1
1
2
1
2
1
1
1
1
1
1
2
1
1
1
1
1
1
1
1
24
Tabelle a doppia entrata
Esempio:
dimensioni (in µm) della prima e della seconda placca
rilevate su 45 animali presumibilmente della stesso
gruppo Macrobiotus hufelandi
Distribuzioni Marginali
 x1 , x 2 , L , x m
X 
 n. 1 , n. 2 , L , n . m
1m
x = ∑ xi n.i
n i =1
σ x2
 y1 , y 2 , L , y p
Y 
 n1 . , n 2 .,L , n p .
medie generali
1m
= ∑ n.i (xi − x ) 2
n i =1
σ y2
1 p
y = ∑ y j n j.
n j =1
1 p
= ∑ n j. ( y j − y )2
n j =1
Rappresentazione grafica
istogrammi
si riportano le frequenze dei raggruppamenti in
classi
diagrammi di dispersione (scatter plot)
le singole coppie di misure osservate sono
rappresentate come punti in un piano cartesiano.
Si ottiene una nuvola di punti che descrive in
modo visivo la relazione tra le due variabili.
Istogrammi
Esempio:
dimensioni (in mm) della prima e della seconda placca
rilevate su 45 animali presumibilmente della stesso gruppo
Macrobiotus hufelandi
Istogrammi per
distribuzioni doppie
Problemi:
Istogrammi per
distribuzioni doppie
E’ possibile costruire diversi istogrammi con gli stessi
valori, visivamente differenti tra loro, partendo da
angolazioni differenti (nell’esempio precedente è stata
invertita la scala per la Ι placca).
Si deve scegliere un angolo di visuale, che mostra i dati in
prima linea ma nasconde quelli collocati dietro gli
istogrammi più alti.
Rappresentazione da evitare se, partendo dagli stessi dati, è
possibile fornire impressioni differenti sulle loro
caratteristiche statistiche.
Diagrammi di dispersione
dim II placca
25
23
21
19
17
15
25
26
27
28
29
30
31
32
33
34
35
dim I placca
Diagrammi di dispersione
Nel caso di rappresentazione di dati riportati originariamente in
tabella di frequenza, nel diagramma di dispersione il diverso
numero di ricorrenze può essere indicato da simboli
convenzionali (es: più cerchi concentrici o con superfici
differenti, in cui il numero di cerchi e/o le loro dimensioni sono
proporzionali al numero di dati che si vuole rappresentare)
dim II placca
25
23
21
19
17
15
25
26
27
28
29
30
31
dim I placca
32
33
34
35
Diagrammi di dispersione
Esempio:
lunghezza (mm) e larghezza (mm) di 333 foglie
di Camelia
LUNGH
1
2
3
4
5
6
7
8
9
10
LARGH
97
87
77
83
83
99
92
94
99
85
45
46
37
42
44
46
45
48
37
43
70
60
larghezza (mm)
#
50
40
30
20
10
50
70
90
110
130
150
lunghezza (mm)
Diagrammi di dispersione:
grafico degli scostamenti dalla media
Calcoliamo per ciascuna variabile la media
aritmetica
Il punto ( x , y ) , individuato dalle medie delle
due variabili, si chiama baricentro
Ricostruiamo il grafico a dispersione,
prendendo come nuova origine degli assi il
baricentro stesso.
Diagrammi di dispersione:
grafico degli scostamenti dalla media
~
~
y = y− y
x = x−x
x = 97.56 y = 45.72
larghezza (mm)
scostamenti dalla media
lunghezza (mm)
I
Dall’esame del grafico a dispersione si
capisce chiaramente che non esiste un legame
funzionale
esatto
fra
le
due
variabili
statistiche, tuttavia si può notare che i punti si
dispongono sul piano secondo una nuvola
allungata posta obliquamente sull’asse delle
ascisse.
In particolare si può dire che al crescere del
peso la lunghezza “tendenzialmente” cresce.
Ciò significa che i campioni che hanno un
peso elevato tendenzialmente hanno anche
una lunghezza elevata mentre campioni che
hanno un peso piccolo hanno tendenzialmente
una lunghezza piccola.
La forma della nuvola permette di stabilire, in
prima analisi, se fra le due variabili esiste
interdipendenza, mente la sua posizione
permette di stabilire il verso di tale legame.
Concordanza e discordanza
Associazione tra i caratteri di una v.s. doppia (X,Y)
Concordanza
all’aumentare delle modalità di X le modalità di Y
tendono ad aumentare.
Graficamente, gli scostamenti concordi (I e III
quadrante) prevalgono su quelli discordi
Discordanza
all’aumentare delle modalità di X le modalità di Y
tendono a diminuire.
Graficamente, gli scostamenti discordi (II e IV
quadrante) prevalgono su quelli concordi.
larghezza (mm)
scostamenti dalla media
lunghezza (mm)
I
Covarianza
indice simmetrico che misura la concordanza o la
discordanza tra due variabili quantitative X e Y
è definita come la media dei prodotti degli
scostamenti di X e di Y dalle rispettive medie:
1 N
Cov( X , Y ) = ∑ [( xi − x )( yi − y )]
N i =1
Proprietà della covarianza
Formula di calcolo:
Cov(X,Y) = E(XY)–E(X)E(Y)
Campo di variazione:
−σXσY ≤ Cov(X,Y) ≤ +σXσY
Invarianza rispetto a traslazioni:
Cov(X+a,Y) = Cov(X,Y)
Effetto di cambiamento di scala:
Cov(bX,Y) = bCov(X,Y)
Covarianza e relazione lineare perfetta
Se le variabili X ed Y sono legate da una relazione lineare
Y = a + bX, con b≠0, il coefficiente angolare è legato alla
covarianza:
Cov(X,Y)= Cov(X,a+bX) = E[X(a+bX)]-E(X)E(a+bX) =
aE(X)+bE(X2)-aE(X)-bE2(X) = bE(X2)-bE2(X) = bD(X) ⇒
b = Cov(X,Y)/D(X)
il segno della covarianza individua il tipo di relazione
deterministica lineare (diretta o inversa) tra X e Y. Questo
vale anche se i dati sono tendenzialmente allineati ossia in
caso di relazione statistica.
Covarianza
Positiva - prevalenza di scostamenti concordi
(legame diretto fra X e Y)
Negativa - prevalenza di scostamenti discordi
(legame inverso fra X e Y)
Nulla - non prevalgono né gli scostamenti
concordi né quelli discordi
(variabili statistiche sono incorrelate)
Esempio lunghezza (X) e larghezza (Y) di 333
foglie di Camelia
Cov(X,Y)=46,52
Esempio peso (X) e altezza (Y) di 100 bambini
di 3 anni
Cov(X,Y)=1,82
Esempio di covarianza positiva: Cov(X,Y)>0
90000
80000
70000
60000
50000
40000
30000
20000
10000
1000
1100
1200
1300
peso
1400
1500
1600
Esempio di covarianza negativa: Cov(X,Y)<0
14. 00
12. 00
10. 00
8. 00
6. 00
4. 00
2. 00
0. 00
0
20
40
60
80
100
120
140
160
180
Potenza
Esempio di covarianza massima (positiva):
50000
45000
40000
35000
30000
25000
20000
15000
10000
5000
0
0
10000
20000
30000
40000
50000
Prezzo in lire
60000
70000
80000
90000
Esempio di covarianza quasi nulla: Cov(X,Y)≈0
3
2.9
2.8
2.7
Passo
2.6
2.5
2.4
2.3
2.2
2.1
2
0
20
40
60
80
100
120
140
160
180
Potenza
La covarianza ha il difetto di dipendere
dall’unità di misura con la quale vengono
rilevate le variabili statistiche X e Y
fornisce informazioni
non fornisce informazioni
sul verso del legame
sull’intensità del legame
fra X e Y
fra X e Y
indice normalizzato
Coefficiente di correlazione lineare
−1 ≤ ρ =
Cov( X , Y )
σ XσY
≤1
ρ=1
massima correlazione positiva X=kY k>0
(relazione deterministica diretta tra X e Y)
ρ=−1
massima correlazione negativa X=kY k<0
(relazione deterministica inversa tra X e Y)
ρ=0
incorrelazione
Misura della correlazione lineare
ρ(X,Y) elevato quando:
Y dipende linearmente da X (o viceversa)
(es. relazione consumo-reddito)
X e Y dipendono da Z (es. relazione tra esame appl.
mod. e mat.: dipende da capacità individuali, ore di
studio, ecc.)
Correlazione spuria: concordanza o discordanza tra
X e Y senza un nesso logico (es. due serie storiche
con trend crescente)
900 00
800 00
700 00
600 00
500 00
400 00
300 00
200 00
100 00
10 00
11 00
12 00
13 00
14 00
15 00
16 00
peso
ρ = 0.959
14.00
12.00
10.00
8.00
6.00
4.00
2.00
0.00
0
20
40
60
80
100
120
140
160
180
Pote nza
ρ = −0.867
500 00
450 00
400 00
350 00
300 00
250 00
200 00
150 00
100 00
50 00
0
0
100 00
200 00
300 00
400 00
500 00
600 00
700 00
800 00
900 00
Prezz o in lire
ρ =1
90000
80000
70000
60000
50000
40000
30000
20000
10000
0
0
1000
2000
3000
Gi ri copp ia
ρ = 0.057
4000
5000
6000
Correlazione lineare
Esempi:
la circonferenza C ed il raggio r di ogni cerchio
sono perfettamente correlati, essendo C=2π r
(ρ = 1)
tra i punti dei due dadi lanciati simultaneamente
100 volte non c’è alcuna relazione, quindi sono
incorrelati (ρ = 0.03)
Correlazione lineare
Esempi:
le variabili lunghezza e larghezza delle foglie
di camelia e le variabili altezza e peso sono
“in qualche misura” correlate:
lunghezza (X) e larghezza (Y) di 333 foglie di
Camelia ρ = 0,52
peso (X) e altezza (Y) di 100 bambini di 3 anni
ρ = 0,93
Proprietà del coefficiente di
correlazione lineare
è un numero puro adimensionale
non risente dello scambio delle variabili
non risente dell’aggiunta di una stessa quantità
a tutti i valori di una variabile
non risente della moltiplicazione per una stessa
quantità di tutti i valori di una variabile
Proprietà del coefficiente di
correlazione lineare
non misura l’associazione in generale ma solo quella
lineare:
dispersione dei punti intorno ad una retta
95
90
ρ = −0.19
85
80
75
70
65
60
0
10
10
20
20
30
30
40
40
Proprietà del coefficiente di
correlazione lineare
non definisce una relazione causa-effetto:
la relazione di causa-effetto non ha una direzione
logica o precisa: potrebbe essere ugualmente
applicata nei due sensi, da una variabile all'altra
(es. le coppie di gemelli hanno strutture fisiche simili e
quella di uno può essere stimata sulla base dell'altro)
Esempio:
l’attività fotosintetica delle foglie (quantità di CO2 fissata per cm2 di
superfice) di 15 piante di mais è misurata con due metodi. Si vuole
verificare in che misura i due metodi danno informazioni concordanti
totale
X1
X2
1
3.12
3.51
2
3.70
3.90
3
3.95
4.20
4
4.22
4.30
5
4.91
4.54
6
5.31
4.90
7
5.30
4.60
8
4.55
4.04
9
3.55
3.40
10
4.10
3.70
11
3.42
3.39
12
4.39
4.52
13
4.80
4.70
14
4.80
4.10
15
3.48
4.10
63.60
61.90
5,00
m eto d o 2 : X2
piante
4,00
3,00
3,00
3,50
4,00
4,50
metodo 1: X1
5,00
5,50
piante
totale
X1
X2
1
3.12
3.51
2
3.70
3.90
3
3.95
4.20
4
4.22
4.30
5
4.91
4.54
6
5.31
4.90
7
5.30
4.60
8
4.55
4.04
9
3.55
3.40
10
4.10
3.70
11
3.42
3.39
12
4.39
4.52
13
4.80
4.70
14
4.80
4.10
15
3.48
4.10
63.60
61.90
∑(x
∑(x
∑(x
ρ=
1j
− x1 )( x2 j − x2 ) = 3.915
1j
− x1 ) 2 = 6.836
2j
− x2 ) 2 = 3.199
3.915
= 0.8372
6.836 × 3.199
Proprietà del coefficiente di
correlazione lineare
non definisce una relazione causa-effetto:
la causa può essere individuata in un terzo fattore,
che agisce simultaneamente sui primi due, in modo
diretto oppure indiretto, determinando i valori di
entrambi e le loro variazioni
(es. la quantità di polveri sospese nell’aria e la
concentrazione di benzene, entrambi dipendenti
dall’intensità del traffico)
Esempio:
Vendita di gelati e morti per annegamento durante un
anno
mese
morti per annegamento
gennaio
febbraio
marzo
aprile
maggio
giugno
luglio
agosto
settembre
ottobre
novembre
dicembre
vendita
gelati
morti per
annegamento
10
8
9
15
20
30
50
80
60
50
20
5
1
1
2
2
4
5
8
9
9
5
2
1
12
10
8
6
4
2
ρ = 0.95
0
0
20
40
60
80
100
vendita gelati
Non esiste una relazione
causa-effetto
tra le due variabili
le due variabili sono correlate perché sono entrambe
correlate con le condizioni climatiche: quando fa caldo
aumenta il consumo di gelati e più persone vanno a mare
ATTENZIONE
La presenza di correlazione
non significa
presenza di un legame causa effetto tra le variabili
Regressione
Permette di esaminare e descrivere la relazione
quantitativa tra una variabile, detta dipendente,
ed individuata come l'effetto, sulla base dei
valori dell'altra variabile, detta indipendente o
esplicativa, individuata come la causa
Obiettivi della regressione
conoscendo il livello di una certa popolazione in
tempi fissati, valutare il livello della popolazione
in certi tempi intermedi: interpolazione
determinare la relazione y(x) che esiste fra due
variabili, conoscendo il tipo di legge che governa
il fenomeno (ad es. lineare, esponenziale,
logaritmica..): identificazione di parametri
Obiettivi della regressione
prevedere i valori che una certa variabile
assumerà ad un istante futuro a partire dalla sua
storia passata (ad esempio, prevedere il numero di
individui in una certa popolazione, conoscendo la
tabella di crescita della popolazione negli ultimi
10 anni): estrapolazione (predizione)
Modello statistico della regressione
Y = f(X) + e
f(X) componente sistematica
e componente casuale - errore che compendia gli
effetti che impediscono l’esistenza di un legame
deterministico fra le due variabili, come:
errori nell’equazione (si approssima f(X,Z,…) con f(X))
elementi di casualità non prevedibili nel fenomeno di studio
errori di osservazione o di misura
Modello statistico della regressione
Y = f(X) + e
la forma f(.) è suggerita da:
teorie specifiche o da studi di settore
dati disponibili
necessità di facile interpretazione
Regressione lineare semplice
Peso
60
61
70
72
73
75
5
4
3
70
Peso
Individuo Altezza
1
160
2
163
3
168
4
170
5
173
65
1
2
60
55
50
158
160
162
164
166
168
170
172
174
Altezza
Cov(X,Y) = 25.44
ρ = 0.97
esiste una relazione funzionale
tra la variabile altezza (X) e la variabile peso (Y)?
Regressione lineare semplice
guardando il grafico si può ipotizzare che tra le due
variabili ci sia una relazione di tipo lineare
Y = a + bX
in corrispondenza di xi, osservato sulla variabile X
(indipendente), dovremmo osservare il valore
yˆ i = a + bxi
per la variabile Y (dipendente)
valori teorici o previsti della variabile Y
Retta di regressione
75
Peso
5
4
3
70
65
1
2
60
y 2 − yˆ 2
55
50
158
160
162
164
166
168
170
172
174
Altezza
Equazione
di una retta che si “adatti” nel modo
migliore ai dati ( xi , yi )
i = 1, 2, 3,L, n
min ∑ ( yi − yˆ i )2
Retta di regressione
min ∑ ( yi − yˆ i )2 = min ∑ ( yi − (a + bxi ))2 = g (a, b)
∂g (a, b) = 0
 ∂a
∂g (a, b)

=0
 ∂b
b = cov( X , Y )

σ x2

a = y − bx
Calcolo di a e b
formula alternativa
∑ x i2 ⋅ ∑ yi − ∑ xi yi ∑ xi
a=
n ⋅ ∑ x i2 − (∑ xi )2
b=
n ⋅ ∑ xi yi − ∑ xi ∑ yi
n ⋅ ∑ x i2 − (∑ xi )2
Retta di regressione
Individuo Altezza
1
160
2
163
3
168
4
170
5
173
Peso
60
61
70
72
73
Cov( X , Y ) = 25.44 σ x2 = 22.16
⇓
b=
Cov( X , Y )
σ x2
=
25.44
= 1.15
22.16
a = y − bx = 67.2 − 1.15 ⋅ 166.8 = −124.29
Regressione lineare semplice
y = 1,148x - 124,29
80
75
3
Peso
70
65
1
2
60
55
( xi , yi )
50
158
5
4
160
162
i = 1,2,3,.....n
164
166
168
170
172
174
Altezza
La ricerca della retta di regressione presuppone che la
risposta y del sistema dipenda linearmente dalla variabile x
Proprietà della retta dei minimi
quadrati
1.
2.
3.
è unica
passa per il punto medio ( x , y )
è tale che ∑ yi = ∑ yˆ i dove yˆ i = a + bxi
i
i
Posto ei = yi − yˆ i la proprietà 3 ci dice che
∑ ei = 0
i
Bontà di adattamento
Analisi dei residui
ei = yi − yˆ i
valori osservati
valori previsti
Bontà di adattamento
100
90
Esempio:
altezza e peso di 30 individui
peso
80
y = 1,0869x - 113,18
70
60
50
40
140
150
160
170
180
altezza
Grafico dei residui
10
8
6
residui
4
2
0
-2
-4
-6
0
5
10
15
20
25
30
35
190
200
Bontà di adattamento
Andamenti come questi indicano che il modello lineare
non è adatto a spiegare il legame tra le variabili
Scomposizione della varianza di Y
2
2
1 n
1 n
2
σ y = ∑ ( yi − y ) = ∑ ( yi − y ± yˆ i ) =
n i =1
n i =1
2
2
1 n
1 n
= ∑ ( yˆ i − y ) + ∑ ( yi − yˆi ) =
n i =1
n i =1
= σˆ y2 + σ e2
varianza spiegata
(varianza dovuta alla regressione)
varianza residua
varianza dovuta ai residui
( yi − y ± yˆi )2 = (( yˆi − y ) + ( yi − yˆi ))2 =
deviazione dovuta alla relazione lineare
deviazione dovuta a cause accidentali
= ( yˆ i − y )2 + ( yi − yˆ i )2 + 2( yˆ i − y )( yi − yˆ i )
ricordando che yˆ i = y + b( xi − x )
( yˆi − y )( yi − yˆi ) = b(xi − x )( yi − y − b(xi − x )) =
= b(xi − x )( yi − y ) − b 2 (xi − x )2
essendo b(xi − x ) = yˆ i − y
( yˆi − y )( yi − yˆi ) = b(xi − x )( yi − y ) − b(xi − x )( yi − y ) = 0
Coefficiente di determinazione
2
σ
ˆ
y
R2 = 2
σy
( yˆ i − y ) 2
∑
=
∑ ( yi − y ) 2
devianza spiegata
devianza totale
misura la dispersione delle osservazioni attorno alla
retta di regressione
rappresenta la porzione della variazione in Y spiegata
dalla regressione su X
consente di valutare l’utilità dell’equazione di
regressione ai fini della previsione sui valori della Y
Coefficiente di determinazione
Se c'è una perfetta relazione lineare tra X e Y
tutte le osservazioni
regressione
cadono
sulla
retta
di
σˆ y2 = σ y2 , cioè nessun errore viene commesso nella
predizione di Y a partire da X
R2=1
Coefficiente di determinazione
Se non c'è relazione lineare tra X e Y
la dispersione delle osservazioni attorno alla retta di
regressione è massima e la retta di regressione ha
pendenza 0
σˆ y2 = 0, σ e2 = σ y2
R2=0
0 ≤ R2 ≤ 1
Coefficiente di determinazione
Esempio
x
160
163
168
170
173
y
60
61
70
72
73
∑ ( yˆi − y )2 = 146.02
∑ ( yi − y )2 = 154.80
146.02
R =
= 0.94
154.80
2
Regressione lineare: esempio
Esempio: larghezza e lunghezza di 333 foglie di
camelia
70
60
larghezza (mm)
50
40
30
y = 0.2729x + 19.095
R2 = 0.275
20
10
50
70
90
110
lunghezza (mm)
130
150
Regressione vs correlazione
Uno studio condotto nei paesi nordici ha evidenziato
che durante i mesi invernali, nelle case in cui è presente
un neonato la temperatura viene mantenuta più alta della
norma, passando indicativamente dai 16 ai 20 gradi
centigradi. Soprattutto nei periodi più rigidi, le cicogne
sono attratte dal maggior calore emesso dai camini e
nidificano più facilmente su di essi o vi si soffermano
più a lungo. E’ semplice suddividere un’ampia area
rurale in zone con una popolazione equivalente e
contare per ognuna il numero dei camini con cicogne
(X) e quello dei bambini neonati (Y).
Regressione vs correlazione
Ricorrere all'analisi della regressione su queste due
variabili implica una relazione di causa-effetto tra
presenza di cicogne e nascite di bambini.
Un tentativo di spiegazione di tale legame, già implicito
nella regressione anche se non dichiarato, conduce
anche involontariamente alla conclusione che i bambini
(se indicati con Y) sono portati dalle cicogne (quando
indicate con X).
Addirittura con b si arriva ad indicare quanti bambini
sono portati mediamente da ogni cicogna.
Regressione vs correlazione
Con la correlazione si afferma solamente che le
due variabili variano in modo congiunto,
eventualmente per analisi successive alla ricerca
delle cause.
Effetto degli outlier
10
10
Y
4
3
3
2
8
Y Y
X
1
1
2
2
8
y = 4,5 - x
ρ = -0,71
88
2
6
6
4
4
2
y = 1,9885 + 0,7184x
ρ = 0,90
2
0
R = 0,8164
0 0
-2
0
-2
R = 0,5
2
2
4
2
4
X
X
6
8
10
6
8
10
Cambiamento di scala
Esempio:
indagine epidemiologica condotta a seguito della
somministrazione di una nuovo tipo di vaccino ritenuto
efficace nella cura del contagio da febbre tifoidea
25,0
casi
1975
1976
1977
1978
1979
1980
1981
21,0
15,5
11,7
10,7
9,2
8,9
8,0
20,0
incidenza
anno
15,0
10,0
5,0
0,0
1974
1975
1976
1977
1978
1979
1980
1981
1982
anni
andamento non lineare
25,0
y = -1,9536x + 3876,3
2
R = 0,8327
incidenza
20,0
ρ = 0.91
15,0
10,0
5,0
0,0
1973
1974
1975
1976
1977
1978
anni
grafico dei residui
4,0
3,0
residui
2,0
1,0
0,0
-1,0
-2,0
-3,0
0
1
2
3
4
5
6
7
8
1979
1980
1981
1982
1983
L’andamento che lega Y ad X sembra più
prossimo ad un andamento di tipo esponenziale
negativo
Y = e− X
( )
log(Y ) = log e − X = − X
log(Y ) = a + bx
modello di regressione lineare più appropriato
scala semilogaritmica
semilogaritmica
scala
3,2
3,2
ρ = -0.96
y = 302,34 - 0,1516x
33
2
incidenza
incidenza(log)
(log)
R = 0,9137
2,8
2,8
2,6
2,6
2,4
2,4
2,2
2,2
22
1974
1973
1975
1974
1975 1976 1976
1977
1977
1978
1978
anni
anni
1979
1979
1980 19801981
retta di regressione: log(Y ) = −0.15 X + 302.34
Y = e log(Y ) = e −0.15 X +302.34
1981
1982
1982
1983
25,0
incidenza
20,0
15,0
10,0
5,0
0,0
1973
1974
1975
1976
1977
1978
1979
1980
1981
1982
1983
anni
Cambiamento di scala: previsione
A partire dai due modelli di regressione ottenuti si vuole
prevedere il numero di casi di tifo per il 1985:
1.
y = -1.95 x + 3876.3 = -1.95 ⋅ 1985 + 3876.3 = −1.6
2.
y = e −0.15 x +302.34 = e −0.15⋅1985+302.34 = 4.11
Il primo modello lineare fallisce, il secondo è attendibile
Regressione non lineare
esponenziale y = aebx
logaritmica
y = αlnx+β
polinomiale
y = α0 + α1x + α2x2 + ..+ αmxm
Regressione esponenziale: esempio
indagine epidemiologica condotta a seguito della
somministrazione di una nuovo tipo di vaccino ritenuto
efficace nella cura del contagio da febbre tifoidea
25,0
20,0
casi
1975
1976
1977
1978
1979
1980
1981
21,0
15,5
11,7
10,7
9,2
8,9
8,0
y = 2E+131e
-0,1516x
2
R = 0,9137
incidenza
anno
15,0
10,0
5,0
0,0
1973
1974
1975
1976
1977
1978
anni
1979
1980
1981
1982
1983
Regressione logaritmica: esempio
processo di lievitazione di una pagnotella di pane bianco
Lievitazione
15
14,4375
30
21,59824
45
31,28529
60
39,97168
75
44,15302
90
44,87
105
45,12
120
45,36
135
45,97
150
46,00
y = 19,837+0,2187x
2
volume
(cm3)
R = 0,7456
60
50
volume
tempo
(min)
40
30
y = 15,128Ln(x) - 25,94
20
2
R = 0,9296
10
0
0
50
100
tempo
150
200
Regressione polinomiale: esempio
growth rate data for experimental rats fed various doses
of a dietary supplement
y = -0,2017x + 86,436
R2 = 0,0345
95
y = -0,1277x2 + 5,2629x + 35,657
R2 = 0,9364
90
amount of supplement growth rate (coded
(grams)
units)
10
73
10
78
15
85
20
90
20
91
25
87
25
86
25
91
30
75
35
65
85
80
75
70
65
60
0
10
20
30
40
Regressione: approccio matriciale
Esempio:
Su 25 unità sono stati rilevati i
seguenti caratteri
Y: libbre di vapore utilizzate in un
mese
X1: temperatura media mensile in
gradi F
X2: numero di giorni di
operatività in un mese
X3: numero di riavviamenti
(startup) in un mese
Problema:
capire quali variabili e come
influiscono sul consumo di vapore
Y
X1
X2
X3
10,98
35,3
20
4
11,13
29,7
20
5
12,51
30,8
23
4
8,4
9,27
8,73
6,36
8,5
7,82
9,14
8,24
12,19
11,88
9,57
10,94
9,58
10,09
8,11
6,83
8,88
7,68
8,47
8,86
10,36
11,08
58,8
61,4
71,3
74,4
76,7
70,7
57,5
46,4
28,9
28,1
39,1
46,8
48,5
59,3
70
70
74,5
72,1
58,1
44,6
33,4
28,6
20
21
22
11
23
21
20
20
21
21
19
23
20
22
22
11
23
20
21
20
20
22
4
5
4
2
5
4
5
4
4
5
5
4
4
6
4
3
4
4
6
4
4
5
Quali variabili utilizzare nella regressione?
matrice di correlazione
Y
X1
X2
X3
Y
X1
X2
X3
1,00
-0,85
0,54
0,38
1,00
-0,21
-0,24
1,00
0,60
1,00
Si scelgono le variabili maggiormente correlate con la
variabile da spiegare e meno correlate tra loro.
13
12
11
Y
10
9
8
13
7
12
6
25
35
45
55
65
75
11
X1
Y
10
9
8
13
7
12
6
10
12
14
16
18
20
22
X2
11
Y
10
9
8
7
6
1,5
2
2,5
3
3,5
4
4,5
5
5,5
6
6,5
X3
Modello lineare con
una variabile esplicativa
Si vuole spiegare la variabile Y come funzione della X1
supponendo che il legame sia lineare
Y = a + bX 1
quindi si vogliono determinare a e b tali che
yˆ i = a + bx1,i i = 1,L,25
e
25
2
∑ ( yi − yˆi )
= min
i =1
Facendo i conti si ottiene b =
σ xy
= 0.08 e a = y − bx = 13.6
2
σx
24
Possiamo riscrivere le 25 equazioni in un’unica equazione
matriciale, ovvero
yˆ = Xα
con
1 x1,1 
 yˆ1 




a
yˆ =  M , X =  M
M , α =  
b
 yˆ 
1 x 
 25 
1, 25 

determiniamo α=(a,b) minimizzando
g ( a, b) = (y − yˆ )' (y − yˆ ) = (y − Xα )' (y − Xα )
la soluzione dell’equazione matriciale è
α = (X' X )−1 X' y
Dai dati dell’esempio si ottiene
 13.62   a 
α=
= 
 − 0.08   b 
 n
X' X = 
∑ xi
−1
(X' X )
∑ xi 
∑ xi2 
 ∑ yi 
X' y = 

∑ xi yi 
 ∑ xi2
1
=

n∑ ( xi − x )2 − ∑ xi
1315 
 25
X' X = 

1315 76323.42
(X' X )−1 =
− ∑ xi 

n 
 235.6 
X' y = 

11821.43
1
76323.42 − 1315
178860.5  − 1315
25 
13
y = 13,623 - 0,0798x
12
2
R = 0,7144
11
Y
10
9
8
7
6
25
35
45
55
X1
65
75
Si vuole spiegare la variabile Y in funzione della variabile X2
Si ottiene
3.56
α=

0
.
29


13
y = 3,5605 + 0,2897x
12
2
R = 0,2874
11
Y
10
9
8
7
6
10
12
14
16
18
20
22
24
X2
Si vuole spiegare la variabile Y in funzione della variabile X3
Si ottiene
6.27 
α=

 0.73
13
y = 0,731x + 6,2662
12
2
R = 0,146
11
Y
10
9
8
7
6
1,5
2
2,5
3
3,5
4
X3
4,5
5
5,5
6
6,5
Modello lineare
con due variabili esplicative
Si vuole spiegare la Y come funzione lineare di X1
(variabile maggiormente correlata con Y) e X2 (variabile
meno correlata con X1)
il modello ipotizzato è
Y = a + bX 1 + cX 2
Si vuole, quindi, determinare il piano che passi il più
vicino possibile ai punti del grafico
si vogliono determinare a, b e c tali che
yˆ i = a + bx1,i + cx2,i i = 1,L,25
Possiamo riscrivere le 25 equazioni in un’unica equazione
matriciale, ovvero
yˆ = Xα
con
1 x1,1 x2,1 
a
 yˆ1 


 


yˆ =  M , X =  M
M
M , α =  b 
c
 yˆ 
1 x x 
 
 25 
1, 25 2, 25 

la soluzione ottenuta con il metodo dei minimi quadrati è
α = (X' X )−1 X' y
Dai dati dell’esempio otteniamo
 9.13 
α = - 0.07


 0.20 
Yˆ = 9.13 − 0.07 X 1 + 0.20 X 2
R 2 = 0.85