Lez 2013 12A - predizione e residui - e-Learning

Il residuo nella predizione
1
DEFINIZIONE DI RESIDUO

Il residuo è la differenza fra il punteggio predetto
e il punteggio osservato
Residuo= Osservato – Predetto

Graficamente, è la distanza tra il punto indicante
la misurazione realmente effettuata e il suo
corrispondente appartenente alla retta di
regressione.
2
Variabile
dipendente,
spiegata, valore
osservato
Yi  mX i  a   i
inclinazione
Stima di y, valore
predetto
intercetta
variabile
indipendente
errore
Yˆi  mX i  a
somma
media
abilità
8
9
9
10
11
12
13
14
86
10,75
voto
5
5
6
7
7
8
9
8
55
6,875
voto_pre
detto
residuo
5,15
5,78
5,78
6,4
7,03
7,66
8,29
8,91
55
6,875
-0,15
-0,78
0,22
0,6
-0,03
0,34
0,71
-0,91
0
0
predizi
one
-1,30
-0,82
-0,82
-0,35
0,12
0,59
1,06
1,53
0
0
PREDIZIONE CON PUNTI ZETA
zˆ yi  z xi  rxy
ẑyi = zeta predetto
zxi = zeta predittore
rxy = coefficiente di correlazione
5
Predizione
usando i punti
standardizzati
Test R
Test T
p1
37
p2
Test R
zeta
test T
zeta
50
1,33
0,45
39
75
1,49
1,58
p3
9
24
-0,86
-0,72
p4
8
11
-0,94
-1,31
p5
6
25
-1,09
-0,68
p6
39
78
1,49
1,71
p7
18
24
-0,16
-0,72
p8
16
20
-0,31
-0,90
p9
8
40
-0,94
0,00
p10
20
53
0,00
0,59
somma
200
400
0,00
0,00
dev stan
12,79
22,17
1,00
1,00
varianza
163,60
491,60
1,00
1,00
20
40
0,00
0,00
soggetti
media
PREDIZIONE DEL
PUNTEGGIO
OTTENUTO AL TEST
T TRAMITE IL
PUNTEGGIO AL
TEST R CON I PUNTI
Z.
PRIMO
PASSAGGIO:
TRASFORMAZION
E DEI PUNTEGGI
IN PUNTI Z.
7
Sogg.
Test R zeta
Test T zeta
prediz di
T
p1
1,33
0,45
1,13
p2
1,49
1,58
1,26
p3
-0,86
-0,72
-0,73
p4
-0,94
-1,31
-0,79
p5
-1,09
-0,68
-0,93
p6
1,49
1,71
1,26
p7
-0,16
-0,72
-0,13
p8
-0,31
-0,90
-0,26
p9
-0,94
0,00
-0,79
p10
0,00
0,59
0,00
somma
0,00
0,00
0,000
dev stan
1,00
1,00
0,847
varianza
1,00
1,00
0,718
media
0,00
0,00
0,000
PREDIZIONE DEL
PUNTEGGIO OTTENUTO AL
TEST T TRAMITE IL
PUNTEGGIO AL TEST R CON I
PUNTI Z.
SECONDO PASSAGGIO:
CALCOLO DELLA
PREDIZIONE DI T CON LA
FORMULA:
zˆ yi  z xi  rxy
8
VARIANZA SPIEGATA E RESIDUA
SOGGETTO
TEST R
ZETA
TEST T PRODOTTI PREDIZIONE
RESIDUO
ZETA
ZETA
DI T
P1
P2
P3
1,33
1,49
0,45
1,58
0,6
2,34
1,13
1,26
-0,68
0,32
-0,86
-0,72
0,62
-0,73
0,01
P4
-0,94
-1,31
1,23
-0,79
-0,51
P5
-1,09
-0,68
0,74
-0,93
0,25
P6
1,49
1,71
2,55
1,26
0,46
P7
-0,16
-0,72
0,11
-0,13
-0,59
P8
-0,31
-0,9
0,28
-0,26
-0,64
P9
-0,94
0
0
-0,79
0,79
P10
0
0,59
0
0
0,59
SOMMA
0
0
8,473
0
0
DEVIAZIONE STD
1
1
0,877
0,847
0,531
VARIANZA
1
1
0,769
0,718
0,282
MEDIA
0
0
0,847
0
0
Correlazione
Varianza
spiegata
Varianza
residua
9
Somma
=1
VARIANZA SPIEGATA E RESIDUA
SOGGETTO
TEST R
ZETA
TEST T PRODOTTI PREDIZIONE
RESIDUO
ZETA
ZETA
DI T
P1
P2
P3
1,33
1,49
0,45
1,58
0,6
2,34
1,13
1,26
-0,68
0,32
-0,86
-0,72
0,62
-0,73
0,01
P4
-0,94
-1,31
1,23
-0,79
-0,51
P5
-1,09
-0,68
0,74
-0,93
0,25
P6
1,49
1,71
2,55
1,26
0,46
P7
-0,16
-0,72
0,11
-0,13
-0,59
P8
-0,31
-0,9
0,28
-0,26
-0,64
P9
-0,94
0
0
-0,79
0,79
P10
0
0,59
0
0
0,59
SOMMA
0
0
8,473
0
0
DEVIAZIONE STD
1
1
0,877
0,847
0,531
VARIANZA
1
1
0,769
0,718
0,282
MEDIA
0
0
0,847
0
0
La varianza
spiegata è la
varianza dei
predetti, cioè
la varianza
spiegata
dalla
regressione.
10
VARIANZA SPIEGATA E RESIDUA
SOGGETTO
TEST R
ZETA
TEST T PRODOTTI PREDIZIONE
RESIDUO
ZETA
ZETA
DI T
P1
P2
P3
1,33
1,49
0,45
1,58
0,6
2,34
1,13
1,26
-0,68
0,32
-0,86
-0,72
0,62
-0,73
0,01
P4
-0,94
-1,31
1,23
-0,79
-0,51
P5
-1,09
-0,68
0,74
-0,93
0,25
P6
1,49
1,71
2,55
1,26
0,46
P7
-0,16
-0,72
0,11
-0,13
-0,59
P8
-0,31
-0,9
0,28
-0,26
-0,64
P9
-0,94
0
0
-0,79
0,79
P10
0
0,59
0
0
0,59
SOMMA
0
0
8,473
0
0
DEVIAZIONE STD
1
1
0,877
0,847
0,531
VARIANZA
1
1
0,769
0,718
0,282
MEDIA
0
0
0,847
0
0
La varianza
residua (o
varianza dei
residui) indica
quella parte di
varianza non
spiegata dalla
regressione,
(attribuibile
all’errore).
11
VARIANZA SPIEGATA E RESIDUA
SOGGETTO
TEST R
ZETA
TEST T PRODOTTI PREDIZIONE
RESIDUO
ZETA
ZETA
DI T
P1
P2
P3
1,33
1,49
0,45
1,58
0,6
2,34
1,13
1,26
-0,68
0,32
-0,86
-0,72
0,62
-0,73
0,01
P4
-0,94
-1,31
1,23
-0,79
-0,51
P5
-1,09
-0,68
0,74
-0,93
0,25
P6
1,49
1,71
2,55
1,26
0,46
P7
-0,16
-0,72
0,11
-0,13
-0,59
P8
-0,31
-0,9
0,28
-0,26
-0,64
P9
-0,94
0
0
-0,79
0,79
P10
0
0,59
0
0
0,59
SOMMA
0
0
8,473
0
0
DEVIAZIONE STD
1
1
0,877
0,847
0,531
VARIANZA
1
1
0,769
0,718
0,282
MEDIA
0
0
0,847
0
0
La somma della
varianza
spiegata e della
varianza
residua è pari
alla varianza
totale del
punteggio
predetto.
12
VARIANZA SPIEGATA E RESIDUA
SOGGETTO
TEST R
ZETA
TEST T PRODOTTI PREDIZIONE
RESIDUO
ZETA
ZETA
DI T
P1
P2
P3
1,33
1,49
0,45
1,58
0,6
2,34
1,13
1,26
-0,68
0,32
-0,86
-0,72
0,62
-0,73
0,01
P4
-0,94
-1,31
1,23
-0,79
-0,51
P5
-1,09
-0,68
0,74
-0,93
0,25
P6
1,49
1,71
2,55
1,26
0,46
P7
-0,16
-0,72
0,11
-0,13
-0,59
P8
-0,31
-0,9
0,28
-0,26
-0,64
P9
-0,94
0
0
-0,79
0,79
P10
0
0,59
0
0
0,59
SOMMA
0
0
8,473
0
0
DEVIAZIONE STD
1
1
0,877
0,847
0,531
VARIANZA
1
1
0,769
0,718
0,282
MEDIA
0
0
0,847
0
0
Correlazione
13
Notiamo che…
La varianza spiegata è la varianza dei predetti,
cioè la varianza spiegata dalla regressione.
 La varianza residua (o varianza dei residui)
indica quella parte di varianza non spiegata dalla
regressione, (attribuibile all’errore).
 La somma della varianza spiegata e della
varianza residua è pari alla varianza totale del
punteggio predetto.

14
PROPRIETÀ DELLA REGRESSIONE
I
residui hanno media M = 0
 La varianza dei predetti è uguale al
coefficiente di determinazione: r2
 La deviazione standard dei predetti è uguale
al coefficiente di correlazione (in quanto radice
quadrata della varianza)
 La varianza dei residui è pari al quadrato del
coefficiente di alienazione: (1-r2)
 Il coefficiente di alienazione può essere definito
anche come la radice di questo valore: √(1-r2).
In questo caso rappresenterà la deviazione
standard dei residui (e non la loro varianza) 15
 La correlazione fra i residui e i predetti è nulla
Per passare dai punti zeta ai
punti grezzi

Si può costruire o calcolare l’equazione di regressione
usando i punti grezzi, senza passare per i punti
standardizzati:
yˆi  zˆyi  sy  My
Ottengo questa formula applicando la formula per
passare dai punti zeta al punteggio grezzo:
x=z·s+m
dove: s = dev. std.
m = media
16
PREDIZIONE CON MISURE
SINTETICHE DI X E Y
sy
sy


yˆi   xi   My - rxy   Mx 
sx
sx


17
ESEMPIO DI PREDIZIONE CON PUNTI GREZZI
SOGGETTI
TEST R
TEST T
P1
P2
P3
P4
P5
P6
P7
P8
P9
P10
37
39
9
8
6
39
18
16
8
20
200
12,79
163,60
20,00
50
75
24
11
25
78
24
20
40
53
400
22,17
491,60
40,00
SOMMA
DEVIAZIONE STD
VARIANZA
MEDIA
COEFF
ANGOLARE (m)
1,469
INTERCETTA (a)
10,632
0,847
CORRELAZIONE
PRODOTTI
R·T
R2
T2
STIME
RESIDUI
1850
2925
216
88
150
3042
432
320
320
1060
10403
1369
1521
81
64
36
1521
324
256
64
400
5636
2500
5625
576
121
625
6084
576
400
1600
2809
20916
64,97
67,91
23,84
22,37
19,44
67,91
37,06
34,12
22,37
40,00
400
18,79
352,96
40,00
-14,97
7,09
0,16
-11,37
5,56
10,09
-13,06
-14,12
17,63
13,00
0
11,77
138,64
0,00
18
RIASSUMENDO DALLA TABELLA
Il soggetto p1 ha avuto punteggio 37 nel test R e 50 nel
test T.
 Il test R è usato per predire il test T.
 Per predire il punteggio di p1 si utilizza l’equazione di
regressione:

T=R·m+a
se m = 1.469 e a = 10.623
T= 37 ·1.469 +10.623= 64.97
 La differenza fra il punteggio osservato e quello predetto
è il residuo:
50-64,97 = -14,97
 La varianza dei predetti (varianza spiegata) più la
varianza dell’errore (varianza residua) è uguale alla
varianza della variabile da predire.
19
Regressione con SPSS...
Parte seconda Esame dei residui
I RESIDUI
Sono indipendenti dal predittore
 Costituiscono l’errore di predizione (o di stima)
dell’equazione di regressione
Hanno
 media uguale a 0
 d.s. = sy · √(1-r2xy) (detta anche errore standard della
stima)
 Si ipotizza che abbiano una distribuzione normale.

Se sono distribuiti normalmente, possiamo applicare le
tavole della curva normale, e stabilire che, per esempio:
tra +- 1,64 errori standardizzati si trova
il 90% degli errori di predizione
22
Perché si esaminano i residui?
L’esame dei residui permette di:
 testare le capacità del test di predizione, per poterlo
poi usare in situazioni reali, dove non si conosce il
punteggio da predire.
 Valutare distribuzioni anomale, sbilanciate in una
direzione o nell’altra, in alcune zone della distribuzione
dei punteggi osservati piuttosto che in altre.

L’esame dei residui è veramente proficuo nella
regressione multipla
23
Valori notevoli della Normale Standard
Norm(0;1)
0,6
0,5
0,4
0,3
68.26% ± 1 ds
0,2
90% ± 1,64 ds
0,1
0,0
95,45% ± 2 ds
-3
-2
-1
0
95% ± 1,96 ds
1
2
3
24
DISTRIBUZIONE IPOTETICA DEI RESIDUI
Il 90 % degli errori di predizione è compreso fra -19,3 e +19,3
25
Il 68 % degli errori di predizione è compreso fra -11,77 e + 11,77
(Il resto è più grande in valori assoluti)
Rappresentazione grafica della predizione di due punteggi qualsiasi, p.
es., 30 e 90, con le frequenze di possibili errori
Asse dei punteggi
30
90
Le curve rappresentano la probabilità di trovare un punteggio predetto
corrispondente ad un certo valore diverso dal punteggio osservato,
oppure la probabilità che il punteggio reale sia un certo valore (diverso
dal punteggio predetto). Per esempio, per quanto riguarda 30, è più
probabile trovare punteggi predetti intorno a 30 che valori che si
distanziano notevolmente dal valore osservato, ed è più probabile che, se
il punteggio predetto è 30, il valore reale sia circa 30.
26
Stima e precisione della stima


Il punteggio predetto 30 è vicino a quello osservato, o
reale, che non è conosciuto, ma è stimabile: c’è il 90% di
probabilità che il valore esatto o osservato si situi entro
l’intervallo 30-19.03 e 30+19.03, ossia fra 10.97 e 49.03
Il punteggio predetto 90 è vicino a quello osservato, o
reale, che non è conosciuto, ma è stimabile: c’è il 90% di
probabilità che il valore esatto o osservato si situi entro
l’intervallo 90-19.03 e 90+19.03, ossia fra 70.97 e 119.03
27
RIASSUMENDO
 La
regressione statistica permette di
stimare (o predire) il punteggio di un test
(o di un’altra misurazione).
 Nella predizione del singolo caso non è
mai possibile sapere se la predizione è
esatta o molto sballata.
 Si può quantificare la predizione totale,
fatta su tutti i casi (presenti e futuri): la
quota di varianza spiegata (r2) è un utile
indice per definire la precisione della
predizione.
28
MECCANISMO DELLA PREDIZIONE O
DELLA STIMA
Per ogni individuo, l’equazione della regressione
predice un valore di Y, indicato con Ŷ, simile ma
non uguale al valore osservato Y
 La differenza fra Y e Ŷ è chiamata residuo, o
errore
 Y sta vicino a Ŷ, con alta probabilità è molto
vicino, con bassa probabilità è molto lontano dal
valore vero
 Questa relazione è definibile con la curva
gaussiana, con m = 0 e σ = err. stand. della stima
 Perciò, se non si può calcolare il punteggio reale,
si può affermare che esso deve trovarsi con il 90
% (o altri livelli) di probabilità entro un certo
intervallo calcolabile.

29