Il problema della rappresentativita` - e-Learning

Capitolo 1 e 2
Inferenza su
Regressione/Correlazione
Marcello Gallucci
P
S
I
C
O
M
E
T
R
I
A
[email protected]
Lezione: 6
Il problema dell’inferenza
Qualunque parametro stimiamo, abbiamo sempre il problema di stabilire quale
y =ab xy x
sia il suo valore nella popolazione
Coefficientsa
Model
1
(Constant)
NBEERS
Unstandardized
Coefficients
B
Std. Error
2.091
.684
.709
.116
Standardized
Coefficients
Beta
.898
t
3.057
6.132
y =2 . 09. 70 x
Sig.
.014
.000
10
a. Dependent Variable: SMILES
9
8
7
Nel campione: In media, per ogni
birra bevuta ci aspettiamo il .7
sorrisi in piu’
6
5
4
Quale sara’ il valore di
b nella popolazione?
SORRISI
3
2
1
0
-2
-1
0
1
2
3
4
5
6
7
8
9
10
11
12
BIRRE
Lezione: 6
Il problema dell’inferenza
Lo stesso problema si ha per la correlazione, o per qualunque altro
parametro che uno stima
r nel campione
v z =. 2x z
0
Quale sara’ la correlazione
nella popolazione
0
Lezione: 6
Il problema dell’inferenza II
Qualunque stima noi osserviamo nei dati, ci proponiamo di spiegare il
motivo che giustifica tale osservazione (es. perchè la birra fa sorridere?)
Un pre-requisito per poter trovare una plausibile spiegazione e’ che
tale risultato non sia casuale
L’inferenza* statistica si propone di escludere, con una ragionevole
probabilita’, che il nostro risultato sia solo dovuto al caso
* Nella forma che a noi interessa
Lezione: 6
Il problema dell’inferenza II
Esempio: Osserviamo una correlazione r=.20 fra due variabili X e Y in
un campione di 100 persone
Prima di poter interpretare tale relazione, dobbiamo escludere che la
correlazione nella popolazione sia 0 (nessuna relazione)
Se la correlazione fosse in relta’ 0, la correlazione osservata sarebbe
solo frutto di un caso
La nostra interpretazione (relazione lineare positiva) sarebbe inutile e
sbagliata: Avremmo commesso un errore
Lezione: 6
Esempio: La media
Assumiamo che sia noto che la preparazione media degli studenti di
psicometria sia pari ad un voto di 22
Dal vostro esame otteniamo una preparazione pari a 23.73
Vorremmo interpretare tale risultato come dimostrazione che la nostra
classe e’ particolarmente brava in statistica
Per fare cio’, dobbiamo escludere la possibilita’ che la “vera” media
della classe sia 22, e che 23.73 sia venuto fuori per caso
Lezione: 6
Voti Esami
Distribuzione dei voti
Media=23.73
Dev. Stand=3.95
Lezione: 6
Il caso in pratica
Per “caso” intendiamo che il nostro risultato provenga da una popolazione con
media 22, e che quel 1.73 in piu’ sia frutto di una fluttuazione campionaria
Popolazione
Media=22
Campione
Media=23.73
Lezione: 6
Il caso in pratica
Ricordiamo infatti che ad ogni stima e’ associato un errore standard
Popolazione
Campioni
M=22.5
Media=22
M=21.2
M=23.2
Lezione: 6
Inferenza
Ci proponiamo di calcolare la probabilita’ p di ottenere una media
23.73 da una popolazione con media 22
Campioni
Popolazione
M=22.5
Media=22
M=21.2
M=23.2
Lezione: 6
Inferenza
Se tale probabilita’ p e’ sufficientemente bassa, possiamo escludere che
il nostro risultato (piu’ grande di 22) sia solo dovuto ad un caso
Campioni
Popolazione
Media=22
Lezione: 6
Regionamento inferenziale
Esplicitiamo l’ipotesi che vogliamo rifiutare (vogliamo rifiutare
l’ipotesi che 22 sia il vero valore della classe)
Chiamiamo questa ipotesi: IPOTESI NULLA (media pooplazine =22)
H 0 =μ=22
Sotto questa ipotesi, lo scarto dal valore della popolazione (23.7322=1.73) sarebbe solo una fluttuazione casuale
Test: Quale e’ la probabilita’ di ottenere uno scarto di 1.73 in un
campione come il nostro?
Lezione: 6
Distribuzione campionaria della stima
Per calcolare la probabilita’ di ottenere un certo scarto, dobbiamo
conoscere la distribuzione degli scarti
Popolazione
Media=22
Lezione: 6
Distribuzione campionaria della stima
Immaginiamo di ripetere il campionamento un grande numero di volte
Un campione
Medie campioni
Popolazione
10 campioni
100 campioni
Media=22
Lezione: 6
Teorema centrale del limite
All’aumentare delle prove, la distribuzione della media tende ad
media=media popolazione
Medie campioni
Popolazione
Media=22
Media=22
Lezione: 6
Teorema centrale del limite
E tende ad avere una distribuzione normale (Gaussiana)
Medie campioni
Media=22
Lezione: 6
Teorema centrale del limite
E ad restringersi (diminuire la deviazione standard) all’aumentare della
numerosità campionaria
Deviazione standard
della stima

2
S
N
Lezione: 6
Test inferenziale
Se conosco media, varianza e distribuzione posso calcolarmi la
probabilita’ di ottenere un risultato da una certa distribuzione
Medie campioni
Quale e’ la probabilità di ottenere
23.73 campionando da una
popolazione con media 22
Data che le probabilità sono note
per la normale standardizzata,
standardizzo il risultato
test
M − μ 23 . 73−22
z=
=
s .e.
3 . 95

N
risultato=23.73
Lezione: 6
Test inferenziale
Calcolo della probabilità p sotto l’ipotesi nulla
Medie campioni
standardizzate
Quale e’ la probabilità di ottenere
23.73 campionando da una
popolazione con media 22
Quale e’ la probabilità che 6.39
provenga da una distribuzione
standard con media 0 e varianza 1
M − μ 23 . 73−22
z=
=
=6 . 39
s .e.
3 . 95

54
risultato=6.39
Lezione: 6
VALORE-P
Calcolo della probabilita’ p sotto l’ipotesi nulla
Otteniamo (computer!) tale
probabilita’ secondo una normale
standardizzata
Medie campioni
standardizzate
p  z6 . 39 =. 00001
Interpretazione
La probabilita’ di ottenere uno
z=6.39 o ancora piu’ grande, e’
pari a 0.00001
Rifiutiamo l’ipotesi nulla: Diremo
che la classe non proviene da una
popolazione 22
risultato=6.39
Lezione: 6
VALORE-P
In generale, il valore p indica la probabilità di ottenere il nostro
risultato, o ancora più grande, sotto l’ipotesi nulla
Probabilità p
La probabilità p equivale alla proporzione
di possibili campioni i cui scostamenti
standardizzati sono distanti dall’ipotesi nulla
almeno quanto il campione da noi osservato
-2
-1
0
1
2
Lezione: 6
VALORE-P
Il valore p indica il rischio che noi prendiamo quando affermiamo che
l’ipotesi nulla è falsa
Probabilità p
Se l’ipotesi nulla è falsa, ci abbiamo
azzeccato
Se l’ipotesi nulla è vera, abbiamo
commesso un errore, detto del Tipo I
-2
-1
0
1
2
Lezione: 6
Significativita’
Spesso si suole dire che p e’ significativa,
cioe’ lo scarto non e’ casuale, se p.<0.05
(p.<.01)
Medie campioni
standardizzate
p  z6 . 39 =. 00001
Interpretazione
La media della classe e’
significativamente diversa da 22
Rifiutiamo l’ipotesi nulla: Diremo
che la classe non proviene da una
popolazione 22
risultato=6.39
Lezione: 6
Punti notevoli
Prima abbiamo posto una ipotesi nulla (che descrive lo scenario se il risultato
fosse dovuto al caso) H 0=μ=22
Poi abbiamo costruito un test di cui conosciamo la distribuzione (z sappiamo
che segue una distribuzione normale standardizzata)
Poi abbiamo calcolato la probabilità p di ottenere un valore uguale (o superiore)
a z in una normale standardizzata
Se tale p e’ molto piccola (minore di 0.05), rifiutiamo l’ipotesi nulla
Se tale p non e’ molto piccola (superiore a 0.05), non possiamo escludere che il
nostro risultato sia casuale. Dunque sospendiamo il giudizio
Lezione: 6
Test per il coefficiente di regressione
Per il coefficiente b: se la relazione non c’e’, e cio’ che osserviamo nel
campione e’ frutto del caso, B sara’ nullo nella popolazione (H0:
=0)
Coefficientsa
Model
1
(Constant)
NBEERS
Unstandardized
Coefficients
B
Std. Error
2.091
.684
.709
.116
Standardized
Coefficients
Beta
.898
t
3.057
6.132
Sig.
.014
.000
a. Dependent Variable: SMILES
Quale e’ la probabilità di osservare un
b=.709 campionando da una
popolazione con b=0
Lezione: 6
Test per il coefficiente di regressione
Trasformiamo b in un test di cui conosciamo la distribuzione
Applichiamo la stessa formula che per
la media
Coefficientsa
Model
1
(Constant)
NBEERS
Unstandardized
Coefficients
B
Std. Error
2.091
.684
.709
.116
Standardized
Coefficients
Beta
.898
t
3.057
6.132
Sig.
.014
.000
t=
b−Β . 709−0
=
=6 . 132
s . e . . 116
a. Dependent Variable: SMILES
Il test t si distribuisce secondo una
distribuzione nota detta t di Student
p  t6 . 132 . 0001
P<.05, dunque il nostro risultato e’
significativamente diverso da zero
Lezione: 6
La t di Student
Un gran numero di test inferenziali si distribuiscono secondo una t di
student
Nella maggior parte dei casi il test e’ dato dalla stima diviso la
deviazione standard
par −0 par
t=
=
s.e.
s.e.
La distribuzione della t di Student dipende dai gradi di libertà (quanti
casi avete e quanti parametri)
Lezione: 6
La t di Student
La distribuzione t cambia a seconda del numero di casi nel campione
2 casi=1 gdl
21 casi=20 gdl
11 casi=10 gdl
31 casi=30 gdl
Notiamo che all’aumentare dei casi, la t tende
alla normale
Lezione: 6
T test
In generale, molte stime possono essere testati per escludere l’ipotesi nulla
(parametro=0) dividendo la stima per l’errore standard, e calcolando la probabilità
p sulla base della distribuzione t di Student
t=
par
par
=
s.e.
var  par 
N

Maggiore è t, maggiore è la probabilità di rifiutare l’ipotesi nulla. Ciò avverrà
più frequentemente..
Più grande è il parametro
Più grande è il campione
Minore è la variabilità nel campione
Lezione: 6
Test per il coefficiente di correlazione
Ricordiamo che il coefficiente di correlazione non è altro che il coefficiente di
regressione standardizzato (una variabile indipendente)
Coefficientsa
Model
1
(Constant)
NBEERS
Unstandardized
Coefficients
B
Std. Error
2.091
.684
.709
.116
Standardized
Coefficients
Beta
.898
t
3.057
6.132
Sig.
.014
.000
Se b=0 allora anche
r=0
a. Dependent Variable: SMILES
r=beta
b yx =r xy
sy
sx
⇒ r xy =
sx
sy
b yx
Dunque il t-test è
identico per i due
coefficienti
Lezione: 6
Test per il coefficiente R2
Ricordiamo che il coefficiente di determinazione R2 indica la varianza spiegata
dalla variabile indipendente
Vogliamo escludere che la varianza spiegata
2
sia zero (H0:
=0)
Sicuramente la distribuzione campionaria di
R2 non è la t di Student (perché?)
Y
2Yzz
s ez
Xz
2
s regz
2
2
2
s reg s y −s e
2
=
=R
xy
2
2
sy
sy
Lezione: 6
Test per il coefficiente R2
Ricordiamo che il coefficiente di determinazione R2 indica la varianza spiegata
dalla variabile indipendente
Vogliamo escludere che la varianza spiegata
2
sia zero (H0:
=0)
Sicuramente la distribuzione campionaria di
R2 non è la t di Student (perché?)
Perché R2 è sempre positivo, mentre la t di
Student ammette valori positivi e negativi
Y
Y
2 zz
s ez
2
s regz
Xz
2
2
2
s reg s y −s e
2
=
=R
xy
2
2
sy
sy
Lezione: 6
Test per il coefficiente R2
Trasformiamo il parametro in un test di cui si conosca la distribuzione
Varianza
spiegata
Gdl errore
2
R xy
n−k −1
f=
2
k
1−R
Varianza
xy
errore
# variabili
indipendenti
Il rapporto fra varianza spiegata e varianza di errore
(moltiplicato per il rapporto fra gradi di libertà) si
distribuisce secondo una distribuzione F con k e n-k-1 gdl
Lezione: 6
Distribuzione F
La distribuzione F cambia a seconda del numero di casi nel campione e
il numero di variabili indipendenti
1 VI, 3 casi
=1,1 gdl
10 VI, 12 casi
=10,1 gdl
1 VI, 12 casi
=1,10 gdl
10 VI, 22 casi
=10,10 gdl
Notiamo che all’aumentare dei casi, la F
tende alla normale
Lezione: 6
Test per il coefficiente R2
Da cosa dipende il test?
Più grande è il test, minore sarà p
Più grande è R2, minore è p
2
R xy
n−k −1
f=
k
1−R2xy
Più grande è il campione (n), minore è p
Minore è il numero di variabili indipendenti (k), minore è p
Come al solito, più piccolo è p, maggiore è la probabilità di rifiutare
l’ipotesi nulla (che sarebbe: la varianza spiegata è in realtà 0)
Lezione: 6
Test per la Regressione
Output SPSS
R2 e deviazione
standard
Test per R2
Stima regressione e
per b
Lezione: 6
Fine
Fine della Lezione VI
Lezione: 6
VALORE-P
In generale, il valore p indica la probabilità di ottenere il nostro
risultato, o ancora più grande, sotto l’ipotesi nulla
Probabilità p
La probabilità p equivale alla proporzione
di possibili campioni i cui scostamenti
standardizzati sono distanti dall’ipotesi nulla
almeno quanto il campione da noi osservato
-2
-1
0
1
2
Lezione: 6