Il problema della rappresentativita` - e-Learning

Modelli Lineari Generalizzati
(Cap. 10)
Marcello Gallucci
Univerisità Milano-Bicocca
Preludio
La maggior parte delle comuni tecniche statistiche volte ad individuare le
relazioni fra variabili, quali Correlazioni, Regressione, ANOVA, ANCOVA, sono
riconducibili al Modello Lineare Generale (GLM)
Il GLM ci permette di studia gli effetti di variabili indipendenti di vario tipo su
variabili quantitative (variabili dipendenti continue)
La ricerca empirica è disseminata di variabili dipendenti qualitative (scelte
dicotomiche, scelte multiple, frequenze di eventi, classificazioni, etc)
I Modelli Lineari Generalizzati ci consentono di studiare gli effetti di variabili
indipendenti su variabili dipendenti qualitative
Modello Lineare Generale
Variabili Indipendenti
quantitative
• Regressione
• Correlazione
• Path Analysis
Variabili Dipendenti
quantitative
Variabili Indipendenti
Nominali
• t-test
•ANOVA
• ANCOVA
• ANOVA Misure Ripetute
Modello Lineare Generalizzato
Modello Lineare
Generale
Variabili dipendenti
Dicotomiche
Chi-quadro
Regressione logistica
ANOVA logistica
Variabili dipendenti
Multinomiali
Regressione logistica
multinomiale
ANOVA logistica
multinomiale
Analisi di tabelle
multidimensionali
Variabili dipendenti
basate su frequenze
Variabili dipendenti
ripetute
Regressione Poisson
ANOVA Poisson
Equazioni di stima
generalizzate
MLGZ
Techniche volte a studiare e quantificare gli effetti di una o
più variabili indipendenti continue o nominali su una
variabile dipendente nominale (qualitativa)
Tecniche statistiche:
La regressione logistica: Variabile dipendente dicotomica
La regressione ordinale: Variabile dipendente ordinabile
La regressione multinomiale: Variabile dipendente multinomica
La regressione di Poisson: Variabile dipendente basata su
frequenze
Tutto ciò, anche a misure ripetute
Violazioni assunzioni
Quando le assunzioni non sono soddisfatte, i risultati sono da
considerarsi dubbi
Se la violazione delle assunzioni è grave, la regressione/ANOVA non
può essere applicata
Nella pratica, con variabili dipendenti continue normalmente
distribuite, queste assunzioni sono abbastanza semplici da soddisfare
Ma cosa succede se volessimo usare una variabile dipendente
dicotomica?
La regressione logistica
La regressione logistica si propone di studiare e quantificare le
relazioni tra una o più variabili indipendenti quantitative (es. età,
salario, atteggiamento verso la birra, birre bevute) e una variabile
dipendente dicotomica (es. stato civile, voto al referendum,
appartenenza ad un gruppo, etc.)
Assunzioni e Dicotomiche
Le assunzione della regressione lineare non possono essere
soddisfatte nel caso di VD dicotomiche
Assunzione
Se VD dicotomica
Linearità
Non può essere lineare
Omoschedasticità
Sicuramente la varianza
dipende dal valore predetto
Normalità errori
Gli errori saranno sempre
distribuiti con due gobbe
Assunzioni regressione lineare
Come si può intuire dal fatto che la regressione interpola una retta tra
i punti, la relazione che stima è una relazione lineare, omoschedastica e
10
normale
9
8
7
6
5
4
SORRISI
3
2
1
0
-2
-1
BIRRE
0
1
2
3
4
5
6
7
8
9
10
11
12
Violazioni assunzioni
Quando queste assunzioni non sono soddisfatte, i risultati sono da
considerarsi dubbi
Se la violazione delle assunzioni è grave, la regressione non può
essere applicata
Nella pratica, con variabili dipendenti continue normalmente
distribuite, queste assunzioni sono abbastanza semplici da soddisfare
Ma cosa succede se volessimo usare una variabile dipendente
dicotomica?
VD dicotomica
1.00
0.80
voto
0.60
0.40
0.20
0.00
-3.00
0.00
3.00
6.00
attepol
9.00
12.00
VD dicotomica
La relazione non protrà mai essere lineare
1.00
0.80
Gran parte della
varianza non è spiegata
I punteggi saranno
necessariamente
raggruppati in due rette
piatte
voto
0.60
0.40
0.20
La retta di regressione
avrà moltissimo 0.00
margine di errore
-3.00
0.00
3.00
6.00
attepol
9.00
12.00
VD Categorica
Quando abbiamo una variabile dipendente dicotomca, ogni soggetto ha o 1
o 0 come valore della variabile dipendente
VD=sesso (Maschi=0, Femmine=1), VD=acquisto (Si=1, No=0), voto
al referendum (Si=1, No=0)
La media della variabile dipendente è la probabilità di ottenere il valore 1
n1
Y 
ntot
Ciò che prediciamo è la probabilità p di appartenere al gruppo con valore 1
(e 1-p sarà la probabilità di appartenere al gruppo 0).
Soluzione
Necessitiamo dunque di un tipo di regressione che:
Risolva il problema della omoschedasticità, linearità e normalità degli errori
Ammetta valori non assurdi
Ci esprima le relazioni sulla base di probabilità o qualcosa di comparabile
Cioè dobbiamo usare un modello che trasformi la variabile dipendente
tale da linearizzare la relazione, rendere la variabile dipendente continua, e
farla variare su tutto l’asse (valori positivi e negativi)
Soluzione: parte 1
Intanto decidiamo di non cercare di predire la probabilità, ma il rapporto
tra probabilità
Tale rapporto è detto odd (rapporto di probabilita’)
Pi =ab yx x i
Pi
1−P i
=ab yx x i
Odd
L’odd è il rapporto tra la probabilità di un evento (appartenere ad un gruppo)
rispetto alla probabilità del non evento (appartenere all’altro gruppo)
Odd=
Pi
1−P i
Esempi: se la probabilità di avere una figlia femmina è .50
.5
Odd=
=1
1−.5
se la probabilità di votare Si ad un referendum è .70
.7
Odd=
=2 . 33
1−. 7
Odd
L’odd indica quanto più probabile è un evento rispetto al suo complemento
Pi
1−P i
Esempi: Una figlia femmina è tanto probabile quanto un maschio
.5
Odd=
=1
1−.5
Il voto Si è 2.33 volte più probabile del No
.7
Odd=
=2 . 33
1−. 7
Odd: Interpretazione
L’odd consente di esprimere la probabilità mediante valori che variano da 0
ad infinito
1000
Odd da 0 ad infinito
Odd=
Pi
1−P i
odd ratio
800
600
400
200
0
.99
.95
.91
.83
.78
.73
.68
.64
.60
.52
.45
.40
.34
.28
.22
.14
.07
.02
Probabilità da 0 a 1
p
Odd: Interpretazione
L’odd varia da 0 ad infinito
Se gli eventi sono equiprobabili
.5
p=. 5  odd =
=1
1−.5
É maggiore di 1 se l’evento è più
probabile del contrario
.7
p=. 7  odd=
=2 . 331
1−. 7
É minore di 1 se l’evento è meno
probabile del contrario
.2
p=. 2  odd =
=.251
1−. 2
Problema con odd
Se usassimo gli odd come variabile dipendente, potremmo ottenere predizioni
impossibili, come predizioni di valori negativi
Pi
1−P i
=ab yx x i
Se a=1, b=3 e x=-2
Pi
1−P i
=13∗x i
Pi
1−P i
=13∗−2 =−5
Soluzione: parte 2
Decidiamo di non cercare di predire l’odd, ma il logaritmo dell’odd
Pi
1−P i
=ab yx x i
ln 
Pi
1−Pi
=ab yx x i
La trasformazione con il logaritmo si chiama logit
log it =ln 
Pi
1−Pi

La regressione che cerca di predire il logit si chiama
regressione logistica
Logaritmo
Il logaritmo in base A di B è quel numero a cui dobbiamo
elevare A per ottenere B.
Log10 100=2
10 2 =100
Spesso si usa il logaritmo naturale, cioè il logaritmo con base e
o numero neperiano (da Napier che lo scoprì) o di Eulerio (che
lo formulò nei termini che lo conosciamo)
Ln 100 =4 .605
e 4 . 605 =100
Vantaggi del Logaritmo
La logistica usa il logaritmo in quanto:
Trasforma una variabile positiva (odd) in negativi e
positivi
É positivo se l’argomento è maggiore di 1
É negativo se l’argomento è minore di 1
É zero se l’argomento è uguale ad 1
Perché il logaritmo?
Il logaritmo di una variabile che varia da 0 ad infinito (come gli odd), varia
per tutti i valori possibili, da negativi a positivi
8.00
Il logaritmo dell’Odd
permette di esprimere la
probabilità mediante valori
sia positivi che negativi
6.00
logit
4.00
p
log it =ln 

1− p
2.00
0.00
-2.00
-4.00
0.00
0.20
0.40
0.60
p
0.80
1.00
Trasformazione Logit
Per ovviare a ciò, la regressione logistica non predice la
variabile dipendente così come è, ma la trasforma
Variabile Originale
Odd
Logit
Probabilità
Rapporto di
probabilità
Logaritmo del Odd
Pi Y=1
1−P i Y =0 
Appartenenza ad un
gruppo
Odd=
Pi
1−P i
Quanto è più (o meno)
probabile un gruppo
rispetto all’altro
ln 
Pi
1−Pi

Variabile continua definita
su tutto l’asse delle Y
Regressione logistica
La regressione logistica è una regressione in cui la variabile dipendente
è dicotomica, e dunque si predice mediante una regressione lineare il
logaritmo del rapporto tra la probabilità di essere in un gruppo
piuttosto che l’altro
ln 
Pi
1−Pi
=ab yx x i
Logistica in pratica
Ci proponiamo di studiare in un campione di 133 soggetti, le relazioni
tra atteggiamento politico (conserv, positivo= conservatore, 0=incerto,
negativo=liberal) e voto alle elezioni presidenziali americane
La variabile dipendente è:
0 se ha votato Kerry
1 se ha votato Bush
Validi
.00
1.00
Totale
Frequenza
60
73
133
votoBush
Percentuale
45.1
54.9
100.0
Percentuale
valida
45.1
54.9
100.0
Percentuale
cumulata
45.1
100.0
Logistica in pratica
SPSS
Logistica in pratica
SPSS
Variabile Dipendente
Variabile Indipendente
Output: Risultati
Essendo una regressione, ci aspettiamo di trovare un coefficiente B,
un coefficiente costante, e un test di significatività del coefficiente
Variabili nell'equazione
Passo
a
1
conserv
Costante
B
.907
.132
E.S.
.224
.188
a. Variabili immesse al passo 1: conserv.
Wald
16.399
.487
df
1
1
Sig.
.000
.485
Exp(B)
2.476
1.141
Output: Risultati
Essendo una regressione, ci aspettiamo di trovare un coefficiente B,
un coefficiente costante, e un test di significatività del coefficiente
Test di significatività
Effetto della VI
Variabili nell'equazione
Passo
a
1
conserv
Costante
B
.907
.132
E.S.
.224
.188
Wald
16.399
.487
df
1
1
Sig.
.000
.485
Exp(B)
2.476
1.141
a. Variabili immesse al passo 1: conserv.
Costante
Errore standard
Significatività (valore-p)
Non c’è il coefficiente standardizzato, ma c’è exp(B)
Intepretazione
Essendo una regressione, possiamo interpretare i coefficiente come al
solito
Cambiamento atteso nel logaritmo di
Odd, per uno spostamento nella di
una unità nella VI
Variabili nell'equazione
Passo
a
1
conserv
Costante
B
.907
.132
E.S.
.224
.188
Wald
16.399
.487
df
1
1
Sig.
.000
.485
Exp(B)
2.476
1.141
a. Variabili immesse al passo 1: conserv.
Valore atteso nel
logaritmo di Odd,
quando la VI è zero
Significatività (valore-p): se minore di
0.05, rifiutiamo l’ipotesi nulla di B=0
Intepretazione: Problema
Il problema sta nel fatto che tutte le informazioni (come in ogni
regressione) sono espresse nell’unità di misura della VD
Nel caso del logaritmo di Odd, questa unità è non intuitiva e poco
informativa
Passo
a
1
conserv
Costante
Variabili nell'equazione
B
.907
.132
E.S.
.224
.188
Wald
16.399
.487
df
1
1
Sig.
.000
.485
Exp(B)
2.476
1.141
a. Variabili immesse al passo 1: conserv.
Per ogni unità in più di conserv, ci aspettiamo un aumento del logaritmo di
Odd di .907! Ma è tanto o poco?
4.
=
Svantaggi del Logaritmo
Il problema del logaritmo è che la sua unità di misura non è
intuitivamente interpretabile
Una differenza di .903 nella scala logaritmica è tanto o
poco in termini di probabilità?
Per ovviare a ciò, le quantità espresse su scala logaritmiche
possono essere riportate all’unità originale mediate la funzione
esponenziale
ln (100)=4.605
exp (4.605)=100
Unità più comprensibili
Dato che nella logistica le informazioni sono ottenute sulla base
di una VD logartmica, la funzione esponenziale le riporta
all’unità precedente
L’unità precedente è l’odd ratio
Odd ratio
Logit
Ln 
Pi
1−P i

In generale
exp  Ln
exp  Ln q =q
Pi
1−P i
=
Pi
1−P i
L’esponenziale
La funzione esponenziale di un logaritmo ci da l’argomento
orginale del logaritmo
X
Ln(X)
Exp(Ln(X))
Relazioni tra unità di misure
Al fine interpretativo è importante ricordare che:
La somma tra due logaritmi, equivale al prodotto tra gli argomenti
Logit
Odd ratio
q= Ln a Ln  b
exp  q =a∗b
Ln  2 Ln  3=1. 79
exp  1. 79 =6
B  Ln(Odd1 )  Ln(Odd 2 )
exp( B )  Odd1 * Odd 2
B espresso come OR
Per facilitare l’interpretazione, il legame tra VD e VI si esprime
mediante l’esponenziale di B
Variabili nell'equazione
Passo
a
1
conserv
Costante
B
.907
.132
E.S.
.224
.188
Wald
16.399
.487
df
1
1
Sig.
.000
.485
Exp(B)
2.476
1.141
a. Variabili immesse al passo 1: conserv.
Exp(B) trasforma il B espresso in scala logaritmica in un B expresso in
termini di odd ratio
Interpretazione di exp(B)
Exp(B) è il tasso con cui aumenta Odd per ogni unità della VI
Cioè il tasso con cui cambia il rapporto di probabilità al variare della
VI
Per ogni unità in più di conserv, il rapporto di probabilità tra votare Bush e
votare Kerry aumenta di 2.47 volte
Interpretazione di exp(Costante)
Exp(Costante) è l’Odd atteso quanto la VI è zero
Se conservatorismo è uguale a zero, ci aspettiamo un odd ratio di 1.141, cioè
votare Bush è 1.142 volte più probabile che votare Kerry
P  votareBush 
=1. 141
P  votareKerry 
Se conservatorismo è uguale a zero (soggetto incerto), votare Bush o Votare
Kerry sono equiprobabili
Interpretazione di exp(B)
Exp(B) è quanto aumenta l’Odd per ogni unità in più della VI
Se passiamo da conservatorismo=0 a conservatorismo=1 (aumentiamo x di
una unità), ci aspettiamo che l’ odd ratio aumenti di 2.476
Odd x=1 =Odd x=0∗Exp B =1 .141∗2 . 476=2 .825
Odd se X=1
Odd se X=0
Tasso di cambio
Odd per X=1
Ricordiamo dalla lineare…
Nella regressione lineare
y =ab⋅x
a è il valore atteso di y per x=0
y x=0=a
b è quanto dobbiamo aggiungere
ad a passando da X=0 a X=1
y x=1=ab⋅1
In generale, b è quanto dobbiamo
aggiungere ad a passando da X a
X+1
y x1= y x b⋅1
Se la scala è logaritmica
Con la scala logaritmica, la sostanza è la stessa
ln Odd =ab⋅x
a è il valore atteso di y per x=0
b è quanto dobbiamo aggiungere
ad a passando da X=0 a X=1
In generale, b è quanto dobbiamo
aggiungere ad a passando da X a
X+1
ln  Odd x=0 =a
ln  Odd x =1 =ab⋅1
ln  Odd x1 =ln  Odd x b⋅1
Relazioni tra unità di misure
Ma la somma di due logaritmi equivale alla esponenziale dei prodotti
degli argomenti
Logit
q= Ln a Ln  b 
Odd ratio
exp  q =a∗b
Se la scala è riportata in OR
Con la scala riportata in Odd
Logit
a è il valore atteso di y per x=0
Odd ratio
Exp(a) è il valore atteso di
Odd per x=0
ln  Odd x=0 =a
exp  a =Odd x=0
b è quanto dobbiamo aggiungere
ad a passando da X=0 a X=1
b è quanto dobbiamo moltiplicare
a passando da X=0 a X=1
ln  Odd x=1 =ab⋅1
Odd x=1 =Odd x=0⋅b
Interpretazione di exp(B)
Paragone con la regressione linerare
Regressione lineare
y =ab⋅x
a è il valore atteso di y per x=0
b è quanto dobbiamo
aggiungere ad a passando da
X=0 a X=1
Regressione logistica
¿
ln  Odd =ab⋅x
Exp(a) è il valore atteso di Odd per
x=0
Exp(b) è quanto dobbiamo moltiplicare
Exp(a) passando da X=0 a X=1
Interpretazione di exp(B)
Aumentando X di 1, aumento in termini di logaritmo di .907
L’esponenziale di .907 è 2.476
Variabili nell'equazione
Passo
a
1
conserv
Costante
B
.907
.132
E.S.
.224
.188
Wald
16.399
.487
df
1
1
Sig.
.000
.485
Exp(B)
2.476
1.141
a. Variabili immesse al passo 1: conserv.
Dunque in termini di Odd aumento di 2.476
Cioè se un soggetto ha conservatorismo uguale ad 1, il suo Odd di
votare Bush sarà 2.476 volte più grande del soggetto che ha
conservatorismo uguale a 0
Logistica in pratica (2)
Ci proponiamo di studiare in un campione di 133 soggetti, le relazioni
tra voto precendente (prevBush, 0=Gore, 1=Bush) e voto alle elezioni
2004 (votoBush, 0=Kerry, 1=Bush)
Tavola di contingenza votoBush * prevBush
votoBush
.00
1.00
Totale
voto alle elezioni
2004
Conteggio
% entro prevBush
Conteggio
% entro prevBush
Conteggio
% entro prevBush
prevBush
.00
1.00
39
21
61.9%
30.0%
24
49
38.1%
70.0%
63
70
100.0%
100.0%
x voto alle
precendenti elezioni
Totale
60
45.1%
73
54.9%
133
100.0%
Logistica in pratica (2)
Concentriamoci su coloro che non hanno votato Bush alle precedenti
elezioni, cioè x=0
Tavola di contingenza votoBush * prevBush
votoBush
.00
1.00
Totale
Conteggio
% entro prevBush
Conteggio
% entro prevBush
Conteggio
% entro prevBush
prevBush
.00
1.00
39
21
61.9%
30.0%
24
49
38.1%
70.0%
63
70
100.0%
100.0%
Totale
60
45.1%
73
54.9%
133
100.0%
Se x=0, il 38.1 % vota Bush e 61.9 % vota Kerry nel 2004
.381
Odd 0 =
=. 615
.619
¿
Se x=0, l’Odd di votare Bush è:
Logistica in pratica (2)
Passiamo ora a coloro che hanno votaro Bush alle precendenti elezioni,
cioè x=1
Tavola di contingenza votoBush * prevBush
votoBush
.00
1.00
Totale
Conteggio
% entro prevBush
Conteggio
% entro prevBush
Conteggio
% entro prevBush
prevBush
.00
1.00
39
21
61.9%
30.0%
24
49
38.1%
70.0%
63
70
100.0%
100.0%
Totale
60
45.1%
73
54.9%
133
100.0%
Se x=1, il 70.0 % vota Bush e il 30.0 % vota Kerry nel 2004
Se x=1, l’Odd di votare Bush è:
Odd 1 =
. 70
=2 .33
. 30
Logistica in pratica (2)
Dunque, passando da X=0 a X=1, Odd di votare Bush è aumentato di
3.79 volte
Tavola di contingenza votoBush * prevBush
votoBush
.00
1.00
Totale
Conteggio
% entro prevBush
Conteggio
% entro prevBush
Conteggio
% entro prevBush

prevBush
.00
1.00
39
21
61.9%
30.0%
24
49
38.1%
70.0%
63
70
100.0%
100.0%
Odd1
 exp( B )
Odd 0
Totale
60
45.1%
73
54.9%
133
100.0%

2.33
 3.17
.616
Logistica in pratica (2)
Dunque, grazie alle differenze in X, possiamo predire un cambiamento
in Odd di 3.79
Tavola di contingenza votoBush * prevBush
votoBush
.00
1.00
Totale
Conteggio
% entro prevBush
Conteggio
% entro prevBush
Conteggio
% entro prevBush
prevBush
.00
1.00
39
21
61.9%
30.0%
24
49
38.1%
70.0%
63
70
100.0%
100.0%
¿
Odd 0 =. 616
¿
Odd 1 =2 . 33
Odd 1 =Odd 0 3. 79
Totale
60
45.1%
73
54.9%
133
100.0%
Exp(B)
La regressione logistica calcola esattamente questa predizione
Variabili nell'equazione
Passo
a
1
prevBush
Costante
B
1.333
-.486
E.S.
.368
.259
Wald
13.126
3.502
df
1
1
Sig.
.000
.061
Exp(B)
3.792
.615
a. Variabili immesse al passo 1: prevBush.
¿
Se x=0, l’Odd di votare Bush è:
Odd 0 =. 616
¿
Se x=1, l’Odd di votare Bush è:
¿
Odd 1 =Odd 0 * 3. 79
Cambiamento in Odd dovuto a X
Quando exp(B) è minore di 1
Proviamo ora ad invertire i gruppi e calcolare la regressione con
VotoKerry come VD, cioè la medesima variabile ma con 0=vot a Bush,
1=voto a Kerry
Variabili nell'equazione
Passo
a
1
prevBush
Costante
B
-1.333
.486
E.S.
.368
.259
Wald
13.126
3.502
df
1
1
a. Variabili immesse al passo 1: prevBush.
¿
Se x=0, l’Odd di votare Kerry è:
Se x=1, l’Odd di votare Kerry è:
Odd 0 =1 . 625
Odd 1 =Odd 0 * .264
Al cambiare di X, la propensione a votare Kerry
diminuisce
Sig.
.000
.061
Exp(B)
.264
1.625
Inversione della VD
Ovviamente, se prediciamo Odd di votare Bush, o Odd di votare Kerry,
i risultati sono equivalenti
Qui Bush=1
Passo
a
1
prevBush
Costante
Variabili nell'equazione
B
1.333
-.486
E.S.
.368
.259
Wald
13.126
3.502
df
Sig.
.000
.061
1
1
Exp(B)
3.792
.615
a. Variabili immesse al passo 1: prevBush.
1
1
Exp B bush =
=
=3 . 792
Exp  B ker ry . 264
¿
Qui Kerry=1
Variabili nell'equazione
Passo
a
1
prevBush
Costante
B
-1.333
.486
E.S.
.368
.259
a. Variabili immesse al passo 1: prevBush.
Wald
13.126
3.502
df
1
1
Sig.
.000
.061
Exp(B)
.264
1.625
Fine
Fine della lezione