TIS_III_15_16

Tecniche di Indagine Statistica
Parte III
Susanna Zaccarin
a.a. 2015/16
DEAMS - UniTS
Disegno d’indagine come processo
Siamo qui !
(Groves et al., 2004, p.47)
TIS_ 1
III
Analisi dei dati
By the time you get to the analysis of your data, most of the really
difficult work has been done.
It's much more difficult to: define the research problem; develop and
implement a sampling plan; conceptualize, operationalize and test your
measures; and develop a design structure.
If you have done this work well, the analysis of the data is usually a
fairly straightforward affair. (http://www.socialresearchmethods.net/kb/analysis.php)
Data analysis: in genere 3 steps principali:
1. Cleaning and organizing the data for analysis (Data Preparation)
2. Describing the data (Descriptive Statistics)
3. Testing Hypotheses and Models (Inferential Statistics)
TIS_ 2
III
TIS_ 3
III
Analisi dei dati - risultati
1. codifica
–  piano di codifica
–  variabili/informazioni specifiche rilevate
–  particolari condizioni/situazioni (vedi esempi)
2. descrizione (editing)
–  distribuzioni di frequenza
–  indici sintetici e misure di dispersione per variabili
quantitative
–  rappresentazioni grafiche
–  incroci di vario tipo (bivariati, trivariati)
trasformazioni di variabili
(ricodifiche, accorpamento di modalità, variabili composte)
(vedi esempio)
TIS_III 4
“Bisogni” informativi: (http://www.socialresearchmethods.net/kb, William M.K. Trochim,
Cornell University)
• 
Descriptive
When a study is designed primarily to describe what is going on or what exists.
Public opinion polls that seek only to describe the proportion of people who
hold various opinions are primarily descriptive in nature.
For instance, if we want to know what percent of the population would vote for
a Democratic or a Republican in the next presidential election, we are simply
interested in describing something.
• 
Relational
When a study is designed to look at the relationships between two or more
variables. A public opinion poll that compares what proportion of males and
females say they would vote for a Democratic or a Republican candidate in the
next presidential election is essentially studying the relationship between
gender and voting preference.
• 
Causal
When a study is designed to determine whether one or more variables (e.g., a
program or treatment variable) causes or affects one or more outcome
variables.
If we did a public opinion poll to try to determine whether a recent political
advertising campaign changed voter preferences, we would essentially be
studying whether the campaign (cause) changed the proportion of voters who
TIS_ 5
would vote Democratic or Republican (effect).
III
The three question types can be viewed as
cumulative.
That is, a relational study assumes that you can
first describe (by measuring or observing) each
of the variables you are trying to relate.
And, a causal study assumes that you can
describe both the cause and effect variables and
that you can show that they are related to each
other.
Causal studies are probably the most
demanding of the three.
TIS_ 6
III
Analisi dei dati - risultati
3. analisi e interpretazione relazioni tra le variabili
–  associazione e causalità:
– 
ipotesi: X
Y
(in generale: relazione asimmetrica)
–  criteri da “rispettare” in ambito osservazionale (soggetti che si
“assegnano” ai gruppi):
1.  associazione statistica tra X e Y
2.  rispetto ordinamento temporale tra X e Y (effetti su rilevazione)
3.  non possibili spiegazioni alternative
evidenza supporta la relazione ipotizzata
n.b.: la relazione non è provata poiché solo ipotizzata e
non direttamente osservata
L’evidenza empirica può solo supportare o non
supportare l’ipotesi
TIS_ 7
III
Analisi dei dati - risultati
• 
spiegazioni alternative per l’associazione osservata:
1.  relazione spuria
2.  relazione dipendente dai valori di un’altra variabile
3.  relazione è dovuta alla presenza di una variabile che
interviene tra X e Y
4.  errore campionario (dimensione campione e significatività
statistiche test)
• 
controllo statistico dell’effetto di altre variabili nella relazione
tra X e Y
−  studio della relazione tra X e Y tra unità con valore uguali
delle altre variabili
TIS_ 8
III
Maggiore altezza degli studenti tende a migliorare il punteggio in
matematica ? r(height, math) = 0.81 per un campione di studenti americani
Spiegazione alternativa: campione costituito da studenti di diverse età
Agresti, Finlay (2012), ed. italiana
TIS_ 9
III
Relazioni tra variabili - controllo statistico (1)
•  relazione spuria
T
X
Y
Computer a casa
tenendo conto di T, associazione tra X e Y scompare
risposta
Punteggio medio test Matematica
n
quantitativa
Sì
82.5
500
No
73.8
500
Computer a casa
Punteggio
sì
69.5
25
no
68.7
275
sì
80.7
300
no
79.3
200
sì
87.5
175
no
86.8
25
Classe sociale
Bassa
Media
Alta
Possibili altre
spiegazioni:
n
relazione tra
le due
variabili con
istruzione
genitori
TIS_ 10
III
Relazioni tra variabili - controllo statistico (2)
Delinquenza
sì
Scout
risposta
no
Totale
qualitativa
(tabelle di
contingenza)
sì
36 (9%)
364 (91%)
400
no
60 (15%)
340 (85%)
400
Possibili
altre
spiegazioni
relazione tra
le due
variabili con
classe
sociale
TIS_ 11
III
Associazione tra variabili e effetti di “confondimento”
Guarigione
No
Totale
Tasso di
guarigione
Trattamento
Sì
Nuovo
20
20
40
50%
Vecchio
16
24
40
40%
Nuovo
18
12
30
60%
Vecchio
7
3
10
70%
Nuovo
2
8
10
20%
Vecchio
9
21
30
30%
Femmine
Maschi
Paradosso di Simpson: risultato opposto (diverso) rispetto alla relazione tra due
variabili quando è introdotta una terza variabile
Maschi hanno un tasso di guarigione più basso con il nuovo trattamento e, in proporzione,
meno maschi hanno ricevuto il trattamento
(nuovo trattamento: 75% femmine, 25% maschi)
TIS_ 12
III
Associazione tra variabili e effetti di “confondimento”
Paradosso di Simpson - 2^ esempio
Quale trattamento è più efficace per la cura dei calcoli renali?
Trattamento A Trattamento B
78%
(273/350)
83%
(289/350)
Trattamento B è il
migliore ?
Trattamento A
Trattamento B
Piccoli
calcoli
93%
(81/87)
87%
(234/270)
Grandi
calcoli
73%
(192/263)
69%
(55/80)
Altro esempio di paradosso statistico: effetto Will Rogers o stage migration
TIS_ 13
III
Relazioni tra variabili - controllo statistico (3)
• 
relazione a catena
X
T
Y
tenendo conto dell’intervento di T, associazione tra X e Y scompare
istruzione genitori
• 
istruzione figlio
reddito figlio (ancora valida ?)
interazione
T
X
• 
Y
associazione tra X e Y varia secondo i livelli di T
effetti diretti e indiretti
X
Y
associazione tra X e Y cambia ma non scompare
T
TIS_ 14
III
Scala di misura delle variabili
•  qualitativa (scala nominale)
•  quantitativa (scala intervallo o rapporto)
•  scala ordinale (a volte sono trattate come quantitative)
•  variabili categoriali (scala nominale o ordinale)
•  variabili discrete e continue (quantitative su scala
intervallo)
n.b.: metodi/tecniche diverse a seconda del tipo
di dati
TIS_ 15
III
Relazioni tra le variabili (var. quantitative)
i) relazione lineare
ii) verso della relazione
X
Y
ma anche
Y
X
iii) relazione non esatta
y
.
.
. .
x
y
.
.
.
. .
.
x
TIS_ 16
III
Variabili dummy
modello di regressione: variabili quantitative misurate almeno su
scala intervallo (meglio se Y è di questo
tipo e preferibilmente anche le Xi )
variabili esplicative Xi su scala qualitativa
es sesso: M
F
variabili dummy
X = 0 se A
X = 1 se B
X=1
X=0
interpretazione coefficienti:
Y = reddito
X = razza 1 = Bianco
0 = Nero
reddito medio per i Neri (X = 0)
reddito medio per i Bianchi (X = 1)
differenza tra il reddito medio dei Neri e dei Bianchi
TIS_ 17
III
Variabili dummy
ordinali
nominali
uso variabili dummy: una variabile espressa in C categorie può
essere rappresentata in C -1 variabili dummy
Y = contributo in dollari ad una campagna elettorale
X = interesse politico del rispondente
1 = nessun interesse
2 = poco interesse
3 = molto interesse
modello di regressione:
X1 = 1 se X = 2 (poco interesse)
X1 = 0 altrimenti
X2 = 1 se X = 3 (molto interesse)
X2 = 0 altrimenti
non serve una terza variabile per X = 1 (nessun interesse)
definite X1 e X2, X3 è una perfetta combinazione lineare
multicollinearità
3a modalità (nessun interesse, X3 = 1) definita da X1 = 0 e X2 = 0 TIS_ 18
III
Variabili dummy
a
stima del contributo medio alla campagna elettorale quando
X = 1 (nessun interesse politico)
base per confrontare gli effetti della altre 2 categorie su Y
es X = 2
poco interesse politico
X1 = 1 e X2= 0
differenza nel contributo medio tra la
categoria di rispondenti con “poco
interesse politico” e quelli con “nessun
interesse”
( a + b1) - a = b1
X=3
molto interesse politico
X1 = 0 e X2= 1
TIS_ 19
III
Modello di regressione
stime
a minimi quadrati (OLS)
stime corrette
nessuna restrizione sulle Xk (tranne multicollinearità) e sulle bk e ei
–  R
–  R+
–  I
–  0/1
anche
0
che succede?
1
TIS_ 20
o pochi valori (y su scala dicotomica o politomica)
III
ma Y può assumere solo 2 valori
Organizzazione e sintesi di dati categoriali: tabelle di contingenza
Probabilità congiunta di una qualsiasi coppia (yi, xj) =
n.b.: se totali fissati in una tabella di
dimensioni I x J, il numero di celle
che può essere fissato liberamente è
pari a (I-1)x(J-1) = gradi di libertà
Distribuzioni marginali:
Distribuzioni condizionate:
Condizione di indipendenza:
equivalente a:
TIS_ 21
III
Stima dai dati campionari
Distribuzione congiunta:
Distribuzioni marginali:
Condizionata di Y dato X:
N.B.: la distribuzione congiunta è simmetrica in X e Y se non c’è distinzione tra
variabile risposta e esplicativa e interessa esaminare la relazione di reciproca
dipendenza tra X e Y.
Se Y è considerata risposta e interessa la relazione tra Y e la variabile esplicativa X,
la situazione di simmetria viene a cadere e la distribuzione congiunta non è più di
grande utilità.
In questo caso è più conveniente fare riferimento alle distribuzioni condizionate di Y
per vari valori di X e, in particolare, al confronto di tali distribuzioni.
Quando l’ipotesi di indipendenza tra le variabili non è sostenibile, interessa valutare
l‘intensità e, eventualmente, la direzione del legame tra le variabili.
Esempio: relazione sesso e iscrizione Laurea Magistrale
almeno 3 aspetti di interesse:
1. evidenza dell’associazione tra le variabili nella popolazione (test Χ2)
2. in che modo i dati sono associati (analisi residui basati su foss – fatt )
3. intensità (forza) dell’associazione (opportune misure di associazione)
TIS_ 23
III
No associazione
Max associazione
TIS_ 24
III
Confronto tra probabilità per l’analisi delle relazioni tra variabili categoriali (1)
(intensità della relazione)
• 
Differenza
(indice i = variabile Y, j e l = categorie della variabile X)
differenza varia (-1; 1), differenza = 0 indipendenza
(Rischio relativo = Rapporto tra probabilità sotto differenti condizioni
usato spesso in medicina /epidemiologia dove l’interesse è legato al rischio (di
morte) rispetto ad una particolare patologia date differenti condizioni (esempio due
trattamenti).
Sì LM
No LM
Totale
360
240
600
Maschi
Femmine 240
160
400
Totale
400
1000
Maschi
600
(360/600) – (240/400)= .6 -.6= 0
Sì LM
No LM
Totale
600
0
600
Femmine 0
400
400
Totale
400
1000
600
(600/600) – (0/400) = 1
TIS_ 25
III
Confronto tra probabilità per l’analisi delle relazioni tra variabili categoriali (2a)
Definizione di odd(s) (quota)
–  Odds (tabelle Jx2) n.b.: non coinvolge i totali marginali
(rapporto tra probabilità relative a due risultati Y data la stessa condizione X)
odds > 1 = risultato 1 è più probabile del risultato 2, data la condizione j
(successo più probabile che insuccesso)
–  Log Odds o logit
TIS_ 26
III
Confronto tra probabilità per l’analisi delle relazioni tra variabili categoriali (2b)
• 
odds di vittima bianca per omicida bianco (Agresti e Finlay, 1997):
prop. vittime bianche: 4686/4990 = .939; prop. vittime nere: 304/4990 =.061
.939/ .061 =15.4 (per un omicida bianco 15.4 vittime bianche per 1 nera)
(4686/4990)/(304/4990) = n11/n21= (4686/304) = 15.4
• 
odds di vittima bianca per omicida nero
849/5393 = .157 (per un omicida nero .157 vittime bianche per 1 nera)
(5393/849 = 1/.157= 6.4 vittime nere per ogni bianca)
TIS_ 27
III
Confronto tra probabilità per l’analisi delle relazioni tra variabili categoriali (2c)
•  Rapporto tra odds: Odds ratio (cross product ratio)
Range non simmetrico: (1, ∞) se > 1 e (0,1) se < 1
Odds ratio simmetrico nelle due variabili
Non dipende dalle marginali
TIS_ 28
III
Confronto tra probabilità per l’analisi delle relazioni tra variabili categoriali (2d)
odds ratio vittime :
odds per omicida bianco / odds per omicida nero =
(4686/304/( 849/5393) = 15.4/.157 = 97.9
= (4686) (5393) / (304) (849) cross-product ratio
per un omicida bianco l’odds di colpire una vittima bianca è pari a
quasi 100 volte quello di un omicida nero
Si usa anche Log odds ratio
TIS_ 29
III
Odds = in tabelle (2x2) rapporto tra il n.ro di casi (frequenza) relativi ad una
data categoria e il n.ro di casi della categoria “complementare”
probabilità che un individuo scelto a caso appartenga alla categoria di
interesse piuttosto che ad un’ altra
Odds di voto = 987/486 =2.03 (marginal odds)
Membro
di org.ne
Voto
Non
membro di
org.ne
Totale
Sì
689
298
987
No
232
254
486
Totale
921
552
1473
Odds di voto rispetto al non voto data l’appartenenza ad
una organizzazione (conditional odds)
1. membri
= 689/232 = 2.97
2. non membri = 298/254 = 1.17
Odds ratio per Voto e Appartenenza = Confronto tra
conditionals
odds = (689/232) / (298/254) = (689x254) / (232x298) = 2.53
Relazione positiva tra le due variabili con odds (rapporto tra
probabilità) di voto tra chi è membro di organizzazione 2.53
volte maggiore rispetto ai non membri
tabelle (IXJ): (I-1) (J-1) odds ratio locali (tra categorie adiacenti)
(Attenzione a celle con frequenza pari a 0)
TIS_ 30
III
Costruzione di modelli per dati categoriali
TIS_ 31
III
Variabile dipendente dicotomica: Yi = 0,1
modello di probabilità lineare
interpretabile come la probabilità di Yi = 1
Se Yi assume 2 valori: anche due valori ei
assunzioni sull’errore ei:
come saranno in questo caso?
TIS_ 32
III
da:
stime minimi quadrati
non distorte
TIS_ 33
III
dipendono dai valori di Xik
eteroschedasticità
TIS_ 34
III
stime di bk
non più a minima varianza
stime di
non corretta
test non più validi
Possibili soluzioni:
minimi quadrati a due stadi con pesi che cercano di
riportare l’omoschedasticità
molto problematiche
poggiano sempre su
TIS_ 35
III
Modello di probabilità lineare
è una probabilità
vincoli ai valori dei parametri
poiché
TIS_ 36
III
Modello di probabilità lineare
Esempio: Y proprietà dell’abitazione Sì = 1
No = 0
X patrimonio familiare (migliaia di dollari)
b0 = prob che una famiglia con X = 0 sia proprietaria dell’abitazione
b1 = variazione nella probabilità di essere proprietari di una abitazione
associata ad una variazione di 1000 dollari in X
ipotesi:
.
differenza nelle probabilità tra X = 0 e X = 100 000
.
Se max X = 100 000 (migliaia)
TIS_ 37
III
Assunzione di linearità
1. vincoli sui parametri bk (effetto delle esplicative) non considerati
nella procedura a minimi quadrati
2. effetto delle esplicative è costante al variare di X
specificazione più realistica:
funzione non lineare di X
TIS_ 38
III
Assunzione di linearità non corretta
E(y)=0.6125+0.0787X
E(y)=0.5+0.1554X
E(y)=0.3875+0.0787X
TIS_ 39
III
Assunzione di linearità non corretta
1. minimi quadrati (anche a più stadi)
2. assunzioni su E(ei)
segno corretto
non più validi
inferenza non valida
3. stime molto sensibili ai valori che si includono nel
campione
4. valori estremi a [0,1]
5. soluzioni “buone” per migliorare stime a minimi
quadrati possono avere effetti disastrosi se Y = 0,1
TIS_ 40
III
Forme funzionali non lineari
trasformazioni di pi per
eliminare il vincolo:
vincolo
>0
TIS_ 41
III
Forme funzionali non lineari
risolvendo per pi
funzione logistica
vi sono anche altre trasformazioni possibili
TIS_ 42
III
Truncated
Angular
TIS_ 43
III
Gompertz
Burr
Urban
TIS_ 44
III
Logistic
Normal
probit
Risultati molto simili: differenza nelle prob. stimate < .02
TIS_ 45
III
Teoria delle scelte razionali
(Luce e Supper, 1965 McFadden, 1973)
osservazione sul comportamento di un individuo i che
fronteggia due alternative:
1
ui1
0
ui0
sceglie 1 se ui1 > ui0
sceglie 0 se ui1 < ui0
processo di scelta in funzione di variabili esplicative Xik
Yi
(caratteristiche dell’individuo, delle alternative…)
componente stocastica
sceglie 1 se ui1 > ui0
yi* > 0
yi*= Σ
bk
Xik -
ui
TIS_ 46
III
Teoria delle scelte razionali
In realtà si osserva
conoscenza della
distribuzione di u
se ui v.c. continue:
ui
funzione di distribuzione logistica
funzione di distribuzione normale
curva logistica
curva normale
TIS_ 47
III
Teoria delle scelte razionali
N.B. modelli basati su relazione lineare fra Yi* e esplicative ma
Yi* non è osservata
Si osserva Yi (dicotomica) = f(Yi*)
Yi è collegata a Xik mediante pi
scelta di ui
logistica
Normale
trasformazione di
modello logit
modello probit
TIS_ 48
III
Interpretazione dei coefficienti bk
logit
logistic probability unit
probit
probability unit
variabile
dicotomica:
valor medio
probabilità che assuma il
valore 1
relazione non lineare tra P(Yi = 1) e Xik
difficile stabilire l’effetto al
variare di X
TIS_ 49
III
Interpretazione dei coefficienti bk
bk determina la direzione dell’effetto (positivo o negativo)
ma la “grandezza” dipende dalla “grandezza” di z
(e quindi dai valori di tutte le Xik)
calcolo della P(Yi = 1) in corrispondenza di valori particolari:
valori medi e/o valori estremi
derivata di P(Yi = 1) rispetto a Xk
logit
fattore di
attenuazione
probit
TIS_ 50
III
Assunzioni per stima e inferenza
1.
2a.
2b.
probit
logit
3.
statisticamente indipendenti
4.
non esiste perfetta o quasi perfetta
multicollinearità tra di loro
TIS_ 51
III
Stime di massima verosimiglianza
probabilità di osservare
il risultato Yi
= L (Y|X, b)
probabilità (verosimiglianza) di osservare quel
particolare campione di valori Yi dati gli Xik
funzione di verosimiglianza
che massimizza = L (Y|X, b)
algoritmi iterativi ( metodo Newton - Raphson e
metodo scoring)
TIS_ 52
III
Proprietà stimatori MLE
per grandi campioni circa come OLS
(correttezza, efficienza, normalità)
Inferenza
a. significatività dei coefficienti
:
b. test basato sul rapporto delle funzioni di verosimiglianza
(log) L0
verosimiglianza quando tutti i coefficienti sono pari a 0
(tranne intercetta)
(log) L1
verosimiglianza per il modello completo
TIS_ 53
III
Inferenza (2)
c. significatività di insiemi di coefficienti:
g numero di coefficienti pari a 0
L1
L2
modello completo
modello in cui alcune variabili (e quindi i relativi
coefficienti) sono assunti non influenti
d. bontà dell’adattamento
proporzione di casi correttamente classificati e
qualcos’ altro…
TIS_ 54
III
Precisazioni sul logit
modello logit
1.
2.
probabilità che si verifichi Y = 1:
distribuzione logistica
regressione logistica
Altra distinzione
a. modello logit
X categoriali
b. regressione logistica
X miste (continue e categoriali)
da modelli lineari generalizzati
modello logit
TIS_ 55
III
Modello logit
Nel modello logit:
p
2 variabili X e Z
probabilità che si verifiche l’evento
rapporto tra la probabilità di verificarsi e la
probabilità di non verificarsi
(odds
rischio relativo)
Es.
4 volte più probabile che si verifichi l’evento piuttosto che non si verifichi
in
generale:
odds >1
odds <1
più probabile che si verifichi l’evento
TIS_ 56
meno probabile
III
Interpretazione dei coefficienti
ln(X)
funzione monotona crescente
l’effetto di b su ln(p/1-p) è pari ad un effetto di eb su (p/1-p)
Es.
1. b positivo (0.10)
b positivo
aumento nell’odds
TIS_ 57
III
Interpretazione dei coefficienti
2. b = 0
3. b negativo (-0.10)
odds = 1
diminuzione nell’odds
Se X età in anni: per ogni anno in più l’odds che si verifichi l’evento è 0.90
volte [100.(1-0.90)] rispetto all’età considerata
TIS_ 58
III
Variabili indipendenti con più di due
categorie
esempio
istruzione
alta
media
bassa
Si possono usare due varabili dummy
Un’istruzione bassa è indicata come la categoria base
istruzione
TIS_ 59
III
Variabili indipendenti con più di due
categorie
istruzione
nessuna istruzione viene considerata categoria base
Gli odds si possono scrivere
istruzione primaria incompleta (scuola
dell’obbligo non completata)
istruzione primaria completa (scuola
dell’obbligo)
istruzione secondaria completa (diploma)
nessuna istruzione
come si confrontano 2 gruppi?
rapporto tra odds
TIS_ 60
III
Variabili indipendenti con più di due
categorie
Per confrontare un’istruzione primaria incompleta con nessuna
istruzione = baseline
per un’età fissata (Age)
analogamente il confronto fra un’istruzione primaria
completa e incompleta
differenza tra i valori dei
coefficienti
esempio Indonesia 1991
TIS_ 61
III
Interpretazione usando probabilità stimate
Age
IP
CP
CS
età
scuola dell’obbligo non completata
scuola dell’obbligo
diploma
Per es. Per una donna di 30 anni che non ha completato la scuola
dell’obbligo quale è la probabilità di sposarsi prima dei 25 anni ?
Si possono calcolare le probabilità stimate per ogni particolare
combinazione di caratteristiche
farlo per tutte le combinazioni porterebbe a confusione,
perdita di tempo e difficile interpretazione
TIS_ 62
III
Interpretazione
1. calcolando un range
presentando i valori massimi, minimi e il valor medio di
Problema: come conoscere le caratteristiche che portano alla
probabilità massima e minima?
2. presentando una tabella con le probabilità stimate per le varie
modalità
Si calcola un range di probabilità per una singola variabile
di interesse mantenendo costanti sulla media gli altri valori (o
in altri valori opportuni)
TIS_ 63
III
Esempio /1
Campione di 2/1000 estratto a Pechino
Si vuole predire le caratteristiche delle donne che si sposano
presto (età compresa tra 30 e 40 anni)
p = probabilità di sposarsi prima dei 25 anni
Variabili esplicative:
istruzione
residenza
etnia
età al momento
dell’indagine
bassa
media
alta
urbana
rurale
han
altro
calcolata come
differenza X - 30
TIS_ 64
III
Esempio /2
è necessario definire le variabili dummy:
occorrono 1 variabile per
2 variabili per
residenza
etnia
U
E
istruzione
M
H
L’equazione diventa
istruzione
etnia
residenza
età
TIS_ 65
III
Esempio /3
prob sposarsi prima dei 25 anni
prob NON sposarsi prima dei 25 anni
istruzione
media
alta
bassa
residenza
urbana
etnia
han
età
costante
bi stimato
SE(bi)
Odds=ebi
-0.23
-0.40
0.00
0.11
0.17
0.79
0.67
1.00
-0.19
0.09
0.82
-0.21
0.02
-0.20
0.09
0.01
0.08
0.81
1.02
1.81
Gli odds per l’istruzione sono:
media:bassa
alta:bassa
alta:media
TIS_ 66
III
Esempio /4
Servono le medie della variabili indipendenti X
Le medie sono:
residenza
istruzione
media
alta
etnia
han
0.35
0.30
0.80
urbana
età
0.56
36.7
Si possono calcolare le probabilità stimate per ogni
variabile, tenendo costanti le altre variabili sul loro valore
medio
TIS_ 67
III
Esempio /5
L’equazione di partenza è:
Per una donna con istruzione media si ha
costante
istruzione
media
alta
residenza
etnia han
urbana
(media)
(valore medio)
età
(valore medio espresso
come scarto dai 30 anni)
probabilità di sposarsi prima dei 25 anni
per una donna di istruzione media e etnia,
residenza, età media del campione
TIS_ 68
III
Esempio /6
istruzione
alta
media
bassa
residenza
urbana
rurale
-0.74
-0.57
-0.34
0.32
0.36
-0.63
-0.44
0.35
0.39
-0.59
-0.38
0.36
0.41
0.41
etnia
han
altro
TIS_ 69
III
Probabilità stimate
Le probabilità più alte saranno combinazioni delle categorie con i
coefficienti positivi più alti.
Quelle più basse dalle categorie con i coefficienti negativi.
Esempio: probabilità più bassa
alta
residenza
istruzione urbana etnia han
costante
L’età più bassa è 0 in quanto AGE è età della donna - 30
TIS_ 70
III
Probabilità stimate
probabilità più alta
bassa
istruzione
residenza
rurale
costante
altra etnia
età: 40 anni
L’età 40 viene codificata come 10 (40 - 30)
Si può fare lo stesso per ogni combinazione di
caratteristiche
TIS_ 71
III
Interpretazione dei coefficienti
Esempio
Variabile dipendente: uso dei contraccettivi
istruzione
alta
media
bassa
b
SE(b)
0.8
0.6
0.0
0.20
0.14
—
1. L’effetto di un’istruzione alta consiste nell’aumento della
probabilità di usare contraccettivi
La prob di usare contraccettivi rispetto alla
prob di non usarli (odds ratio) è 2.22 relativamente alla
categoria base (bassa istruzione).
Il coefficiente è significativo
2. L’effetto di un’istruzione alta relativamente a un’istruzione
media è dato da
TIS_ 72
III
Interpretazione dei coefficienti
Effetto di un’istruzione alta
rispetto a una media:
b* = 0.2 è significativo?
Test
var(bH ) = [se(bH )]
2
cov (bH ,bM) si ottiene dalla matrice di varianza / covarianza
calcolata€nei vari software anche se, in genere, non
mostrata per default
opzioni specifiche
TIS_ 73
III
Interpretazione dei coefficienti
La matrice di varianze e covarianze appare nel modo seguente
bH
bM
bH 0.0400 0.0031
bM 0.0031 0.0196
= 0.142
Allora
La funzione test vale
Si conclude quindi che non vi è una differenza significativa sul
fenomeno fra istruzione alta (bM) e media (bH)
TIS_ 74
III
Regressione logistica: effetti di interazione
Oltre all’effetto principale è possibile introdurre anche effetti di
interazione
p
probabilità di usare
contraccettivi
U residenza
E
istruzione
R
religione
Modello senza interazione: risultati:
Costante
Urbana
Primaria
Secondaria
Musulmana
Coeff
Std error
-1.64
0.47 Per tutti le variabili
0.31 coefficienti/s.e. > 2
0.98
-0.37
Il coefficiente per la religione è negativo (-0.37) e-0.37=0.70
meno probabile che le musulmane utilizzino contraccettivi
è
TIS_ 75
III
Regressione logistica: effetti di interazione
Aggiungendo l’interazione fra residenza e istruzione:
interazione residenza - istruzione
Costante
Urbana
Primaria
Secondaria
Musulmana
Urb-Primaria
Urb-Secondaria
Coeff Std Error
-1.16
0.37
0.15
0.06
non si possono interpretare
0.31
0.10
gli odds da soli
0.68
0.21
-0.21
0.03
odds = 0.81
-0.16
0.07
interazioni
-0.32
0.15
Nessuna
Istruzione
Primaria
Secondaria
Rurale
0.0
0.0+0.31
= 0.31
0.0+0.68
= 0.68
Urbana
0.15
0.15+0.31-0.16
= 0.30
0.15+0.68-0.32
= 0.51
TIS_ 76
III
Regressione logistica: effetti di interazione
probabilità di usare contraccettivi
Calcolo degli odds
Nessuna
Primaria
Secondaria
Rurale
1.00
1.36
1.97
Urbana
1.16
1.35
1.67
categoria base
36% più probabile
i grafici spesso aiutano nell’interpretazione dell’interazione
l’interazione positiva aumenta gli effetti additivi
l’interazione negativa fa diminuire gli effetti additivi
Riguardo lo standard error
Nessuna
Rurale
Primaria
Secondaria
—
Urbana
TIS_ 77
III
Esempio
Fiji 1974
p
E
U
I
(Rutheford - Chac, 1993)
probabilità di usare contraccettivi
anni di istruzione
residenza urbana/ rurale
etnia indiana / fijiana
vale
1213.1 per il modello 1
1264.6 per il modello 2
allora diff = 1264.6-1213.1 = 51.5
gradi = 1 (differenza nel numero di parametri stimati)
si rifiuta H0 e si conclude che aggiungendo la
variabile I aumenta l’adattamento del modello
TIS_ 78
III
ai dati
Modello logit multinomiale
si possono considerare J variabili dicotomiche:
J equazioni:
ma
non lineare
non è assicurato
Approccio alternativo
modalità J
modalità di base (di riferimento)
equivale a P(Yi = 0)
TIS_ 79
III
Modello logit multinomiale
ma:
TIS_ 80
III
Modello logit multinomiale
Se si aggiungono K parametri uguali a 0
fattore di
normalizzazione
TIS_ 81
III
Modello logit multinomiale
può essere derivato anche come estensione della teoria
delle scelte razionali
uij
utilità alternativa j
se sceglie j
scelta la distribuzione per uij
McFadden (1974): uij ~ distribuzione a valori
estremi del I tipo
logit multinomiale
poco giustificabile e poco realistico
assunzione IIA = Indipendenza delle Alternative Irrilevanti
TIS_ 82
III
Regressione logistica multinomiale
Generalizzazione della regressione logistica (logit)
✴ 
regressione logistica:
la variabile dipendente è una variabile con 2 categorie
Esempio:
Malaria
Contraccettivi
✴ 
positivo
negativo
utilizzo
non utilizzo
regressione logistica multinomiale:
la variabile dipendente ha più di 2 categorie
Esempio:
Uso del diaframma
Solo allattamento al seno
Uso della pillola
Parziale allattamento al seno
Uso di altri contraccettivi No allattamento al seno
Non uso
TIS_ 83
III
Regressione logit
Regressione logit multinomiale
Esempio:
Uso del diaframma
Uso di altri contraccettivi
Non uso
(1)
(2)
(3)
Prima aspetto: scelta della categoria base.
N.B. Non importa quale categoria si sceglie, ma è meglio
non scegliere una categoria con poche frequenze
I risultati non cambiano con la scelta della categoria base
TIS_ 84
III
Regressione logit multinomiale
Supponiamo di scegliere il non utilizzo (3) come categoria di
base: si hanno 2 equazioni
cosa significano
queste espressioni?
Se le variabili indipendenti sono:
allora
Istruzione Alta
Media
Bassa
Età
in anni
(H)
(M)
(A)
TIS_ 85
III
Regressione logistica multinomiale
Si può scrivere come un sistema di equazioni:
è la misura della probabilità che una donna con un
particolare insieme di caratteristiche utilizzi il
diaframma (1) piuttosto che nessun metodo (3)
TIS_ 86
III
Regressione logistica multinomiale
Nota: ci deve essere sempre un’equazione in meno rispetto al
numero di categorie della variabile dipendente (Y)
dal punto di vista statistico si devono ottenere le stime dei
parametri
si utilizzano i minimi quadrati generalizzati (GLS)
Per stimare i valori si sono imposti i vincoli:
così
e
TIS_ 87
III
Regressione logistica multinomiale
Come si interpretano queste equazioni?
In maniera simile al logit (ma un po’ più complicata)
Esempio
Provincia di Pechino:
solo rispondenti che utilizzano contraccettivi
Variabile dipendente: tipo di contraccettivo
Sterilizzazione
(1)
Diaframma
(2)
Altri contraccettivi
(3)
Variabili indipendenti:
X3: urbana/rurale
X4: età (in anni) > 30
X6: istruzione alta
X7: istruzione media
categoria base
X9:
impiegata
X10:
operaia
X11:
in attesa di occupazione
categoria base: occupata
in agricoltura
TIS_ 88
III
Risultati
diaframma/
sterilizzazione
b
se(b)
altri metodi/
sterilizzazione
b
se(b)
Urbana
Età (>30)
Istruzione alta
media
Occupazione
impiegata
operaia
in attesa di occ
-0.13
-0.07
0.25
-0.16
0.16
0.008 *
0.30
0.40
0.32
-0.09
0.83
0.28
0.17 *
0.009 *
0.34 *
0.43
0.21
0.02
0.39
0.50
0.88
0.48
1.36
1.79
0.75
0.53 *
0.89 *
0.45
Costante
2.41
1.04
0.43
1.09
TIS_ 89
III
Risultati
Per quanto riguarda la probabilità di usare il diaframma
rispetto agli altri metodi?
Sottraendo
diaframma / altri metodi
Quindi:
Urbana
Età (>30)
Istruzione alta
media
Occupazione
impiegata
operaia
in attesa di occ
b
-0.45
0.02
-0.58
-0.44
1.15
-1.59
-0.38
Gli standard error dei coefficienti si ottengono come per il logit
TIS_ 90
III
Risultati
Se b11 è coefficiente di
b12 è coefficiente di
allora il coefficiente di
è = b11 - b12
con standard error
dalla matrice di varianze e
covarianze
TIS_ 91
III
Interpretazione dei coefficienti
di difficile interpretazione
nel logit
equivale a
nel logit multinomiale si hanno
non sono veri e proprio odds, poiché
TIS_ 92
III
2. Interpretazione dei coefficienti
problemi con “b”
Supponiamo b > 0
Allora se Età
1
b
Non si può dire che aumenta anche p1
È possibile che diminuiscano entrambe le probabilità
p1
e
p3
ma che il rapporto aumenti
Esempio
TIS_ 93
III
2. Interpretazione dei coefficienti
Questo non può accadere in una regressione logistica
non possono cambiare entrambi nella
stessa direzione
Perciò:
è possibile calcolare
e
mediante
,
ma attenzione all’interpretazione!
TIS_ 94
III
2. Tavola degli odds
diaframma/
sterilizzazione
altri metodi/
sterilizzazione
odds (eb )
odds
0.88
0.93
1.28
0.85
1.38
0.91
2.29
1.32
1.23
1.02
1.48
3.90
5.99
2.12
Urbana
Età (>30)
Istruzione alta
media
Occupazione
impiegata
operaia
in attesa di occ
Questa rappresentazione è sufficiente?
Non bisogna mai presentare gli odds da soli, ma sempre
accompagnati dall’intervallo di confidenza al 95%
TIS_ 95
III
2. Interpretazione dei coefficienti
Calcolo di intervalli di confidenza per coefficienti e odds ratio
un intervallo di confidenza (CI) approssimato al 95% per bi
è dato da
e per
è dato da
Allora gli intervalli di confidenza al 95% approssimati per gli
odds ratio sono dati da
Esempio
Urbana
odds
b
se(b)
CI 95%
-0.13
0.88
0.16
[-0.45,0.19]
[0.64 , 1.21]
Il valore 1 è incluso!
TIS_ 96
III
Interpretazione dei coefficienti
ottenere una stima diretta della probabilità di usare il
diaframma o di ogni altra categoria
esponenziando e moltiplicando per p3
Sommando (4) + (5) + (6) si ha
TIS_ 97
III
Interpretazione dei coefficienti
ma
e
poiché
così
TIS_ 98
III
Interpretazione dei coefficienti
Per sostituzione in (4) , (5)
In generale
dove
Si calcolano p1, p2 e poi si ricava p3 = 1 - p1 - p2
In questo modo si può calcolare la tavola MCA
TIS_ 99
III
3. Interpretazione dei coefficienti: tavola
probabilità
Si inseriscono i valori della variabile di interesse e le
medie delle altre variabili
Esempio: istruzione alta per p1
non si può avere
istruzione alta e media
contemporaneamente!
media dell’età
TIS_100
III
3. Interpretazione dei coefficienti: tavola
probabilità
Tornando all’esempio sull’uso dei contraccettivi (Beijing)
P (usare il diaframma per donne con istruzione alta)
diaframma/
sterilizzazione
exp(0)
altri metodi/
sterilizzazione
TIS_101
III
3. Tavola probabilità
Diaframma Altri metodi Sterilizzazione
Residenza
Urbana
Rurale
Età
20
30
40
Istruzione
alta
media
bassa
Occupazione
impiegata
operaia
in attesa di occ
in agricoltura
0.37
0.43
0.29
0.21
0.34
0.36
0.47
0.44
0.37
0.39
0.30
0.21
0.14
0.26
0.43
0.40
0.36
0.43
0.32
0.26
0.19
0.28
0.38
0.38
0.43
0.34
0.50
0.43
0.15
0.23
0.08
0.05
0.42
0.49
0.42
0.52
TIS_102
III
Logit multinomiale
Donne sposate di età 35 - 44 delle isole Fiji
p1 = probabilità di utilizzare la sterilizzazione
p2 = probabilità di utilizzare altri metodi
p3 = probabilità di non utilizzare alcun metodo
Età
Età2
Istr. Media
Istr. Alta
Urbana
Indiana
Urbana * Indiana
1. 
2. 
0.93
-0.0115
0.30
0.045
0.75
1.67
-0.35
1.36
-0.017
0.44
0.64
0.071
0.60
0.26
categoria base
-0.43
-0.14
il livello di istruzione elevato, in confronto al basso, può influenzare la scelta della
sterilizzazione rispetto ad altri metodi?
c’è differenza tra livello di istruzione elevato e medio in nella scelta della sterilizzazione
rispetto ad altri metodi?
TIS_103
Analoga procedura seguita nel caso precedente ma con calcolo s.e. un po’ più complicato !
III
Costruzione modello e selezione variabili
Hosmer, Lemeshow (1989)
TIS_104
III
Strategie per la costruzione del modello
Selezione delle variabili
(criteri diversi a seconda dei contesti: problema/disciplina)
✳ 
Modelli parsimoniosi
•  risultati più stabili
•  minor dipendenza
dagli specifici dati osservati
•  maggiori generalizzazione
✳ 
Tutte le variabili scientificamente rilevanti, anche se con
contributo poco “rilevante” (per es.: epidemiologia)
•  controllo
di tutti i fattori di “confondimento” (effetto n.s. di una
singola variabile ma che diventa importante insieme con altre)
•  ma
rischio di “overfitting” (stime dei parametri e/o standard
errors molto elevate e poco stabili) soprattutto se n.ro variabili
elevato rispetto ai casi e % y = 1 molto vicina a 0 o 1
TIS_105
III
Procedura per passi (1)
Analisi univariata:
ü  X qualitativa o quantitativa con poche
modalità: tabelle di contingenza YxX
§  test χ2 per verifica ipotesi di indipendenza o test
LR
§  attenzione a celle con frequenze nulle
ü  X continua
§  regressione logistica e inferenza sul
coefficiente stimato
§  rappresentazione grafica (su scala logit utile
per valutare l’assunzione di linearità)
TIS_106
III
Procedura per passi (2)
Inclusione variabili:
ü  con p-value < 0.25 in analisi univariata per non
escludere in questa fase variabili importanti
ü  variabili riconosciute come rilevanti
In alternativa:
ü  criteri “statistici”
§  Metodi stepwise: forward o backward con test per
eliminazione/inserimento variabili
§  Metodi “best subsets selection”: un certo numero
di modelli con 1, 2, 3, … variabili sono considerati
“best” secondo un certo criterio e via via esaminati
TIS_107
III
Procedura per passi (3)
Modello multivariato:
ü  controllo significatività (in genere test di
Wald)coefficienti stimati e valori analisi univariata
ü  nuova stima modello multivariato (con controllo
coefficienti nelle varie versioni) finchè non si ottiene un
modello non più “migliorabile”
ü  inserimento effetti di interazione
ü  verifica assunzione di linearità (nel logit) per variabili
continue (scelta categorie per variabili qualitative e
discrete verificata con analisi univariata)
TIS_108
III
Bontà di adattamento
•  Efficacia del modello nel descrivere la variabile risposta:
–  misure di sintesi della distanza tra y e y’: (y – y’) (buon adattamento
se misura di sintesi “piccola” e anche se il contributo di ciascuna
coppia (yi, yi’) è piccolo e non sistematico rispetto alla struttura di
errore del modello
–  misure di accuratezza della classificazione ottenuta
Più usate:
J = profili di covariate (valori distinti di combinazioni di variabili del
modello), mj = n.ro di casi con profilo j, yj = n.ro di y= 1 in mj, πˆ j =
probabilità stimata.
≈ X2 con J-(p+1) gradi di libertà ma con qualche problema quando J ≈ n
€
TIS_109
III
Raggruppamento delle osservazioni: tabelle 2 x J
•  Test di Hosmer and Lemeshow:
–  osservazioni suddivise in gruppi basati sulle
probabilità stimate e calcolo di X2 per differenza
tra frequenze osservate e frequenze attese per y =
1e0
–  usualmente: 10 gruppi individuati sulla base dei
decili delle probabilità stimate
–  distribuzione statistica test: X2 con 8 gradi di libertà
TIS_110
III