Modelli Lineari Generalizzati (Cap. 10) Marcello Gallucci Univerisità Milano-Bicocca Preludio La maggior parte delle comuni tecniche statistiche volte ad individuare le relazioni fra variabili, quali Correlazioni, Regressione, ANOVA, ANCOVA, sono riconducibili al Modello Lineare Generale (GLM) Il GLM ci permette di studia gli effetti di variabili indipendenti di vario tipo su variabili quantitative (variabili dipendenti continue) La ricerca empirica è disseminata di variabili dipendenti qualitative (scelte dicotomiche, scelte multiple, frequenze di eventi, classificazioni, etc) I Modelli Lineari Generalizzati ci consentono di studiare gli effetti di variabili indipendenti su variabili dipendenti qualitative Modello Lineare Generale Variabili Indipendenti quantitative • Regressione • Correlazione • Path Analysis Variabili Dipendenti quantitative Variabili Indipendenti Nominali • t-test •ANOVA • ANCOVA • ANOVA Misure Ripetute Modello Lineare Generalizzato Modello Lineare Generale Variabili dipendenti Dicotomiche Chi-quadro Regressione logistica ANOVA logistica Variabili dipendenti Multinomiali Regressione logistica multinomiale ANOVA logistica multinomiale Analisi di tabelle multidimensionali Variabili dipendenti basate su frequenze Variabili dipendenti ripetute Regressione Poisson ANOVA Poisson Equazioni di stima generalizzate MLGZ Techniche volte a studiare e quantificare gli effetti di una o più variabili indipendenti continue o nominali su una variabile dipendente nominale (qualitativa) Tecniche statistiche: La regressione logistica: Variabile dipendente dicotomica La regressione ordinale: Variabile dipendente ordinabile La regressione multinomiale: Variabile dipendente multinomica La regressione di Poisson: Variabile dipendente basata su frequenze Tutto ciò, anche a misure ripetute Violazioni assunzioni Quando le assunzioni non sono soddisfatte, i risultati sono da considerarsi dubbi Se la violazione delle assunzioni è grave, la regressione/ANOVA non può essere applicata Nella pratica, con variabili dipendenti continue normalmente distribuite, queste assunzioni sono abbastanza semplici da soddisfare Ma cosa succede se volessimo usare una variabile dipendente dicotomica? La regressione logistica La regressione logistica si propone di studiare e quantificare le relazioni tra una o più variabili indipendenti quantitative (es. età, salario, atteggiamento verso la birra, birre bevute) e una variabile dipendente dicotomica (es. stato civile, voto al referendum, appartenenza ad un gruppo, etc.) Assunzioni e Dicotomiche Le assunzione della regressione lineare non possono essere soddisfatte nel caso di VD dicotomiche Assunzione Se VD dicotomica Linearità Non può essere lineare Omoschedasticità Sicuramente la varianza dipende dal valore predetto Normalità errori Gli errori saranno sempre distribuiti con due gobbe Assunzioni regressione lineare Come si può intuire dal fatto che la regressione interpola una retta tra i punti, la relazione che stima è una relazione lineare, omoschedastica e 10 normale 9 8 7 6 5 4 SORRISI 3 2 1 0 -2 -1 BIRRE 0 1 2 3 4 5 6 7 8 9 10 11 12 Violazioni assunzioni Quando queste assunzioni non sono soddisfatte, i risultati sono da considerarsi dubbi Se la violazione delle assunzioni è grave, la regressione non può essere applicata Nella pratica, con variabili dipendenti continue normalmente distribuite, queste assunzioni sono abbastanza semplici da soddisfare Ma cosa succede se volessimo usare una variabile dipendente dicotomica? VD dicotomica 1.00 0.80 voto 0.60 0.40 0.20 0.00 -3.00 0.00 3.00 6.00 attepol 9.00 12.00 VD dicotomica La relazione non protrà mai essere lineare 1.00 0.80 Gran parte della varianza non è spiegata I punteggi saranno necessariamente raggruppati in due rette piatte voto 0.60 0.40 0.20 La retta di regressione avrà moltissimo 0.00 margine di errore -3.00 0.00 3.00 6.00 attepol 9.00 12.00 VD Categorica Quando abbiamo una variabile dipendente dicotomca, ogni soggetto ha o 1 o 0 come valore della variabile dipendente VD=sesso (Maschi=0, Femmine=1), VD=acquisto (Si=1, No=0), voto al referendum (Si=1, No=0) La media della variabile dipendente è la probabilità di ottenere il valore 1 n1 Y ntot Ciò che prediciamo è la probabilità p di appartenere al gruppo con valore 1 (e 1-p sarà la probabilità di appartenere al gruppo 0). Soluzione Necessitiamo dunque di un tipo di regressione che: Risolva il problema della omoschedasticità, linearità e normalità degli errori Ammetta valori non assurdi Ci esprima le relazioni sulla base di probabilità o qualcosa di comparabile Cioè dobbiamo usare un modello che trasformi la variabile dipendente tale da linearizzare la relazione, rendere la variabile dipendente continua, e farla variare su tutto l’asse (valori positivi e negativi) Soluzione: parte 1 Intanto decidiamo di non cercare di predire la probabilità, ma il rapporto tra probabilità Tale rapporto è detto odd (rapporto di probabilita’) Pi =ab yx x i Pi 1−P i =ab yx x i Odd L’odd è il rapporto tra la probabilità di un evento (appartenere ad un gruppo) rispetto alla probabilità del non evento (appartenere all’altro gruppo) Odd= Pi 1−P i Esempi: se la probabilità di avere una figlia femmina è .50 .5 Odd= =1 1−.5 se la probabilità di votare Si ad un referendum è .70 .7 Odd= =2 . 33 1−. 7 Odd L’odd indica quanto più probabile è un evento rispetto al suo complemento Pi 1−P i Esempi: Una figlia femmina è tanto probabile quanto un maschio .5 Odd= =1 1−.5 Il voto Si è 2.33 volte più probabile del No .7 Odd= =2 . 33 1−. 7 Odd: Interpretazione L’odd consente di esprimere la probabilità mediante valori che variano da 0 ad infinito 1000 Odd da 0 ad infinito Odd= Pi 1−P i odd ratio 800 600 400 200 0 .99 .95 .91 .83 .78 .73 .68 .64 .60 .52 .45 .40 .34 .28 .22 .14 .07 .02 Probabilità da 0 a 1 p Odd: Interpretazione L’odd varia da 0 ad infinito Se gli eventi sono equiprobabili .5 p=. 5 odd = =1 1−.5 É maggiore di 1 se l’evento è più probabile del contrario .7 p=. 7 odd= =2 . 331 1−. 7 É minore di 1 se l’evento è meno probabile del contrario .2 p=. 2 odd = =.251 1−. 2 Problema con odd Se usassimo gli odd come variabile dipendente, potremmo ottenere predizioni impossibili, come predizioni di valori negativi Pi 1−P i =ab yx x i Se a=1, b=3 e x=-2 Pi 1−P i =13∗x i Pi 1−P i =13∗−2 =−5 Soluzione: parte 2 Decidiamo di non cercare di predire l’odd, ma il logaritmo dell’odd Pi 1−P i =ab yx x i ln Pi 1−Pi =ab yx x i La trasformazione con il logaritmo si chiama logit log it =ln Pi 1−Pi La regressione che cerca di predire il logit si chiama regressione logistica Logaritmo Il logaritmo in base A di B è quel numero a cui dobbiamo elevare A per ottenere B. Log10 100=2 10 2 =100 Spesso si usa il logaritmo naturale, cioè il logaritmo con base e o numero neperiano (da Napier che lo scoprì) o di Eulerio (che lo formulò nei termini che lo conosciamo) Ln 100 =4 .605 e 4 . 605 =100 Vantaggi del Logaritmo La logistica usa il logaritmo in quanto: Trasforma una variabile positiva (odd) in negativi e positivi É positivo se l’argomento è maggiore di 1 É negativo se l’argomento è minore di 1 É zero se l’argomento è uguale ad 1 Perché il logaritmo? Il logaritmo di una variabile che varia da 0 ad infinito (come gli odd), varia per tutti i valori possibili, da negativi a positivi 8.00 Il logaritmo dell’Odd permette di esprimere la probabilità mediante valori sia positivi che negativi 6.00 logit 4.00 p log it =ln 1− p 2.00 0.00 -2.00 -4.00 0.00 0.20 0.40 0.60 p 0.80 1.00 Trasformazione Logit Per ovviare a ciò, la regressione logistica non predice la variabile dipendente così come è, ma la trasforma Variabile Originale Odd Logit Probabilità Rapporto di probabilità Logaritmo del Odd Pi Y=1 1−P i Y =0 Appartenenza ad un gruppo Odd= Pi 1−P i Quanto è più (o meno) probabile un gruppo rispetto all’altro ln Pi 1−Pi Variabile continua definita su tutto l’asse delle Y Regressione logistica La regressione logistica è una regressione in cui la variabile dipendente è dicotomica, e dunque si predice mediante una regressione lineare il logaritmo del rapporto tra la probabilità di essere in un gruppo piuttosto che l’altro ln Pi 1−Pi =ab yx x i Logistica in pratica Ci proponiamo di studiare in un campione di 133 soggetti, le relazioni tra atteggiamento politico (conserv, positivo= conservatore, 0=incerto, negativo=liberal) e voto alle elezioni presidenziali americane La variabile dipendente è: 0 se ha votato Kerry 1 se ha votato Bush Validi .00 1.00 Totale Frequenza 60 73 133 votoBush Percentuale 45.1 54.9 100.0 Percentuale valida 45.1 54.9 100.0 Percentuale cumulata 45.1 100.0 Logistica in pratica SPSS Logistica in pratica SPSS Variabile Dipendente Variabile Indipendente Output: Risultati Essendo una regressione, ci aspettiamo di trovare un coefficiente B, un coefficiente costante, e un test di significatività del coefficiente Variabili nell'equazione Passo a 1 conserv Costante B .907 .132 E.S. .224 .188 a. Variabili immesse al passo 1: conserv. Wald 16.399 .487 df 1 1 Sig. .000 .485 Exp(B) 2.476 1.141 Output: Risultati Essendo una regressione, ci aspettiamo di trovare un coefficiente B, un coefficiente costante, e un test di significatività del coefficiente Test di significatività Effetto della VI Variabili nell'equazione Passo a 1 conserv Costante B .907 .132 E.S. .224 .188 Wald 16.399 .487 df 1 1 Sig. .000 .485 Exp(B) 2.476 1.141 a. Variabili immesse al passo 1: conserv. Costante Errore standard Significatività (valore-p) Non c’è il coefficiente standardizzato, ma c’è exp(B) Intepretazione Essendo una regressione, possiamo interpretare i coefficiente come al solito Cambiamento atteso nel logaritmo di Odd, per uno spostamento nella di una unità nella VI Variabili nell'equazione Passo a 1 conserv Costante B .907 .132 E.S. .224 .188 Wald 16.399 .487 df 1 1 Sig. .000 .485 Exp(B) 2.476 1.141 a. Variabili immesse al passo 1: conserv. Valore atteso nel logaritmo di Odd, quando la VI è zero Significatività (valore-p): se minore di 0.05, rifiutiamo l’ipotesi nulla di B=0 Intepretazione: Problema Il problema sta nel fatto che tutte le informazioni (come in ogni regressione) sono espresse nell’unità di misura della VD Nel caso del logaritmo di Odd, questa unità è non intuitiva e poco informativa Passo a 1 conserv Costante Variabili nell'equazione B .907 .132 E.S. .224 .188 Wald 16.399 .487 df 1 1 Sig. .000 .485 Exp(B) 2.476 1.141 a. Variabili immesse al passo 1: conserv. Per ogni unità in più di conserv, ci aspettiamo un aumento del logaritmo di Odd di .907! Ma è tanto o poco? 4. = Svantaggi del Logaritmo Il problema del logaritmo è che la sua unità di misura non è intuitivamente interpretabile Una differenza di .903 nella scala logaritmica è tanto o poco in termini di probabilità? Per ovviare a ciò, le quantità espresse su scala logaritmiche possono essere riportate all’unità originale mediate la funzione esponenziale ln (100)=4.605 exp (4.605)=100 Unità più comprensibili Dato che nella logistica le informazioni sono ottenute sulla base di una VD logartmica, la funzione esponenziale le riporta all’unità precedente L’unità precedente è l’odd ratio Odd ratio Logit Ln Pi 1−P i In generale exp Ln exp Ln q =q Pi 1−P i = Pi 1−P i L’esponenziale La funzione esponenziale di un logaritmo ci da l’argomento orginale del logaritmo X Ln(X) Exp(Ln(X)) Relazioni tra unità di misure Al fine interpretativo è importante ricordare che: La somma tra due logaritmi, equivale al prodotto tra gli argomenti Logit Odd ratio q= Ln a Ln b exp q =a∗b Ln 2 Ln 3=1. 79 exp 1. 79 =6 B Ln(Odd1 ) Ln(Odd 2 ) exp( B ) Odd1 * Odd 2 B espresso come OR Per facilitare l’interpretazione, il legame tra VD e VI si esprime mediante l’esponenziale di B Variabili nell'equazione Passo a 1 conserv Costante B .907 .132 E.S. .224 .188 Wald 16.399 .487 df 1 1 Sig. .000 .485 Exp(B) 2.476 1.141 a. Variabili immesse al passo 1: conserv. Exp(B) trasforma il B espresso in scala logaritmica in un B expresso in termini di odd ratio Interpretazione di exp(B) Exp(B) è il tasso con cui aumenta Odd per ogni unità della VI Cioè il tasso con cui cambia il rapporto di probabilità al variare della VI Per ogni unità in più di conserv, il rapporto di probabilità tra votare Bush e votare Kerry aumenta di 2.47 volte Interpretazione di exp(Costante) Exp(Costante) è l’Odd atteso quanto la VI è zero Se conservatorismo è uguale a zero, ci aspettiamo un odd ratio di 1.141, cioè votare Bush è 1.142 volte più probabile che votare Kerry P votareBush =1. 141 P votareKerry Se conservatorismo è uguale a zero (soggetto incerto), votare Bush o Votare Kerry sono equiprobabili Interpretazione di exp(B) Exp(B) è quanto aumenta l’Odd per ogni unità in più della VI Se passiamo da conservatorismo=0 a conservatorismo=1 (aumentiamo x di una unità), ci aspettiamo che l’ odd ratio aumenti di 2.476 Odd x=1 =Odd x=0∗Exp B =1 .141∗2 . 476=2 .825 Odd se X=1 Odd se X=0 Tasso di cambio Odd per X=1 Ricordiamo dalla lineare… Nella regressione lineare y =ab⋅x a è il valore atteso di y per x=0 y x=0=a b è quanto dobbiamo aggiungere ad a passando da X=0 a X=1 y x=1=ab⋅1 In generale, b è quanto dobbiamo aggiungere ad a passando da X a X+1 y x1= y x b⋅1 Se la scala è logaritmica Con la scala logaritmica, la sostanza è la stessa ln Odd =ab⋅x a è il valore atteso di y per x=0 b è quanto dobbiamo aggiungere ad a passando da X=0 a X=1 In generale, b è quanto dobbiamo aggiungere ad a passando da X a X+1 ln Odd x=0 =a ln Odd x =1 =ab⋅1 ln Odd x1 =ln Odd x b⋅1 Relazioni tra unità di misure Ma la somma di due logaritmi equivale alla esponenziale dei prodotti degli argomenti Logit q= Ln a Ln b Odd ratio exp q =a∗b Se la scala è riportata in OR Con la scala riportata in Odd Logit a è il valore atteso di y per x=0 Odd ratio Exp(a) è il valore atteso di Odd per x=0 ln Odd x=0 =a exp a =Odd x=0 b è quanto dobbiamo aggiungere ad a passando da X=0 a X=1 b è quanto dobbiamo moltiplicare a passando da X=0 a X=1 ln Odd x=1 =ab⋅1 Odd x=1 =Odd x=0⋅b Interpretazione di exp(B) Paragone con la regressione linerare Regressione lineare y =ab⋅x a è il valore atteso di y per x=0 b è quanto dobbiamo aggiungere ad a passando da X=0 a X=1 Regressione logistica ¿ ln Odd =ab⋅x Exp(a) è il valore atteso di Odd per x=0 Exp(b) è quanto dobbiamo moltiplicare Exp(a) passando da X=0 a X=1 Interpretazione di exp(B) Aumentando X di 1, aumento in termini di logaritmo di .907 L’esponenziale di .907 è 2.476 Variabili nell'equazione Passo a 1 conserv Costante B .907 .132 E.S. .224 .188 Wald 16.399 .487 df 1 1 Sig. .000 .485 Exp(B) 2.476 1.141 a. Variabili immesse al passo 1: conserv. Dunque in termini di Odd aumento di 2.476 Cioè se un soggetto ha conservatorismo uguale ad 1, il suo Odd di votare Bush sarà 2.476 volte più grande del soggetto che ha conservatorismo uguale a 0 Logistica in pratica (2) Ci proponiamo di studiare in un campione di 133 soggetti, le relazioni tra voto precendente (prevBush, 0=Gore, 1=Bush) e voto alle elezioni 2004 (votoBush, 0=Kerry, 1=Bush) Tavola di contingenza votoBush * prevBush votoBush .00 1.00 Totale voto alle elezioni 2004 Conteggio % entro prevBush Conteggio % entro prevBush Conteggio % entro prevBush prevBush .00 1.00 39 21 61.9% 30.0% 24 49 38.1% 70.0% 63 70 100.0% 100.0% x voto alle precendenti elezioni Totale 60 45.1% 73 54.9% 133 100.0% Logistica in pratica (2) Concentriamoci su coloro che non hanno votato Bush alle precedenti elezioni, cioè x=0 Tavola di contingenza votoBush * prevBush votoBush .00 1.00 Totale Conteggio % entro prevBush Conteggio % entro prevBush Conteggio % entro prevBush prevBush .00 1.00 39 21 61.9% 30.0% 24 49 38.1% 70.0% 63 70 100.0% 100.0% Totale 60 45.1% 73 54.9% 133 100.0% Se x=0, il 38.1 % vota Bush e 61.9 % vota Kerry nel 2004 .381 Odd 0 = =. 615 .619 ¿ Se x=0, l’Odd di votare Bush è: Logistica in pratica (2) Passiamo ora a coloro che hanno votaro Bush alle precendenti elezioni, cioè x=1 Tavola di contingenza votoBush * prevBush votoBush .00 1.00 Totale Conteggio % entro prevBush Conteggio % entro prevBush Conteggio % entro prevBush prevBush .00 1.00 39 21 61.9% 30.0% 24 49 38.1% 70.0% 63 70 100.0% 100.0% Totale 60 45.1% 73 54.9% 133 100.0% Se x=1, il 70.0 % vota Bush e il 30.0 % vota Kerry nel 2004 Se x=1, l’Odd di votare Bush è: Odd 1 = . 70 =2 .33 . 30 Logistica in pratica (2) Dunque, passando da X=0 a X=1, Odd di votare Bush è aumentato di 3.79 volte Tavola di contingenza votoBush * prevBush votoBush .00 1.00 Totale Conteggio % entro prevBush Conteggio % entro prevBush Conteggio % entro prevBush prevBush .00 1.00 39 21 61.9% 30.0% 24 49 38.1% 70.0% 63 70 100.0% 100.0% Odd1 exp( B ) Odd 0 Totale 60 45.1% 73 54.9% 133 100.0% 2.33 3.17 .616 Logistica in pratica (2) Dunque, grazie alle differenze in X, possiamo predire un cambiamento in Odd di 3.79 Tavola di contingenza votoBush * prevBush votoBush .00 1.00 Totale Conteggio % entro prevBush Conteggio % entro prevBush Conteggio % entro prevBush prevBush .00 1.00 39 21 61.9% 30.0% 24 49 38.1% 70.0% 63 70 100.0% 100.0% ¿ Odd 0 =. 616 ¿ Odd 1 =2 . 33 Odd 1 =Odd 0 3. 79 Totale 60 45.1% 73 54.9% 133 100.0% Exp(B) La regressione logistica calcola esattamente questa predizione Variabili nell'equazione Passo a 1 prevBush Costante B 1.333 -.486 E.S. .368 .259 Wald 13.126 3.502 df 1 1 Sig. .000 .061 Exp(B) 3.792 .615 a. Variabili immesse al passo 1: prevBush. ¿ Se x=0, l’Odd di votare Bush è: Odd 0 =. 616 ¿ Se x=1, l’Odd di votare Bush è: ¿ Odd 1 =Odd 0 * 3. 79 Cambiamento in Odd dovuto a X Quando exp(B) è minore di 1 Proviamo ora ad invertire i gruppi e calcolare la regressione con VotoKerry come VD, cioè la medesima variabile ma con 0=vot a Bush, 1=voto a Kerry Variabili nell'equazione Passo a 1 prevBush Costante B -1.333 .486 E.S. .368 .259 Wald 13.126 3.502 df 1 1 a. Variabili immesse al passo 1: prevBush. ¿ Se x=0, l’Odd di votare Kerry è: Se x=1, l’Odd di votare Kerry è: Odd 0 =1 . 625 Odd 1 =Odd 0 * .264 Al cambiare di X, la propensione a votare Kerry diminuisce Sig. .000 .061 Exp(B) .264 1.625 Inversione della VD Ovviamente, se prediciamo Odd di votare Bush, o Odd di votare Kerry, i risultati sono equivalenti Qui Bush=1 Passo a 1 prevBush Costante Variabili nell'equazione B 1.333 -.486 E.S. .368 .259 Wald 13.126 3.502 df Sig. .000 .061 1 1 Exp(B) 3.792 .615 a. Variabili immesse al passo 1: prevBush. 1 1 Exp B bush = = =3 . 792 Exp B ker ry . 264 ¿ Qui Kerry=1 Variabili nell'equazione Passo a 1 prevBush Costante B -1.333 .486 E.S. .368 .259 a. Variabili immesse al passo 1: prevBush. Wald 13.126 3.502 df 1 1 Sig. .000 .061 Exp(B) .264 1.625 Fine Fine della lezione