Tecniche di Indagine Statistica Parte III Susanna Zaccarin a.a. 2015/16 DEAMS - UniTS Disegno d’indagine come processo Siamo qui ! (Groves et al., 2004, p.47) TIS_ 1 III Analisi dei dati By the time you get to the analysis of your data, most of the really difficult work has been done. It's much more difficult to: define the research problem; develop and implement a sampling plan; conceptualize, operationalize and test your measures; and develop a design structure. If you have done this work well, the analysis of the data is usually a fairly straightforward affair. (http://www.socialresearchmethods.net/kb/analysis.php) Data analysis: in genere 3 steps principali: 1. Cleaning and organizing the data for analysis (Data Preparation) 2. Describing the data (Descriptive Statistics) 3. Testing Hypotheses and Models (Inferential Statistics) TIS_ 2 III TIS_ 3 III Analisi dei dati - risultati 1. codifica – piano di codifica – variabili/informazioni specifiche rilevate – particolari condizioni/situazioni (vedi esempi) 2. descrizione (editing) – distribuzioni di frequenza – indici sintetici e misure di dispersione per variabili quantitative – rappresentazioni grafiche – incroci di vario tipo (bivariati, trivariati) trasformazioni di variabili (ricodifiche, accorpamento di modalità, variabili composte) (vedi esempio) TIS_III 4 “Bisogni” informativi: (http://www.socialresearchmethods.net/kb, William M.K. Trochim, Cornell University) • Descriptive When a study is designed primarily to describe what is going on or what exists. Public opinion polls that seek only to describe the proportion of people who hold various opinions are primarily descriptive in nature. For instance, if we want to know what percent of the population would vote for a Democratic or a Republican in the next presidential election, we are simply interested in describing something. • Relational When a study is designed to look at the relationships between two or more variables. A public opinion poll that compares what proportion of males and females say they would vote for a Democratic or a Republican candidate in the next presidential election is essentially studying the relationship between gender and voting preference. • Causal When a study is designed to determine whether one or more variables (e.g., a program or treatment variable) causes or affects one or more outcome variables. If we did a public opinion poll to try to determine whether a recent political advertising campaign changed voter preferences, we would essentially be studying whether the campaign (cause) changed the proportion of voters who TIS_ 5 would vote Democratic or Republican (effect). III The three question types can be viewed as cumulative. That is, a relational study assumes that you can first describe (by measuring or observing) each of the variables you are trying to relate. And, a causal study assumes that you can describe both the cause and effect variables and that you can show that they are related to each other. Causal studies are probably the most demanding of the three. TIS_ 6 III Analisi dei dati - risultati 3. analisi e interpretazione relazioni tra le variabili – associazione e causalità: – ipotesi: X Y (in generale: relazione asimmetrica) – criteri da “rispettare” in ambito osservazionale (soggetti che si “assegnano” ai gruppi): 1. associazione statistica tra X e Y 2. rispetto ordinamento temporale tra X e Y (effetti su rilevazione) 3. non possibili spiegazioni alternative evidenza supporta la relazione ipotizzata n.b.: la relazione non è provata poiché solo ipotizzata e non direttamente osservata L’evidenza empirica può solo supportare o non supportare l’ipotesi TIS_ 7 III Analisi dei dati - risultati • spiegazioni alternative per l’associazione osservata: 1. relazione spuria 2. relazione dipendente dai valori di un’altra variabile 3. relazione è dovuta alla presenza di una variabile che interviene tra X e Y 4. errore campionario (dimensione campione e significatività statistiche test) • controllo statistico dell’effetto di altre variabili nella relazione tra X e Y − studio della relazione tra X e Y tra unità con valore uguali delle altre variabili TIS_ 8 III Maggiore altezza degli studenti tende a migliorare il punteggio in matematica ? r(height, math) = 0.81 per un campione di studenti americani Spiegazione alternativa: campione costituito da studenti di diverse età Agresti, Finlay (2012), ed. italiana TIS_ 9 III Relazioni tra variabili - controllo statistico (1) • relazione spuria T X Y Computer a casa tenendo conto di T, associazione tra X e Y scompare risposta Punteggio medio test Matematica n quantitativa Sì 82.5 500 No 73.8 500 Computer a casa Punteggio sì 69.5 25 no 68.7 275 sì 80.7 300 no 79.3 200 sì 87.5 175 no 86.8 25 Classe sociale Bassa Media Alta Possibili altre spiegazioni: n relazione tra le due variabili con istruzione genitori TIS_ 10 III Relazioni tra variabili - controllo statistico (2) Delinquenza sì Scout risposta no Totale qualitativa (tabelle di contingenza) sì 36 (9%) 364 (91%) 400 no 60 (15%) 340 (85%) 400 Possibili altre spiegazioni relazione tra le due variabili con classe sociale TIS_ 11 III Associazione tra variabili e effetti di “confondimento” Guarigione No Totale Tasso di guarigione Trattamento Sì Nuovo 20 20 40 50% Vecchio 16 24 40 40% Nuovo 18 12 30 60% Vecchio 7 3 10 70% Nuovo 2 8 10 20% Vecchio 9 21 30 30% Femmine Maschi Paradosso di Simpson: risultato opposto (diverso) rispetto alla relazione tra due variabili quando è introdotta una terza variabile Maschi hanno un tasso di guarigione più basso con il nuovo trattamento e, in proporzione, meno maschi hanno ricevuto il trattamento (nuovo trattamento: 75% femmine, 25% maschi) TIS_ 12 III Associazione tra variabili e effetti di “confondimento” Paradosso di Simpson - 2^ esempio Quale trattamento è più efficace per la cura dei calcoli renali? Trattamento A Trattamento B 78% (273/350) 83% (289/350) Trattamento B è il migliore ? Trattamento A Trattamento B Piccoli calcoli 93% (81/87) 87% (234/270) Grandi calcoli 73% (192/263) 69% (55/80) Altro esempio di paradosso statistico: effetto Will Rogers o stage migration TIS_ 13 III Relazioni tra variabili - controllo statistico (3) • relazione a catena X T Y tenendo conto dell’intervento di T, associazione tra X e Y scompare istruzione genitori • istruzione figlio reddito figlio (ancora valida ?) interazione T X • Y associazione tra X e Y varia secondo i livelli di T effetti diretti e indiretti X Y associazione tra X e Y cambia ma non scompare T TIS_ 14 III Scala di misura delle variabili • qualitativa (scala nominale) • quantitativa (scala intervallo o rapporto) • scala ordinale (a volte sono trattate come quantitative) • variabili categoriali (scala nominale o ordinale) • variabili discrete e continue (quantitative su scala intervallo) n.b.: metodi/tecniche diverse a seconda del tipo di dati TIS_ 15 III Relazioni tra le variabili (var. quantitative) i) relazione lineare ii) verso della relazione X Y ma anche Y X iii) relazione non esatta y . . . . x y . . . . . . x TIS_ 16 III Variabili dummy modello di regressione: variabili quantitative misurate almeno su scala intervallo (meglio se Y è di questo tipo e preferibilmente anche le Xi ) variabili esplicative Xi su scala qualitativa es sesso: M F variabili dummy X = 0 se A X = 1 se B X=1 X=0 interpretazione coefficienti: Y = reddito X = razza 1 = Bianco 0 = Nero reddito medio per i Neri (X = 0) reddito medio per i Bianchi (X = 1) differenza tra il reddito medio dei Neri e dei Bianchi TIS_ 17 III Variabili dummy ordinali nominali uso variabili dummy: una variabile espressa in C categorie può essere rappresentata in C -1 variabili dummy Y = contributo in dollari ad una campagna elettorale X = interesse politico del rispondente 1 = nessun interesse 2 = poco interesse 3 = molto interesse modello di regressione: X1 = 1 se X = 2 (poco interesse) X1 = 0 altrimenti X2 = 1 se X = 3 (molto interesse) X2 = 0 altrimenti non serve una terza variabile per X = 1 (nessun interesse) definite X1 e X2, X3 è una perfetta combinazione lineare multicollinearità 3a modalità (nessun interesse, X3 = 1) definita da X1 = 0 e X2 = 0 TIS_ 18 III Variabili dummy a stima del contributo medio alla campagna elettorale quando X = 1 (nessun interesse politico) base per confrontare gli effetti della altre 2 categorie su Y es X = 2 poco interesse politico X1 = 1 e X2= 0 differenza nel contributo medio tra la categoria di rispondenti con “poco interesse politico” e quelli con “nessun interesse” ( a + b1) - a = b1 X=3 molto interesse politico X1 = 0 e X2= 1 TIS_ 19 III Modello di regressione stime a minimi quadrati (OLS) stime corrette nessuna restrizione sulle Xk (tranne multicollinearità) e sulle bk e ei – R – R+ – I – 0/1 anche 0 che succede? 1 TIS_ 20 o pochi valori (y su scala dicotomica o politomica) III ma Y può assumere solo 2 valori Organizzazione e sintesi di dati categoriali: tabelle di contingenza Probabilità congiunta di una qualsiasi coppia (yi, xj) = n.b.: se totali fissati in una tabella di dimensioni I x J, il numero di celle che può essere fissato liberamente è pari a (I-1)x(J-1) = gradi di libertà Distribuzioni marginali: Distribuzioni condizionate: Condizione di indipendenza: equivalente a: TIS_ 21 III Stima dai dati campionari Distribuzione congiunta: Distribuzioni marginali: Condizionata di Y dato X: N.B.: la distribuzione congiunta è simmetrica in X e Y se non c’è distinzione tra variabile risposta e esplicativa e interessa esaminare la relazione di reciproca dipendenza tra X e Y. Se Y è considerata risposta e interessa la relazione tra Y e la variabile esplicativa X, la situazione di simmetria viene a cadere e la distribuzione congiunta non è più di grande utilità. In questo caso è più conveniente fare riferimento alle distribuzioni condizionate di Y per vari valori di X e, in particolare, al confronto di tali distribuzioni. Quando l’ipotesi di indipendenza tra le variabili non è sostenibile, interessa valutare l‘intensità e, eventualmente, la direzione del legame tra le variabili. Esempio: relazione sesso e iscrizione Laurea Magistrale almeno 3 aspetti di interesse: 1. evidenza dell’associazione tra le variabili nella popolazione (test Χ2) 2. in che modo i dati sono associati (analisi residui basati su foss – fatt ) 3. intensità (forza) dell’associazione (opportune misure di associazione) TIS_ 23 III No associazione Max associazione TIS_ 24 III Confronto tra probabilità per l’analisi delle relazioni tra variabili categoriali (1) (intensità della relazione) • Differenza (indice i = variabile Y, j e l = categorie della variabile X) differenza varia (-1; 1), differenza = 0 indipendenza (Rischio relativo = Rapporto tra probabilità sotto differenti condizioni usato spesso in medicina /epidemiologia dove l’interesse è legato al rischio (di morte) rispetto ad una particolare patologia date differenti condizioni (esempio due trattamenti). Sì LM No LM Totale 360 240 600 Maschi Femmine 240 160 400 Totale 400 1000 Maschi 600 (360/600) – (240/400)= .6 -.6= 0 Sì LM No LM Totale 600 0 600 Femmine 0 400 400 Totale 400 1000 600 (600/600) – (0/400) = 1 TIS_ 25 III Confronto tra probabilità per l’analisi delle relazioni tra variabili categoriali (2a) Definizione di odd(s) (quota) – Odds (tabelle Jx2) n.b.: non coinvolge i totali marginali (rapporto tra probabilità relative a due risultati Y data la stessa condizione X) odds > 1 = risultato 1 è più probabile del risultato 2, data la condizione j (successo più probabile che insuccesso) – Log Odds o logit TIS_ 26 III Confronto tra probabilità per l’analisi delle relazioni tra variabili categoriali (2b) • odds di vittima bianca per omicida bianco (Agresti e Finlay, 1997): prop. vittime bianche: 4686/4990 = .939; prop. vittime nere: 304/4990 =.061 .939/ .061 =15.4 (per un omicida bianco 15.4 vittime bianche per 1 nera) (4686/4990)/(304/4990) = n11/n21= (4686/304) = 15.4 • odds di vittima bianca per omicida nero 849/5393 = .157 (per un omicida nero .157 vittime bianche per 1 nera) (5393/849 = 1/.157= 6.4 vittime nere per ogni bianca) TIS_ 27 III Confronto tra probabilità per l’analisi delle relazioni tra variabili categoriali (2c) • Rapporto tra odds: Odds ratio (cross product ratio) Range non simmetrico: (1, ∞) se > 1 e (0,1) se < 1 Odds ratio simmetrico nelle due variabili Non dipende dalle marginali TIS_ 28 III Confronto tra probabilità per l’analisi delle relazioni tra variabili categoriali (2d) odds ratio vittime : odds per omicida bianco / odds per omicida nero = (4686/304/( 849/5393) = 15.4/.157 = 97.9 = (4686) (5393) / (304) (849) cross-product ratio per un omicida bianco l’odds di colpire una vittima bianca è pari a quasi 100 volte quello di un omicida nero Si usa anche Log odds ratio TIS_ 29 III Odds = in tabelle (2x2) rapporto tra il n.ro di casi (frequenza) relativi ad una data categoria e il n.ro di casi della categoria “complementare” probabilità che un individuo scelto a caso appartenga alla categoria di interesse piuttosto che ad un’ altra Odds di voto = 987/486 =2.03 (marginal odds) Membro di org.ne Voto Non membro di org.ne Totale Sì 689 298 987 No 232 254 486 Totale 921 552 1473 Odds di voto rispetto al non voto data l’appartenenza ad una organizzazione (conditional odds) 1. membri = 689/232 = 2.97 2. non membri = 298/254 = 1.17 Odds ratio per Voto e Appartenenza = Confronto tra conditionals odds = (689/232) / (298/254) = (689x254) / (232x298) = 2.53 Relazione positiva tra le due variabili con odds (rapporto tra probabilità) di voto tra chi è membro di organizzazione 2.53 volte maggiore rispetto ai non membri tabelle (IXJ): (I-1) (J-1) odds ratio locali (tra categorie adiacenti) (Attenzione a celle con frequenza pari a 0) TIS_ 30 III Costruzione di modelli per dati categoriali TIS_ 31 III Variabile dipendente dicotomica: Yi = 0,1 modello di probabilità lineare interpretabile come la probabilità di Yi = 1 Se Yi assume 2 valori: anche due valori ei assunzioni sull’errore ei: come saranno in questo caso? TIS_ 32 III da: stime minimi quadrati non distorte TIS_ 33 III dipendono dai valori di Xik eteroschedasticità TIS_ 34 III stime di bk non più a minima varianza stime di non corretta test non più validi Possibili soluzioni: minimi quadrati a due stadi con pesi che cercano di riportare l’omoschedasticità molto problematiche poggiano sempre su TIS_ 35 III Modello di probabilità lineare è una probabilità vincoli ai valori dei parametri poiché TIS_ 36 III Modello di probabilità lineare Esempio: Y proprietà dell’abitazione Sì = 1 No = 0 X patrimonio familiare (migliaia di dollari) b0 = prob che una famiglia con X = 0 sia proprietaria dell’abitazione b1 = variazione nella probabilità di essere proprietari di una abitazione associata ad una variazione di 1000 dollari in X ipotesi: . differenza nelle probabilità tra X = 0 e X = 100 000 . Se max X = 100 000 (migliaia) TIS_ 37 III Assunzione di linearità 1. vincoli sui parametri bk (effetto delle esplicative) non considerati nella procedura a minimi quadrati 2. effetto delle esplicative è costante al variare di X specificazione più realistica: funzione non lineare di X TIS_ 38 III Assunzione di linearità non corretta E(y)=0.6125+0.0787X E(y)=0.5+0.1554X E(y)=0.3875+0.0787X TIS_ 39 III Assunzione di linearità non corretta 1. minimi quadrati (anche a più stadi) 2. assunzioni su E(ei) segno corretto non più validi inferenza non valida 3. stime molto sensibili ai valori che si includono nel campione 4. valori estremi a [0,1] 5. soluzioni “buone” per migliorare stime a minimi quadrati possono avere effetti disastrosi se Y = 0,1 TIS_ 40 III Forme funzionali non lineari trasformazioni di pi per eliminare il vincolo: vincolo >0 TIS_ 41 III Forme funzionali non lineari risolvendo per pi funzione logistica vi sono anche altre trasformazioni possibili TIS_ 42 III Truncated Angular TIS_ 43 III Gompertz Burr Urban TIS_ 44 III Logistic Normal probit Risultati molto simili: differenza nelle prob. stimate < .02 TIS_ 45 III Teoria delle scelte razionali (Luce e Supper, 1965 McFadden, 1973) osservazione sul comportamento di un individuo i che fronteggia due alternative: 1 ui1 0 ui0 sceglie 1 se ui1 > ui0 sceglie 0 se ui1 < ui0 processo di scelta in funzione di variabili esplicative Xik Yi (caratteristiche dell’individuo, delle alternative…) componente stocastica sceglie 1 se ui1 > ui0 yi* > 0 yi*= Σ bk Xik - ui TIS_ 46 III Teoria delle scelte razionali In realtà si osserva conoscenza della distribuzione di u se ui v.c. continue: ui funzione di distribuzione logistica funzione di distribuzione normale curva logistica curva normale TIS_ 47 III Teoria delle scelte razionali N.B. modelli basati su relazione lineare fra Yi* e esplicative ma Yi* non è osservata Si osserva Yi (dicotomica) = f(Yi*) Yi è collegata a Xik mediante pi scelta di ui logistica Normale trasformazione di modello logit modello probit TIS_ 48 III Interpretazione dei coefficienti bk logit logistic probability unit probit probability unit variabile dicotomica: valor medio probabilità che assuma il valore 1 relazione non lineare tra P(Yi = 1) e Xik difficile stabilire l’effetto al variare di X TIS_ 49 III Interpretazione dei coefficienti bk bk determina la direzione dell’effetto (positivo o negativo) ma la “grandezza” dipende dalla “grandezza” di z (e quindi dai valori di tutte le Xik) calcolo della P(Yi = 1) in corrispondenza di valori particolari: valori medi e/o valori estremi derivata di P(Yi = 1) rispetto a Xk logit fattore di attenuazione probit TIS_ 50 III Assunzioni per stima e inferenza 1. 2a. 2b. probit logit 3. statisticamente indipendenti 4. non esiste perfetta o quasi perfetta multicollinearità tra di loro TIS_ 51 III Stime di massima verosimiglianza probabilità di osservare il risultato Yi = L (Y|X, b) probabilità (verosimiglianza) di osservare quel particolare campione di valori Yi dati gli Xik funzione di verosimiglianza che massimizza = L (Y|X, b) algoritmi iterativi ( metodo Newton - Raphson e metodo scoring) TIS_ 52 III Proprietà stimatori MLE per grandi campioni circa come OLS (correttezza, efficienza, normalità) Inferenza a. significatività dei coefficienti : b. test basato sul rapporto delle funzioni di verosimiglianza (log) L0 verosimiglianza quando tutti i coefficienti sono pari a 0 (tranne intercetta) (log) L1 verosimiglianza per il modello completo TIS_ 53 III Inferenza (2) c. significatività di insiemi di coefficienti: g numero di coefficienti pari a 0 L1 L2 modello completo modello in cui alcune variabili (e quindi i relativi coefficienti) sono assunti non influenti d. bontà dell’adattamento proporzione di casi correttamente classificati e qualcos’ altro… TIS_ 54 III Precisazioni sul logit modello logit 1. 2. probabilità che si verifichi Y = 1: distribuzione logistica regressione logistica Altra distinzione a. modello logit X categoriali b. regressione logistica X miste (continue e categoriali) da modelli lineari generalizzati modello logit TIS_ 55 III Modello logit Nel modello logit: p 2 variabili X e Z probabilità che si verifiche l’evento rapporto tra la probabilità di verificarsi e la probabilità di non verificarsi (odds rischio relativo) Es. 4 volte più probabile che si verifichi l’evento piuttosto che non si verifichi in generale: odds >1 odds <1 più probabile che si verifichi l’evento TIS_ 56 meno probabile III Interpretazione dei coefficienti ln(X) funzione monotona crescente l’effetto di b su ln(p/1-p) è pari ad un effetto di eb su (p/1-p) Es. 1. b positivo (0.10) b positivo aumento nell’odds TIS_ 57 III Interpretazione dei coefficienti 2. b = 0 3. b negativo (-0.10) odds = 1 diminuzione nell’odds Se X età in anni: per ogni anno in più l’odds che si verifichi l’evento è 0.90 volte [100.(1-0.90)] rispetto all’età considerata TIS_ 58 III Variabili indipendenti con più di due categorie esempio istruzione alta media bassa Si possono usare due varabili dummy Un’istruzione bassa è indicata come la categoria base istruzione TIS_ 59 III Variabili indipendenti con più di due categorie istruzione nessuna istruzione viene considerata categoria base Gli odds si possono scrivere istruzione primaria incompleta (scuola dell’obbligo non completata) istruzione primaria completa (scuola dell’obbligo) istruzione secondaria completa (diploma) nessuna istruzione come si confrontano 2 gruppi? rapporto tra odds TIS_ 60 III Variabili indipendenti con più di due categorie Per confrontare un’istruzione primaria incompleta con nessuna istruzione = baseline per un’età fissata (Age) analogamente il confronto fra un’istruzione primaria completa e incompleta differenza tra i valori dei coefficienti esempio Indonesia 1991 TIS_ 61 III Interpretazione usando probabilità stimate Age IP CP CS età scuola dell’obbligo non completata scuola dell’obbligo diploma Per es. Per una donna di 30 anni che non ha completato la scuola dell’obbligo quale è la probabilità di sposarsi prima dei 25 anni ? Si possono calcolare le probabilità stimate per ogni particolare combinazione di caratteristiche farlo per tutte le combinazioni porterebbe a confusione, perdita di tempo e difficile interpretazione TIS_ 62 III Interpretazione 1. calcolando un range presentando i valori massimi, minimi e il valor medio di Problema: come conoscere le caratteristiche che portano alla probabilità massima e minima? 2. presentando una tabella con le probabilità stimate per le varie modalità Si calcola un range di probabilità per una singola variabile di interesse mantenendo costanti sulla media gli altri valori (o in altri valori opportuni) TIS_ 63 III Esempio /1 Campione di 2/1000 estratto a Pechino Si vuole predire le caratteristiche delle donne che si sposano presto (età compresa tra 30 e 40 anni) p = probabilità di sposarsi prima dei 25 anni Variabili esplicative: istruzione residenza etnia età al momento dell’indagine bassa media alta urbana rurale han altro calcolata come differenza X - 30 TIS_ 64 III Esempio /2 è necessario definire le variabili dummy: occorrono 1 variabile per 2 variabili per residenza etnia U E istruzione M H L’equazione diventa istruzione etnia residenza età TIS_ 65 III Esempio /3 prob sposarsi prima dei 25 anni prob NON sposarsi prima dei 25 anni istruzione media alta bassa residenza urbana etnia han età costante bi stimato SE(bi) Odds=ebi -0.23 -0.40 0.00 0.11 0.17 0.79 0.67 1.00 -0.19 0.09 0.82 -0.21 0.02 -0.20 0.09 0.01 0.08 0.81 1.02 1.81 Gli odds per l’istruzione sono: media:bassa alta:bassa alta:media TIS_ 66 III Esempio /4 Servono le medie della variabili indipendenti X Le medie sono: residenza istruzione media alta etnia han 0.35 0.30 0.80 urbana età 0.56 36.7 Si possono calcolare le probabilità stimate per ogni variabile, tenendo costanti le altre variabili sul loro valore medio TIS_ 67 III Esempio /5 L’equazione di partenza è: Per una donna con istruzione media si ha costante istruzione media alta residenza etnia han urbana (media) (valore medio) età (valore medio espresso come scarto dai 30 anni) probabilità di sposarsi prima dei 25 anni per una donna di istruzione media e etnia, residenza, età media del campione TIS_ 68 III Esempio /6 istruzione alta media bassa residenza urbana rurale -0.74 -0.57 -0.34 0.32 0.36 -0.63 -0.44 0.35 0.39 -0.59 -0.38 0.36 0.41 0.41 etnia han altro TIS_ 69 III Probabilità stimate Le probabilità più alte saranno combinazioni delle categorie con i coefficienti positivi più alti. Quelle più basse dalle categorie con i coefficienti negativi. Esempio: probabilità più bassa alta residenza istruzione urbana etnia han costante L’età più bassa è 0 in quanto AGE è età della donna - 30 TIS_ 70 III Probabilità stimate probabilità più alta bassa istruzione residenza rurale costante altra etnia età: 40 anni L’età 40 viene codificata come 10 (40 - 30) Si può fare lo stesso per ogni combinazione di caratteristiche TIS_ 71 III Interpretazione dei coefficienti Esempio Variabile dipendente: uso dei contraccettivi istruzione alta media bassa b SE(b) 0.8 0.6 0.0 0.20 0.14 — 1. L’effetto di un’istruzione alta consiste nell’aumento della probabilità di usare contraccettivi La prob di usare contraccettivi rispetto alla prob di non usarli (odds ratio) è 2.22 relativamente alla categoria base (bassa istruzione). Il coefficiente è significativo 2. L’effetto di un’istruzione alta relativamente a un’istruzione media è dato da TIS_ 72 III Interpretazione dei coefficienti Effetto di un’istruzione alta rispetto a una media: b* = 0.2 è significativo? Test var(bH ) = [se(bH )] 2 cov (bH ,bM) si ottiene dalla matrice di varianza / covarianza calcolata€nei vari software anche se, in genere, non mostrata per default opzioni specifiche TIS_ 73 III Interpretazione dei coefficienti La matrice di varianze e covarianze appare nel modo seguente bH bM bH 0.0400 0.0031 bM 0.0031 0.0196 = 0.142 Allora La funzione test vale Si conclude quindi che non vi è una differenza significativa sul fenomeno fra istruzione alta (bM) e media (bH) TIS_ 74 III Regressione logistica: effetti di interazione Oltre all’effetto principale è possibile introdurre anche effetti di interazione p probabilità di usare contraccettivi U residenza E istruzione R religione Modello senza interazione: risultati: Costante Urbana Primaria Secondaria Musulmana Coeff Std error -1.64 0.47 Per tutti le variabili 0.31 coefficienti/s.e. > 2 0.98 -0.37 Il coefficiente per la religione è negativo (-0.37) e-0.37=0.70 meno probabile che le musulmane utilizzino contraccettivi è TIS_ 75 III Regressione logistica: effetti di interazione Aggiungendo l’interazione fra residenza e istruzione: interazione residenza - istruzione Costante Urbana Primaria Secondaria Musulmana Urb-Primaria Urb-Secondaria Coeff Std Error -1.16 0.37 0.15 0.06 non si possono interpretare 0.31 0.10 gli odds da soli 0.68 0.21 -0.21 0.03 odds = 0.81 -0.16 0.07 interazioni -0.32 0.15 Nessuna Istruzione Primaria Secondaria Rurale 0.0 0.0+0.31 = 0.31 0.0+0.68 = 0.68 Urbana 0.15 0.15+0.31-0.16 = 0.30 0.15+0.68-0.32 = 0.51 TIS_ 76 III Regressione logistica: effetti di interazione probabilità di usare contraccettivi Calcolo degli odds Nessuna Primaria Secondaria Rurale 1.00 1.36 1.97 Urbana 1.16 1.35 1.67 categoria base 36% più probabile i grafici spesso aiutano nell’interpretazione dell’interazione l’interazione positiva aumenta gli effetti additivi l’interazione negativa fa diminuire gli effetti additivi Riguardo lo standard error Nessuna Rurale Primaria Secondaria — Urbana TIS_ 77 III Esempio Fiji 1974 p E U I (Rutheford - Chac, 1993) probabilità di usare contraccettivi anni di istruzione residenza urbana/ rurale etnia indiana / fijiana vale 1213.1 per il modello 1 1264.6 per il modello 2 allora diff = 1264.6-1213.1 = 51.5 gradi = 1 (differenza nel numero di parametri stimati) si rifiuta H0 e si conclude che aggiungendo la variabile I aumenta l’adattamento del modello TIS_ 78 III ai dati Modello logit multinomiale si possono considerare J variabili dicotomiche: J equazioni: ma non lineare non è assicurato Approccio alternativo modalità J modalità di base (di riferimento) equivale a P(Yi = 0) TIS_ 79 III Modello logit multinomiale ma: TIS_ 80 III Modello logit multinomiale Se si aggiungono K parametri uguali a 0 fattore di normalizzazione TIS_ 81 III Modello logit multinomiale può essere derivato anche come estensione della teoria delle scelte razionali uij utilità alternativa j se sceglie j scelta la distribuzione per uij McFadden (1974): uij ~ distribuzione a valori estremi del I tipo logit multinomiale poco giustificabile e poco realistico assunzione IIA = Indipendenza delle Alternative Irrilevanti TIS_ 82 III Regressione logistica multinomiale Generalizzazione della regressione logistica (logit) ✴ regressione logistica: la variabile dipendente è una variabile con 2 categorie Esempio: Malaria Contraccettivi ✴ positivo negativo utilizzo non utilizzo regressione logistica multinomiale: la variabile dipendente ha più di 2 categorie Esempio: Uso del diaframma Solo allattamento al seno Uso della pillola Parziale allattamento al seno Uso di altri contraccettivi No allattamento al seno Non uso TIS_ 83 III Regressione logit Regressione logit multinomiale Esempio: Uso del diaframma Uso di altri contraccettivi Non uso (1) (2) (3) Prima aspetto: scelta della categoria base. N.B. Non importa quale categoria si sceglie, ma è meglio non scegliere una categoria con poche frequenze I risultati non cambiano con la scelta della categoria base TIS_ 84 III Regressione logit multinomiale Supponiamo di scegliere il non utilizzo (3) come categoria di base: si hanno 2 equazioni cosa significano queste espressioni? Se le variabili indipendenti sono: allora Istruzione Alta Media Bassa Età in anni (H) (M) (A) TIS_ 85 III Regressione logistica multinomiale Si può scrivere come un sistema di equazioni: è la misura della probabilità che una donna con un particolare insieme di caratteristiche utilizzi il diaframma (1) piuttosto che nessun metodo (3) TIS_ 86 III Regressione logistica multinomiale Nota: ci deve essere sempre un’equazione in meno rispetto al numero di categorie della variabile dipendente (Y) dal punto di vista statistico si devono ottenere le stime dei parametri si utilizzano i minimi quadrati generalizzati (GLS) Per stimare i valori si sono imposti i vincoli: così e TIS_ 87 III Regressione logistica multinomiale Come si interpretano queste equazioni? In maniera simile al logit (ma un po’ più complicata) Esempio Provincia di Pechino: solo rispondenti che utilizzano contraccettivi Variabile dipendente: tipo di contraccettivo Sterilizzazione (1) Diaframma (2) Altri contraccettivi (3) Variabili indipendenti: X3: urbana/rurale X4: età (in anni) > 30 X6: istruzione alta X7: istruzione media categoria base X9: impiegata X10: operaia X11: in attesa di occupazione categoria base: occupata in agricoltura TIS_ 88 III Risultati diaframma/ sterilizzazione b se(b) altri metodi/ sterilizzazione b se(b) Urbana Età (>30) Istruzione alta media Occupazione impiegata operaia in attesa di occ -0.13 -0.07 0.25 -0.16 0.16 0.008 * 0.30 0.40 0.32 -0.09 0.83 0.28 0.17 * 0.009 * 0.34 * 0.43 0.21 0.02 0.39 0.50 0.88 0.48 1.36 1.79 0.75 0.53 * 0.89 * 0.45 Costante 2.41 1.04 0.43 1.09 TIS_ 89 III Risultati Per quanto riguarda la probabilità di usare il diaframma rispetto agli altri metodi? Sottraendo diaframma / altri metodi Quindi: Urbana Età (>30) Istruzione alta media Occupazione impiegata operaia in attesa di occ b -0.45 0.02 -0.58 -0.44 1.15 -1.59 -0.38 Gli standard error dei coefficienti si ottengono come per il logit TIS_ 90 III Risultati Se b11 è coefficiente di b12 è coefficiente di allora il coefficiente di è = b11 - b12 con standard error dalla matrice di varianze e covarianze TIS_ 91 III Interpretazione dei coefficienti di difficile interpretazione nel logit equivale a nel logit multinomiale si hanno non sono veri e proprio odds, poiché TIS_ 92 III 2. Interpretazione dei coefficienti problemi con “b” Supponiamo b > 0 Allora se Età 1 b Non si può dire che aumenta anche p1 È possibile che diminuiscano entrambe le probabilità p1 e p3 ma che il rapporto aumenti Esempio TIS_ 93 III 2. Interpretazione dei coefficienti Questo non può accadere in una regressione logistica non possono cambiare entrambi nella stessa direzione Perciò: è possibile calcolare e mediante , ma attenzione all’interpretazione! TIS_ 94 III 2. Tavola degli odds diaframma/ sterilizzazione altri metodi/ sterilizzazione odds (eb ) odds 0.88 0.93 1.28 0.85 1.38 0.91 2.29 1.32 1.23 1.02 1.48 3.90 5.99 2.12 Urbana Età (>30) Istruzione alta media Occupazione impiegata operaia in attesa di occ Questa rappresentazione è sufficiente? Non bisogna mai presentare gli odds da soli, ma sempre accompagnati dall’intervallo di confidenza al 95% TIS_ 95 III 2. Interpretazione dei coefficienti Calcolo di intervalli di confidenza per coefficienti e odds ratio un intervallo di confidenza (CI) approssimato al 95% per bi è dato da e per è dato da Allora gli intervalli di confidenza al 95% approssimati per gli odds ratio sono dati da Esempio Urbana odds b se(b) CI 95% -0.13 0.88 0.16 [-0.45,0.19] [0.64 , 1.21] Il valore 1 è incluso! TIS_ 96 III Interpretazione dei coefficienti ottenere una stima diretta della probabilità di usare il diaframma o di ogni altra categoria esponenziando e moltiplicando per p3 Sommando (4) + (5) + (6) si ha TIS_ 97 III Interpretazione dei coefficienti ma e poiché così TIS_ 98 III Interpretazione dei coefficienti Per sostituzione in (4) , (5) In generale dove Si calcolano p1, p2 e poi si ricava p3 = 1 - p1 - p2 In questo modo si può calcolare la tavola MCA TIS_ 99 III 3. Interpretazione dei coefficienti: tavola probabilità Si inseriscono i valori della variabile di interesse e le medie delle altre variabili Esempio: istruzione alta per p1 non si può avere istruzione alta e media contemporaneamente! media dell’età TIS_100 III 3. Interpretazione dei coefficienti: tavola probabilità Tornando all’esempio sull’uso dei contraccettivi (Beijing) P (usare il diaframma per donne con istruzione alta) diaframma/ sterilizzazione exp(0) altri metodi/ sterilizzazione TIS_101 III 3. Tavola probabilità Diaframma Altri metodi Sterilizzazione Residenza Urbana Rurale Età 20 30 40 Istruzione alta media bassa Occupazione impiegata operaia in attesa di occ in agricoltura 0.37 0.43 0.29 0.21 0.34 0.36 0.47 0.44 0.37 0.39 0.30 0.21 0.14 0.26 0.43 0.40 0.36 0.43 0.32 0.26 0.19 0.28 0.38 0.38 0.43 0.34 0.50 0.43 0.15 0.23 0.08 0.05 0.42 0.49 0.42 0.52 TIS_102 III Logit multinomiale Donne sposate di età 35 - 44 delle isole Fiji p1 = probabilità di utilizzare la sterilizzazione p2 = probabilità di utilizzare altri metodi p3 = probabilità di non utilizzare alcun metodo Età Età2 Istr. Media Istr. Alta Urbana Indiana Urbana * Indiana 1. 2. 0.93 -0.0115 0.30 0.045 0.75 1.67 -0.35 1.36 -0.017 0.44 0.64 0.071 0.60 0.26 categoria base -0.43 -0.14 il livello di istruzione elevato, in confronto al basso, può influenzare la scelta della sterilizzazione rispetto ad altri metodi? c’è differenza tra livello di istruzione elevato e medio in nella scelta della sterilizzazione rispetto ad altri metodi? TIS_103 Analoga procedura seguita nel caso precedente ma con calcolo s.e. un po’ più complicato ! III Costruzione modello e selezione variabili Hosmer, Lemeshow (1989) TIS_104 III Strategie per la costruzione del modello Selezione delle variabili (criteri diversi a seconda dei contesti: problema/disciplina) ✳ Modelli parsimoniosi • risultati più stabili • minor dipendenza dagli specifici dati osservati • maggiori generalizzazione ✳ Tutte le variabili scientificamente rilevanti, anche se con contributo poco “rilevante” (per es.: epidemiologia) • controllo di tutti i fattori di “confondimento” (effetto n.s. di una singola variabile ma che diventa importante insieme con altre) • ma rischio di “overfitting” (stime dei parametri e/o standard errors molto elevate e poco stabili) soprattutto se n.ro variabili elevato rispetto ai casi e % y = 1 molto vicina a 0 o 1 TIS_105 III Procedura per passi (1) Analisi univariata: ü X qualitativa o quantitativa con poche modalità: tabelle di contingenza YxX § test χ2 per verifica ipotesi di indipendenza o test LR § attenzione a celle con frequenze nulle ü X continua § regressione logistica e inferenza sul coefficiente stimato § rappresentazione grafica (su scala logit utile per valutare l’assunzione di linearità) TIS_106 III Procedura per passi (2) Inclusione variabili: ü con p-value < 0.25 in analisi univariata per non escludere in questa fase variabili importanti ü variabili riconosciute come rilevanti In alternativa: ü criteri “statistici” § Metodi stepwise: forward o backward con test per eliminazione/inserimento variabili § Metodi “best subsets selection”: un certo numero di modelli con 1, 2, 3, … variabili sono considerati “best” secondo un certo criterio e via via esaminati TIS_107 III Procedura per passi (3) Modello multivariato: ü controllo significatività (in genere test di Wald)coefficienti stimati e valori analisi univariata ü nuova stima modello multivariato (con controllo coefficienti nelle varie versioni) finchè non si ottiene un modello non più “migliorabile” ü inserimento effetti di interazione ü verifica assunzione di linearità (nel logit) per variabili continue (scelta categorie per variabili qualitative e discrete verificata con analisi univariata) TIS_108 III Bontà di adattamento • Efficacia del modello nel descrivere la variabile risposta: – misure di sintesi della distanza tra y e y’: (y – y’) (buon adattamento se misura di sintesi “piccola” e anche se il contributo di ciascuna coppia (yi, yi’) è piccolo e non sistematico rispetto alla struttura di errore del modello – misure di accuratezza della classificazione ottenuta Più usate: J = profili di covariate (valori distinti di combinazioni di variabili del modello), mj = n.ro di casi con profilo j, yj = n.ro di y= 1 in mj, πˆ j = probabilità stimata. ≈ X2 con J-(p+1) gradi di libertà ma con qualche problema quando J ≈ n € TIS_109 III Raggruppamento delle osservazioni: tabelle 2 x J • Test di Hosmer and Lemeshow: – osservazioni suddivise in gruppi basati sulle probabilità stimate e calcolo di X2 per differenza tra frequenze osservate e frequenze attese per y = 1e0 – usualmente: 10 gruppi individuati sulla base dei decili delle probabilità stimate – distribuzione statistica test: X2 con 8 gradi di libertà TIS_110 III