Indice 1 Concetti introduttivi 1.1 Studi sperimentali e studi osservazionali . . . . . . . . . . 1.2 Concetti iniziali: indipendenza fra eventi . . . . . . . . . . 1.3 Indipendenza fra variabili casuali . . . . . . . . . . . . . . 1.4 Notazione . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.5 Misure teoriche di associazione fra due v.c. binarie . . . . 1.6 Il cross-product ratio . . . . . . . . . . . . . . . . . . . . . 1.7 Misure empiriche . . . . . . . . . . . . . . . . . . . . . . . 1.8 Il caso di due variabili a più livelli . . . . . . . . . . . . . 1.9 Il caso di tre variabili binarie: odds di tabelle condizionate 1.10 Il caso di tre variabili generiche . . . . . . . . . . . . . . . 1.11 In generale... . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3 3 6 9 10 11 13 17 19 20 22 23 2 Il modello logistico 2.1 Introduzione . . . . . . . . . . . . . . . . . . . . . . 2.2 La matrice dei dati . . . . . . . . . . . . . . . . . . 2.3 Il modello di regressione lineare . . . . . . . . . . . 2.4 Il modello logistico semplice . . . . . . . . . . . . . 2.4.1 La forma matriciale . . . . . . . . . . . . . 2.5 Il modello logistico con due variabili esplicative . . 2.6 In generale: il modello logistico multiplo . . . . . . 2.6.1 La forma matriciale . . . . . . . . . . . . . 2.7 La stima mediante massima verosimiglianza . . . . 2.7.1 Matrice di varianze e covarianza asintotica . 2.8 Verifica d’ipotesi . . . . . . . . . . . . . . . . . . . 2.8.1 Verifica di ipotesi sul modello . . . . . . . . 2.8.2 Verifica d’ipotesi sull’effetto di una variabile 2.8.3 Test sul singolo coefficiente . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24 24 24 26 28 31 32 37 39 39 42 42 43 45 45 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Capitolo 1 Concetti introduttivi 1.1 Studi sperimentali e studi osservazionali Gli studi statistici si possono suddividere in due grandi gruppi: gli studi sperimentali e quelli osservazionali. Nei primi, l’analista controlla alcuni dei fattori che ritiene rilevanti, attraverso ad esempio dosaggi successivi, e può minimizzare gli errori su quelli che non può controllare, attraverso ad esempio assegnazione randomizzata dei dosaggi alle unità. Nei secondi, invece, lo sperimentatore si limita ad osservare i fenomeni cosı̀ come si manifestano. Il seguente esempio tratta di un esperimento sulla resistenza alla tossicità delle tarme del tabacco. Gruppi di 20 maschi e 20 femmine di tarma sono stati esposti per tre giorni ad un tossico a cui le tarme hanno cominciato a mostrare resistenza. La seguente tabella riporta quanti di essi sono morti. Esempio 1.1 Dose Sesso 1 2 4 8 16 32 Maschio 1 4 9 13 18 20 Femmina 0 2 6 10 12 16 L’obbiettivo di questo studio è quantificare gli effetti del tossico, e verificare se questi effetti sono diversi a seconda del sesso. 2 E.Stanghellini – Dispense di Statistica IV 3 Negli studi puramente osservazionali, non si può controllare nessuna delle variabili in studio. La seguente tabella di contingenza è relativa a 661 bambini nati in Scozia dal 1981 al 1988 e seguiti per almeno un anno dalla nascita. La variabile Problemi cardiaci vale Sı̀ se la madre ha avuto problemi di cuore durante la gravidanza. La variabile Complicazioni vale Sı̀ se la madre ha avuto altri problemi ginecologici, la variabile Fumo vale Sı̀ se la madre ha fumato almeno una sigaretta al giorno nei primi sei mesi di gravidanza. Esempio 1.2 Problemi Cardiaci Si No Complicazioni Si No Si No Peso \ Fumo Si No Si No Si No Si No ≤ 1250 gr. 10 25 12 15 18 12 42 45 > 1250 gr. 7 5 22 19 10 12 202 205 Vi sono vari aspetti che non possono essere tenuti sotto controllo. Ad esempio è possibile che la popolazione di coloro che fumano sia diversa anche per altre caratteristiche rilevanti da quella di coloro che non fumano. In tal caso, l’effetto del fumo viene mascherato da questi ulteriori fattori non misurati. 4 E.Stanghellini – Dispense di Statistica IV La distinzione fra i due tipi di studio tuttavia può non essere netta. Il seguente esempio tratta di uno studio a carattere sperimentale ma con componenti di natura osservazionale. Si vuole studiare la relazione fra lo screening con la mammografia e il cancro al seno. Il seguente studio è relativo a 62.000 donne di cui 31.000 assegnate a caso allo screening e 31.000 controlli. Queste sono state seguite per 5 anni, registrando le morti per cancro o per altre cause. Solo una parte di coloro assegnate allo screening accetta di farlo (vi sono 10.800 rifiuti). Esempio 1.3 Dimensioni gruppo Trattamento Screening Rifiuti Totali Controlli 20.200 10.800 31.000 31.000 Cancro Altre cause Num. Tasso Num. Tasso 23 1.1 428 21 16 1.5 409 38 39 1.3 837 27 63 2.0 879 28 Quali tassi debbono essere presi in considerazione? Se i rifiuti fossero stati casuali, il tasso di mortalità per cancro dei rifiuti (1.5) dovrebbe essere simile a quello dei controlli (2.0). Invece è molto inferiore. Questo fa ritenere che la popolazione dei rifiuti (e di conseguenza dei non rifiuti, ovvero degli screening) sia ”diversa” per caratteristiche non misurate (istruzione, tipo di lavoro ecc. ) da quella degli screening. A conferma di questo, il tasso di mortalità per altre cause è molto di verso nel gruppo dei rifiuti (e nel gruppo dei controlli, questa volta molto superiore). Un’analisi statistica ben fatta deve tenere conto di questi effetti. E.Stanghellini – Dispense di Statistica IV 1.2 5 Concetti iniziali: indipendenza fra eventi Sia P la probabilità definita sullo spazio degli eventi associato ad un esperimento casuale e siano A, B,C, . . ., eventi definiti in quello spazio. Si indichi con Ā,B̄, . . . l’evento che si verifica se, in ordine, A, B non si verifica. La probabilità condizionata di A dato B è P (A | B) = P (A ∩ B)/P (B) ed è definita solo se P (B) > 0. Definizione. indipendenti se: Indipendenza fra eventi. Due eventi A e B sono → P (A ∩ B) = P (A)P (B). Una definizione alternativa di eventi indipendenti è la seguente: → P (A | B) = P (A). Nel seguito, due eventi A e B indipendenti verrano denotati con A⊥⊥B. Si noti che se A⊥⊥B allora A⊥⊥B̄. Di conseguenza, la definizione di indipendenza fra due eventi si estende anche alla negazione degli eventi su cui è definita, come si dimostra dal seguente esercizio. ESERCIZIO 1.1 Si verifichi che se A e B sono due eventi indipendenti allora anche A e B̄ sono due eventi indipendenti. 6 E.Stanghellini – Dispense di Statistica IV Definizione. Indipendenza condizionata fra eventi. Siano A, B e C tre eventi con P (C) > 0. A e B sono indipendenti condizionatamente a C se e solo se: → P (A ∩ B|C) = P (A|C)P (B|C). → P (A|BC) = P (A|C) Nel seguito due eventi A e B indipendenti condizionatamente a C sono denotati con A⊥⊥B | C. Questa definizione è una riscrittura della indipendenza fra eventi con le probabilità condizionate al posto delle probabilità marginali. Di conseguenza, se A⊥⊥B | C allora A⊥⊥B̄ | C. Tuttavia, A⊥⊥B | C non implica nè è implicato da A⊥⊥B | C̄. Il seguente esempio dà un’idea di un fenomeno chepuò generare una tale situazione. L’esempio è tratto dal credit scoring. Esempio 1.4 Sia A l’evento {il cliente è solvibilie} B l’evento {il cliente ha almeno un figlio} e C l’evento {il cliente ha un’età inferiore a 45 anni}. E’ plausibile che per clienti con età superiore a 45 anni, l’essere solvibili sia indipendente dall’avere figli o meno, mentre tale indipendenza non valga in clienti con età inferiore a 45 anni. E.Stanghellini – Dispense di Statistica IV 7 Si noti, inoltre, che l’indipendenza fra A e C condizionatamente a B non implica l’indipendenza marginale fra A e C. Questo fatto ha una spiegazione intuitiva nel caso in cui, ad esempio, C sia una causa comune di A e B, oppure B sia un evento che influenza C che a sua volta influenza A, come nel seguente esempio. Esempio 1.5 Sia A l’evento {il cliente è solvibile} C l’evento {il cliente ha una fascia di reddito elevata} e B l’evento il cliente {il cliente è libero professionista}. Si supponga che un libero professionista ha una probabilità più elevata di posizionarsi su fasce alte di reddito di chi non lo è e, di conseguenza, di essere un buon cliente. Trascurando l’informazione sul reddito, si può concludere che i liberi professionisti sono migliori clienti degli altri. Tuttavia, il fattore determinante della solvibilità è il reddito. 8 E.Stanghellini – Dispense di Statistica IV 1.3 Indipendenza fra variabili casuali Come si estende il concetto di indipendenza fra due eventi a quello di indipendenza fra due variabili casuali? Siano X1 , X2 , due variabili casuali qualsiasi. Nel seguito, indicheremo genericamente con f12 (x1 , x2 ) la funzione di densità o di massa di probabilità congiunta. Inoltre, indicheremo con, ad esempio, f12|3 (x1 , x2 | x3 ) la funzione di densità o di massa di probabilità di X1 e X2 condizionata a X3 (definita solo se f3 (x3 ) > 0). Nel caso in cui sia specificato dal contesto che le variabili casuali sono categoriche, allora indicheremo con p12 (x1 , x2 ) la funzione di massa di probabilità congiunta e con, ad esempio, p12|3 (x1 , x2 | x3 ) la funzione di massa di probabilità di X1 e X2 condizionata a X3 . Definizione Indipendenza marginale fra variabili casuali. Due variabili casuali X1 e X2 sono indipendenti se e solo se: → f12 (x1 , x2 ) = f1 (x1 )f2 (x2 ) per ogni x1 e x2 . Una definizione equivalente è la seguente: → f1|2 (x1 | x2 ) = f1 (x1 ) per ogni x1 e x2 t.c. f2 (x2 ) > 0 Nel seguito due v.c. indipendenti saranno indicate con X1 ⊥⊥X2 . E.Stanghellini – Dispense di Statistica IV 9 Definizione Indipendenza condizionale fra variabili casuali. Due variabili casuali X1 e X2 sono indipendenti condizionatamente a X3 se e solo se: → f12|3 (x1 , x2 | x3 ) = f1|3 (x1 | x3 )f2|3 (x2 | x3 ) per ogni x1 , x2 e per ogni x3 t.c. f3 (x3 ) > 0. Equivalenti formulazioni della definizione di indipendenza condizionata sono le seguenti: → f123 (x1 , x2 , x3 ) = f13 (x1 , x3 )f23 (x2 x3 )/f (x3 ) → f1|23 (x1 , x2 | x3 ) = f1|3 (x1 | x3 ) 1.4 Notazione Siano X1 e X2 due variabili casuale categoriche con livelli I1 e I2 . La loro distribuzione congiunta può essere sintetizzata attraverso una tabella di contingenza rettangolare che ha I1 righe e I2 colonne. In questo corso utilizzeremo la convezione di numerare i livelli delle variabili categoriche a partire da 0. Ad esempio, se I1 = 2 e I2 = 3 la tabella di contingenza è la seguente: X2 Totale X1 0 1 2 0 p12 (0, 0) p12 (0, 1) p12 (0, 2) p1 (0) 1 p12 (1, 0) p12 (1, 1) p12 (1, 2) p1 (1) Totale p2 (0) p2 (1) p2 (2) 1 in cui, come detto, p12 (0, 0) sta ad indicare P (X1 = 0, X2 = 0), p12 (0, 1) sta ad indicare P (X1 = 0, X2 = 1) e cosı̀ via. Inoltre, p1 (0) sta ad indicare P (X1 = 0). 10 1.5 E.Stanghellini – Dispense di Statistica IV Misure teoriche di associazione fra due v.c. binarie Sia X1 una variabile casuale binaria con valori {0, 1} e p1 (0) = P (X1 = 0) e p1 (1) = P (X1 = 1). Si definisce odds di X1 il seguente rapporto: odds(X1 ) = p1 (1) p1 (0) Non è difficile verificare che esso assume valori fra 0 e +∞. Inoltre, cresce al crescere della p1 (0) e assume valore 1 se gli eventi sono equiprobabili. In seguito lavoreremo anche sul logaritmo naturale dell’odds, il logit, che è una trasformazione monotona dell’odds e varia fra −∞ e +∞. Inoltre, assume inoltre valore 0 se i due eventi sono equiprobabili. Importante Se l’odds è maggiore di 1, vuole dire che l’evento al numeratore ha probabilità maggiore di 0.5 di verificarsi. Se l’odds è minore di 1 vuol dire che l’evento al numeratore ha probabilità minore di 0.5 di verificarsi. E.Stanghellini – Dispense di Statistica IV 11 Siano X1 e X2 due variabili casuali binarie. La distribuzione congiunta può essere rappresentata dalla seguente tabella: X2 X1 0 1 0 p12 (0, 0) p12 (0, 1) 1 p12 (1, 0) p12 (1, 1) Totale p2 (0) p2 (1) Totale p1 (0) p1 (1) 1 Si definisca adesso l’odds di X1 condizionato a X2 = 0. Ovvero, odds(X1 | X2 = 0) = p1|2 (1 | 0) p1|2 (0 | 0) Moltiplicando numeratore e denominatore per p2 (0) si può verificare che: odds(X1 | X2 = 0) = p12 (1, 0) . p12 (0, 0) In maniera analoga se definisca adesso l’odds di X1 condizionato a X2 = 1: odds(X1 | X2 = 1) = p12 (1, 1) p12 (0, 1) 12 E.Stanghellini – Dispense di Statistica IV 1.6 Il cross-product ratio Un confronto interessante è fra i due odds condizionati. Se sono uguali l’odds di X1 non varia al variare di X2 . Inoltre, se sono uguali, allora anche gli odds di X2 condizionati a X1 sono uguali. Infatti, se p12 (1, 0) p12 (1, 1) = p12 (0, 0) p12 (0, 1) allora: p12 (0, 1)p12 (1, 0) = p12 (0, 0)p12 (1, 1) da cui p12 (0, 1) p12 (1, 1) = p1 2(0, 0) p12 (1, 0) ovvero odds(X2 | X1 = 0) = odds(X2 | X1 = 1). Definiamo il rapporto degli odds, noto come odds ratio o rapporto dei prodotti incrociati che indicheremo talvolta anche con cpr dall’inglese cross product ratio: cpr(X1 , X2 ) = odds(X1 | X2 = 1) p12 (1, 1)p12 (0, 0) = odds(X1 | X2 = 0) p12 (0, 1)p12 (1, 0) Invertiamo ora il ruolo delle variabili X1 e X2 . Come avviamo visto: odds(X1 |midX2 = x2 ) = p12 (1, x2) . p12 (0, x2) Ne segue che se i due odds condizionati sono uguali, allora p12 (1, 0) p12 (1, 1) = , p12 (0, 0) p12 (0, 1) e il loro rapporto è pari ad 1. Ma quanto il loro rapporto??? Esso è esattamente il cpr(X1 , X2 ) scritto sopra. Da quanto detto, il cpr è una misura non direzionale di associazione. Essa è anche detta di interazione fra due variabili. E.Stanghellini – Dispense di Statistica IV 13 Importante Se il cpr è maggiore di 1 vuol dire che l’odds di X1 condizionatamente a X2 = 1 è maggiore dell’odds di X1 condizionatamente a X2 = 0. Dal momento che X1 e X2 si possono scambiare di ruolo, allora se il cpr è maggiore di 1 vuol dire che l’odds di X2 condizionatamente a X1 = 1 è maggiore dell’odds di X2 condizionatamente a X1 = 0. Questo si sintetizza con il dire che vi è una associazione positiva fra le due variabili casuali binarie. 14 E.Stanghellini – Dispense di Statistica IV Esempio 1.6 Consideriamo la seguente distribuzione ipotetica di probabilità. X2 X1 0 1 0 0.05 0.15 1 0.20 0.60 Totale 0.25 0.75 Totale 0.2 0.8 1 Il rapporto degli odds è pari a: 0.05 × 0.6 =1 0.15 × 0.2 Di conseguenza, la probabilità condizionata che X1 sia uguale ad uno non varia al variare di X2 . Analogamente, la probabilità condizionata che X2 sia uguale a 1 non varia al variare di X1 . Si può dimostrare, infatti, che X1 e X2 sono indipendenti. Teorema 1.1 Siano X1 e X2 due variabili casuali binarie. Se odds(X1 | X2 = x2 ) = a, x2 = {0, 1}, allora odds(X1 ) = a. Dimostrazione. Essendo odds(X1 | X2 = 0) = odds(X1 | X2 = 1) = a allora p12 (1, 0) = ap12 (0, 0) p12 (1, 1) = ap12 (0, 1) Sommando termine a termine le due uguaglianze si ottiene p1 (1) = ap1 (0) e il risultato segue. (1.1) E.Stanghellini – Dispense di Statistica IV 15 Teorema 1.2 Siano X1 e X2 due variabili casuali binarie. Allora, cpr(X1 , X2 ) = 1 se e solo se X1 e X2 sono indipendenti. Dimostrazione. Se sono indipendenti p12 (x1 , x2 ) = p1 (x1 )p2 (x2 ) per ogni valore di x1 e x2 . Per cui: cpr = p12 (0, 0)p12 (1, 1) p1 (0)p2 (0)p1 (1)p2 (1) = =1 p12 (0, 1)p12 (1, 0) p1 (0)p2 (1)p1 (1)p2 (0) Viceversa, se cpr(X1 , X2 ) = 1 allora p(x1 | X2 = 0) = p(x1 | X2 = 1) per ogni x1 . Infatti: 1 − p(x1 | X2 = 0) 1 − p(x1 | X2 = 1) = p(x1 | X2 = 0) p(x1 | X2 = 1) da cui 1 1 = p(x1 | X2 = 0) p(x1 | X2 = 1) Pertanto: p(x1 ) = X p(x1 | x2 )p(x2 ) = p(x1 | x2 ) x2 per ogni valore di x1 e x2 . X x2 p(x2 ) = p(x1 | x2 ) 16 1.7 E.Stanghellini – Dispense di Statistica IV Misure empiriche Il rapporto degli odds è definito su probabilità . Tuttavia, esso può essere usato come misura descrittiva della associazione fra due variabili, quando si dispone di un campione di osservazioni. Si consideri la seguente tabella a doppia entrata, con due righe e tre colonne: X2 Totale X1 0 1 2 0 n12 (0, 0) n12 (0, 1) n12 (0, 2) n1 (0) 1 n12 (1, 0) n12 (1, 1) n12 (1, 2) n1 (1) Totale n2 (0) n2 (1) n2 (2) n Si ricordi che il rapporto n12 (0, 0)/n1 (0) indica la frequenza relativa delle unità che hanno X1 = 0 nel gruppo di unità che hanno X2 = 0. Invece, il rapporto n12 (0, 0)/n2 (0) indica la frequenza relativa delle unità che hanno X2 = 0 nel gruppo di unità che hanno X1 = 0. Domanda: Che interpretazione ha la frequenza relativa n12 (0, 2)/n1 (0)? E la frequenza relativa n12 (0, 2)/n2 (0)? Il rapporto dei prodotti incrociati si calcola su una tabella di contingenza di dimensioni due per due, come la seguente: X2 Totale X1 0 1 0 n12 (0, 0) n12 (0, 1) 1 n12 (1, 0) n12 (1, 1) Totale n2 (0) n2 (1) n1 (0) n1 (1) n Con un ragionamento analogo al precedente possiamo vedere il rapporto dei prodotti incrociati come un rapporto di frequenze relative, di riga o di colonna. Tuttavia, data la sua struttura, esso si può calcolare anche sulle frequenze assolute. Ovvero: cpr = n12 (0, 0)n12 (0, 1) n12 (0, 1)n12 (1, 0) E.Stanghellini – Dispense di Statistica IV 17 Esempio 1.7 (segue da 1.2) Si calcoli il cpr della tabella a doppia entrata secondo Problemi cardiaci e Peso. Essa sarà : Problemi Peso No ≤ 1250 gr. 117 > 1250 gr. 429 Totale 546 cardiaci Totale Sı̀ 62 179 53 482 115 661 Il rapporto degli odds in questa tabella, ottenuta come marginale rispetto alla precedente è pari a: 53 ∗ 117 = 0.233 62 ∗ 429 che denota una elevata associazione fra le due variabili. Come la possiamo interpretare? L’odds osservato che un bambino nasca con un peso superiore a 1250 gr. dato che la madre ha problemi cardiaci è pari a 0.85 (ovvero 53/62). Questo vuol dire che la frequenza relativa dei nati sottopeso in questo sottogruppo è maggiore della frequenza relativa dei nati normali. L’odds che un bambino nasca con un peso superiore a 1250 gr. dato che la madre non ha problemi cardiaci è pari a 3.67 (ovvero 429/117). Pertanto il primo odds è 0.233 volte inferiore al secondo. Questo valore è il rapporto degli odds. Si noti che la interpretazione direzionale della associazione nell’esempio precedente deriva dalle nostre informazioni a priori sui fenomeni in studio, secondo cui il fatto che la madre abbia problemi cardiaci è una variabile potenzialmente esplicativa del peso alla nascita del figlio e non il viceversa. Vi sono studi che hanno come scopo fare inferenza anche sulla direzione della associazione. Noi però faremo riferimento solo a situazioni in cui tal direzione è implicita nel fenomeno di studio. 18 1.8 E.Stanghellini – Dispense di Statistica IV Il caso di due variabili a più livelli In questa sezione si estendono le misure di associazione viste in precedenza alla situazione in cui X1 è binaria e e X2 e assume un numero generico k di livelli. Siano X1 e X2 due variabili casuali categoriche, con X1 binaria e X2 che assume I2 > 2 valori. Ad esempio, se I2 = 3 la distribuzione doppia può essere sintetizzata attraverso la seguente tabella a doppia entrata: X2 Totale X1 0 1 2 0 p12 (0, 0) p12 (0, 1) p12 (0, 2) p1 (0) p12 (1, 0) p12 (1, 1) p12 (1, 2) p1 (1) 1 Totale p2 (0) p2 (1) p2 (2) 1 Un modo naturale di procedere è quello di scegliere un livello di X2 come riferimento e confrontare gli odds condizionati degli altri livelli con il livello di riferimento. La convenzione adottata in questo lavoro è che il livello di riferimento è il livello 0. Questo implica il calcolo di un odds condizionato e di I2 − 1 oddsratio nelle corrispondenti I2 − 1 sottotabelle 2 × 2 cosı̀ evidenziate: X2 X1 0 r 0 p12 (0, 0) p12 (0, r) 1 p12 (1, 0) p12 (1, r) E’ possibile mostrare, in estensione del teorema 1.2, il seguente: Teorema 1.3 Sia X1 una v.c. binaria e X2 una v.c. categorica con I2 livelli. Se tutti gli I2 − 1 odds ratio sono uguali ad 1, le due variabili sono indipendenti, e viceversa. E.Stanghellini – Dispense di Statistica IV 1.9 19 Il caso di tre variabili binarie: odds di tabelle condizionate Siano X1 , X2 e X3 tre variabili casuali binarie. La distribuzione congiunta può essere sintetizzata attraverso una tabella di contingenza a tre entrate, come quella seguente: X2 Totale X3 = 0 X1 0 1 0 p123 (0, 0, 0) p123 (0, 1, 0) p13 (0, 0) 1 p123 (1, 0, 0) p123 (1, 1, 0) p13 (1, 0) Totale p23 (0, 3) p23 (10) p3 (0) X3 =1 X2 Totale X1 0 1 0 p123 (0, 0, 1) p123 (0, 1, 1) p13 (0, 1) 1 p123 (1, 0, 1) p123 (1, 1, 1) p13 (1, 1) Totale p23 (0, 1) p23 (1, 1) p3 (1) Si può calcolare per la tabella condizionata, ad esempio ad X3 = 0, il cross product ratio fra X1 e X2 . Esso sarà cpr(X1 , X2 | X3 = 0). Analogamente, si può calcolare il cross product ratio fra X1 e X2 per la tabella con X3 = 1. Esso sarà cpr(X1 , X2 | X3 = 1). In generale, si indichi con cpr(X1 , X2 | X3 = x3 ) il generico cpr. Esso è cosı̀ dato: cpr(X1 , X2 | X3 = x3 ) = p12|3 (1, 1 | x3 )p12|3 (0, 0 | x3 ) p12|3 (0, 1 | x3 )p12|3 (1, 0 | x3 ) ma anche cpr(X1 , X2 | X3 = x3 ) = p123 (1, 1, x3 )p123 (0, 0, x3 ) p123 (0, 1, x3 )p123 (1, 0, x3 ) 20 E.Stanghellini – Dispense di Statistica IV Di conseguenza, una naturale estensione della misura di associazione fra due variabili binarie al caso di tre variabili binarie è il seguente rapporto di cpr: cpr(X1 , X2 | X3 = 1) p123 (1, 1, 1)p123 (0, 0, 1)p123 (0, 1, 0)p123 (1, 0, 0) = cpr(X1 , X2 | X3 = 0) p123 (0, 1, 1)p123 (1, 0, 1)p123 (1, 1, 0)p123 (0, 0, 0) Esso è uguale ad 1 se l’odds ratio fra X1 e X2 nella tabella condizionata di X3 = 0 è uguale all’odds ratio fra X1 e X2 nella tabella condizionata di X3 = 1. Dalla formulazione precedente, è possibile verificare che: cpr(X1 , X2 | X3 = 1) cpr(X1 , X3 | X2 = 1) cpr(X2 , X3 | X1 = 1) = = cpr(X1 , X2 | X3 = 0) cpr(X1 , X3 | X2 = 0) cpr(X2 , X3 | X1 = 0) ovvero anche questa misura è una misura di associazione che considera le tre variabili sullo stesso piano. Per questo, è detta misura di interazione del terzo ordine. Si noti che se rapporto odds ratio è pari ad uno, questo implica che l’interazione fra due delle tre variabili non variabili non varia al variare della terza. Si può verificare agevolmente che se cpr(X1 , X2 | X3 = 0) = 1 = cpr(X1 , X2 | X3 = 1) e allora X1 ⊥⊥X2 | X3 e viceversa. E.Stanghellini – Dispense di Statistica IV 21 Esempio 1.8 (segue da 1.2). Si calcoli il rapporto degli odds fra Complicazione cardiache e Peso nelle due sottotabelle individuate dai livelli di Complicazioni. Complicazioni =No Problemi cardiaci Totale Peso No Sı̀ ≤ 1250 gr. 87 27 114 407 41 448 > 1250 gr. Totale 494 68 562 Complicazioni =Sı̀ Problemi cardiaci Totale Peso No Sı̀ ≤ 1250 gr. 30 35 65 > 1250 gr. 22 12 34 Totale 52 47 99 Il rapporto degli odds nella prima tabella è pari a 0.32, denotando una maggiore frequenza di nati sottopeso nella popolazione delle madri con problemi cardiaci anche nel sottogruppo di madri che non hanno avuto complicazioni. Il rapporto degli odds nella seconda tabella è pari a 0.47, denotando anche qui una maggiore frequenza di nati sottopeso da madri con problemi cardiaci anche nel caso di madri che hanno avuto complicazioni. Ci possiamo adesso chiedere se vi è una differenza significativa fra i due valori (0.32 e 0.47). Se non vi è vuol dire che l’effetto dell’avere problemi cardiaci non varia al variare del quadro delle altre complicazioni. Altrimenti, se vi è , vuol dire che l’effetto varia a seconda del quadro delle complicazioni. In questo secondo caso si dice che vi è una interazione. 1.10 Il caso di tre variabili generiche Siano X1 , X2 , X3 variabili casuali categoriche, con X1 binaria X2 e X3 categoriche con livelli, rispettivamente, I2 > 2 e I3 > 2. In questo caso si sceglie un livello di riferimento per X3 , per convenzione indicato con 0 (si veda la tabella successiva si è posto I2 = 3). 22 E.Stanghellini – Dispense di Statistica IV X3 = 0 X2 Totale X1 0 1 2 0 p123 (0, 0, 0) p123 (0, 1, 0) p123 (0, 2, 0) p13 (0, 0) 1 p123 (1, 0, 0) p123 (1, 1, 0) p123 (1, 2, 0) p13 (1, 0) Totale p23 (0, 0) p23 (1, 0) p23 (2, 0) p3 (0) In questo livello di riferimento si calcola l’odds di X1 condizionato al livello di riferimento di X2 , ovvero l’odds(X1 | X2 = 0X3 = 0). Inoltre, si calcolano gli I2 − 1 odds ratio nel modo visto in precedenza. Successivamente si raffrontano queste grandezze, mediante rapporto, con le analoghe grandezze valutate negli I3 − 1 livelli della terza variabile. I raffronti non ridondanti da effettuare saranno pertanto (I2 − 1)(I3 − 1). 1.11 In generale... Nel caso in cui vi siano più di tre variabili causali, la costruzione delle misure di associazione segue le linee adesso delineate. Nel caso ad esempio di p = 4 con X1 binaria, i raffronti non ridondanti saranno (I2 − 1)(I3 − 1)(I4 − 1). Relazioni di indipendenza condizionata e marginale fra variabili potranno essere delineate qualora ad esempio si trovino determinate configurazioni di sottoinsiemi odds ratio pari ad uno. Tuttavia in questo corso lavoreremo sempre con modelli con una risposta binaria. Non considereremo mai il caso di più di tre variabili esplicative. SOLUZIONE ES. 1.1. Se A e B sono indipendenti, allora P (A∩B) = P (A)P (B). Essendo A = (A ∩ B̄) ∪ (A ∩ B) con A ∩ B̄ e A ∩ B incompatibili, avremo P (A) = P (A ∩ B̄) + P (A ∩ B) = P (A ∩ B̄) + P (A)P (B). Pertanto, P (A ∩ B̄) = P (A)[1 − P (B)] e il risultato segue. ESERCIZIO 1.2 Siano X1 e X2 due variabili casuali binarie. Si dica come cambia il cpr(X1 , X2 ) se invertiamo le categorie di X1 . ESERCIZIO 1.3 Siano X1 e X2 due variabili casuali con X1 binaria e X2 categorica con più di due livelli. Se gli odds(X1 | X2 = i) sono uguali fra loro e uguali ad a, quanto vale il odds(X1 ) della marginale di X1 ? Capitolo 2 Il modello logistico 2.1 Introduzione In questo capitolo studieremo modelli in cui una variabile casuale è considerata dipendente, o di risposta, da altre variabili casuali, dette esplicative. Utilizzeremo la convenzione di indicare con Y la v.c. dipendente e con X1 , . . . , Xk le variabili esplicative. Le distribuzioni di interesse per la variabile casuale di risposta Y nei modelli che considereremo sono tipicamente la distribuzione di Bernoulli, la distribuzione binomiale relativa e, per raffronti con il modello di regressione lineare, la distribuzione normale o di Gauss. 2.2 La matrice dei dati Si consideri la seguente rappresentazione dei dati dell’esempio 1.1. 23 24 E.Stanghellini – Dispense di Statistica IV Sesso. Dose Successi Num. totale 0 1 1 20 0 2 4 20 0 4 9 20 13 20 0 8 0 16 18 20 0 32 20 20 0 20 1 1 1 2 2 20 6 20 1 4 1 8 10 20 12 20 1 16 1 32 16 20 Questo secondo modo di rappresentare i dati ci avvicina alla logica del modello logistico. Infatti, possiamo vedere ogni riga della tabella precedente formata da configurazioni diverse delle esplicative. Sia X1 la v.c. che descrive il sesso e X2 la v.c. che descrive il dosaggio. Ogni riga è una configurazione diversa (x1 , x2 ). Inoltre, in ogni riga si sono effettuate tante ripetizioni di un esperimento di Bernoulliano (in questo caso il num. delle ripetizioni è costante e pari a 20) e si sono contati i successi. L’obiettivo dello studio è vedere come cambia la probabilità di successo in ogni riga della tabella precedente. Sia Y la v.c. di Bernoulli. Si vuole mettere in relazione la P (Y = 1 | X1 = x1 , X2 = x2 ) con x1 e x2 . In modo del tutto analogo, possiamo vedere le righe della tabella precedente come un unico esperimento di una binomiale relativa. Il valore atteso della binomiale relativa è ancora P (Y = 1 | X1 = x1 , X2 = x2 ). Possiamo rappresentare i dati dell’esempio 1.2 con la stessa logica. Nella seguente rappresentazione si pone come successo la nascita di un bambino con peso superiore a 1250gr. Inoltre, si pone ’Fumo’=0 se la madre non ha fumato e 1 altrimenti; ’Complicazioni’ =0 se la madre non ha avuto complicazioni e 1 altrimenti; ’Problemi cardiaci’=0 se la madre non ha avuto problemi cardiaci e 1 altrimenti. E.Stanghellini – Dispense di Statistica IV 25 Fumo Complicazioni Problemi Successi Num. totale 0 0 0 205 250 1 0 0 202 244 0 1 0 12 24 10 28 1 1 0 0 0 1 19 34 1 0 1 22 34 5 30 0 1 1 1 1 1 7 17 2.3 Il modello di regressione lineare In questo paragrafo si richiamano alcune nozioni della regressione lineare, necessarie alla comprensione del modello logistico. Sia Y una variabile di risposta continua e X una variabile continua esplicativa. Il modello di regressione lineare assume che: Y = a + bx + ε in cui ε è una variabile casuale continua che esprime l’effetto di fattori non osservati che concorrono alla formazione del valore di Y in maniera additiva. Si suppone inoltre E(ε) = 0 e V ar(ε) = σ 2 . La prima ipotesi implica che il valore atteso della distribuzione di Y condizionato a X = x è dato da: E(Y | X = x) = a + bx. (2.1) La seconda ipotesi implica che la varianza di ogni distribuzione condizionata è costante. I coefficienti a e b sono detti coefficienti di regressione. In particolare, il coefficiente b esprime la variazione sul valore atteso dovuta ad un incremento unitario di x. Il modello di regressione lineare si estende al caso generico di variabili esplicative. Sia adesso x il vettore di variabili esplicative continue con valori x = (x1 , x2 , . . . , xp ). Il modello di regressione lineare può estendersi al caso multiplo come: E(Y | X = x) = a + b1 x1 + . . . + br xr . 26 E.Stanghellini – Dispense di Statistica IV Sia y il vettore N ×1 delle osservazioni della variabile casuale risposta Y e X la matrice N ×p delle variabili esplicative comprensiva dell’intercetta, come descritta in precedenza. Indicando con b = (a, b1 , b2 , . . . , bp )T il vettore dei parametri, le stime mediante metodo dei minimi quadrati di b possono derivarsi come quel vettore b̂ che minimizza la somma dei quadrati: (y − Xb)T (y − Xb). Ponendo ŷ = Xb̂, si verifica agevolmente che la stima b̂ soddisfa simultaneamente le equazioni: XT y = XT ŷ (2.2) da cui b̂ = (XT X)−1 XT y. Sotto le ipotesi del modello di regressione, le stime mediante metodo dei minimi quadrati hanno proprietà ottimali. Inoltre, se la distribuzione della variabile casuale Y condizionata alle esplicative è normale, lo stimatore b̂ coincide con quello ottenuto con il metodo della massima verosimiglianza. Nel contesto in studio, la v.c. di risposta è binaria. Se codifichiamo i valori che essa assume in 0 e 1, la Y ha una distribuzioni di Bernoulli. In tal caso, volendo mantenere il parallelismo con il modello di regressione semplice (2.1, sorgono alcuni problemi: ⇒ Il valore atteso condizionato E(Y | X = x) = π(x) = P (Y = 1 | X = x) è una probabilità, pertanto compresa fra 0 e 1. Se non introduciamo vincoli sui parametri a e b, il modello di regressione lineare non assicura che il valore atteso sia compreso in questo intervallo, anzi per valori x sufficientemente grandi, o sufficientemente piccoli, può verificarsi che π(x) < 0 oppure π(x) > 1. Di conseguenza, il modello può essere valido in un intervallo ristretto di valori della esplicativa x in cui π(x) è compreso fra 0 e 1. Anche in questo caso, tuttavia, l’ipotesi di linearità nell’andamento di π(x) può non essere rispettata per valori di π(x) vicini a 0 e 1. In molti fenomeni, in particolare quelli economici, infatti, l’incremento di π(x) varia con x e tende a diminuire nei dintorni dei valori limite. E.Stanghellini – Dispense di Statistica IV 27 ⇒ La varianza condizionata dipende da x, essendo V ar(Y | X = x) = π(x)[1 − π(x)]. Essa tende a zero nei valori di X in cui π(x) tende a zero e ad uno. Inoltre è massima nei valori di x in cui π(x) = 0.5. Questo fatto comporta che le stime del modello di regressione lineare ottenute mediante il metodo dei minimi quadrati ordinari non hanno proprietà ottimali. Per tutti questi motivi nell’ambito del credit scoring il modello di regressione lineare non può essere utilizzato, ed occorre considerare una classe di modelli diversa. 2.4 Il modello logistico semplice Sia Y una variabile risposta con distribuzione Bernoulli e X una variabile esplicativa. Si indichi con π(x) = P (Y = 1 | X = x) = 1 − P (Y = 0 | X = x). Pertanto: π(0) = P (Y = 1 | X = 0) e π(1) = P (Y = 1 | X = 1). Si indichi con logit[π(x)] la grandezza: P (Y = 1 | X = x) . P (Y = 0 | X = x) Essa è il logaritmo dell’odds di Y condizionato a X e varia fra −∞ e +∞; vale 0 quanto la probabilità condizionata di successo è 0.5. Il modello logistico semplice è il seguente: logit[π(x)] = log logit[π(x)] = log π(x) = α + βx. 1 − π(x) Come si può agevolmente verificare, se β > 0 allora π(x) tende ad 1 al crescere di x. Altrimenti, se β < 0 allora π(x) tende ad 0 al crescere di x. Se β = 0 allora π(x) è costante rispetto a x, ovvero Y e X sono indipendenti. Risolvendo rispetto a π(x): π(x) = exp(α + βx) . 1 + exp(α + βx) Questo modello è detto di regressione logistica, o anche modello logistico. L’interpretazione di α e β varia a seconda della natura di X. ⇒ (a) Se X è continua possiamo calcolare dπ(x)/dx = βπ(x)(1 − π(x)) che esprime la velocità con cui la π(x) tende a 0 o ad 1. Si può 28 E.Stanghellini – Dispense di Statistica IV 1 0.9 0.8 0.7 π (x) 0.6 0.5 0.4 0.3 0.2 0.1 0 −20 −15 −10 −5 0 x 5 10 15 20 Figura 2.1: Un esempio di funzione logistica con α = 0.7 e β = 0.5. osservare che la velocità con cui tende a 0 è la stessa con cui tende a 1. Inoltre, il punto più ripido della curva è in corrispondenza della x t.c. π(x) = 0.5. Questo punto è dato da −α/β. In Figura 2.1 è riportato il grafico di una funzione logistica con α = 0.7 e β = 0.5. ⇒ (b) Supponiamo adesso che X sia binaria. Si codifichino i livello della X con 0 e 1. Avremo: π(x) = α + βx. 1 − π(x) Questo è in realtà un modo sintetico di scrivere le due equazioni: logit[π(x)] = log logit[π(0)] = log logit[π(1)] = log π(0) =α 1 − π(0) π(1) = α + β. 1 − π(1) E.Stanghellini – Dispense di Statistica IV 29 Il parametro α è il logaritmo dell’odds di Y nel livello 0 di X, inoltre β è il log dell’cpr della tabella 2 × 2 di Y contro X, ovvero cpr(Y, X) = eβ . Infatti sottraendo la prima equazione dalla seconda, si ottiene: logit[π(1)] − logit[π(0)] = β. Infatti, ricordando che logit[π(1)] = log P (Y = 1 | X = 1) P (Y = 1, X = 1) = log P (Y = 0 | X = 1) P (Y = 0, X = 0) logit[π(0)] = log P (Y = 1 | X = 0) P (Y = 1, X = 0) = log P (Y = 0 | X = 0) P (Y = 0, X = 0) e che il risultato segue. Se β è positivo (negativo), la probabilità P (Y = 1 | X) nel passare dal valore X = 0 al valore X = 1 aumenta (diminuisce). Si noti che il modello precedente ricostruisce perfettamente le probabilità della distribuzione congiunta di Y e X. Questo pertanto è un modello saturo, ovvero non impone nessuna semplificazione. Se β = 0, allora cpr(Y, X) = 0 e, come visto nel capitolo precedente, Y e X sono indipendenti, ovvero non vi è in X nessuna informazione sulla v.c. Y . ⇒ (c) Il modello di regressione logistico si estende al caso in cui la variabile esplicativa è categorica con I livelli, che codifichiamo con {0, 1, . . . , r, . . . I − 1}. Si indichi, per semplicità, con π(r) = P (Y = 1 | X = r). Il modello può pertanto scriversi nel modo seguente: π(0) logit[π(0)] = log 1−π(0) =α π(r) = α + βr r ∈ {1, . . . , I − 1} logit[π(r)] = log 1−π(r) con βr il log del cpr della sottotabella: X Y 0 1 0 pY X (0, 0) pY X (1, 0) r pY X (0, r) pY X (1, r) (2.3) 30 E.Stanghellini – Dispense di Statistica IV Una espressione equivalente del modello (2.3) usa le variabili dummy. Sia Xr una variabile casuale binaria che assume valore 1 se la v.c. categorica assume valore r e 0 altrimenti, r ∈ {1, . . . , I − 1}. Il modello è logit[π(x1 , x2 , . . . , xI−1 )] = α + β1 x1 + β2 x2 + . . . + βI−1 xI−1 . La scelta della parametrizzazione del modello logistico non è unica. Quella qui presentata, detta d’angolo, è quella maggiormente utilizzata dai software statistici che stimano il modello logistico. Il nome deriva dal fatto che una modalità viene presa come riferimento, e i parametri relativi alle altre modalità rappresentano la distanza da questa. Si osservi che esiste sempre un modello che ricostruisce perfettamente le probabilità della distribuzione congiunta di (Y, X). Questo modello è detto saturo ed ha tutti i parametri diversi da zero. Tuttavia l’obiettivo dell’analisi statistica è trovare delle regolarità nella descrizione delle associazioni verificando se alcuni parametri possono essere posti uguale a zero senza perdita di informazione. Ad esempio, se tutti i βr sono uguali a zero, allora logit[π(r)] = α per ogni r ∈ {1, . . . , I−1} e pertanto Y e X sono indipendenti. Di conseguenza, la classificazione delle unità secondo la variabile X è ridondante e non aggiunge informazioni sulla variabile Y . 2.4.1 La forma matriciale Il modello logistico semplice può essere scritto in forma matriciale, attraverso la costruzione della matrice del disegno X. Nel caso in cui la la variabile esplicativa sia continua, questa coincide con quella del modello di regressione classico. Illustriamo con un esempio il caso in cui questa è categorica. Esempio 2.1 Si abbia la seguente tabella di contingenza doppia: E.Stanghellini – Dispense di Statistica IV 31 X Totale Y 0 1 2 0 pY X (0, 0) pY X (0, 1) pY X (0, 2) pY (0) 1 pY X (1, 0) pY X (1, 1) pY X (1, 2) pY (1) Totale pX (0) pX (1) pX (2) 1 Si indichino i livelli della X attraverso due variabili dummy e si crei il vettore dei logit in ogni livello della X, come la seguente tabella mette in evidenza. logit[π(i)] logit[π(x2 , x3 )] logit[π(1)] logit[π(0, 0)] logit[π(2)] logit[π(1, 0)] logit[π(3)] logit[π(0, 1)] Parametri α α + β1 α + β2 La configurazione precedente suggerisce una forma matriciale. Si ponga: logit[π(0, 0)] η = logit[π(1, 0)] . logit[π(0, 1)] Vi si associ la matrice X del disegno cosı̀ costruita: 1 0 0 X = 1 1 0 . 1 0 1 Sia β T = {α, β1 , β2 }. Il modello si può riscrivere come: η = X β. 2.5 Il modello logistico con due variabili esplicative Si distinguono i casi a seconda della natura delle variabili esplicative. Si hanno due casi di interesse. 32 E.Stanghellini – Dispense di Statistica IV ⇒ (a) Le Xj sono una v.c. continua e una v.c. binaria. Sia X1 la variabile binaria. Un primo modello è il seguente: logit[π(x1 , x2 )] = α + β1 x1 + β2 x2 che implica, nel caso in cui X1 = 0, logit[π(0, x2 )] = α + β2 x2 e, nel caso in cui X1 = 1: logit[π(1, x2 )] = α + β1 + β2 x2 . L’interpretazione del modello è la seguente: vi è un effetto della v.c. X1 e un effetto della v.c. X2 . L’effetto della prima ha come conseguenza quella di innalzare (se β1 è positivo, abbassare altrimenti) la retta che spiega l’andamento del logit. Infatti: logit[π(1, x2 )] − logit[π(0, x2 )] = β1 . La pendenza della retta, tuttavia, che descrive la dipendenza del logit rispetto a X2 è costante e pari a β2 nei due valori X1 . Questo modello contiene solo gli effetti principali delle variabili esplicative. In Figura 2.2 è presentato il grafico delle due rette per α = 0.2, β1 = 0.4 e β2 = 0.02. Un modello più complesso del precedente contiene anche le interazioni ed è costruito nel seguente modo. Si crei una variabile x3 data dal prodotto della x1 ∗ x2 . Cosı̀ costruita, x3 vale 0 se X1 = 0 e x2 se X1 = 1. Il modello sarà allora: logit[π(x1 , x2 )] = α + β1 x1 + β2 x2 + β3 x3 . Esso è un modo sintetico di scrivere le due equazioni: logit[π(0, x2 )] = α + β2 x2 nel caso in cui X1 = 0, e: E.Stanghellini – Dispense di Statistica IV 33 2 1.8 1.6 logit π(1,x )=α+β +β x logit π(x1,x2) 1.4 2 1 2 2 1.2 1 logit π(0,x )=α+β x 2 2 2 0.5 x2 0.6 0.8 0.6 0.4 0.2 0 0 0.1 0.2 0.3 0.4 0.7 0.8 0.9 1 Figura 2.2: Un esempio di modello logistico con α = 0.2, β1 = 0.4 e β2 = 0.02. logit[π(1, x2 )] = α + β1 + β2 x2 + β3 x2 altrimenti. La pendenza della retta che descrive l’andamento del logit rispetto a X2 nella popolazione con X1 = 1 è pertanto β2 + β3 . L’interpretazione del modello è la seguente: vi è un effetto di X1 e un effetto di X2 . L’effetto di X1 ha come conseguenza sia quella di innalzare (se β1 è positivo, abbassare altrimenti) la retta che spiega l’andamento del logit, sia quella di aumentarne la pendenza (se β3 è positivo, diminuirne altrimenti). Infatti: logit[π(1, x2 )] − logit[π(0, x2 )] = β1 + β3 x2 . Nel grafico del modello, a differenza di quello in Figura 2.2, le due rette che descrivono l’andamento del logit rispetto alla x2 non sono parallele. Quando l’effetto di una variabile sulla variabili risposta si modifica in conseguenza del variare di una seconda variabile si dice che vi è una 34 E.Stanghellini – Dispense di Statistica IV interazione di primo ordine. Il coefficiente β3 è detto coefficiente di interazione. ⇒ (b) Le Xj sono due v.c. binarie. Nel caso di due variabili esplicative binarie X1 e X2 , i dati possono essere sintetizzati da una tabella 2 × 2 × 2. Il modello logistico con solo gli effetti principali può scriversi anche nel modo seguente: logit[π(x1 , x2 )] = α + β X1 x1 + β X2 x2 . (2.4) Per l’interpretazione dei coefficienti si seguono le linee già delineate. Avremo: logit[π(1, m)] − logit[π(0, m)] = β X1 per ogni m = {0, 1} ovvero, β X1 è il logaritmo del rapporto dei prodotti incrociati nelle due tabelle individuate dai valori di X2 . Infatti, supponiamo m = 0: β X1 = logit[π(1, 0)] − logit[π(0, 0)] e pertanto β X1 = log P (Y = 1 | X1 = 0, X2 = 0) P (Y = 1 | X1 = 1, X2 = 0) − log . P (Y = 0 | X1 = 1, X2 = 0) P (Y = 0 | X1 = 0, X2 = 0) Moltiplicando per P (X1 = 1 | X2 = 0) il numeratore e il denominatore della prima frazione e per P (X1 = 0 | X2 = 0) il numeratore e il denominatore della seconda, si ottiene: β X1 = log P (Y = 1, X1 = 1 | X2 = 0)P (Y = 0, X1 = 0 | X2 = 0) P (Y = 0, X1 = 1 | X2 = 0)P (Y = 1, X1 = 0 | X2 = 0) da cui β X1 = log cpr(Y, X1 | X2 = 0). Come la precedente equazione mette in evidenza, β X1 è il logaritmo del cpr nella sottotabella in cui X2 = 0. Ponendo m = 1 si arriva, E.Stanghellini – Dispense di Statistica IV 35 attraverso analoghi passaggi, a verificare che β X1 è il logaritmo del cpr nella sottotabella in cui X2 = 1. Per simmetria, il coefficiente β X2 si presta alll interpretazione analoga, di logaritmo del cpr nella sottotabella in cui X1 = 0 e, anche, di logaritmo del cpr nella sottotabella in cui X1 = 1. Da quanto detto, il modello precedente implica che l’effetto di X1 su Y non varia al variare della X2 e, analogamente, l’effetto di X2 su Y non varia al variare di X1 . Questa ipotesi è spesso irrealistica. Per fare questo occorre inserire un ulteriore coefficiente nel modello, come spiega il prossimo esempio. Esempio 2.2 Si consideri il seguente modello logistico con due variabili esplicative binarie X1 e X2 : logit[π(x1 , x2 )] = α + β X1 x1 + β X2 x2 + β X1 X2 x1 × x2 . (2.5) Come la seguente tabella mette in evidenza, il modello è saturo. logit[π(x1 , x2 )] logit[π(0, 0)] logit[π(1, 0)] logit[π(0, 1)] logit[π(1, 1)] Parametri α α + β X1 α + 0 + β X2 α + β X1 + β X2 + β X1 X2 In questo modello: logit[π(1, 0)] − logit[π(0, 0)] = β X1 da cui deriva che β X1 è il logaritmo del cpr(Y, X1 | X2 = 0). Inoltre, logit[π(1, 1)] − logit[π(0, 1)] = β X1 + β X1 X2 = log cpr(Y, X1 | X2 = 1) Di conseguenza: log cpr(Y, X1 | X2 = 1) = β X1 X2 . cpr(Y, X1 | X2 = 0) 36 E.Stanghellini – Dispense di Statistica IV Ma, per simmetria, log cpr(Y, X2 | X1 = 0) = β X1 X2 . cpr(Y, X2 | X1 = 1) Pertanto, β X1 X2 è il parametro che esprime l’effetto su Y dovuto all’interazione di X1 e X2 . 2.6 In generale: il modello logistico multiplo Analogamente al modello di regressione lineare, il modello di regressione logistico si estende al caso multiplo. Sia X un vettore di v.c. p-dimensionale che assume valori x = (x1 , x2 , . . . , xp )T . Sia π(x) = P (Y = 1 | x). Il modello logistico multiplo ha la seguente espressione: logit[π(x)] = log π(x) = α + β 1 x1 + . . . + β p xp 1 − π(x) da cui: P (Y = 1 | x) = π | x) = exp(α + β1 x1 + . . . + βp xp ) 1 + exp(α + β1 x1 + . . . + βp xp ) e anche: P (Y = 0 | x) = 1 . 1 + exp(α + β1 x1 + . . . + βp xp ) Anche in questo caso, l’interpretazione dei coefficienti varia a seconda della natura delle variabili in X. Nel caso in cui le variabili in X siano continue, il coefficiente βj esprime come varia il logit di Y ad una variazione unitaria di Xj , mantenendo costanti le altre variabili. Più difficile invece è l’interpretazione dei coefficienti nel caso in cui le variabile esplicative sono categoriche. Allo scopo di introdurre gradualmente il lettore, si inizia dalla situazione più semplice, in cui si hanno variabili esplicative binarie. ⇒ (c) Le Xj sono p variabili casuali binarie con p > 2. E.Stanghellini – Dispense di Statistica IV 37 Supponiamo di avere tre v.c. variabili binarie X1 , X2 , X3 . Un possibile modello è il seguente: logit[π(x1 , x2 , x3 )] = α + β X1 x1 + β X2 x2 + β X3 x3 + β X1 X2 x1 x2 . (2.6) Questo modello implica che: logit[π(x1 , x2 , 1)] − logit[π(x1 , x2 , 0)] = β X3 ovvero, il rapporto dei prodotti incrociati fra Y e X3 è costante in tutte le 2 × 2 tabelle condizionate congiuntamente a X1 e X2 . Inoltre: log cpr(Y, X1 | X2 = 1, X3 = 0) cpr(Y, X1 | X2 = 1, X3 = 1) = β X1 X2 = cpr(Y, X1 | X2 = 0, X3 = 0) cpr(Y, X1 | X2 = 0, X3 = 1) ovvero, il rapporto dei prodotti incrociati fra Y e X1 varia al variare di X2 ma è costante rispetto a X3 . Pertanto, β X1 X2 è il parametro che esprime l’effetto su Y dovuto alla interazione fra X1 e X2 . Tale parametro non dipende dai livelli di X3 , ovvero non varia se X3 assume valore 0 o 1. Il modello saturo con tre variabili esplicative binarie avrà ¡3un ¢ parametro Xj α; 3 parametri β che esprimono gli effetti principali; 2 parametri di interazione doppia e un parametro di interazione tripla. In tal caso, ogni combinazione (x1 , x2 , x3 ) delle variabili esplicative esprime un diverso valore atteso della variabile casuale Y . Con un generico numero p di v.c. binarie la determinazione dei parametri di un modello saturo può farsi di conseguenza. ⇒ (d) Caso in cui le Xj sono p variabili sono categoriche. La teoria precedente permette di estendere abbastanza agevolmente l’interpretazione del modello logistico multiplo al caso generico di p variabili esplicative categoriche. Il modello 2.6 può scriversi alternativamente: X1 X2 X2 logitπ(k, m, r) = α + βkX1 + βm + βrX3 + βkm in cui, per evitare la ridondanza fra parametri, si impone che β0X1 = X1 X2 β0X2 + β0X3 = 0 e anche βkm = 0 in ogni configurazione (k, m) in cui 38 E.Stanghellini – Dispense di Statistica IV k = 0 oppure m = 0. Questo permette di scrivere l’equazione di un modello con un numero generico di variabili esplicative categoriche. Ad esempio, si consideri il seguente modello con quattro variabili esplicative: X1 X2 X1 X4 X2 + βkl . logit[π(k, m, r, l)] = α + βkX1 + βm + βrX3 + βlX4 + βkm Esso implica che tutte le variabili hanno un effetto sulla Y ; l’effetto della variabile X1 varia con X2 ; l’effetto della variabile X1 varia con X4 ; infine l’effetto di X3 non varia al variare delle altre variabili. Per convenzione si assegna valore zero a tutti i parametri relativi a configurazioni delle X che coinvolgono le modalità 0 di riferimento. 2.6.1 La forma matriciale Anche il modello logistico multiplo può essere scritto in forma matriciale, attraverso la costruzione della matrice del disegno X. Sia η il vettore dei logit nella tabella ottenuta attraverso la classificazione congiunta delle variabili esplicative. Avremo: η = Xβ in cui X è la matrice del disegno. Si comprende quindi che il numero di parametri del modello coincide con il rango della matrice X, ovvero con il numero di colonne linearmente indipendenti nella matrice del disegno. Si veda l’Esercizio 2.5 per la forma matriciale del modello (2.5). 2.7 La stima mediante massima verosimiglianza Si indichi con xi il vettore riga delle variabili esplicative associato alla i-esima cella della tabella di contingenza ottenuta dalla classificazione congiunta delle unità secondo le variabili esplicative. Le variabili in xi , xij , sono continue o variabili dummy di variabili categoriche e delle loro interazioni. Siano N le celle della tabella cosı̀ ottenuta. Per ogni cella i si hanno ni osservazioni di cui wi sono successi. Si scriva il modello di regressione logistico nella seguente forma: logitπ(xi ) = p X j=1 βj xij (2.7) E.Stanghellini – Dispense di Statistica IV 39 in cui si è posto α = β1 e xi1 = 1. Si assume che ogni cella sia una estrazione di una v.c. binomiale relativa Wi di dimensione ni e valore atteso π(xi ). La funzione di probabilità nella cella i-esima è pertanto pari a µ ¶ ni π(xi )wi [1 − π(xi )]ni −wi wi con P exp( pj=1 βj xij ) P π(xi ) = . (2.8) 1 + exp( pj=1 βj xij ) e 1 Pp 1 − π(xi ) = . 1 + exp( j=1 βj xij ) Si indichi con li (β) la log-verosimiglianza della i-esima estrazione. Questa è proporzionale alla seguente espressione: li (β) = wi log π(xi ) + (ni − wi ) log[1 − π(xi )] (2.9) in cui wi è la somma dei successi in ogni cella i. Per N P estrazioni indipendenti, la log-verosimiglianza del campione L = i li è proporzionale alla seguente: X {wi log π(xi ) + (ni − wi ) log[1 − π(xi )]} L(β) = i da cui: L(β) = X i X π(xi ) wi log ni log [1 − π(xi )] . + 1 − π(xi ) i (2.10) Notando che X X X X X π(xi ) wi log = wi ( βj xij ) = βj ( wi xij ) 1 − π(x ) i i i j j i avremo L(β) = X j βj à X i ! wi xij − X i " ni log 1 + exp à X j !# βj xij . 40 E.Stanghellini – Dispense di Statistica IV La stima di massima verosimiglianza si ottiene uguagliando a zero le derivate parziali ∂L(β)/∂βj . Essendo P X ∂L(β) X exp( k βk xik ) P wi xij − ni xij = ∂βj 1 + exp( k βk xik ) i i il sistema di equazioni di verosimiglianza è pertanto X X wi xij − xij ni π̂(xi ) = 0 , j = {1, . . . , p} i (2.11) i in cui π̂(xi ) è la probabilità di successo stimata, ottenuta sostituendo in (2.8) le stime β̂j e ni π̂(xi ) sono le frequenze teoriche, ovvero stimate dal modello. Se con X indichiamo adesso la matrice di dimensioni N × p con righe xi e con w indichiamo il vettore N × 1 di elementi wi e con ŵ il vettore N × 1 di elementi ni π̂(xi ), possiamo riscrivere le equazioni di verosimiglianza in forma matriciale: XT w = XT ŵ. Si noti l’analogia con la (2.2). Tuttavia, a differenza del modello di regressione lineare, in questo caso il sistema non ha soluzione esplicita, tranne nel caso non interessante in cui il modello è un modello saturo. In tutti gli altri casi, la massimizzazione della funzione di verosimiglianza si ottiene attraverso algoritmi iterativi. Gli algoritmi di massimizzazione della funzione di verosimiglianza maggiormente utilizzati nei software statistici sono il Newton-Raphson o il Fisher scoring (si veda, ad esempio, Tanner, 1996, cap. 2). Le stime di massima verosimiglianza esistono e sono uniche, ad eccezione di alcuni casi in cui vi è una relazione deterministica fra Y e le esplicative. Si osservi che, al crescere del numero N di righe della matrice, diminuisce il numero dei successi osservati wi per ogni cella i sui quali si basano le equazioni di verosimiglianza. Di conseguenza, le stime diventano meno accurate. Si noti infine che un modo alternativo di scrivere il modello è quello di vedere il campione nel seguente modo. Per ogni cella i si hanno ni estrazioni di una v.c. Yi con distribuzione di Bernoulli. Si verifica agevolmente che la funzione di verosimiglianza in questo secondo modello è proporzionale a quella scritta precedentemente a meno di un E.Stanghellini – Dispense di Statistica IV 41 fattore costante e, pertanto, le stime di massima verosimiglianza dei due modelli coincidono. La massima verosimiglianza non è l’unica tecnica di stima dei parametri del modello logistico. Tecniche alternative sono il metodo dei minimi quadrati ponderati o le stime attraverso metodi bayesiani. 2.7.1 Matrice di varianze e covarianza asintotica Gli stimatori β̂ ottenuti attraverso il metodo di stima della massima verosimiglianza hanno una distribuzione asintotica normale con matrice di varianza e covarianza data dalla inversa della matrice di informazione. La stima della matrice delle varianze e covarianze degli stimatori di massima verosimiglianza si ottiene invertendo la matrice di informazione osservata, il cui generico elemento è, pertanto: ∂ 2 L(β) − = ∂βa ∂βb P P X x x n exp( ia ib i i j βj xij ) P =− xia xib ni π(xi )[1 − π(xi )]. [1 + exp( j βj xij )]2 i Di conseguenza: ˆ cov(β) = {XT diag[ni π̂(xi )(1 − π̂(xi )]X}−1 in cui diag[ni π̂(xi )(1 − π̂(xi )] è una matrice diagonale di dimensioni ˆ N × N . La radice quadrata degli elementi sulla diagonale di cov(β) fornisce gli errori standard degli stimatori β̂. Come vedremo, queste informazioni, ed altre che adesso andiamo ad introdurre, sono fornite nell’ output di ogni software statistico per la stima del modello di regressione. Questi risultati permettono, oltre che di verificare ipotesi sui coefficienti del modello di cui parleremo un seguito, la costruzione di intervalli di confidenza per i parametri β del modello. Dal punto di vista teorico, la costruzione segue da vicino quella degli intervalli di confidenza dei parametri di un modello di regressione. 2.8 Verifica d’ipotesi Come abbiamo detto, ogni analisi statistica mira a evidenziare il modello o i modelli più parsimoniosi nella classe dei modelli che spiegano 42 E.Stanghellini – Dispense di Statistica IV bene i dati osservati. Il modello che meglio spiega i dati osservati è il modello saturo che ha tanti parametri quante le celle i della tabella di contingenza e ricostruisce perfettamente le osservazioni. La funzione di verosimiglianza del modello saturo è la massima possibile. Tuttavia, il modello saturo non distingue gli effetti dovuti al campionamento da quelli presenti nella popolazione e come tale non può essere considerato un modello soddisfacente. La teoria che andiamo ad esporre permette di valutare mediante un test statistico se un modello ridotto possa essere considerato adeguato. 2.8.1 Verifica di ipotesi sul modello I test G2 che qui presentiamo consente di effettuare un confronto fra un modello ridotto e il modello saturo. Sia M1 il modello saturo e M0 un secondo modello con M0 contenuto in M1 , ovvero ottenuto ponendo a zero alcuni parametri di M1 . Si vuole verificare l’ipotesi che il campione osservato è stato estratto dal modello M0 , contro l’ipotesi alternativa che il campione osservato è stato estratto dal modello M1 . In simboli, sia H0 : il modello vero è M0 e H1 : il modello vero è M1 . Un primo test è basato sulla distanza dei logaritmi della funzione di verosimiglianza dei due modelli ed è noto come test del rapporto di verosimiglianze. Sia L0 il logaritmo della verosimiglianza sotto H0 e L1 il logaritmo della verosimiglianza sotto H1 . La seguente statistica, nota come devianza,: X· ¸ w (n − w ) i i i G2 = −2(L0 − L1 ) = 2 wi log + (ni − wi )log n π̂(x ) ni − ni π̂(xi ) i i i (2.12) è piccola se le due verosimiglianze sono vicine e grande altrimenti. L’espressione deriva dalla (2.9) e dal fatto che nel modello saturo, in ogni riga i, le frequenze teoriche di successo, ni π̂(xi ), e di insuccesso, ni − ni π̂(xi ) coincidono con quelle osservate. Indicando con ¸ · (ni − wi ) wi + (ni − wi )log di = 2 wi log ni π̂(xi ) ni − ni π̂(xi ) E.Stanghellini – Dispense di Statistica IV 43 la devianza può anche riscriversi come X 2 G = di . i √ I termini di sign[wi −ni π̂(xi )] sono detti residui della devianza. Essi saranno tanto più piccoli tanto più le frequenze teoriche si avvicinano a quelle osservate. Se le variabili in X sono tutte categoriche, al tendere di ni all’infinito in ogni cella i della tabella di contingenza, la grandezza tende a distribuirsi, sotto H0 , come una χ2 con gradi di libertà pari alla differenza fra il numero dei parametri in M1 e il numero dei parametri in M0 . Molti software statistici stampano il valore della devianza del modello e il p-value associato a questo test, ovvero la probabilità di ottenere, sotto l’ipotesi H0 , un valore maggiore o uguale della statistica test osservata. Se questo è elevato (ad esempio ≥ 0.05) la statistica test cade nella zona di accettazione di H0 e pertanto si può accettare il modello ridotto M0 . Nel caso in cui, invece, alcune delle variabili in X siano continue, il numero delle celle della tabella di contingenza ottenuta dalla classificazione congiunta delle variabili esplicative cresce con la numerosità del campione e la distribuzione distribuzione asintotica della statistica non è più una χ2 . In tale caso, è preferibile utilizzare altri test (quale ad esempio il test di Hosmer e Lemeshow che qui non trattiamo). ⇒ In molti casi, si vuole effettuare in confronto fra due modelli, M1 e M2 entrambi diversi dal modello saturo e tali che M2 è ottenuto da M1 ponendo a zero alcuni dei parametri. Tale confronto viene effettuato utilizzando come statistica test la differenza delle devianze fra i due modelli. Indicando con L1 e G21 rispettivamente la log-verosimiglianza e la devianza del modello M1 e con L2 e G22 le analoghe grandezze del modello M2 , la statistica test è data dalla differenza: G22 − G21 = −2(L2 − L1 ). Anche questo test è basato sul rapporto delle verosimiglianze. La distribuzione asintotica della statistica è una χ2 con gradi di libertà pari alla differenza dei parametri dei due modelli o, analogamente, alla differenza dei gradi di libertà delle rispettive devianze. In questo caso, 44 E.Stanghellini – Dispense di Statistica IV l’approssimazione risulta buona anche per tabelle sparse e per dati continui. Una situazione di interesse è quella in cui il modello postulato nell’H0 contiene solo l’intercetta ovvero postula la indipendenza della risposta Y dalle variabili esplicative. Si noti che, a differenza dei test precedenti, in cui l’obiettivo è quello di accettare il modello ridotto e quindi accettare l’ipotesi nulla, in questo caso l’obiettivo è rifiutare l’ipotesi nulla a favore di un modello più sofisticato. 2.8.2 Verifica d’ipotesi sull’effetto di una variabile Il test del rapporto di verosimiglianza viene utilizzato in situazioni in cui si vuole valutare se un termine di interazione fra due o più variabili ha un’influenza significativa sulla probabilità π(xi ) oppure può essere trascurato. Inoltre, si utilizza anche per valutare se gli effetti principali di una variabile esplicativa sono significativi. In questa situazione il modello postulato nell’H0 è derivato da quello dell’ H1 imponendo uguale a zero il vettore dei parametri che rappresentano gli effetti in studio. Si noti che un modello in cui la esplicativa Xj non ha effetti principali, ma tuttavia ha interazioni con le altre esplicative è poco interpretabile. Pertanto, è buona prassi imporre inizialmente a zero gli effetti di interazione di una variabile Xj con le altre. Se questi non sono significativi, allora si procede a valutare la significatività dei parametri X βr j che esprimono gli effetti principali. Ad ogni passo, la statistica test basata sulla differenza delle devianze ha distribuzione asintotica χ2 con gradi di libertà pari al numero dei parametri posti uguali a zero. 2.8.3 Test sul singolo coefficiente In alcuni casi, specialmente se le variabili esplicative sono continue, può essere di interesse sottoporre a verifica l’ipotesi che un unico parametro sia pari a zero contro l’ipotesi alternativa che esso sia diverso da zero. In tale caso si pone H0 : βj = 0 e H1 : βj 6= 0. La teoria illustrata in precedenza può essere utilizzata anche in questo caso particolare. Un secondo test è invece basato sulla statistica test βˆj /SE(β̂j ) dove SE(β̂i ) è l’errore standard ovvero la radice quadrata del j-esimo ˆ elemento della matrice di varianze e covarianze stimata cov(β). Sotto H0 , la statistica test è asintoticamente distribuita come una N (0, 1). Molti software statistici calcolano il p-value associato. Se il p-value è alto (ad esempio ≥ 0.05) si accetta l’ipotesi nulla. ESERCIZIO 2.1 . Si costruisca la matrice del disegno del modello (2.5) e si scriva il modello in forma matriciale. SOLUZIONE ES. 2.1 Si ordinino in forma vettoriale le celle della tabella di contingenza ottenuta dalla classificazione di X1 e X2 , in modo che X1 ruota più rapidamente. Si crei il vettore R dei logit associati ad ogni cella. Ovvero: logit[π(0, 0)] logit[π(1, 0)] η= logit[π(0, 1)] . logit[π(1, 1)] Il modello saturo può pertanto essere riscritto: η = Xβ cui β = (α, β1X , β2X , β X1 X2 ) e: 1 1 X= 1 1 0 1 0 1 0 0 1 1 0 0 . 0 1