il modello lineare Dispensa per il corso di Modelli Statistici corso di laurea in Statistica e Informatica per l'Azienda, la Finanza e l'Assicurazione Dipartimento di Scienze Economiche, Aziendali, Matematiche e Statistiche “Bruno de Finetti” Università degli Studi di Trieste Docente: Francesco Pauli AA 2015/2016 versione 1.0 2 Indice 1 Introduzione 5 2 Modello di regressione lineare semplice 1 Stimatore dei minimi quadrati . . . . . . . . . . . . . . . . 1.1 Media e varianza degli stimatori dei minimi quadrati 1.2 Stimatore di σ 2 . . . . . . . . . . . . . . . . . . . . . 2 Ipotesi distributiva . . . . . . . . . . . . . . . . . . . . . . . 2.1 Stimatore di massima verosimiglianza . . . . . . . . 2.2 Distribuzione esatta degli stimatori β̂i . . . . . . . . 3 Inferenza sui coefficienti . . . . . . . . . . . . . . . . . . . . 3.1 Inferenza basata su quantità pivotali . . . . . . . . . 3.2 Verifica d’ipotesi: approccio di verosimiglianza . . . 4 Coefficiente di determinazione R2 . . . . . . . . . . . . . . . 5 Previsione col modello di regressione semplice . . . . . . . . 6 Esempio sviluppato: altezze di madri e figlie . . . . . . . . . 7 Esercizi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15 17 19 20 23 24 24 25 25 28 31 33 34 38 3 Analisi dei residui 1 Assunti del modello e residui . . . . . . . . 1.1 Proprietà dei residui . . . . . . . . . 2 Verifica delle ipotesi del II ordine . . . . . . 2.1 Diagramma di dispersione dei residui 2.2 Test di omoschedasticità . . . . . . . 3 Verifica della normalità . . . . . . . . . . . 3.1 Test di normalità . . . . . . . . . . . 3.2 Verifica grafica della normalità . . . . . . . . . . . . . . . . . . risposta . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39 39 39 42 42 44 46 46 48 . . . . . . . . . 51 53 55 56 57 58 58 62 63 63 . . . . . . . . . . . . . . . . . . . . . . . . v. esplicative . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4 Modello di regressione multipla 1 Ipotesi del modello . . . . . . . . . . . . . . . . . . . 2 Rappresentazione matriciale . . . . . . . . . . . . . . 3 Stima dei parametri . . . . . . . . . . . . . . . . . . 3.1 Stima di β . . . . . . . . . . . . . . . . . . . 3.2 Stima di σ 2 . . . . . . . . . . . . . . . . . . . 4 Interpretazione geometrica . . . . . . . . . . . . . . . 4.1 Conseguenze dell’interpretazione geometrica . 5 Distribuzione degli stimatori . . . . . . . . . . . . . . 5.1 Premessa: risultati sulla normale multivariata . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . o . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4 Indice 6 7 5.2 Distribuzione di β̂ . . . . . . . . . . . . . . . . . . . . . . . . . . 5.3 Distribuzione di σ̂ 2 . . . . . . . . . . . . . . . . . . . . . . . . . . 5.4 Distribuzione congiunta di (β̂, σ̂ 2 ) . . . . . . . . . . . . . . . . . Inferenza sul modello . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6.1 Inferenza su un singolo coefficiente basata sulla quantità pivotale 6.2 Verifica d’ipotesi sulla nullità di un gruppo di coefficienti . . . . 6.3 Verifica d’ipotesi su un gruppo di coefficienti, caso generale . . . 6.4 Interpretazione geometrica del confronto tra modelli . . . . . . . 6.5 Costruzione di regioni di confidenza . . . . . . . . . . . . . . . . Esercizi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64 64 65 65 65 66 72 74 75 83 5 Modello lineare con variabili qualitative 1 Test t a due campioni . . . . . . . . . . . . . . . . . . . 1.1 Test t in forma di regressione . . . . . . . . . . . 2 ANOVA a una via . . . . . . . . . . . . . . . . . . . . . 2.1 ANOVA come modello lineare . . . . . . . . . . . 3 ANOVA a 2 vie . . . . . . . . . . . . . . . . . . . . . . . 3.1 Modello ANOVA a due fattori senza interazione 3.2 Modello ANOVA a due fattori con interazione . . 4 ANCOVA . . . . . . . . . . . . . . . . . . . . . . . . . . 4.1 ANCOVA come modello lineare . . . . . . . . . . 5 Esercizi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85 85 87 92 95 103 107 110 113 115 120 6 Punti leva, anomali, influenti 1 Diagnostiche . . . . . . . . . . . . . 1.1 Punti leva . . . . . . . . . . . 1.2 Valori anomali . . . . . . . . 1.3 Valori influenti . . . . . . . . 1.4 Derivazione di alcune formule 2 Cause e rimedi . . . . . . . . . . . . 3 Alcolici e tabacchi in Gran Bretagna 4 Folli del Massachusetts . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 123 124 125 126 127 129 133 133 136 7 Limiti del modello lineare e cenni alle principali estensioni 1 Non linearità . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.1 Interpretazione con un modello trasformato . . . . . . 1.2 Modelli polinomiali e estensioni . . . . . . . . . . . . . 2 Non normalità . . . . . . . . . . . . . . . . . . . . . . . . . . 2.1 Ipotesi del II ordine e teorema di Gauss-Markov . . . 2.2 Trasformazioni di Box-Cox . . . . . . . . . . . . . . . 2.3 Modelli lineari generalizzati . . . . . . . . . . . . . . . 3 Eteroschedasticità . . . . . . . . . . . . . . . . . . . . . . . . 3.1 Trasformazioni per stabilizzare la varianza . . . . . . . 3.2 Minimi quadrati generalizzati . . . . . . . . . . . . . . 4 Dipendenza . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5 Multicollinearità . . . . . . . . . . . . . . . . . . . . . . . . . 5.1 Ridge regression . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 139 140 141 143 145 145 147 150 150 151 152 153 153 155 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Capitolo 1 Introduzione Il più semplice modello statistico (parametrico) è quello in cui si osserva, su n unità statistiche, una variabile Y e si suppongono le osservazioni Y1 , . . . , Yn indipendenti e identicamente distribuite, cioè realizzazioni da una comune distribuzione di probabilità individuata a mano di un parametro, la singola osservazione ha distribuzione Yi ∼ f (y; θ), θ ∈ Θ ⊂ Rd . (1.1) In altre parole, si suppone che la distribuzione della variabile Y nella popolazione sia f (y; θ0 ) per qualche θ0 ∈ Θ. L’ipotesi per cui si conosce la distribuzione di Y a meno del parametro è piuttosto forte, è allora più corretto affermare che si cerca, all’interno della famiglia di distribuzioni F = {f (y; θ); θ ∈ Θ} quella che meglio descrive il comportamento di Y ai fini dell’analisi. Esempio 1.1 Modello gaussiano. Si assume ad esempio che il campione (Y1 , . . . , Yn ) sia costituito da realizzazioni IID da una N (µ, σ 2 ), sicché θ = (µ, σ 2 ) ∈ Θ = R × R+ . Un buono stimatore per il parametro è dato da n µ̂ = Ȳ = 1X Yi n n S2 = e i=1 1 X (Yi − Ȳ )2 . n−1 i=1 Dove diciamo che lo stimatore è buono in quanto è corretto, ! n n n 1X 1X 1X E(Ȳ ) = E Yi = E(Yi ) = µ=µ n n n i=1 i=1 i=1 (analogamente, E(S 2 ) = σ 2 ) e consistente ! n n n 1X 1 X 1 X 2 σ2 V (Ȳ ) = V Yi = 2 V (Yi ) = 2 σ = → 0 n n n n n→∞ i=1 i=1 i=1 (e analogo per S 2 ), dove si ricorda che essendo lo stimatore corretto, il fatto che la varianza tende a zero è condizione sufficiente per la consistenza. 2 L’inferenza sul parametro si basa poi sul fatto che Ȳ e S 2 sono indipendenti, Ȳ ∼ N µ, σn e n−1 2 S σ2 ∼ χ2n−1 , sicché si ha la quantità pivotale t= Ȳ − µ √ ∼ tn−1 σ/ n 6 da cui si può ricavare l’intervallo di confidenza di livello 1 − α per µ, i cui estremi sono S Ȳ ± Φ−1 (1 − α/2) √ , n mentre Ȳ − µ0 −1 R = √ > Φ (1 − α/2) S/ n è la regione di rifiuto per il sistema d’ipotesi H0 : µ = µ0 ; H1 : µ 6= µ0 . • È poi il caso, solitamente, che si osservino, sulle unità statistiche, più caratteristiche (variabili). Ciascuna di esse è suscettibile di essere analizzata con un modello del tipo (1.1), è però anche possibile studiarne l’andamento congiunto. Ad esempio potrebbero essere rilevati, di n individui, peso, altezza e sesso (età), e potrebbe essere di interesse valutare 1. se il peso sia diverso, in media, tra maschi e femmine; 2. se la distribuzione del peso sia la stessa tra maschi e femmine; 3. se peso e altezza siano linearmente correlati; 4. quanto aumenti l’altezza all’aumentare dell’età... 5. ... e se la relazione tra altezza ed età sia la stessa per maschi e femmine. Ci sono vari strumenti idonei a rispondere ad alcune delle domande sopra: l’indice di dipendenza in media, l’indice χ2 di dipendenza, il coefficiente di correlazione, la regressione lineare. È anche possibile generalizzare il modello (1.1) in modo da trattare le questioni sopra, indicando con (Yi1 , . . . , Yiq ) le osservazioni, di q variabili, fatte sull’i-esima unità statistica, si assume sempre che le u.s. siano indipendenti e identicamente distribuite e IND (Yi1 , . . . , Yiq ) ∼ f (y1 , . . . , yq ; θ), θ ∈ Θ ⊂ Rd . (1.2) dove f (·; θ) rappresenta una distribuzione di probabilità (congiunta) in q dimensioni. Esempio 1.2 Normale bivariata. Osserviamo due variabili (Yi1 , Yi2 ), ad es. il peso e l’altezza, e supponiamo che abbiano distribuzione congiunta normale bivariata con parametro θ = (µ1 , µ2 , σ12 , σ22 , ρ), la densità congiunta è allora 1 − 1 2 p f (y1 , y2 ; θ) = e 2(1−ρ ) 2 2πσ1 σ2 1 − ρ y1 −µ1 σ1 2 −2ρ (y1 −µ1 )(y2 −µ2 ) + σ1 σ2 y2 −µ2 σ2 2 . Rimane definito cosı́ un modello per le marginali, Yij ∼ N (µj , σj2 ) e un modello per la dipendenza (dal modello si possono calcolare P (Y1 ∈ A∩Y2 ∈ B) per due insiemi arbitrari A e B. Se il modello riguarda peso e altezza in una popolazione si potrà valutare la probabilità che un individuo pesi più di 70kg e (contemporaneamente) sia più alto di 180cm. La relazione tra le due variabili implicata dall’ipotesi di normalità congiunta può anche essere scritta nella forma di distribuzione condizionata σ1 2 2 Yi1 |Yi2 = y2 ∼ N µ1 + ρ(y2 − µ2 ), (1 − ρ )σ1 . σ2 e, simmetricamente, con la distribuzione condizionata (Yi2 |Yi1 = y1 ). A margine, notiamo che l’ipotesi di normalità congiunta implica che la speranza matematica σ condizionata di Y1 |Y2 = y è una funzione lineare di y E(Y |X = x) = µy + ρ σxy (x − µx ) • 1. Introduzione 7 Il modello (1.2) mette tutte le variabili osservate sullo stesso piano, spesso però lo schema è più semplice, consideriamo i seguenti esempi. 1. Valutare la probabilità che dei potenziali debitori restituiscano il debito sulla base di caratteristiche individuali: reddito, situazione familiare, età, ecc. 2. Prevedere il numero di esami fatti da uno studente iscritto al primo anno sulla base di dati anagrafici, reddito, scuola di provenienza, ecc. 3. Prevedere il reddito di un individuo sulla base del sesso a parità di altre condizioni (titolo di studio, età, ecc.). 4. Valutare la pressione del sangue di un individuo con e senza la somministrazione di un farmaco tenendo conto delle sue caratteristiche individuali. 5. Valutare come varia la mortalità nella popolazione a seconda della concentrazione di inquinanti atmosferici. 6. prevedere il numero di sinistri di un assicurato (o meglio di un insieme di assicurati) sulla base delle loro caratteristiche individuali e della storia passata. Tutti gli esempi sopra ricadono in un medesimo schema: si ha una grandezza di interesse (temperatura, probabilità di restituzione, occupazione, reddito) e altre quantità concomitanti (esplicative nel seguito), si vuole determinare come la prima è influenzata dalle seconde (cioè le seconde sono di interesse pratico solo quanto al loro collegamento con la prima e non di per sè). In termini un po’ più formali, lo schema di ragionamento prevede che variabile variabili ∼ f y; ,θ (1.3) d’interesse esplicative cioè la distribuzione di probabilità (univariata) f (·) della variabile d’interesse (o variabile risposta) dipende, oltre che dal parametro, dalle variabili esplicative. Il modello ha una struttura asimmetrica ossia una variabile ha un ruolo diverso dalle altre: l’intento è spiegare (parte della) variabilità della risposta in funzione delle esplicative. Osservazione 1.1 Relazione e causalità. Nel costruire questo tipo di modelli è forte la tentazione di interpretare la relazione trovata alla stregua di un rapporto causa effetto nel senso che le variabili esplicative producono un effetto sulla variabile d’interesse. Una tale interpretazione non è giustificata dal modello di per sé, nel senso che, per quanto il modello possa essere buono (nel senso di adeguato ai dati), questo fatto da solo non permette di trarre conclusioni sul rapporto causa effetto tra le grandezze coinvolte. Una tale interpretazione è possibile solo se i dati sono ottenuti con un disegno acconcio (cosa mai vera per dati osservazionali e non sperimentali, ad esempio). Nel seguito si tratterà della costruzione, stima e validazione di modelli, tralasciando la questione dell’interpretazione causa effetto, che è un problema distinto. Nell’interpretare i risultati, si terrà dunque presente il loro significato: si valuta la relazione statistica esistente tra le variabili, non la relazione sostanziale o funzionale in termini di rapporti causaeffetto. • Gli scopi dell’analisi possono essere diversi, principalmente possiamo distinguere lo scopo previsivo, quando cioè si vuole uno strumento per prevedere il valore della variabile d’interesse noti i valori delle variabili esplicative (perché ad esempio queste sono più facili da misurare o si osservano in anticipo rispetto alla risposta) e lo scopo interpretativo, quando ciò che interessa principalmente è stabilire quali tra le esplicative abbiano una più forte relazione con la risposta e in che direzione vada tale relazione. Emblematico del secondo scopo è l’esempio 3 quando l’obiettivo sia determinare se vi sia disparità di trattamento tra i sessi, emblematici del primo scopo sono gli esempi 1 e 6 quando l’obiettivo sia scegliere, tra i potenziali clienti, a chi concedere un prestito. 8 Unità nel campione 1 2 .. . i .. . n Variabili osservate Y1 Y2 .. . Yi .. . Yn variabile d’interesse (risposta o dipendente) x11 x21 .. . xi1 .. . xn1 primo regressore ... ... x1p x2p ... ... ... xip ... ... ... ... ... xnp ultimo regressore (esplicative o indipendenti) Tabella 1.1: Campione tipo, i diversi simboli usati per le variabili (Y e x) ne riflettono il diverso ruolo: la variabile risposta ha un ruolo stocastico nel modello, le variabili esplicative sono considerate fisse Per formalizzare più precisamente il problema presentato sin qui in termini generali cominciamo col formalizzare la base informativa dicendo che di n unità statistiche, si sono osservate diverse caratteristiche, tradotte in p + 1 variabili (non necessariamente numeriche), si ha cioè un insieme di dati genericamente rappresentabile come nella tabella 1.1. Detta Y la variabile risposta e xj , j = 1, . . . , p, le variabili esplicative il modello (1.3) può essere scritto IND Yi ∼ f (yi ; xi1 , . . . , xip , θ), (1.4) dove i = 1, . . . , n indica l’unità statistica. Si noti che l’espressione (1.4) non ricomprende tutte le possibili relazioni asimmetriche, è anche troppo generale per i nostri fini ma non è del tutto generale. Una prima semplificazione della (1.4) si ha supponendo che l’errore sia additivo IND h(Yi ) = g(xi1 , . . . , xip ; θ) + εi , εi ∼ f (·; θ) (1.5) dove h(·) è una funzione nota, g(·) è una funzione da stimare (nota a meno di un parametro) e ε è la componente casuale. Infine, il modello lineare è un’ulteriore particolarizzazione dell’espressione (1.5) in cui IND h(Yi ) = β1 g1 (xi1 ) + . . . βp gp (xip ) + εi , εi ∼ f (·; θ), (1.6) dove sia h che g1 , . . . , gp sono funzioni note e β1 , . . . , βp sono parametri da stimare e la distribuzione f è la normale di media nulla. Ad esempio, sono modelli lineari √ yi = β1 + β2 x2i2 + β3 xi3 + εi , log(yi ) = β1 + β2 xi2 + β3 xi3 + εi , Introduciamo nel seguito alcuni esempi di insiemi di dati, dei quali tratteremo anche nel seguito. Esempio 1.3 Ciliegi neri. Per 31 alberi di ciliegio nero si sono osservati il diametro del tronco (misurato a una fissata altezza da terra), l’altezza e il volume di legno ottenuto dopo l’abbattimento dell’albero stesso. I dati sono riportati nella tabella all’interno della figura 1.1. 1. Introduzione 9 8 10 12 14 16 18 20 ● 70 ● volume ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● 10 ● ● ● ● ● ● ● ● ● ● ●●● ● ● ● ● ● diametro ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● altezza ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● 75 ● ● ●●● ● 80 ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ●● ● ● 85 10 12 14 16 18 20 8 ● 30 ● ● ● ● ● ● ● ● ●● ●● ● ● ● ● ● ● ● ● ● 70 ● ● ● ● ● ● 65 ● ● ● ● ● ● ● 10 30 50 70 65 70 75 80 85 80 ● 70 ●● ● 60 ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● 90 85 80 75 70 65 60 ● ● ● ● 8 10 12 14 16 18 20 altezza 50 ●●● ● 40 volume ● 30 (in piedi) 70 65 63 72 81 83 66 75 80 75 79 76 76 69 75 74 85 86 71 64 78 80 74 72 77 81 82 80 80 80 87 volume del legno (in piedi3 ) 10.3 10.3 10.2 16.4 18.8 19.7 15.6 18.2 22.6 19.9 24.2 21.0 21.4 21.3 19.1 22.2 33.8 27.4 25.7 24.9 34.5 31.7 36.3 38.3 42.6 55.4 55.7 58.3 51.5 51.0 77.0 20 altezza 10 diametro del tronco (in pollici) 8.3 8.6 8.8 10.5 10.7 10.8 11.0 11.0 11.1 11.2 11.3 11.4 11.4 11.7 12.0 12.9 12.9 13.3 13.7 13.8 14.0 14.2 14.5 16.0 16.3 17.3 17.5 17.9 18.0 18.0 20.6 ● ● 50 ●● 22 diametro Figura 1.1: Dati sui ciliegi neri Si hanno quindi tre variabili, tutte quantitative continue, in linea di principio potrei considerare diversi modelli asimmetrici, ciascuna delle tre variabili potrebbe fungere da variabile risposta. Tra questi, quelli di effettivo interesse sono quelli in cui il volume è spiegato in funzione di diametro e altezza (perché queste ultime quantità sono facili da rilevare, mentre per rilevare il volume occorre abbattere l’albero e quindi disporre di un modello per prevedere il volume ligneo prima dell’abbattimento sembra sensato). Nella figura 1.1 si danno alcune rappresentazioni grafiche che suggeriscono vi sia effettivamente un legame tra le grandezze in gioco, legame che potrebbe essere riassunto da una legge del tipo (1.6) come volume = β1 + β2 (diametro) + β3 (altezza) + errore oppure, prendendo spunto dalla geometria volume = β1 (diametro)β2 (altezza)β3 (errore) che può essere scritta nella forma (1.6) passando ai logaritmi. • Esempio 1.4 Hot dog e calorie. Di 54 confezioni di hot-dog è stato rilevato il numero di calorie per confezione. Le confezioni si distinguono per il tipo di carne, che può essere bovina, di pollame o mista. I dati sono riportati nella tabella di sinistra nella figura 1.2. Il campione, cosı̀ come presentato in figura 1.2 non è nella forma rappresentata nella tabella 1.1, tuttavia esso può essere riscritto in tale forma, come mostrato nella tabella a destra nella figura 1.1. Da quest’ultima è 160 140 Pollame 102 102 107 142 152 129 106 87 113 86 146 132 94 99 135 143 144 120 Mista 191 172 139 179 195 138 182 147 175 153 135 173 190 146 136 107 140 100 Bovina 186 149 158 148 141 157 135 181 184 139 152 153 131 132 176 190 175 111 190 149 180 10 Bovina Mista Pollame Carne Bovina Mista Pollame Bovina Mista Pollame Bovina Mista Pollame . . . Bovina Mista Pollame Bovina Mista Pollame Bovina Mista Pollame Calorie 186 191 102 181 182 106 176 190 94 . . . 149 135 152 135 140 146 132 138 144 Figura 1.2: Contenuto in calorie di 54 confezioni di hot-dog, da sinistra a destra: dati in forma di elenchi, rappresentazioni in forma di boxplot, dati nella forma di cui alla tabella 1.1 evidente che sono coinvolte due variabili, l’una quantitativa, le calorie, e una qualitativa, il tipo di carne. Ci si chiede se e in che misura l’apporto calorico sia diverso per i tre tipi di carne, si formula cioè il modello calorie = f (carne) + (errore) dove µ1 f (carne) = µ2 µ3 se carne = Bovina se carne = Pollame se carne = Mista Il modello può essere scritto nella forma (1.6) come verrà illustrato nel capitolo 5. Notiamo che il problema potrebbe essere affrontato, in termini di dipendenza in media, usando l’indice η 2 . • Esempio 1.5 Effetti del fumo sul peso dei neonati Il peso alla nascita di un bambino dipende dalla durata della gravidanza? E, a parità di durata della gravidanza, dipende dal fatto che la madre fumasse durante la gestazione? Al fine di rispondere a questi quesiti, si sono rilevati, per 32 neonati, il peso alla nascita (in grammi), la durata della gravidanza (in settimane), e la circostanza se la madre sia fumatrice o meno (S/N), i dati sono mostrati nella figura 1.3 in forma tabellare e grafica. Per quanto riguarda la prima questione il problema si può porre in questi termini peso = f (durata) + (errore) Per rispondere al secondo quesito il modello dovrebbe essere strutturato nel modo seguente peso = f (durata, fumo) + (errore) dove ( f1 (durata) se fumo = S f (durata, fumo) = f2 (durata) se fumo = N 1. Introduzione ● ● 3400 ● ● ● Madre non fumatrice Madre fumatrice ● ● 3200 Fumo ... N N N N N N N N N N N N N N N N ● ● ● ● 3000 Durata ... 38 34 40 37 40 39 39 35 41 38 42 37 39 40 35 36 peso del neonato Peso ... 3130 2450 3226 2729 3410 3095 3244 2520 3523 2920 3530 3040 3322 3459 2619 2841 ● ● 2800 Fumo S S S S S S S S S S S S S S S S ... ● 2600 Durata 38 36 39 35 42 36 39 39 42 39 38 42 41 42 41 38 ... ● ● 2400 Peso 2940 2420 2760 2440 3301 2715 3130 2928 3446 2957 2580 3500 3200 3346 3175 2740 ... 11 ● 34 36 38 40 42 durata della gravidanza Figura 1.3: Peso dei neonati, durata della gravidanza e carattere fumatore, non fumatore della madre. nella sua versione più semplice si potrebbe avere ( β1 + β2 (durata) f (durata, fumo) = β3 + β4 (durata) se fumo = S se fumo = N L’inferenza per un modello di questo tipo è illustrata nella sezione 4 del capitolo 5. • Esempio 1.6 Tempi olimpici. Disponiamo dei tempi (in secondi) impiegati dai vincitori di medaglia d’oro per percorrere i 100 metri nelle olimpiadi moderne, esclusa l’ultima. 12.0 Tempo 12.20 11.90 11.50 11.90 11.50 11.50 11.00 11.40 11.00 11.07 11.08 11.06 10.97 10.54 10.82 10.94 11.12 10.93 10.78 Tempo 12.00 11.00 11.00 11.20 10.80 10.80 10.80 10.60 10.80 10.30 10.30 10.30 10.40 10.50 10.20 10.00 9.95 10.14 10.06 10.25 9.99 9.92 9.96 9.84 9.87 9.85 9.69 11.5 Tempo migliore Atleta Elizabeth Robinson Stanislawa Walasiewicz Helen Stephens Fanny Blankers-Koen Marjorie Jackson Betty Cuthbert Wilma Rudolph Wyomia Tyus Wyomia Tyus Renate Stecher Annegret Richter Lyudmila Kondratyeva Evelyn Ashford Florence Griffith-Joyner Gail Devers Gail Devers Ekaterini Thanou Yuliya Nesterenko Shelly-Ann Fraser Atleta Tom Burke Frank Jarvis Archie Hahn Archie Hahn Reggie Walker Ralph Craig Charles Paddock Harold Abrahams Percy Williams Eddie Tolan Jesse Owens Harrison Dillard Lindy Remigino Bobby Morrow Armin Hary Bob Hayes Jim Hines Valery Borzov Hasely Crawford Allan Wells Carl Lewis Carl Lewis Linford Christie Donovan Bailey Maurice Greene Justin Gatlin Usain Bolt 11.0 10.5 10.0 9.5 9.0 1900 1920 1940 1960 1980 2000 2012 1980 2000 Anno 12.0 11.5 Tempo Anno 1928 1932 1936 1948 1952 1956 1960 1964 1968 1972 1976 1980 1984 1988 1992 1996 2000 2004 2008 Anno 1896 1900 1904 1906 1908 1912 1920 1924 1928 1932 1936 1948 1952 1956 1960 1964 1968 1972 1976 1980 1984 1988 1992 1996 2000 2004 2008 11.0 10.5 10.0 1900 1920 1940 1960 Anno Figura 1.4: Tempi olimpici Considerando dapprima i soli risultati maschili, rappresentiamo i tempi contro l’anno (figura 1.4, in alto) è evidente l’andamento decrescente, che, si ritiene generalmente, riflette il miglioramento nei materiali e delle tecniche di allenamento. Ci si può allora chiedere se l’ipotesi che negli anni 12 ci sia un miglioramento dei risultati sia supportata dai dati; di quanto si migliora ogni anno o quale potrebbe essere il risultato alla prossima olimpiade. Consideriamo poi i risultati olimpici nei 100m per uomini e donne (figura 1.4 in basso). Le due serie mostrano un andamento simile, ma su livelli diversi. Ci si chiede allora quale sia in media la differenza tra tempi maschili e femminili; se la differenza vari negli anni; se il miglioramento annuo (se c’è) sia lo stesso per uomini e donne; se le due serie possano essere spiegate in un unico modello. • Esempio 1.7 Emissioni di CO2 e ricchezza. L’anidride carbonica (CO2 ) è un gas prodotto da animali (respirazione) e alcuni batteri e da vari processi chimici (e.g. la combustione). Esso è indispensabile alla vita (ad es. è indispensabile alla fotosintesi), d’altro canto è tra i responsabili dell’effetto serra (trattenimento dell’energia solare nell’atmosfera). Si ritiene che il suo aumento (per effetto antropico) negli ultimi decenni stia portando a un aumento dell’effetto serra e quindi delle temperature. Parte delle emissioni dovute ad attività antropica sono contabilizzate e attribuite ai singoli paesi ed è interessante valutare le emissioni in relazione ad altre caratteristiche del paese. Per 188 paesi disponiamo delle emissioni di CO2 (co2, kt), del GDP (gdp, milioni di dollari USA), del GDP pro capite (gdppc, dollari USA) della popolazione; (pop, milioni di unità), un estratto dei dati a disposizione è rappresentato nella tabella 1.2. Tra le varie domande che ci si potrebbe porre: • C’è una relazione tra emissioni e ricchezza? • Quanto aumentano (in media) le emissioni per 1$ in più? • C’è una relazione tra emissioni e ricchezza a parità di popolazione? • Ricchezza e popolazione insieme possono spiegare le emissioni meglio di una sola? Dalla figura 1.5(a) si evince che sussiste una relazione tra emissioni e ricchezza, in particolare una relazione lineare nei logaritmi, come mostra il pannello (b) della figura 1.5. Per rispondere alla terza domanda si può ragionare in termini di ricchezza procapite (v. figura 1.5(c)). Rispondere all’ultima domanda richiede gli strumenti illustrati nel capitolo 4. • paese Kiribati Micronesia, Fed. Sts. Vanuatu Marshall Islands Comoros Dominica . . . Canada Germany Japan Russian Federation India United States China cod paese KIR FSM VUT MHL COM DMA . . . CAN DEU JPN RUS IND USA CHN co2 29.34 62.34 91.67 99.01 124.68 128.34 . . . 544091.12 786659.51 1208162.82 1708653.32 1742697.75 5461013.74 7031916.21 gdp 132.51 263.44 593.44 152.57 530.14 462.16 . . . 1502678.44 3623686.23 4849208.10 1660846.39 1224096.60 14219300.00 4521827.29 gdppc 1372.67 2386.97 2602.33 2885.13 760.56 6780.55 . . . 45099.61 44132.04 37972.24 11700.22 1027.91 46759.56 3413.59 pop 0.10 0.11 0.23 0.05 0.70 0.07 . . . 33.32 82.11 127.70 141.95 1190.86 304.09 1324.65 Tabella 1.2: Emissioni, popolazione e ricchezza, dati ordinati per emissioni crescenti Comune agli esempi sopra è il carattere quantitativo continuo della variabile risposta, questa è infatti una limitazione del modello lineare. D’altro canto, le variabili esplicative possono essere quantitative o qualitative e le due tipologie possono anche presentarsi nello stesso modello. Il modello lineare risulterà inadatto in casi in cui la variabile risposta è quantitativa discreta o qualitativa, come negli esempi seguenti (salvo che una variabile discreta abbia natura tale che la 1. Introduzione 13 (b) (c) ● ● ● ● ●● ● ●● ● ● ● ● ● ● ● ● ● ●● ●● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ●● ●●● ● ● ● ● ● ● ● ●● ●● ● ●● ● ● ●● ● ●● ●●● ● ●●●● ●● ● ●● ●● ●● ● ●● ● ●● ● ●● ● ● ●● ● ●●● ● ● ● ● ● ● ● ● ● ● ● ●●● ●● ●● ● ●●●●● ● ●● ●● ●● ●● ● ●● ● ● ●● ● ● ● ● ● ● ●● ●● ● ● ● ●● ● ● ●● ● ● ●● ●● ● ● ● ●● ●● ● 1 5000 ● ● ● ● ● 10000 1 GDP (mld ) 10 1e+04 1e+02 1e+02 ● ● ● ● ●● ●● ●● ● ● ● ●●● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● 100 1000 ● ● ● ● ●●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ●● ● ● ●● ● ● ● ●● ● ●● ● ● ● ● ● ● ● ●●● ● ●● ● ● ● ● ● ●●● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ●● ● ● ● ●● ● ● ● ● ●● ● ● ●● ● ● ● ● ● ● ●● ● ● ●● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ●● ● ● ● ● ● ● 0.2 GDP (mld ) ● ● ● ● ● co2 1e+04 co2 4e+06 ●● ● 0e+00 ● ● ●● ● 2e+06 co2 1e+06 ● 6e+06 ● 1e+06 (a) 1 2 5 25 GDP pro capite (x1000) Figura 1.5: Diagramma di dispersione tra CO2 e GDP su scala originale (a) e logaritmica (b); diagramma di dispersione tra CO2 e GDPPC su scala logaritmica (c) 14 ● ● 12 ● Visite 10 ● ● 8 ● ● 6 ● ● 4 ● ● ● 2 ● 20 30 40 50 60 70 80 Età Figura 1.6: Numero di visite mediche in un anno ed età sua distribuzione sia approssimabile da una normale, ad esempio una Poisson con media molto elevata). Esempio 1.8 Visite mediche ed età. Per n = 16 soggetti si è rilevato il numero di visite mediche in un anno (y) e l’età dell’individuo (in anni) (x). I dati sono raffigurati nella figura 1.6 È naturale modellare il numero di viste in funzione dell’età, non è possibile però accettare l’approssimazione normale essendo i valori osservati piuttosto bassi. Si dovranno usare modelli nella classe dei GLM. • Esempio 1.9 Space shuttle. In occasione di n = 23 lanci dello space shuttle si è rilevata la temperatura (x, in gradi Celsius) e il verificarsi o meno di problemi (erosione delle guarnizioni o fuoriuscita di gas) a una o più delle 6 guarnizioni ad anello: y pari a 0 se non se n’è verificata nessuna, 1 altrimenti. Il carattere dicotomico della variabile risposta esclude l’uso del modello lineare, si dovrà ricorrere, ad esempio, a un modello logistico (caso particolare dei GLM). • Nella tabella 1.3 si riporta un quadro dei modelli adatti a trattare relazioni asimmetriche, classificati a seconda della natura delle variabili coinvolte: dicotomiche (es. maschio, femmina), ● ● ● ● ● ● 0 Problema 1 14 ● 15 ● ● ● ● ● 20 ● ● ● ● ● ● 25 Temperatura (°C) Figura 1.7: Dati sullo space shuttle variabile risposta (Y ) variabili esplicative (x) quantitativa discreta continua binaria nominale (> 2 det.) nominali tabelle di contingenza modelli log-lineari reg. logistica tabelle di contingenza modelli log-lineari reg. multinomiale reg. Poisson modelli log-lineari t-test ANOVA (reg. multipla) [hotdog] quantitative reg. logistica [space shuttle] reg. multinomiale reg. Poisson [visite] reg. multipla [ciliegi] miste reg. logistica reg. multinomiale reg. Poisson ANCOVA (reg. multipla) [neonati] Tabella 1.3: t-test per la differenza tra medie, analisi della varianza (ANOVA) e analisi della covarianza (ANCOVA) possono essere visti come caso particolare della regressione multipla. in [] gli esempi di riferimento qualitative (es. rosso, blu, verde,... o elementare, media, superiore...), quantitative discrete (es. numero di visite in un anno), quantitative continue (es. peso dopo una dieta). Dalla tabella si evince come, tra i modelli per relazioni asimmetriche, il modello lineare si presti a trattare quelli in cui la variabile risposta è quantitativa continua, qualunque sia la natura delle variabili esplicative. Capitolo 2 Modello di regressione lineare semplice Il più semplice dei modelli di regressione è la regressione lineare semplice, in cui le variabili coinvolte sono solo due: la risposta e un’unica esplicativa. Ad esempio, ci si è chiesti se sono legate le altezze di madri e figlie. Madri alte tendono ad avere figlie alte? Se sı̀, in che misura? Tale problema venne analizzato da Galton nel 18861 , il nome regressione si deve appunto a tale lavoro, in cui Galton concludeva che da una generazione all’altra la statura regredisce verso la media (donne alte tendono ad avere figlie alte ma con altezza più vicina alla media generale). Consideriamo allora un campione di n = 11 coppie madre-figlia per le quali si sono rilevate le rispettive altezze, ottenendo i dati riportati nella tabella 2.1, dove x rappresenta l’altezza della madre e y l’altezza della figlia, entrambe espresse in centimetri (un campione più ampio sarà analizzato nella sezione 6). x y 1 153.7 163.1 2 156.7 159.5 3 173.5 169.4 4 157.0 158.0 5 161.8 164.3 6 140.7 150.0 7 179.8 170.3 8 150.9 158.9 9 154.4 161.5 10 162.3 160.8 11 166.6 160.6 Tabella 2.1: Altezze di 11 coppie madre-figlia: x rappresenta l’altezza della madre e y l’altezza della figlia, entrambe espresse in centimetri. Il primo strumento di analisi esplorativa per la relazione tra le due variabili è il diagramma di dispersione, riportato in figura 2.1. Una misura sintetica della linearità della relazione tra due variabili è il coefficiente di correlazione cov(X, Y ) ρ= p . V (X)V (Y ) (2.1) Il coefficiente di correlazione è compreso tra −1 e 1 e raggiunge i casi limite solo in caso di perfetta dipendenza lineare. Lo stimatore di ρ è Pn (yi − ȳ)(xi − x̄) ρ̂ = pPn i=1 , (2.2) Pn 2 2 i=1 (xi − x̄) i=1 (yi − ȳ) dove x̄ e ȳ sono le medie aritmetiche delle osservazioni. Per i dati della tabella 2.1, ρ̂ = 0.88. 1 Galton, F. (1886). Regression towards mediocrity in hereditary stature. Journal of the Anthropological Institute of Great Britain and Ireland, 15, 246-263. 16 ● 170 ● Altezza figlie 165 ● ● ● 160 ● ● ● ● ● 155 150 ● 140 150 160 170 180 Altezza madri Figura 2.1: Diagramma di dispersione per le altezze di madri e figlie. Dal diagramma di dispersione e dal valore del coefficiente di correlazione sembra di poter dire che vi sia effettivamente una relazione tra le due variabili: madri più alte tendono ad avere figlie più alte. Questa relazione non è però esatta, nel senso che madri di altezza molto simile possono avere figlie di altezze anche sensibilmente diverse; d’altra parte, essa è abbastanza regolare, in quanto i punti si dispongono intorno a una linea retta. Si potrebbe dunque descrivere la relazione sinteticamente nella forma yi = β1 + β2 xi + εi , (2.3) dove yi e xi sono, rispettivamente, l’altezza della figlia e l’altezza della madre nell’i-esima coppia, β1 e β2 sono numeri reali e εi è un termine di errore introdotto per tenere conto del fatto che la relazione non è precisa (come detto, i punti si dispongono intorno a una retta, non su una retta). La scrittura (2.3) non dice ancora come si trovano β1 e β2 (anzi, scritta cosı̀, qualunque retta andrebbe bene) né come s’interpretano i coefficienti (ovvero la retta stessa). Appare naturale associare la relazione lineare alla media della variabile Y : si assume allora che sia lineare la relazione tra x e la media di Y |X = x e che la variabilità di Y intorno a tale media sia la stessa per qualunque valore di x, cioè E(Y |X = x) = β1 + β2 x, 2 V (Y |X = x) = σ . (2.4) (2.5) In termini dell’errore εi (vedi l’equazione (2.3)) ciò significa E(εi ) = 0, (2.6) 2 (2.7) V (εi ) = σ . Il condizionamento a X = x significa che l’analisi è condizionata ai valori della x (questo a volte si esprime dicendo che la x è non stocastica), quindi non si fa alcuna ipotesi sulla loro distribuzione (il fatto di dire che ci si condiziona alle x è forse più chiaro perché abbraccia immediatamente anche il caso in cui le x hanno una natura stocastica tanto quanto le y, come nell’esempio cui stiamo facendo riferimento, dove le variabili hanno la stessa natura). 2. Modello di regressione lineare semplice 17 2.1 Stimatore dei minimi quadrati Vogliamo determinare dei valori per β1 e β2 tali per cui la retta sia “vicina” alle osservazioni: dobbiamo quindi misurare la distanza di una generica retta dai punti osservati e scegliere la retta che minimizza tale distanza (si noti che un’operazione del genere ha senso anche dal punto di vista meramente descrittivo). Diverse scelte di distanza possono essere fatte e portano a rette diverse; l’opzione che risulta più conveniente (oltre che giustificabile sulla base di considerazioni che verranno fatte nel seguito) è misurare la distanza sommando i quadrati delle differenze verticali tra retta e punti (vedi figura 2.2, pannello a sinistra). Con ciò, la distanza tra i punti {(xi , yi )} e la generica retta di coefficienti β1 e β2 è S(β1 , β2 ) = n X (yi − (β1 + β2 xi ))2 . i=1 Definiamo allora stimatore dei minimi quadrati di (β1 , β2 ) argmin n X (yi − (β1 + β2 xi ))2 . (2.8) β1 ,β2 ∈R i=1 Osservazione 2.1 Scostamenti. Altre scelte sono altrettanto ragionevoli, ad esempio usare i valori assoluti invece dei quadrati, oppure le distanze punto-retta nel senso della geometria. Tali opzioni risulterebbero però meno convenienti computazionalmente. Inoltre, la scelta del quadrato della differenza rispetto al valore assoluto della stessa appare ragionevole in quanto pesa maggiormente scostamenti più ampi. La scelta delle distanze verticali invece delle distanze geometriche è coerente col fatto che interessa generalmente usare la retta per approssimare il valore di Y corrispondente a una data x e la differenza verticale è allora l’errore di approssimazione. Un’opzione altrettanto comoda delle distanze verticali è usare le distanze orizzontali: è meno naturale in quanto l’obiettivo del modello è trovare il valore della y, ma è altrettanto semplice in quanto corrisponde a scambiare i ruoli di x e y, la retta che si ottiene è diversa salvo casi particolari. Nella figura 2.2 si rappresentano le rette ottenute usando le diverse opzioni per i dati sulle altezze. • Per trovare lo stimatore dei minimi quadrati eguagliamo a zero le due derivate parziali di S(β1 , β2 ), ottenendo il sistema ( ∂S(β ,β ) P 1 2 = −2 ni=1 (yi − (β1 + β2 xi )) = 0 ∂β1 (2.9) P ∂S(β1 ,β2 ) = −2 ni=1 xi (yi − (β1 + β2 xi )) = 0, ∂β2 che equivale a (P Pn n xi = 0 i=1 yi − nβ1 − β2 Pn Pn i=1 Pn 2 i=1 xi yi − β1 i=1 xi − β2 i=1 xi = 0. (2.10) Dalla prima si ottiene β1 = ȳ − β2 x̄,e sostituendo questa espressione nella seconda si ha n X i=1 Quindi, purché xi yi − ȳ n X i=1 xi + β2 x̄ n X i=1 xi − β 2 n X x2i = 0. i=1 Pn − x̄)2 6= 0, cioè purché le xi non siano tutte uguali, si ha P P P Pn n ni=1 yi xi − ni=1 xi ni=1 yi (y − ȳ)(xi − x̄) Pn i P P = i=1 , β̂2 = 2 n ni=1 x2i − ( ni=1 xi )2 i=1 (xi − x̄) i=1 (xi (2.11) 18 2.1. Stimatore dei minimi quadrati ● 170 ● ● ● minimi quadrati dist. vert. ass dist. oriz. quad. ● dist. geometrica 165 Altezza figlie y dist. verticale al quadrato dist. vert. dist. oriz. dist. geometrica ● ● ● 160 ● ● ● ● 155 150 ● 140 150 x 160 170 180 Altezza madri Figura 2.2: A sinistra, diverse misure di distanza punto retta; a destra le rette ottenute minimizzando tali distanze e, di nuovo usando la prima equazione,2 β̂1 = ȳ − β̂2 x̄. (2.12) Lo stimatore del coefficiente angolare è il rapporto tra la covarianza campionaria di X e Y e la varianza campionaria di X, cov (X, Y ) β̂2 = . var (X) che è coerente con l’espressione per la media condizionata nel caso di distribuzione normale bivap riata (esempio 2) se si ricorda che il coefficiente di correlazione è ρ(X, Y ) = cov (X, Y ) / var (X) var (Y ). Osservazione 2.2 Identificabilità. Se le xi fossero tutte eguali, cioè xi = x0 per ogni i, sarebbe anche x̄ = x0 e xi − x̄ = 0 per ogni i; il sistema (2.10) avrebbe perciò infinite soluzioni. D’altra parte il modello diventerebbe E(Yi ) = β1 +β2 x0 , con le Yi , quindi, aventi identica media µi = µ = β1 +β2 x0 , essendoci però infinite coppie (β1 , β2 ) corrispondenti a ciascun possibile valore di µ il modello non sarebbe identificato. • 2 La soluzione si può ottenere anche via inversione di matrice, scrivendo il sistema (2.10) come Pnn i=1 xi Pn Pn Pni=1 x2i β1 = Pni=1 yi β2 i=1 xi i=1 xi yi la cui soluzione è β̂1 β̂2 −1 Pn Pn Pni=1 x2i Pni=1 yi i=1 xi i=1 xi i=1 xi yi Pn Pn P 2 1 − n i=1 xi i=1 xi i=1 yi P P Pn P n n 2 − n n i=1 x2i − ( n i=1 xi i=1 xi yi i=1 xi ) Pn P P P n n n 2 1 xi i=1 yi − i=1 x i i=1 xi yi . i=1 P P P Pn P n n n n − i=1 xi i=1 yi + n i=1 xi yi n i=1 x2i − ( i=1 xi )2 = = = Pnn 2. Modello di regressione lineare semplice 19 Ottenuti gli stimatori per β1 e β2 possiamo calcolare i valori teorici, ŷi , cioè i valori assunti dalla retta in corrispondenza alle xi , si definisce dunque, per i = 1, . . . , n ŷi = β̂1 + β̂2 xi . 2.1.1 (2.13) Media e varianza degli stimatori dei minimi quadrati Per proseguire con il calcolo di media e varianza degli stimatori β̂1 e β̂2 appena trovati conviene anzitutto esprimerli come combinazioni lineari delle Yi . Si potrà quindi utilizzare la linearità dell’operatore speranza matematica e quella, valida per variabili aleatorie incorrelate, della varianza. Aggiungeremo quindi un’ulteriore ipotesi: che le Y1 , . . . , Yn sono non correlate (o, che è uguale, che gli errori ε1 , . . . , εn sono non correlati). Indichiamo qui le osservazioni Yi con la lettera maiuscola per evidenziare che esse sono variabili aleatorie (a differenza delle x che sono non stocastiche). Per β̂2 si ha allora Pn n n n X X X xi − x̄ xi − x̄ i=1 xi Yi − nx̄Ȳ P P P Y = = Y = wi Yi , i n n n 2 2 − nx̄2 i 2 (xj − x̄)2 x j=1 i=1 xi − nx̄ j=1 j i=1 i=1 i=1 β̂2 = con wi = Pn xi(x−x̄ 2 per i = 1, . . . , n. Pertanto, ricordando che E(Yi ) = β1 + β2 xi e osservando j=1 j −x̄) Pn Pn che i=1 wi = 0 e i=1 wi xi = 13 si ha E(β̂2 ) = n X wi E(Yi ) = i=1 n X wi (β1 + β2 xi ) = β1 i=1 n X wi + β2 i=1 n X wi xi = β2 . i=1 Per quanto riguarda la varianza, avendo ipotizzato la non correlazione, ed essendo V (Yi ) = σ 2 per ogni i, si ha V (β̂2 ) = n X i=1 wi2 V (Yi ) = σ 2 n X wi2 = σ 2 i=1 n X i=1 (xi − x̄)2 P n j=1 (xj − x̄)2 σ2 . 2 j=1 (xj − x̄) 2 = Pn Analogamente si opera per β1 , scrivibile anch’esso come combinazione lineare delle Yi , β̂1 = ȳ − β̂2 x̄ = n n n X X X 1 Yi − wi Yi x̄ = wi∗ Yi , n i=1 dove wi∗ = 1 n i=1 − wi x̄ per i = 1, . . . , n. Si ha allora E(β̂1 ) = n X wi∗ E(Yi ) = β1 + β2 i=1 poiché Pn ∗ i=1 wi = 1 come facilmente si verifica4 . Pn 2 2 P i=1 xi −nx̄ Pn xi −x̄ Pn wi xi = n 2 xi = 2 = 1. i=1 (x −x̄) j j −x̄) j=1 j=1 (xP P P n n n 4 ∗ 1 Si ha infatti i=1 wi = i=1 n − wi x̄ = 1 − x̄ i=1 wi = 1. 3 Si ha Pn i=1 i=1 n X i=1 wi∗ xi = β1 . (2.14) 20 2.1. Stimatore dei minimi quadrati Per la varianza si ha, similmente, 2 n n n X X X 1 1 1 ∗ 2 2 2 2 2 V (β̂1 ) = (wi ) V (Yi ) = σ + wi x̄ − 2 x̄wi = − wi x̄ = σ n n2 n i=1 i=1 i=1 1 x̄2 + Pn , (2.15) = σ2 2 n i=1 (xi − x̄) P P P P dove le relazioni ni=1 wi∗ xi = ni=1 xni − wi x̄xi = x̄ − x̄ ni=1 wi xi = 0, ni=1 wi = 0 Pnsi sfruttano e i=1 wi2 = 1. A parità di tutto il resto – varianza degli errori e numerosità campionariaP– le varianze degli stimatori sono tanto più contenute quanto maggiore è la devianza delle xi , ni=1 (xi − x̄)2 . Infine, possiamo calcolare la covarianza cov β̂1 , β̂2 = cov ȳ − β̂2 x̄, β̂2 = cov ȳ, β̂2 − x̄cov β̂2 , β̂2 ! n n X 1X = cov Yi , wi Yi − x̄V (β̂2 ) n i=1 i=1 = n σ2 1X wi V (Yi ) − x̄ Pn 2 n i=1 (xi − x̄) = n 1X σ2 wi σ 2 − x̄ Pn 2 n i=1 (xi − x̄) i=1 i=1 σ2 . 2 i=1 (xi − x̄) = −x̄ Pn (2.16) Si noti che la covarianza ha segno opposto a x̄ e si annulla se x̄ = 0. 2.1.2 Stimatore di σ 2 Il parametro σ 2 rappresenta la varianza della distribuzione degli errori εi , che sono quantità non osservate (in quanto non sono noti i parametri β1 e β2 ). Per stimare σ 2 possiamo però fare ricorso ai “corrispondenti campionari” degli errori: i residui ei , calcolabili a partire dai valori teorici (2.13) come ei = yi − ŷi = yi − β̂1 − β̂2 xi , i = 1, . . . , n. (2.17) L’idea è usare questi come sostituti degli errori e quindi usarne la varianza come stimatore di σ 2 . Si osserva P poi che, per la prima equazione del sistema (2.9) che definisce gli stimatori dei minimi quadrati, ni=1 ei = 0, si ha dunque lo stimatore n 1X 2 σ̂ = ei . n 2 i=1 (2.18) 2. Modello di regressione lineare semplice 21 Lo stimatore σ̂ 2 non è corretto, infatti n X e2i = i=1 n X (yi − β̂1 − βˆ2 xi )2 i=1 = n X ((yi − ȳ) − β̂2 (xi − x̄))2 i=1 = = n X i=1 n X 2 (yi − ȳ) + β̂22 (yi − ȳ)2 − β̂22 i=1 essendo Pn i=1 (yi n X n X (xi − x̄) − 2β̂2 (yi − ȳ)(xi − x̄) i=1 i=1 n X 2 (xi − x̄)2 , i=1 − ȳ)(xi − x̄) = β̂2 Pn nσ̂ 2 = i=1 (xi − x̄)2 (vedi la (2.11)). Si ha allora n n X X (yi − ȳ)2 − β̂22 (xi − x̄)2 i=1 = n X yi2 − nȳ 2 − β̂22 i=1 n X i=1 (xi − x̄)2 i=1 e quindi, sfruttando ripetutamente il fatto che per una generica variabile aleatoria Z si ha E(Z 2 ) = V (Z) + E(Z)2 , si trova E(nσ̂ 2 ) = n X E(yi2 ) − nE(ȳ 2 ) − E(β̂22 ) i=1 = = = n X n X (xi − x̄)2 i=1 n X V (yi ) + E(yi )2 − V (ȳ) − E(ȳ)2 − (V (β̂2 ) + E(β̂2 )2 ) (xi − x̄)2 i=1 n X σ 2 + (β1 + β2 xi )2 − i=1 n X 2 σ + β12 i=1 = nσ 2 + β22 n X + β22 x2i σ2 n − (β1 + β2 x̄)2 − σ 2 − β22 i=1 n X (xi − x̄)2 i=1 σ2 − β12 − β22 x̄2 − 2β1 β2 x̄ − σ 2 − β22 + 2β1 β2 xi − n x2i + 2nβ1 β2 x̄ − σ 2 − nβ22 x̄2 − 2nβ1 β2 x̄ − σ 2 − β22 i=1 n X n X ! x2i − nx̄ i=1 x2i − nβ22 x̄2 i=1 2 = (n − 2)σ . È dunque E(σ̂ 2 ) = n−2 2 n σ , una stima corretta è n s2 = n 1 X 2 σ̂ 2 = ei . n−2 n−2 (2.19) i=1 La differenza tra lo stimatore σ̂ 2 e lo stimatore corretto s2 è contenuta se n è grande e in particolare è infinitesima per n tendente a infinito (lo stimatore σ̂ 2 è asintoticamente corretto). 2 22 2.1. Stimatore dei minimi quadrati Esempio 2.1 Altezze di madri e figlie: calcolo delle stime. Sostituendo i valori del campione si ha n = 11 e n x̄ = n 1X 1 xi = 1757.4 = 159.76, n 11 ȳ = i=1 1X 1 yi = 1776.4 = 161.49, n 11 i=1 n n 1X 2 1 xi = 281940 = 25631, n 11 1X 1 xi yi = 284340 = 25849. n 11 i=1 i=1 Si trova di conseguenza Pn Pn xi yi /n − x̄ȳ (yi − ȳ)(xi − x̄) 284340/11 − 159.76 × 161.49 i=1 Pn = Pi=1 = = 0.45934 β̂2 = n 2 2 2 281940/11 − 159.762 i=1 (xi − x̄) i=1 xi /n − x̄ e β̂1 = ȳ − β̂2 x̄ = 161.49 − 0.45934 × 159.76 = 88.106, sicché il modello stimato è yi = 88.106 + 0.45934xi + ei . e denota che, sulla base del campione, madri più alte tendono ad avere figlie più alte. Dal modello stimato possiamo ottenere i valori teorici (2.13) – valori assunti dalla retta dei minimi quadrati in corrispondenza delle xi – ad esempio per i = 4 si ha ŷ4 = 88.106 + 0.45934 × (157) = 160.24. Ancora, si ottengono i residui (2.17) – differenze tra valori osservati e predetti – ad esempio per i = 4 si ha e4 = 158 − 160.24 = −2.24. Si veda la figura 2.3 dove sono visualizzate lePquantità rilevanti. La stima non corretta di σ 2 è allora σ̂ 2 = n1 ni=1 e2i ed è pari a n σ̂ 2 = = n 1X 1X (yi − ȳ)2 − β̂22 (xi − x̄)2 n n i=1 n X yi2 /n i=1 2 − ȳ − β̂22 i=1 n X x2i /n ! 2 − x̄ i=1 = 26107 − 161.492 − (0.45934)2 (25631 − 159.762 ) = 5.247. La stima corretta di σ 2 , infine, è s2 = 2.1.2.1 n 2 n−2 σ̂ = 11 11−2 5.247 = 6.413. • Stimatori delle varianze degli stimatori β̂1 e β̂2 Nelle espressioni (2.15) e (2.14) delle varianze degli stimatori dei coefficienti β1 e β2 compare il parametro σ 2 , occorre perciò disporre di uno stimatore anche per dette varianze. In pratica, gli stimatori si ottengono sostituendo nelle espressioni (2.15) e (2.14) il parametro σ 2 con il suo stimatore corretto s2 . Si ha allora 1 x̄ 2 P V̂ (β̂1 ) = s + n , (2.20) 2 n i=1 (xi − x̄) 2. Modello di regressione lineare semplice 23 Yi ≈ N(β1 + β2xi,σ2) yi yk εk y = β1 + β2x ● ● ● ek ^ ^ y = β1 + β2x ● ● ^ ^ y^k = β1 + β2xk ● ● ● ● ● E(Yk)=β1 + β2xk 0 0 Figura 2.3: semplice xk xi Rappresentazione delle principali quantità coinvolte nel modello di regressione s2 . 2 j=1 (xj − x̄) (2.21) V̂ (β̂2 ) = Pn Con i dati dell’esempio s’ottiene V̂ (β̂1 ) = 6.4132 0.0054109. 1 11 + 159.762 1185.2 = 138.69 e V̂ (β̂2 ) = 6.413 1185.2 = 2.2 Ipotesi distributiva Fin qui sono state fatte solo ipotesi del secondo ordine, ossia su medie e varianze degli εi (o Yi ): si vedano le equazioni (2.6) e (2.7). Tali ipotesi da sole non consentono di ottenere intervalli di confidenza o di fare verifiche d’ipotesi sui parametri del modello in modo agevole. Per proseguire in tal senso occorre aggiungere un’ipotesi sulla distribuzione degli errori. Si assume allora che IND εi ∼ N (0, σ 2 ) (2.22) per i = 1, . . . , n dove con questa notazione intendiamo che gli εi sono indipendenti e identicamente distribuiti e che εi ∼ N (0, σ 2 ). L’ipotesi (2.22), accanto all’ipotesi di linearità (2.3) implica ovviamente l’indipendenza, l’omoschedasticità e la linearità della media di Y |X = x. In effetti il modello può essere riscritto nella forma IND Yi ∼ N β1 + β2 xi , σ 2 , i = 1, . . . , n. (2.23) Nella figura 2.3 si fornisce una rappresentazione delle principali quantità coinvolte: in grigio si è rappresentata la vera retta di regressione, di equazione y = β1 + β2 x e l’associata distribuzione per Yi |X = xi ; in nero è rappresentata invece la retta stimata, di equazione y = β̂1 + β̂2 x. Nel grafico si può apprezzare la differenza tra εk e ek , il primo è la differenza tra yk e la retta “vera” (in grigio, non nota) e il secondo è la differenza tra yk e la retta stimata (in nero, nota). 24 2.2.1 2.2. Ipotesi distributiva Stimatore di massima verosimiglianza Con l’ipotesi (2.23) possiamo scrivere la funzione di verosimiglianza associata al modello (notiamo che le osservazioni sono indipendenti ma non identicamente distribuite). Indicando con θ la terna dei parametri, ossia θ = (β1 , β2 , σ 2 ), si trova n Y n Y 1 1 2 √ L(θ) = L(β1 , β2 , σ ) = pi (yi ; θ) = exp − 2 (yi − (β1 + β2 xi )) 2σ 2πσ i=1 i=1 ( ) n 1 X −n/2 2 −n/2 2 = (2π) (σ ) exp − 2 (yi − (β1 + β2 xi )) , (2.24) 2σ 2 i=1 e quindi la log-verosimiglianza è n n 1 X 2 l(θ) = l(β1 , β2 , σ ) = − log σ − 2 (yi − (β1 + β2 xi ))2 . 2 2σ 2 (2.25) i=1 Per ottenere lo stimatore di massima verosimiglianza di θ scriviamo la funzione punteggio, derivata della log-verosimiglianza, e la eguagliamo a 0, ottenendo l’equazione di verosimiglianza, data da ∂l(β1 ,β2 ,σ 2 ) 1 Pn 2 i=1 (yi − (β1 + β2 xi )) 1 σ ∂l(β ∂β P 2 n 1 1 ,β2 ,σ ) . (2.26) 0 = l∗ (θ) = i (yi − (β1 + β2 xi )) i=1 x σ2 = P ∂β2 n n 1 2 2 − 2σ2 + 2(σ2 )2 i=1 (yi − (β1 + β2 xi )) ∂l(β1 ,β2 ,σ ) ∂σ 2 Dalle prime due derivate otteniamo il sistema già discusso nella sezione 1 in relazione ai minimi quadrati: le stime dei minimi quadrati coincidono quindi con le stime di massima verosimiglianza quando si faccia l’ipotesi di normalità degli errori. 2 Si noti anche che la soluzione per (β1 , β2 ) non dipende da σ 2 : infatti, di Pn fissato σ , il massimo 2 (2.25) si ottiene minimizzando la somma dei quadrati degli scarti i=1 (yi − β1 − β2 xi ) . Dall’ultima derivata in (2.26) si ottiene lo stimatore di massima verosimiglianza per σ 2 , pari a n 1X σ̂ = (yi − β̂1 − β̂2 xi )2 , n 2 i=1 pertanto lo stimatore (2.18) coincide con lo stimatore di massima verosimiglianza. 2.2.2 Distribuzione esatta degli stimatori β̂i In virtù dei risultati generali sulla combinazione lineare di normali, e avendo notato che gli stimatori dei coefficienti sono combinazioni lineari delle Yi , distribuite normalmente, anche gli stimatori stessi sono normali. Per β̂2 si ha, per quanto già visto su media e varianza, ! σ2 β̂2 ∼ N β2 , Pn . (2.27) 2 j=1 (xj − x̄) 2. Modello di regressione lineare semplice 25 Analogamente, per β̂1 si ha 1 x̄2 2 β̂1 ∼ N β1 , σ + Pn . 2 n i=1 (xi − x̄) (2.28) Per quanto riguarda σ̂ 2 si mostra5 che6 nσ̂ 2 = σ2 Per lo stimatore corretto s2 = Pn 2 i=1 ei σ2 n 2 n−2 σ̂ = Pn i=1 (Yi − σ2 = 1 n−2 Pn 2 i=1 ei , Ŷi )2 ∼ χ2n−2 . si ha (n − 2)s2 ∼ χ2n−2 . σ2 (2.29) Si mostra anche che σ̂ 2 , e quindi s2 , è indipendente da (β̂1 , β̂2 ). 2.3 Inferenza sui coefficienti Il modello di regressione ha lo scopo di studiare la relazione tra variabili. Dei parametri del modello quello indicativo della relazione è il coefficiente angolare β2 (quanto varia Y in media se x subisce un aumento unitario), per questo è quello su cui è più d’interesse fare inferenza. L’inferenza sul parametro β1 è più raramente di diretto interesse: esso rappresenta la media di Y in corrispondenza a x = 0, che non è detto abbia un senso sostanziale (dipende dal significato specifico di x). Esso è ovviamente di interesse combinato con β2 nel momento in cui si vogliono fare affermazioni inferenziali sulla media di Y in corrispondenza a un particolare x. Infine, il parametro σ 2 ha un ruolo di parametro di disturbo. Di per sé non interessa ma dev’essere stimato per poter fare inferenza sui parametri di interesse. Ciò detto, illustriamo nel seguito l’inferenza – verifica d’ipotesi e intervalli di confidenza – sui parametri β1 e β2 . In particolare, faremo riferimento al secondo, l’inferenza sul primo procedendo in modo analogo. 2.3.1 Inferenza basata su quantità pivotali 2 Osservando che V̂ (β̂r ) = σs 2 V (β̂r ) (si confrontino la (2.21) con la (2.14) e la (2.20) con la (2.15)), si ha la quantità pivotale β̂r −βr √ β̂r − βr β̂r − βr N (0, 1) V (β̂ ) tr = q =q = q r ∼ q 2 ∼ tn−2 , χn−2 s2 s2 V (β̂r ) V̂ (β̂r ) σ2 σ2 n−2 5 (2.30) Le proprietà relative a s2 e σ̂ 2 saranno dimostrate nel caso generale. Da questo risultato, sfruttando il fatto che la speranza matematica di una aleatoria χ2n è n, si può variabile 2 2 nσ̂ 2 mostrare il fatto, già visto, che σ̂ è uno stimatore distorto per σ . Infatti E σ2 = n − 2 ⇒ E(σ̂ 2 ) = n−2 σ 2 .. n 6 26 2.3. Inferenza sui coefficienti dove con gli ultimi due membri si intende che tr è il rapporto tra una normale standard e la radice di un χ2n−2 diviso i suoi gradi di libertà. Che il numeratore sia una v.a. normale standard deriva da (2.28) o (2.27), che il denominatore sia la radice di un χ2n−2 diviso per i suoi gradi di libertà deriva da (2.29). Siccome poi dall’indipendenza tra β̂r e s2 discende l’indipendenza tra numeratore e denominatore, il rapporto in (2.30) è distribuito come una t di Student con n − 2 g.d.l. per definizione7 . 2.3.1.1 Verifica d’ipotesi Consideriamo il sistema d’ipotesi ( H0 : βr = βr0 H1 : βr 6= βr0 , nell’ipotesi nulla si ha, in virtù della (2.30), β̂r − βr0 tr = q ∼ tn−2 . V̂ (β̂r ) La forma della regione critica è {|tr | > kα } e perciò il test di livello α prescrive di rifiutare se |tr | > tn−2,1−α/2 (dove tn−2,1−α/2 è il quantile 1 − α/2 della tn−2 ). Il valore p, d’altra parte, è oss αoss = 2 min{P (tn−2 ≤ toss r ), P (tn−2 ≥ tr )} = 2P (tn−2 ≥ |toss r |). Con riferimento all’esempio, può essere interessante verificare l’ipotesi H0 : β2 = 1 contro H1 : β2 6= 1. Si calcola allora 0.45934 − 1 β̂2 − 1 = t2 = q = −7.35 0.073559 V̂ (β̂2 ) e si confronta con una tn−2 . Il valore p è αoss = 2 min{P (tn−2 ≤ t2 ), P (tn−2 ≥ t2 )} = 2 min{P (tn−2 ≤ −7.35), P (tn−p ≥ −7.35)} = 2 min{2.164e − 05, 1} = 4.328 × 10−5 , e quindi, ad esempio, al livello del 5%, si rifiuta l’ipotesi nulla. Il sistema d’ipotesi di maggiore interesse, in generale, è quello su β2 con β20 = 0, cioè ( H0 : β2 = 0 H1 : β2 6= 0, 7 Per definizione, se Z ∼ N (0, 1) e V ∼ χ2m e Z e V sono indipendenti, allora T = Z/ secondo una t di Student con m gradi di libertà. p V /m è distribuito 2. Modello di regressione lineare semplice 27 questo perché l’ipotesi nulla corrisponde all’assenza di relazione (lineare) tra x e Y . si calcola allora β̂2 t2 = q , V̂ (β̂2 ) con regione di rifiuto |t2 | > tn−2,1−α/2 (cioè t2 esterno a un intervallo centrato in zero). Un test equivalente è t22 = β̂22 V̂ (β̂2 ) con regione di rifiuto t2r > F1,n−2,1−α (il rapporto tra una normale standard al quadrato e un χ2g diviso per i suoi gradi di libertà e una F con g.d.l. 1 e g, brevemente indicata con F1,g ; con F1,g,1−α si indica il quantile 1 − α di una F1,g ). 2.3.1.2 Intervalli di confidenza Otteniamo un intervallo di confidenza di livello 1 − α per βr considerando che la (2.30) implica 1 − α = P tn−2,α/2 < tr < tn−2,1−α/2 β̂r − βr = P −tn−2,1−α/2 < q < tn−2,1−α/2 V̂ (β̂r ) q q = P − V̂ (β̂r )tn−2,1−α/2 < β̂r − βr < V̂ (β̂r )tn−2,1−α/2 q q = P β̂r − tn−2,1−α/2 V̂ (β̂r ) < βr < β̂r + tn−2,1−α/2 V̂ (β̂r ) qualunque siano β1 , β2 e σ 2 . Gli estremi di un intervallo con livello 1 − α per βr sono dunque dati da β̂r ± tn−2,1− α2 q V̂ (β̂r ). Otteniamo gli intervalli al 95% per l’esempio: posto α = 0.05, si ha tn−2,1− α2 = t11−2,0.975 = 2.26 e quindi l’intervallo per β1 ha estremi 88.106 ± 2.26 × 11.777 ed è dunque [61.466, 114.75]. Analogamente si ottiene per β2 l’intervallo di estremi [0.29295, 0.62573]. 2.3.1.3 Tabella dei coefficienti In genere le informazioni fondamentali relative al modello vengono riportate in una tabella che contiene, per β1 e β2 : stima, stima della varianza di β̂r , statistica tr e associato valore p per il test di nullità di βr . Si riporta di seguito la tabella relativa ai dati dell’esempio. 28 2.3. Inferenza sui coefficienti parametro stima errore standard statistica t valore p per H0 : βr = 0 v. H1 : βr 6= 0 β1 β2 β̂r 88.106 0.45934 q V̂ (β̂r ) 11.777 0.073559 q tr = β̂r / V̂ (β̂r ) 7.4812 6.2445 P (|Tn−2 | > |tr |) 3.7664e-05 0.00015062 2.3.2 Verifica d’ipotesi: approccio di verosimiglianza Il problema di verifica del sistema d’ipotesi ( H0 : β2 = 0 H1 : β2 6= 0, dove l’ipotesi nulla rappresenta la condizione per cui la variabile esplicativa non ha alcuna influenza sulla variabile risposta, può essere affrontato dal punto di vista teorico come un confronto tra due modelli, quello espresso da (2.23), detto modello completo, e quello ottenuto da (2.23) ponendo β2 = 0, detto modello ridotto, cioè un modello per osservazioni indipendenti e identicamente distribuite, espresso da Yi ∼ i.i.d. N β1 , σ 2 . Formalmente il modello completo è caratterizzato dalla verosimiglianza (2.24) e dallo spazio parametrico definito da θ = (β1 , β2 , σ 2 ) ∈ Θ = R2 ×]0, +∞[. Il modello ridotto è caratterizzato dalla stessa verosimiglianza ma dallo spazio parametrico ridotto θ = (β1 , 0, σ 2 ) ∈ Θ0 = {θ ∈ Θ : β2 = 0} ⊂ Θ. Il confronto tra i due si può allora fare sulla base del test del rapporto di verosimiglianza, si calcola cioè il rapporto tra il massimo della verosimiglianza nello spazio parametrico che rappresenta l’ipotesi nulla e il massimo della verosimiglianza nello spazio parametrico dell’ipotesi alternativa maxL(θ) λ= θ∈Θ0 maxL(θ) . θ∈Θ Il rapporto λ è naturalmente minore di 1 perché il numeratore è un massimo vincolato di L mentre il numeratore è il massimo non vincolato della stessa funzione. Al livello di significatività α la regione di rifiuto è λ < λα con λα α−quantile della distribuzione di λ sotto H0 . Il massimo a denominatore si ottiene in θ̂ = (β̂1 , β̂2 , σ̂ 2 ) definito nelle (2.12), (2.11) e (2.18), il valore della funzione di verosimiglianza in θ̂ è n no n L(θ̂) = L(β̂1 , β̂2 , σ̂ 2 ) = (σ̂ 2 )− 2 exp − . 2 P Il massimo a numeratore si ottiene in θ̃ = (β̃1 , 0, σ̃ 2 ) dove β̃1 = ȳ e σ̃ 2 = n1 ni=1 (yi − ȳ)2 , la verosimiglianza ivi vale n no n L(θ̃) = L(β̃1 , 0, σ̃ 2 ) = (σ̃ 2 )− 2 exp − . 2 2. Modello di regressione lineare semplice 29 Il rapporto di verosimiglianza vale quindi maxL(θ) λ= θ∈Θ0 maxL(θ) = θ∈Θ L0 (β̃1 , σ̃ 2 ) L(β̂1 , β̂2 , σ̂ 2 ) = σ̃ 2 σ̂ 2 −n/2 . Operativamente, è conveniente usare il log-rapporto di verosimiglianza, trasformato monotono decrescente del rapporto di verosimiglianza, 2 σ̃ 2 . W = −2 log λ = 2(l(β̂1 , β̂2 , σ̂ ) − l(β̃1 , 0, σ̃2 )) = n log σ̂ 2 Al livello di significatività α la regione di rifiuto è 2 Pn 2 ẽi σ̃ n log = n log Pi=1 > w1−α , n 2 2 σ̂ i=1 ei dove ẽi = yi − ȳ e w1−α è il quantile (1 − α) della distribuzione di W : si rifiuta l’ipotesi nulla se la somma dei quadrati degli scarti dalla media è grande rispetto alla somma dei quadrati degli scarti tra retta di regressione e valori osservati. Per ottenere una regione critica possiamo sfruttare il fatto che W è distribuito asintoticamente come un χ21 , la regione critica approssimata di livello α è allora 2 σ̃ n log > χ21,1−α . σ̂ 2 Possiamo però ottenere delle regioni critiche esatte con opportune trasformazioni. Consideriamo anzitutto che Pn 2 ẽ σ̃ 2 W > k ⇔ 2 = Pni=1 2i > ek/n = k 0 . σ̂ i=1 ei Se poi si osserva che n X e2i = i=1 n X 2 (yi − ȳ) − i=1 β̂22 n X 2 (xi − x̄) = i=1 n X ẽ2i − β̂22 n X i=1 (xi − x̄)2 , i=1 il rapporto tra le varianze stimate diventa P Pn 2 P Pn 2 ẽi ei + β̂22 ni=1 (xi − x̄)2 β̂22 ni=1 (xi − x̄)2 i=1 i=1 Pn 2 = Pn 2 Pn 2 =1+ , i=1 ei i=1 ei i=1 ei (2.31) e quindi Pn 2 P ẽi β̂22 ni=1 (xi − x̄)2 0 i=1 Pn 2 > k ⇔ Pn 2 > k 00 . i=1 ei i=1 ei Ma β̂22 Pn 2 i=1 (xi − x̄) P n 2 i=1 ei β̂22 = 1 n−2 2 i=1 (xi −x̄) n−2 Pn 2 i=1 ei 2 β̂2 = q Pn s2 2 i=1 (xi −x̄) Pn 1 n−2 2 1 β̂2 1 = q = t22 , n−2 n−2 V̂ (β̂2 ) (2.32) 30 2.3. Inferenza sui coefficienti e, con ragionamento analogo a quello fatto per la (2.30), si ottiene che t22 = β̂22 V̂ (β̂2 ) N (0, 1)2 ∼ χ2n−2 n−2 ∼ F1,n−2 , dove Fr,s indica una distribuzione F con r e s gradi di libertà.8 Si ottiene dunque la regione esatta t22 > F1,n−2,1−α , che equivale poi a |t2 | > tn−2,1−α . Si è dunque ottenuto per questa via lo stesso test ricavato a partire dalla quantità pivotale. 27.98 Con i dati dell’esempio, si ha σ̂ 2 = 5.247 e σ̃ 2 = 27.98, perciò W = 2 log 5.247 = 3.3477, mentre β̂ 2 2 0.45934 2 oss = P (t2 oss 2 2 2 (toss 2 ) = V̂ (β̂2 ) = 0.0054109 = 38.994 e il valore p è α n−2 > (t2 ) ) = P (tn−2 > 38.99) = 0.00015062. D’altra parte il test basato sulla quantità pivotale fornisce toss 2 = q β̂2 = V̂ (β̂2 ) 0.45934 = 6.2445, 0.073559 a cui corrisponde lo stesso valore p del test del rapporto di verosimiglianza. 2.3.2.1 Verifica d’ipotesi e i.c., approccio di verosimiglianza, distribuzioni asintotiche Per la statistica del rapporto di verosimiglianza si ha il risultato approssimato (asintotico) 2 Pn 2 ẽi σ̃ 2 ∼ χ21 . W (β2 ) = 2(l(β̂1 , β̂2 , σ̂ ) − l0 (β̃1 , σ̃2 )) = n log = n log Pi=1 n 2 σ̂ 2 e i=1 i Dal quale è interessante ricavare il livello di significatività approssimato del test e un intervallo di confidenza approssimato. Notiamo intanto che, per quanto visto, si ha Pn 2 ẽi 2 1 i=1 W (β2 ) = n log Pn 2 = n log 1 + T2 . (2.33) n−2 i=1 ei Per quanto riguarda la verifica d’ipotesi si confronta dunque il valore osservato W ∗ (β2 ) = 1 11 log 1 + (−7.35)2 11−2 = 21.41 con il χ21 , la regione di rifiuto ha forma W > k e quindi il valore p è αoss = P (χ21 > W ∗ ). Con i dati dell’esempio risulta αoss = P (χ21 > 21.41) = 3.71 × 10−6 . Per ottenere un intervallo di confidenza notiamo che, qualunque sia β2 , si ha P W (β2 ) < χ21,1−α = 1 − α, usando la (2.33) si ha P n log 1 + T2 (β2 )2 1 n−2 < χ21,1−α =1−α 8 Per definizione, se U ∼ χ2r e V ∼ χ2s e U e V sono indipendenti, allora F = (U/r)/(V /s) à distribuito secondo una F con r e s gradi di libertà. Da questo e dalla definizione della t di Student si evince facilmente che se T ∼ tm , allora T 2 ∼ F1,m . ● ● 180 150 y ● 150 160 170 180 ● 160 ● ● ● ● 150 y ● ● ● ● ● ● ● ● ● ● ● 140 ● 140 ● 140 ● ● ● ● 160 160 ● ● 140 150 y ● ● ● ● ● ● 170 180 31 170 170 180 2. Modello di regressione lineare semplice 140 150 x 160 170 180 140 150 x 160 170 180 x Figura 2.4: Rappresentazione grafica della scomposizione della somma dei quadrati, da sinistra a destra, SQR, SQS, SQT. da cui P T22 (β2 ) = (β̂2 − β2 )2 V̂ (β̂2 ) < (n − 2) e χ21,1−α /n −1 ! =1−α 2 P (β̂2 − β2 )2 < (n − 2) eχ1,1−α /n − 1 V̂ (β̂2 ) = 1 − α e quindi si ha l’intervallo β2 t.c. W (β2 ) < χ21,1−α di estremi r β̂2 ± 2 (n − 2) eχ1,1−α /n − 1 V̂ (β̂2 ) Con i dati dell’esempio, posto α = 0.05 e quindi χ21,0.95 = 3.8415, gli estremi β̃l e β̃u sono p 0.45934 ± (11 − 2) (e0.34922 − 1) 0.0054109 = 0.45934 ± 0.14267 e quindi l’intervallo cercato è [0.31667, 0.60201]. 2.4 Coefficiente di determinazione R2 Alla base della valutazione dell’adeguatezza del modello di regressione semplice si ha la scomposizione della devianza n n n X X X (yi − ȳ)2 = (ŷi − ȳ)2 + (yi − ŷi )2 , i=1 i=1 i=1 dove le tre quantità prendono il nome di devianza (o somma dei quadrati) totale, devianza spiegata e devianza residua, rispettivamente SQT , SQS e SQR nel seguito, si ha quindi SQT = SQS + SQR. Tali tre quantità sono rappresentate nella figura 2.4. Il coefficiente di determinazione R2 è definito come R2 = 1 − SQR SQS = , SQT SQT esso è compreso tra 0 e 1 ed è una misura di quanta parte della variabilità di y è spiegata dal modello di regressione che produce le ŷ. Con riferimento alla figura 2.4, R2 misura quanto l’area 2.4. Coefficiente di determinazione R2 32 verde (distanza dei punti della retta dalla media della y) prevalga sulla rossa (distanza tra i punti osservati e la retta). Il coefficiente R2 può anche essere scritto in funzione della statistica t2 , infatti Pn 2 Pn 2 ei SQR 2 i=1 ei P = 1 − Pi=1 R =1− =1− n n 2, 2 SQT i=1 (yi − ȳ) i=1 ẽi si è però visto, nelle (2.31) e (2.32), che Pn ẽ2i Pi=1 n 2 i=1 ei =1+ t22 n−2 ., quindi si ha il legame tra R2 e t2 9 Pn 2 ẽi R2 t22 1 − 1 = = Pi=1 − 1 = n 2 n−2 1 − R2 1 − R2 i=1 ei (2.34) Con i dati dell’esempio si ottiene (si veda anche la figura 2.4 per una rappresentazione grafica) SQR = 66.286, SQE = 240.61, SQT = 306.81, e quindi R2 = 1 − 66.286 306.81 = 0.78395, d’altra parte usando la (2.34) si ha t22 38.994 = 0.81 = 11 − 2 + 38.994 n − 2 + t22 R2 = dove la differenza col risultato precedente si deve alle approssimazioni numeriche nel calcolo. È utile osservare che R2 è anche la correlazione campionaria al quadrato, infatti Pn 2 2 2 Pi=1 (xi − x̄) R = β̂2 n 2 i=1 (yi − ȳ) Pn P (xi − x̄)(yi − ȳ) 2 ni=1 (xi − x̄)2 i=1 Pn Pn = 2 2 i=1 (xi − ȳ) i=1 (yi − ȳ) Pn (xi − x̄)(yi − ȳ))2 ( Pn = ρ̂2 . = Pn i=1 2 2 (x − ȳ) (y − ȳ) i i i=1 i=1 Il coefficiente di determinazione R2 offre una misura sintetica della vicinanza dei dati e del modello, tuttavia da solo non è sufficiente a valutare la qualità del modello stesso. Da una parte, un basso valore di R2 non significa che il modelo sia inutile o inadeguato, per una discussione di questo si veda il commento alle stime nella sezione 6. D’altra parte, anche quando l’indice R2 ha un valore elevato, vicino a 1, il modello potrebbe risultare chiaramente migliorabile, si veda la figura 2.5 per un’esemplificazione. 9 Si noti che allo stesso risultato si perviene scrivendo t22 come )2 Pn ( t22 = β̂22 1 s2 Pn (x 2 i −x̄) i=1 i=1 (xi −x̄)(yi −ȳ) ( ni=1 (xi −x̄)2 )2 1 s2 Pn (x −x̄)2 = i=1 i )2 Pn ( P = i=1 (xi −x̄)(yi −ȳ) Pn 2 i=1 (xi −x̄) s2 Pn (ŷi − ȳ)2 = Pni=1 2 i=1 ei /(n − 2) dove si è sfruttato il fatto che n n n n X X X X (ŷi − ȳ)2 = (β̂1 + β̂2 xi − ȳ)2 = (ȳ − β̂2 x̄ + β̂2 xi − ȳ)2 = β̂22 (xi − x̄)2 = i=1 Si ha perciò i=1 t2 2 n−2 = i=1 SQS SQR = SQS/SQT SQR/SQT = R2 . 1−R2 i=1 Pn i=1 (xi − x̄)(yi − Pn 2 i=1 (xi − x̄) ȳ) 2 . 2. Modello di regressione lineare semplice 33 ● 8 ● ● ● ● ● ●● ● ● ● ● ● ● ● ● 8 ● ● ● ●● 2 6 ● ● ● ● ● ● 0 0.0 ● ●● ● ●● ● ● ● 0.5 ● ● ● ● ●● ● ● ● ●● ●● ● ●● ● ● 2 ● ● ● ●● ● ● ● ● ● ● ● ● ● ●● ● ● 4 y 4 ●● ● ● ● ●● ● ●● ● ● ● ● ● ●● y ● ● ● 10 ● 6 ● ● ● R2 = 0.94 12 R2 = 0.377 1.0 1.5 2.0 0.0 ● 0.5 x 1.0 1.5 2.0 x Figura 2.5: Due esempi: nel primo la regressione semplice è un modello adeguato, e il coefficiente di determinazione è contenuto, nel secondo caso il coefficiente è molto elevato, ma il modello è chiaramente migliorabile 2.5 Previsione col modello di regressione semplice Sinora si è trattato dell’inferenza per i coefficienti della retta. Lo scopo dell’analisi, più o meno implicitamente, era dunque descrivere in modo sintetico la relazione tra variabile dipendente e indipendente. La retta stessa può però essere utilizzata anche per la previsione, cioè l’inferenza su Y , in particolare, ci si può chiedere quale sia il valore medio di Y associato a un fissato valore per x, per quanto si è detto esso è pari a10 E(Y |X = x0 ) = β1 + β2 x0 , per il quale una ragionevole stima puntuale è Ŷ0 = β̂1 + β̂2 x0 . Per ottenere un intervallo di confidenza per E(Y |X = x0 ) si scriva lo stimatore Ŷ0 nella forma Ŷ0 = Ȳ + β̂2 (x0 − x̄). Si può mostrare che Ȳ e β̂2 sono indipendenti, sappiamo che sono normali e perciò σ2 (x0 − x̄)2 2 Ŷ0 ∼ N E(Y |X = x0 ), + Pn σ . 2 n i=1 (xi − x̄) Di conseguenza, si ha la quantità pivotale Ŷ − E(Y |X = x0 ) r 0 , 2 (x −x̄) 1 0 2 s n + Pn (xi −x̄)2 (2.35) i=1 distribuita secondo una tn−2 . Si ha quindi l’intervallo di estremi s 1 (x0 − x̄)2 2 Ŷ0 ± tn−2,1−α/2 s + Pn 2 n i=1 (xi − x̄) 10 La distinzione tra inferenza sui coefficienti e previsione (inferenza su osservabili) può apparire poco rilevante in questa fase, è comunque bene tenerla presente sin d’ora. La distinzione è importante soprattutto in relazione alla selezione del modello. 2.6. Esempio sviluppato: altezze di madri e figlie 170 ● 150 160 ● ● ● ● ● ● ● ● ● ● 140 Altezza figlie 180 34 140 150 160 170 180 Altezza madri Figura 2.6: Intervalli di confidenza per E(Y |X = x) (linea continua) e per Y |X = x (linea tratteggiata). la cui ampiezza, si noti, cresce all’aumentare di |x0 − x̄|: l’incertezza della previsione aumenta quanto più ci si allontana dal centro delle osservazioni x. Quanto ottenuto è un i.c. per E(Y |X = x0 ). Qualora fosse di interesse un i.c. per Y0 = (Y |X = x0 ) occorrerebbe ricordare che esso è pari a Y0 = E(Y |X = x0 ) + ε, dove ε è una variabile gaussiana indipendente dagli stimatori e con varianza σ 2 . Si ha allora che Ŷ0 − Y0 = Ŷ0 − E(Y |X = x0 ) + E(Y |X = x0 ) − Y0 . Per Ŷ0 − E(Y |X = x0 ) si ha quanto sopra, mentre E(Y |X = x0 ) − Y0 è una N (0, σ 2 ), quindi Ŷ − E(Y |X = x0 ) r 0 −x̄)2 s2 1 + n1 + Pn(x0(x 2 i −x̄) i=1 è distribuito secondo una tn−2 . Di conseguenza cambiano gli intervalli di confidenza. Nella figura 2.6 si sono rappresentati i due intervalli al variare di x0 . 2.6 Esempio sviluppato: altezze di madri e figlie Si hanno n = 1375 osservazioni (xi , Yi ), dove xi rappresenta l’altezza della madre e Yi l’altezza della figlia. Le osservazioni sono rappresentate nel diagramma di dispersione in figura 2.7. Si adotta per le Y1 , . . . , Y1375 il modello (2.23) La forma del diagramma di dispersione in figura 2.7 suggerisce una relazione tra le due variabili, questa è resa più evidente aggiungendo al grafico le medie calcolate localmente (per intervalli di 1cm di altezza), che rivelano anche la forma, plausibilmente lineare, della relazione tra x e E(Y |X = x). La funzione di log-verosimiglianza (2.25) è rappresentata nella figura 2.8 a sinistra per σ 2 = 1. La forma della verosimiglianza è indicativa della forte correlazione tra gli stimatori β̂1 e β̂2 , in effetti la correlazione tra i due (formula (2.16)) è vicina a −1. 2. Modello di regressione lineare semplice 35 ● 170 160 150 140 ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ●● ●●● ●●● ● ●● ● ● ● ●● ● ● ● ● ● ●●● ●●● ●● ●● ●●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●●●●● ● ●● ●● ● ● ●● ●● ● ● ●● ●● ●● ● ●● ● ●● ● ● ● ●●● ● ●● ● ●●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ●● ●● ● ● ● ● ● ●●● ● ● ● ●● ● ● ● ● ●● ● ● ● ●● ● ● ● ● ● ● ● ●●● ● ● ● ●● ●● ● ● ● ● ● ●● ● ●● ●● ● ● ●● ● ●● ●●● ● ● ●● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ●● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ●● ● ● ● ●● ● ● ●● ● ● ●● ● ●● ● ● ● ● ● ● ● ● ● ●●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ●● ● ● ● ● ● ● ● ●●● ● ● ● ● ●● ● ● ● ● ●● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ●●● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ●● ● ● ● ● ● ● ●●● ● ● ● ● ● ● ● ● ●● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ●● ● ●● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ●● ●● ●●● ●●●● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ●● ● ●● ● ● ●● ● ● ● ● ● ● ● ● ● ●●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ●● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ●● ● ● ● ● ● ●● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ●● ● ● ● ● ● ● ● ●● ●● ● ● ●● ●● ● ● ● ● ● ● ● ● ● ● ●● ●●● ●● ● ● ● ●● ● ● ●● ● ● ●● ●●● ● ● ● ● ● ● ● ● ● ● ● ●●● ● ● ● ● ● ●● ● ●● ● ● ● ●● ●● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ●● ●● ● ● ● ● ● ● ● ●● ● ● ● ● ● ●● ● ●● ● ● ● ●● ● ● ● ●● ● ●● ● ●● ● ●● ● ● ● ● ● ● ● ● ●● ●● ● ●● ● ●● ● ● ● ● ● ● ● ●● ●●● ●● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ●●●●● ●● ● ● ● ●● ● ●●●● ● ● ● ● ● ● ● ● ● ●● ● ● ● ●● ● ● ● ● ● ●● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ●● ●● ●● ●● ● ●●● ●● ● ● ●● ● ● ● ● ●● ● ● ● ● ● ●● ● ● ● ●● ● ● ● ● ●● ● ● ●● ● ● ●● ●● ● ● ● ● ● ● ●● ●●● ● ● ● ●● ●●● ● ● ●●●● ● ● ● ● ●●● ● ● ●● ● ● ●● ●● ● ● ●● ●● ●●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●●● ● ● ● ● ●● ● ●● ● ●●● ● ● ● ● ● ●●● ● ● ● ● 140 150 160 170 180 Altezza figlie Altezza figlie 180 170 160 150 140 180 ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ●● ●●● ●●● ● ●● ● ● ● ●● ● ● ● ● ● ●●● ●●● ●● ●● ●●● ● ● ● ● ●● ● ● ● ● ● ● ● ● ●● ●●●●● ● ●● ●● ● ● ●● ●● ● ● ●● ●● ●● ● ●● ● ● ● ● ● ●●● ● ●● ● ●●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ●● ●● ● ● ● ● ● ● ●●● ● ● ● ●● ● ● ● ● ●● ● ● ● ●● ● ● ● ● ● ● ● ●●● ● ● ● ●● ●● ● ● ● ● ● ●● ● ●● ●● ● ● ●● ● ●● ●●● ● ● ●● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ●● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ●● ● ● ● ●● ● ● ●● ● ● ●● ● ●● ● ● ● ● ● ● ● ● ● ●●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ●● ● ● ● ● ● ● ● ●● ● ● ● ● ●● ● ● ● ● ●● ● ● ● ● ● ● ● ●● ● ● ● ●● ●● ● ● ● ● ● ● ● ● ● ● ● ●●● ●● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ●● ● ●● ● ● ● ● ● ● ●●● ● ● ● ● ● ● ● ●● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ●● ● ●● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ●● ●● ●●● ●●●● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ●● ● ●● ● ● ●● ● ● ● ● ● ● ● ● ● ●●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ●● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ●● ● ● ● ● ● ● ●● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ●● ● ● ● ● ● ● ● ●● ●● ● ● ●● ●● ● ● ● ● ● ● ● ● ●● ●●● ●●● ● ● ● ● ●● ● ● ● ● ● ●● ● ● ●● ●●● ● ● ● ● ● ● ● ● ● ●●● ● ● ● ● ● ●● ● ● ● ● ● ●● ●● ● ● ● ● ● ● ● ●● ● ● ● ● ●● ● ● ● ●● ●● ● ●● ● ● ● ● ● ● ● ●● ● ●● ●● ●● ●● ● ● ●● ● ●● ●●● ● ● ● ●● ● ● ● ●● ● ●● ● ●● ● ● ● ● ● ● ● ● ● ●● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ●●● ● ●●● ●● ● ● ● ● ● ● ● ● ● ● ● ●●● ● ● ● ● ● ● ●● ● ● ● ●● ● ●● ● ● ● ● ● ● ● ● ● ●● ● ● ● ●● ● ● ● ● ● ●● ● ●●● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ●● ●● ●● ● ● ● ●● ● ● ● ● ●● ● ● ●● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●●●●● ●● ● ●● ●● ●● ● ● ●●● ●● ● ●●● ● ● ● ● ●●● ● ● ●● ● ●● ●●● ● ● ● ● ●● ● ●● ● ●●● ● ● ● ● ● ● ●●● ● ● ● ● 140 150 Altezza madri 160 170 180 Altezza madri Figura 2.7: Dati sulle altezze di madri e figlie: nel grafico a sinistra è rappresentato il diagramma di dispersione, nel grafico a destra il diagramma di dispersione è corredato dalle medie per classi di altezza delle madri. In generale, non è conveniente stimare un modello in cui gli stimatori di due parametri sono fortemente correlati. Si può ovviare a questo problema modificando la variabile x, si definisce x̃i = xi − x̄ (dove x̄ = 158.63) e si considera il modello Yi ∼ N (β1 + β2 x̃i , σ 2 ) Si noti che β2 coincide col β2 del modello precedente (per le xi ), mentre cambia β1 (che oltretutto ha ora un’interpretazione sostanziale, è l’altezza attesa per figlie di madri di altezza pari alla media delle altezze delle madri, mentre nella formulazione con xi era l’altezza attesa per figlie di madri di altezza 0). La verosimiglianza del nuovo modello è rappresentata in figura 2.8 a destra. Le quantità rilevanti sono dunque n X yi = 222650; i=1 n X x̃2i i=1 = 49153.13; n X yi x̃i = 26640.13 i=1 P Essendo 1375 i=1 xi = 0, le formule per ottenere le stime di massima verosimiglianza β̂1 (equazione (2.12)) e β̂2 (equazione (2.11)), diventano Pn x̃i yi /n 26640.13/1375 β̂2 = Pi=1 = = 0.5420 n 2 49153.2/1375 i=1 x̃i /n β̂1 = ȳ = 161.93 Il modello stimato è perciò yi = 161.93 + 0.5420x̃i + ei , o, in funzione delle x yi = 161.93 + 0.5420(xi − x̄i ) + ei , rappresentato in figura 2.9; si noti che la rappresentazione è fatta in funzione di x anziché di x̃ per semplificare la lettura dei risultati, è la stima che viene fatta usando x̃. P La stima di massima verosimiglianza della varianza (equazione (2.18)) è σ̂ 2 = n1 ni=1 e2i = n 1375 33.06812,, mentre la stima corretta s2 , (equazione (2.19)), è s2 = n−2 σ̂ 2 = 1375−2 33.06812 = 36 2.6. Esempio sviluppato: altezze di madri e figlie −1 41 0.50 −1 54 68 4.1 51 .6 −2 27 24 8.5 .31 −24151 184 −24 .05 −24131.56 −24093.37 −24074.27 −24002.64 −24151 .05 −24 5 −24 184 .31 −24026.52 27 .93 0.45 −2 11 6 0.60 −8 −2 −4 −3 −6 24 9 64 56 07 68 43 18 110 63 .1 .06 01.2 .91 .46 .75 6 −2 68 86 .65 54 0.55 −2 + −23999 + .77 −2 42 89 .37 −24007.41 −240 68 −2 27 80 24 −1 8.5 54 −1 68 4.1 85 11 65 1.6 0.50 0.40 16.98 −2 −2 456 86 0.6 .65 7 −24036.08 −24055.17 −4 −6 −3 −2 −2 −8 64 07 56 91 54 24 43 63 01 1 18 68 .91 .75 .26 0.06 .46 .1 90 95 −24 −24112.47 184 100 −24151.0 .31 5 161.6 161.8 162.0 .31 184 −24151.0 162.2 162.4 ta_2) l(beta_1,be 2 be be ta_ 2 ta_ ta_2) l(beta_1,be beta _1 beta_1 Figura 2.8: Dati sulle altezze: funzione di log-verosimiglianza per il modello lineare per σ 2 = 1, dati originali (a sinistra) e avendo centrato l’esplicativa (a destra) 33.11629. Si nota che la differenza tra stima corretta e stima di massima verosimiglianza è molto contenuta; ciò si deve alla numerosità campionaria relativamente elevata. Possiamo poi calcolare le stime delle varianze degli stimatori notiamo che Pntal fine Pn di β1 e 2β2 . A 2 ¯ la media delle osservazioni centrate x̃i è nulla, e quindi i=1 (x̃i − x̃) = i=1 x̃i = 49153. Con questo si hanno le stime delle varianze degli stimatori β̂1 e β̂2 V̂ (β̂2 ) = V̂ (β̂1 ) = s2 33.11629 = = 0.0006737389, 2 49153 i=1 (xi − x̄) s2 33.11629 = = 0.02408457. n 1375 Pn Con le stime cosı̀ ottenute siamo in grado di effettuare una verifica d’ipotesi, ad esempio consideriamo il test di nullità di β2 (H0 : β2 = 0, H1 : β2 6= 0. Si calcola allora il valore assunto da t2 0.5420 (equazione (2.30)) toss = √ β̂2 = 0.02595648 = 20.88 e lo si confronta con una t di Student con 2 V̂ (β̂2 ) n − 2 g.d.l., il valore p è praticamente nullo e si rifiuta perciò l’ipotesi nulla. È quindi confermato che esiste una relazione statistica tra le altezze di madri e figlie. Con ciò, siamo in grado di completare la tabella dei coefficienti (tabella 2.2). Sempre sulla base della quantità pivotale t2 , otteniamo un intervallo di confidenza di livello q 1 − α per β2 , i cui estremi sono β̂2 ± tn−2,1−α/2 V̂ (β̂2 ). Posto α = 0.05, si ha tn−2,1− α2 = t1375−2,0.975 = 1.96 e quindi l’intervallo per β2 ha estremi 0.5420 ± 1.96 × 0.02596 ed è, di con- 2. Modello di regressione lineare semplice 37 Altezza figlie 190 ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ●● ●●● ●●● ● ●● ● ● ● ●● ●● ●● ● ● ●● ● ●● ●● ●● ●● ●● ● ●● ●● ● ●● ● ●● ● ● ● ●●● ● ● ●●●● ● ●● ●●● ● ●● ● ● ●● ● ● ●● ●● ●● ● ● ● ●● ● ●●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ●●● ● ● ● ● ● ● ● ● ● ●● ● ●● ● ● ● ● ●● ● ●● ● ● ● ●● ● ●●● ● ●● ●●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ●● ● ● ●● ● ● ● ●● ● ● ● ● ● ● ● ● ●●●● ● ● ● ● ● ●● ●● ● ● ● ● ● ● ●●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ●● ● ● ● ● ● ●●● ● ● ● ● ● ● ● ● ●● ● ● ● ●● ● ● ● ●● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ●●● ●● ● ●● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ●● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ●● ● ● ●● ●●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ●● ● ●● ● ● ● ●● ● ● ●● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ●● ●●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ●● ● ● ● ● ● ● ● ● ● ● ● ●● ●● ●● ● ● ● ● ● ● ● ● ● ● ●●● ●● ● ● ● ● ● ● ● ● ● ● ● ●● ●● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ●● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ●● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ●● ● ● ●● ● ●● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ●●● ●● ●●● ● ●● ●● ●● ● ●● ● ● ● ● ● ● ● ● ● ● ●●● ● ●● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ●●● ● ●● ● ● ● ● ● ● ●● ● ● ●● ●●● ● ●●● ● ● ● ● ● ●● ● ●● ● ● ● ● ●● ● ● ● ● ●●●●●● ●●● ●● ●● ●● ●● ● ● ● ●● ● ●● ● ●● ● ●●● ●● ●●● ● ●● ●● ● ● ● ●● ● ● ● ● ●● ● ● ●●● ● ● ● ● 180 170 160 150 140 130 130 140 150 160 170 180 190 Altezza madri Figura 2.9: Modello stimato per la relazione tra altezza delle madri e altezza delle figlie 1 2 β̂r 161.928 0.5420 q V̂ (β̂r ) 0.15519 0.02596 toss r 1043.40 20.88 P (|tn−2 | > |toss r |) 0 0 Tabella 2.2: Tabella dei coefficienti per il modello lineare sulle altezze di madri e figlie seguenza, [0.4911, 0.5929]. L’intervallo di confidenza per E(Y\ |X = x0 ) ottenuto a partire dalla quantità pivotale (2.35) è s 161.928 + 0.5420x0 ± tn−2,1−α/2 33.11629 1 x̃20 + 1375 49153 Ad esempio per le madri di 180cm si avrà x̃0 = 180 − x̄, l’intervallo per l’altezza attesa delle figlie è [172.4, 174.6]. Possiamo ottenere un intervallo di previsione per Y0 = Y |X = x0 come s 161.928 + 0.5420x0 ± tn−2,1−α/2 1 x̃20 33.11629 1 + + 1375 49153 e si ottiene, sempre per una madre di 180cm, [162.2, 184.8]. Pn 2 2 Infine, la somma dei quadrati è SQT = nvar(y) = i=1 yi − nȳ = 59907.13, di questa, la P componente spiegata è SQE = β̂22 ni=1 x̃2i = 14438.46 e dunque la componente residua è SQR = SQT − SQE = 45468.67. Con queste quantità si calcola R2 = 1 − 45468.67 59907.13 = 0.24. Il valore di 2 R è relativamente basso rispetto al suo massimo (1). Ciò di per sé non significa che il modello è inadeguato: il valore molto basso dei valori p per i coefficienti indica che un’associazione tra le due variabili esiste, il modello appare adeguato a descrivere questa associazione. D’altra parte, l’errore è relativamente elevato (σ 2 è alto) quindi il modello sarà poco utile in termini previsivi (si veda l’ampio intervallo di previsione calcolato sopra). Infine, calcoliamo le quantità collegate alla verosimiglianza e usiamo i relativi risultati asintotici per l’inferenza. La matrice di informazione osservata è −1 42.23600 6700.00000 0.0 17.22900 −0.10846 0.0 = 6700.00000 1064300.00000 0.0 = −0.10846 0.00068 −0.0 . 0.00000 0.00000 0.3 0.00000 0.00000 3.1 J(β̂1 , β̂2 , σ̂ 2 )−1 38 2.7. Esercizi Sulla base di risultati generali sulla verosimiglianza, dunque, il valore p asintotico per il test di nullità di β2 è β̂2 − β2 0.5264 − (0.56) oss q √ α =1−Φ =1−Φ = 1 − Φ (| − 1.285|) = 0.099396 0.00068371 [Jˆ−1 ]22 ±Φ−1 (1 q − α/2) [Jˆ−1 ]22 = Mentre un intervallo di confidenza asintotico di livello 1−α = 0.95 ha estremi β̂2 0.5264 ± 1.96 × 0.026148 ed è dunque [0.47515, 0.57765]. La verifica d’ipotesi può essere effettuata impiegando il rapporto di verosimiglianza e la sua distri- 1 buzione approssimata, si calcola allora la quantità (2.33) Woss (β2 ) = 1375 log 1 + (−1.3187)2 1375−2 = 1.7404 e si ottiene il valore p αoss = P (χ21 > W ∗ ) = P (χ21 r > 1.7404) = 0.18709. 2 L’intervallo di confidenza basato su W (β2 ), di estremi β̂2 ± (n − 2) eχ1,1−α /n − 1 V̂ (β̂2 ) ha, pop sto α = 0.05 ed essendo χ21,0.95 = 3.8415 estremi 0.5264± (1375 − 2) (e0.0027938 − 1) 0.0006492 = 0.5264 ± 0.049937. l’intervallo è perciò [0.476463, 0.576337]. 2.7 Esercizi Esercizio 1 Mostrare che ȳ e β̂2 sono indipendenti. Esercizio 2 Nell’esempio sulle altezze di madri e figlie (con 11 osservazioni) 1. Si ottenga un i.c. di livello 0.95 per β1 ; 2. Si ottenga il valore p per l’ipotesi β1 = 0. Esercizio 3 Si risponda alle domande dell’esercizio 2 usando il campione esteso. Esercizio 4 Con i dati sui tempi olimpici maschili o femminili (esempio 6 del capitolo 1) si ottenga, per il modello con variabile risposta il tempo e esplicativa l’anno la tabella dei coefficienti. Capitolo 3 Analisi dei residui 3.1 Assunti del modello e residui Le proprietà degli stimatori, e quindi quelle delle procedure inferenziali sugli stessi, derivano dalle ipotesi fatte. È perciò un aspetto essenziale dell’analisi verificare che le assunzioni che costituiscono il modello siano valide. Queste assunzioni possono essere lette in termini degli errori εi e verificate in termini dei corrispondenti campionari degli errori, vale a dire i residui. In particolare le ipotesi da sottoporre a controllo sono • ipotesi di linearità: E(Yi ) = β0 + β1 xi , è legata al fatto che E(εi ) = 0 per ogni i; • ipotesi di omoschedasticità: V (Yi ) = σ 2 , in tal caso V (εi ) = σ 2 per ogni i; • ipotesi di normalità: εi ∼ N 0, σ 2 per ogni i. Gli errori εi non sono osservabili (se lo fossero, conosceremmo β1 e β2 ). Sembra ragionevole usare i loro corrispondenti campionari ei = yi − ŷi = yi − β̂1 − β̂2 xi , (3.1) detti residui. Va tenuto presente che i residui non sono realizzazioni del processo degli errori, e infatti essi non sono iid secondo una N 0, σ 2 , come si mostra nella sezione 1.1. 3.1.1 Proprietà dei residui L’idea per cui i residui sono corrispondenti campionari degli errori è intuitiva ma non sufficiente operativamente; non dice, cioè, come i residui vadano usati. Bisogna allora studiare le proprietà dei residui (implicate dalle assunzioni del modello) e associare a violazioni di tali proprietà delle violazioni degli assunti del modello. Consideriamo allora, anzitutto, alcune semplici proprietà algebriche, dalla prima equazione di verosimiglianza si deduce che n X ei = 0, (3.2) i=1 40 3.1. Assunti del modello e residui ● ● y1 ● ● ● ● ● ● ● y2 ● ● x2 x1 Figura 3.1: Grafico riassuntivo, in rosso sono rappresentate la vera retta di regressione (non osservata) e, per due osservazioni, le distribuzioni degli errori; in nero sono rappresentate la retta dei minimi quadrati e le distribuzioni dei residui. mentre dalla seconda equazione di verosimiglianza si ha che n X xi ei = 0, (3.3) i=1 cioè i residui sono ortogonali all’esplicativa. Si noti che le (3.2) e (3.3) implicano che i residui non sono indipendenti, basti osservare che, in base alla prima equazione, un residuo può essere espresso in funzione degli altri. Dalle (3.2) e (3.3) si deduce anche che n X ŷi ei = 0, (3.4) i=1 P P P in quanto ŷi = β̂1 + β̂2 xi e quindi ni=1 ŷi ei = ni=1 β̂1 ei + ni=1 β̂2 xi ei . Queste proprietà algebriche sono scontate, quindi non utili per la verifica degli assunti. Passiamo dunque alle proprietà stocastiche, osserviamo anzitutto che ciascun ei è combinazione lineare di variabili normali, e quindi ha a sua volta distribuzione normale. Calcolate dunque media e varianza, si sarà individuata la distribuzione. Si ha allora E(ei ) = E(Yi − β̂1 − β̂2 xi ) = E(Yi ) − β1 − β2 xi = 0. Per quanto riguarda la varianza, si ha V (ei ) = V (Yi − β̂1 − β̂2 xi ) = V (Yi ) + V (β̂1 ) + x2i V (β̂2 ) − 2cov Yi , β̂1 − 2xi cov Yi , β̂2 + 2xi cov β̂1 , β̂2 . (3.5) P P P Posto Dx = ni=1 (xi − x̄)2 ed essendo β̂2 = ni=1 wi Yi con wi = (xi − x̄)/Dx e β̂1 = ni=1 wi∗ Yi con wi∗ = 1/n − wi x̄ (cfr sezione 1.1 del capitolo 2), otteniamo cov Yi , β̂2 = cov Yi , n X j=1 wj Yj = wi V (Yi ) = wi σ 2 , 3. Analisi dei residui 41 cov Yi , β̂1 = cov Yi , n X wj∗ Yj j=1 = wi∗ σ 2 = 1 − wi x̄ σ 2 . n La (3.5) può dunque essere scritta 1 x2 1 x̄2 xi x̄ + i −2 V (ei ) = σ 2 1 + + − wi x̄ − 2wi xi − 2 n Dx Dx n Dx 2 2 1 (xi − x̄) (xi − x̄) = σ2 1 − + −2 n Dx Dx 2 1 (xi − x̄) = σ2 1 − − n Dx = σ 2 (1 − hi ), 2 dove si è posto hi = n1 + (xiD−x̄) . Notiamo che è hi < 1, in quanto x Pn altrimenti si otterrebbe una varianza negativa, inoltre ovviamente hi ≥ 1/n. Si ha infine i=1 hi = 2. Si nota allora che V (ei ) < V (εi ) = σ 2 e che la varianza cambia con i: i residui, a differenza degli errori, non sono identicamente distribuiti. Nella figura 3.1 si noti che le distribuzioni dei residui (in nero) hanno diversa variabilità, a differenza di quanto avviene per le distribuzioni degli errori (in rosso). Si ha dunque, in sintesi, 1 (xi − x̄)2 ei ∼ N 0, σ 2 1 − − (3.6) n Dx per ogni i. Notiamo peraltro che la varianza dipende esclusivamente dalle xi (e non da Yi ), si possono allora definire i residui standardizzati ẽi = r ei 1− 1 n − ei =√ ∼ N 0, σ 2 . 1 − hi (xi −x̄)2 (3.7) Dx Per un confronto tra residui standardizzati e non e rispettive varianze si veda la figura 3.2. Si potrebbe poi standardizzare anche rispetto alla varianza, e si avrebbe r̃i = r σ 1− ei 1 n − ei = √ ∼ N (0, 1) . σ 1 − hi (xi −x̄)2 (3.8) Dx Per il calcolo dei residui studentizzati come definiti nella (3.8) occorrerebbe conoscere la varianza σ 2 , siccome questo non è generalmente il caso, si sostituisce la varianza con una stima, e si hanno cosı̀ i residui studentizzati ri = r σ̂ 1− ei 1 n − ei = √ , σ̂ 1 − hi (xi −x̄)2 (3.9) Dx la cui distribuzione è, approssimativamente, una normale standard. Osservazione 3.1 Residuo e errore di previsione.. La varianza del residuo ei è tanto più piccola quanto maggiore è |xi − x̄|, viceversa l’errore quadratico medio di una previsione per la variabile risposta in corrispondenza a xi è tanto più grande quanto maggiore è |xi − x̄|, questo si deve al fatto che il secondo 3.2. Verifica delle ipotesi del II ordine − 10 ● ● ● ● ei ~ ei − ● 5 10 15 20 25 42 ● ● ● ●● ● ● 0 5 ● ● 0 ● ● ● ● ● ● −5 − −10 ● − ● ● 0 2 4 6 8 0 2 x 4 6 8 x Figura 3.2: A sinistra un insieme di dati e la relativa retta di regressione, a destra si sono rappresentati i punti (xi , ei ) (col simbolo o) e i punti (xi , ẽi ) (simbolo ×). Le linee verticali p 2 rappresentano l’intervallo √ ei ± 1.96 s (1 − hi ), le lineette orizzontali rappresentano gli estremi dell’intervallo ẽi ± 1.96 s2 fa riferimento a una nuova osservazione che è non correlata con gli stimatori dei minimi quadrati e quindi con Ŷi . Insomma, per il residuo si ha V (Yi − Ŷi ) = V (Yi ) + V (Ŷi ) − 2cov(Yi , Ŷi ) dove cov(Yi , Ŷi ) > 0, mentre per una nuova osservazione (xi , Yi0 ) si ha V (Yi0 − Ŷi ) = V (Yi0 ) + V (Ŷi ) − 2cov(Yi0 , Ŷi ) = V (Yi ) + V (Ŷi ) poiché Yi0 è indipendente da Y1 , . . . , Yn e quindi da Ŷi . • 3.2 Verifica delle ipotesi del II ordine In linea di principio è a questo punto equivalente sottoporre a verifica una tra le (3.6), (3.7) o (3.8) con la sostituzione (3.9). In pratica, è più facile ragionare con residui identicamente distribuiti, il che farebbe scartare (3.6). L’uso di una delle altre è sostanzialmente equivalente, tenuto conto che, per la verifica di (3.9) occorrerà comunque sostituire σ 2 con una stima. Illustreremo dunque alcuni strumenti di verifica, grafica e non solo, riferendoli ai residui standardizzati, precisando quando sarà necessario conoscere σ 2 , e quindi quando esso sarà sostituito con una stima. 3.2.1 Diagramma di dispersione dei residui v. esplicative o risposta Si considerano i grafici con, in ordinata, i residui e, in ascissa, i valori della variabile esplicativa o quelli dei valori previsti (figura 3.3). Nel contesto della regressione semplice i due grafici sono sostanzialmente uguali poiché i valori previsti sono una trasformazione lineare della variabile 3. Analisi dei residui 43 (xi , ẽi ) (ŷi , ẽi ) ● ● 4 6 ● ● 2 ~ e 2 ~ e 4 6 ● ● 0 ● 0 ● ● ● −2 ● ● 0 ● −2 ● ● ● ● ● ● 2 ● 4 6 8 −10 −5 0 ● 5 ● 10 15 y^ x 3 Figura 3.3: Grafici dei residui contro i valori della variabile esplicativa (xi , ẽi ) e contro i valori teorici (ŷi , ẽi ) 1 3 x ● −3 4 5 ● 0 1 2 3 x 4 5 1 2 3 ● ~ e 1 0 −1 ● ● 0 2 2 ~ e 1 0 ~ e −1 0 −2 2 ● −3 −2 ● ● ● ● ● ● ● ● ●●● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ●● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ●● ● ● ● ● ● ● ● ●●● ● ● ● ● ●● ● ● ● ● ● ●● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ●● ● ● ● ● ● ● ●● ● ●● ● ● ●●●● ●● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ●● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ●● ●● ● ● ● ● ● ●● ●● ● ● ●● ●● ●● ● ● ● ● ●● ● ● ●● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ●● ● ● ● ● ● ● ●● ● ● ● ●●● ●● ● ● ● ● ●● ● ● ● ● ● ● ● ● ●● ● ● ●● ● ● ●● ● ● ● ● ● ● ● −1 ● ● −3 ● ● ● ●● ●● ● ● ● ● ● ●● ● ● ● ●● ● ● ● ● ● ● ● ●●● ●● ● ● ● ● ● ●● ●● ●●● ● ●● ● ● ●● ● ●● ● ●● ● ●● ● ● ●● ● ● ● ●●● ●●● ●●●●● ●●● ● ● ●●●● ●● ●● ●● ● ● ●● ●● ● ● ●● ●● ●● ● ●●●●●●● ● ● ●● ●● ● ● ● ● ●● ●●● ● ●●● ● ●● ● ●● ● ●● ● ●●● ● ●●● ● ●● ●● ●● ●● ●● ●● ●● ● ● ●●● ●● ●●●● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ●● ● ●●● ● ● ●●● ●●●● ● ● ●● ● ●● ●● ●● ●●●●●● ● ● ● ●● ●● ● ● ● ● ● ● ● ● ●● ● ● ●● ● ●● ● ● ● ● ●● ● ●● ● ●● ● ● ●● ● ● ● ● ● ●●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ●●● ● ●● ●● ● ●● ● ● ● ●●● ●●● ● ● ● ●● ● ●●●● ●● ● ●● ● ● ●● ● ● ●●● ●● ● ●●● ● ●● ●● ● ● ● ● ● ●● ●●● ●●● ● ●●● ●●●● ●● ● ●● ● ● ●● ● ● ●● ● ● ● ● ● ● ● ●● ●● ●● ● ●● ● ● ● ● ● ● ● ● ● ● ●● ●●● ● ●●● ●●● ● ● ● ●●● ● ●● ● ● ●● ●● ● ●● ● ● ●● ● ●● ● ● ●● ● ● ●●●● ● ● ● ● ● ●● ● ●● ● ● ●●● ●● ● ● ●● ● ● ●● ●● ● ● ● ●●● ● ● ● ●● ● ● ●● ●● ● ● ● ●●● ● ● ●● ●●● ●● ● ● ● ● ● ● ● ●●● ● ●● ●●●● ● ●● ● ● ● ● ●● ● ●● ●● ● ● ● ● ● ● ● ● ● ● ●●●●● ●●● ● ● ●● ● ● ●● ● ●●● ● ●● ● ● ● ●● ● ● ● ● ● ● ●● ● ● ● ● ●● ● ● ● ● ● ● ● ●●●● ● ● ● ● ●● ●● ●● ●● ● ●● ● ●● ● ●● ● ●● ●●●● ● ● ● ●●● ●● ● ● ●● ● ●●●●● ●●● ● ●●● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ●●● ● ● ●●●● ● ● ●●● ● ● ●●● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ●● ●● ●●● ●● ●● ● ● ●●● ●●●● ●●● ●● ● ●● ● ●● ● ●● ● ●● ● ● ●●● ● ● ●● ●● ●● ● ●●●● ● ●●● ● ●● ●●●● ● ● ● ● ●● ● ● ● ● ● ●● ●● ● ●● ● ● ● ●● ● ●● ● ● ●● ●● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● 0 1 2 3 4 5 x Figura 3.4: Tre esempi di grafici dei residui rispetto la variabile esplicativa con forma ideale esplicativa (si noti in particolare che i due grafici in figura sono speculari, in quanto la trasformazione ha coefficiente angolare negativo), cosı̀ non è nel caso della regressione multipla, dove i diversi grafici, con interpretazione analoga, sono diversi. Il grafico ideale non presenta andamenti: i residui dovrebbero essere equamente suddivisi tra positivi e negativi; residui positivi e negativi dovrebbero alternarsi; la variabilità dovrebbe essere costante, tre esemplificazioni sono riportate nella figura 3.4. Violazioni sensibili delle caratteristiche ideali possono essere indicativi di violazione degli assunti. In particolare: se c’è una preponderanza di residui negativi (positivi), la distribuzione degli stessi può non essere simmetrica; se i residui non si alternano, è in dubbio la linearità della relazione (figura 3.5); se la variabilità non è costante, è in dubbio l’omoschedastictità (figura 3.6). Il grafico si può fare, in teoria, tanto con i residui grezzi che con quelli standardizzati o studentizzati, esso risulta più facilmente intepretabile se fatto con i residui standardizzati o studentizzati, in particolare per qanto riguarda la valutazione dell’omoschedasticità. Nella figura 3.6 si rappresentano alcune situazioni tipo: la forma ideale del grafico e la forma che esso assume in presenza di due particolari tipi di omoschedasticità. Si noti che, per meglio far risaltare l’eventuale eteroschedasticità, può essere utile esaminare il grafico (xi , |ẽ|) o (ŷi , |ẽ|). Di questi grafici non rileva, naturalmente, un eventuale andamento delle osservazioni, ma solo la dispersione, che dovrebbe risultare costante. Se il grafico è fatto con i residui studentizzati, per i quali il riferimento è alla normale standard, è utile confrontare i punti con la banda di variabilità [−1.96, 1.96], l’ipotesi di normalità implica che P (ri ∈ [−1.96, 1.96]) = 0.95, si dovrebbero dunque avere circa il 5% delle osservazioni al di fuori della banda, un numero sostanzialmente superiore, o anche inferiore, è indicativo della non 1 2 ●● ● ● ●● ● ●● ●●● ● ● ●● ● ● ● ● ● ● ● ●● ●● ● ● ● ● ● ● ● ● ●● ●● ● ● ● ● ● ●● ● ● ●● ●● ● ● ● ● ●● ●● ●● ●● ●● ● ● ● ● ● ●● ● ● ● ● ● ● ● ●● ●● ● ● ● ●● ●● ● ● ●● ● ● ● 2 −2 4 5 0 1 2 3 x 4 5 ● ● ● 1 ● −1 0 ~ e 1 ~ e 0 ● 3 ●● ● ● 0 ● ● ● ● ● ●● ● ●● ● ● ●● ● ●● ● ● ● ● ● ● ● ● ● ● ● −1 0 −2 −1 ~ e 1 2 ● ● ● ●●● ● ●● ●● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ●● ● ●● ●● ● ● ● ● ● ● ● ●● ●● ● ● ●● ● ● ● ● ● ● ● ● ● ●● ●● ●●● ● ● ● ● ● ● 3 3.2. Verifica delle ipotesi del II ordine 2 44 6 ● ● ● ●● ●●● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ●● ● ●●●● ● ● ●● ● ● ●● ● ● ● ● ● ● ● ● ●●● ● ● ● ●● ● ● ● ● ●● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ●●● ● ● ● ●● ● ● ● ● ● ● 0 1 2 3 x 4 5 6 7 x ● ● 0 1 2 3 4 10 ●● ● ● ● ● ● ● ● ● ●●● ● ● ● ●● ● ● ●● ●● ● ● ● ●● ● ● ●● ●● ● ● ● ● ●● ●● ● ● ● ● ●● ● ●●● ● ● ● ● ●● ● ● ● ● ● ● ● ●● ● ~ e ● ● 0 ● ●● ●●● ● ●● ● ● ● ● −10 ~ e 0 ● ● ● 20 20 ● ● ●● ●● ● ●● ● 10 ● −10 ● ● ●●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ●● ● ● ● ● ● ● ● ● ● ● ● ●● ● ●● ● ● ● ●● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ●●●● ●● ● ●● ● ● ● ● ● ● ●● ● ●● ● ● ● −30 −40 −20 ~ e 0 20 40 Figura 3.5: Alcune situazioni tipo per il diagramma di dispersione dei residui contro la variabile esplicativa: tre casi indicativi di non linearità della relazione ● ● ● ● ● ● ●● ● ● ● ● ● ●●● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ●● ● ●● ●● ● ● ● ● ●● ● ●● ● ●●● ●● ●● ●● ●● ●●● ●●● ● ● ●● ●●● ● ● ●●● ● ● ●● ●● ● ● ● ●● ● ● ●●● ●● ●● ● ●●● ●● ● ●● ●● ● ● ● ● ● ● ●●● ● ●● ●● ● ● ●● ● ● ●● ● ●● ●●● ●● ● ● ●● ● ●● ● ● ●● ● ●●● ● ● ● ● ● ● ● ●● ●● ● ● ● ● ● ●● ● ●● ● ● ● ● ●● ● ●●● ● ● ● 5 ● 0 1 2 3 4 x 5 6 7 x 0 1 2 3 4 5 6 7 x Figura 3.6: Alcune situazioni tipo per il diagramma di dispersione dei residui contro la variabile esplicativa: tre casi indicativi di eteroschedasticità normalità dei residui stessi. Per decidere se l’eventuale scostamento è sostanziale, si dovrà far riferimento alla distribuzione del numero di residui al di fuori dell’intervallo, che è, approssimativamente (perché i residui non sono indipendenti), binomiale di dimensione n e probabilità 0.05. Questa è in sostanza una versione minimalista e naı̈f della procedura illustrata nella sezione 3.1.1. 3.2.2 Test di omoschedasticità Introduciamo brevemente, tra le varie alternative, il test di Bartlett per la verifica dell’omoschedasticità. Per costruire il test si suddividono i residui in gruppi sulla base del valore dell’ascissa (x o ŷ), diciamo G gruppi G1 , . . . , Gj , si assume IND ẽi ∼ N 0, σj2 se ẽi ∈ Gj e si verifica il sistema d’ipotesi ( 2 H0 : σ12 = σ22 = . . . = σG H1 : ∃i, j t.c. σi2 6= σj2 A tal fine, se con ng , g = 1, . . . , G si indicano le numerosità dei gruppi, si calcolano le varianze interne ai gruppi 2 X X X 2 ẽi − 1 s2g = ẽi = (ẽi − ẽ¯g ) ng ei ∈Gg ẽi ∈Gg ei ∈Gg e la varianza complessiva G s2p = 1 X (ng − 1)s2g , n−G g=1 3. Analisi dei residui 45 4 6 ● ● 2 ● ● ● ● ●● ● ● ● ● ● ● ● ● ●● ● ● ●● ●● ● ● ●● ● ●● ● ● ●● ● ● ● ● ● ● ● ● ●● ● ● ● ●● ● ● ●●● ● ●● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● −2 0 ~ e ● ●● ● ●● ● −4 ● ● ● ● 2.0 2.5 3.0 3.5 4.0 4.5 5.0 x Figura 3.7: Esempio ipotetico di residui, con divisione in 5 gruppi per il calcolo del test di Bartlett (vedi tabella 3.1) dove n = PG g=1 ng , con queste si ottiene la statistica P (ng − 1) ln s2g (n − G) ln s2p − G , P g=1 T = G 1 1 1 − 1 + 3(G−1) g=1 ng −1 n−G detta anche test di Bartlett, nell’ipotesi nulla si ha T ∼ χ2G−1 e la regione di rifiuto di livello α è T > χ21−α,G−1 (si noti che T è nulla se tutte le varianze di gruppo sono uguali). g 1 2 3 4 5 Tot ng 20 20 20 20 20 100 s2g 0.3149 0.9202 3.6088 1.2388 4.5130 10.5957 s2g (ng − 1) 5.9832 17.4841 68.5680 23.5367 85.7472 201.3192 log(s2g ) -1.1555 -0.0831 1.2834 0.2141 1.5070 1.7658 log(s2g )(ng − 1) -21.9543 -1.5798 24.3843 4.0683 28.6323 33.5510 1/(ng − 1) 0.0526 0.0526 0.0526 0.0526 0.0526 0.2632 Tabella 3.1: Calcoli necessari per ottenere la statistica test di Bartlett per i dati della figura 3.7 relativamente alla suddivisione in gruppi indicata nella figura stessa A titolo di esempio si considerino i dati rappresentati nella figura 3.7. Questi vengono divisi in 5 gruppi (scelta arbitraria) aventi la stessa numerosità, rappresentati nella figura dalle bande verticali. Si calcolano allora le quantità rilevanti (tabella 3.1) e si ottiene s2p = 201.32/95 = 2.1191, e dunque la statistica T T = (100 − 5) ln 2.1191 − 33.551 = 37.02, 1 1 1 + 3(5−1) 0.2632 − 100−5 che va confrontata con un χ24 , il livello di significatività osservato è dunque P (χ24 > T oss ) = 1.78 × 10−7 . 46 3.3. Verifica della normalità 3.3 Verifica della normalità S’è già detto che un eventuale asimmetria nei diagrammi di dispersione dei residui visti nella sezione 2.1 è un indicatore di non normalità. Naturalmente, è utile anche considerare il diagramma a scatola e baffi dei residui, nel quale un’eventuale asimmetria risulta maggiormente evidente. Si può poi verificare formalmente l’ipotesi di normalità (sezione 3.1) o usare strumenti grafici pensati specificamente a tal fine (sezione 3.2). 3.3.1 Test di normalità ne presentano due. 3.3.1.1 Test χ2 di conformità Si può verificare formalmente la normalità mediante il test del χ2 di conformità o di bontà di adattamento. Questo è un test per il confronto delle frequenze osservate con quelle teoriche per una distribuzione discreta. In particolare, sia V una variabile aleatoria con possibili determinazioni v1 , . . . , vk , si abbia un campione iid di dimensione n da V e siano n1 , . . . , nk le frequenze (assolute) con cui le k determinazioni si presentano nel campione. Si vuole dunque verificare la compatibilità del campione con la distribuzione di probabilità P (V = vi ) = pi , i = 1, . . . , k. (3.10) A tal fine, si calcolano le differenze standardizzate tra frequenze osservate e teoriche D= k X (ni − npi )2 i=1 npi . (3.11) Se il campione proviene effettivamente dalla distribuzione (3.10) e per n sufficientemente grande la distribuzione di D si può approssimare con un χ2k−1 . L’ipotesi (3.10) può dunque essere testata al livello α con la regione critica {D > χ21−α,k−1 }. Nel contesto della verifica di normalità dei residui la situazione è diversa in quanto l’ipotesi da testare è riferita a una distribuzione continua. Il test χ2 di conformità può però essere adattato alla bisogna discretizzando la variabile osservata. Supponiamo infatti di suddividere la retta in intervalli, di estremi − ∞ = b0 < b1 < b2 < . . . < bG = +∞. (3.12) Calcoliamo poi le frequenze con cui gli ẽi si distribuiscono negli intervalli, sia cioè ng = #{ẽi t.c. bg−1 ≤ ẽi < bg }, g = 1, . . . , G. L’ipotesi da verificare è che ẽi ∼ N 0, σ 2 , ma da questa segue pg = P (bg−1 ≤ ẽi < bg ) = Φ (bg /σ) − Φ (bg−1 /σ) g = 1, . . . , G, (3.13) (3.14) 47 0.0 0.1 0.2 0.3 0.4 3. Analisi dei residui −1 0 1 ~ ei Figura 3.8: Ipotetici residui usati per il calcolo del test χ2 di conformità per il confronto con la distribuzione normale g 1 2 3 4 bg−1 -Inf -1.0 0.0 1.0 bg -1.0 0.0 1.0 Inf ng 23 34 36 7 pg 0.159 0.341 0.341 0.159 npg 15.90 34.10 34.10 15.90 (ng − npg )2 50.410 0.010 3.610 79.210 (ng − npg )2 /(npg ) 3.170 0.000 0.106 4.982 Tabella 3.2: Passi per il calcolo del test χ2 di conformità per la verifica della normalità con i dati della figura 3.8 e quest’ipotesi si può verificare mediante il test (3.11), salvo sostituire la varianza σ 2 con la sua stima, compiendo cosı̀ un’ulteriore approssimazione, valida per n grande. (Equivalentemente, si ragioni con i residui ri assumendone la normalità.) Andrà tenuto presente che il test che si è ottenuto dipende dalla scelta fatta per gli intervalli (3.12) e che richiede un campione sufficientemente grande. Consideriamo un esempio con 100 osservazioni e verifichiamo la conformità con la normale standard. Le osservazioni sono rappresentate nella figura 3.8 assieme alla funzione di densità della normale standard e agli intervalli in cui si suddivide il campo di variazione. Nella tabella 3.2 si riportano le quantità rilevanti per il calcolo del test, si ottiene la statistica test D∗ = 8.258 da confrontare con un χ24−1 , il valore p è P (χ24−1 > 8.258) = 0.04097. 3.3.1.2 Test di Shapiro-Wilk Il test di Shapiro-Wilk è un’alternativa, valida anche per piccoli campioni. La statistica è 2 Pn i=1 ai ẽ(i) Pn 2 W = i=1 ẽi (3.15) con ai costanti. La statistica W è compresa tra 0 e 1, la regione di rifiuto è del tipo W < wα e i valori critici sono tabulati. La statistica W è interpretabile come il quadrato del coefficiente di correlazione del diagramma quantile-quantile. Con riferimento ai dati considerati nella sezione precedente si ottiene la statistica W ∗ = 0.9776 e il valore p 0.08598. 48 3.3. Verifica della normalità 3.3.2 Verifica grafica della normalità Il problema è confrontare la distribuzione teorica con quella empirica. Notiamo che, se ci riferiamo ai residui standardizzati, se σ 2 non è noto, la distribuzione teorica con cui fare il confronto è anch’essa incognita, dove nel seguito fosse necessario conoscere il valore per effettuare il confronto, si assuma di sostituirlo con una stima o, in alternativa, si assuma di usare i residui studentizzati ri (dove comunque si usa una stima di σ 2 ). I diversi strumenti che seguono per il confronto tra distribuzioni teorica e empirica si distinguono rispetto alla modalità con cui si esprime la distribuzione: funzione di densità, funzione di ripartizione, quantili. Lo strumento grafico più banale consiste nel sovrapporre la funzione di densità al suo corrispondente empirico, vale a dire l’istogramma della distribuzione. 3.3.2.1 Confronto tra FdR teorica e FdR empirica Definiamo anzitutto la FdR empirica, stima della funzione di ripartizione. Siano (x1 , . . . , xn ) variabili aleatorie iid con funzione di ripartizione F (x) = P (X ≤ x), uno stimatore di F (x) è n 1X F̂ (x) = I(xi ≤ x). n (3.16) i=1 Lo stimatore F̂ (x) è corretto: ! n n n 1X 1X 1X I(xi ≤ x) = E (I(xi ≤ x)) = P (X ≤ x) = F (x). n n n E(F̂ (x)) = E i=1 i=1 i=1 Inoltre, la varianza dello stimatore è n V (F̂n (x)) = V 1X I(xi ≤ x) n i=1 ! = n 1 X 1 V (I(xi ≤ x)) = P (I(X ≤ x)) (1 − P (I(X ≤ x))) . 2 n n i=1 Essendo lo stimatore corretto ed essendo limn→∞ V (F̂n (x)) = 0 possiamo anche affermare che esso è consistente. L’ovvio confronto tra F̂ e la distribuzione teorica, mostrato in figura 3.9(a), è sovrapporre le due sullo stesso grafico. Alternativamente (figura 3.9(b)), si può costruire il grafico dei punti ẽi F̂ (ẽi ), Φ , σ (3.17) questi punti, contenuti nel quadrato [0, 1]×[0, 1] si dispongono idealmente (se l’ipotesi di normalità è valida) secondo la bisettrice del I e III quadrante. Il difetto di un tale grafico è che sono schiacciate le differenze tra le code, cioè dove le probabilità teoriche e empiriche si avvicinano a 0 e a 1, che spesso è la regione più rilevante. 3. Analisi dei residui 49 ● ● 0.8 0.8 ● ● ● 0.6 ● ● ● (F^(xi), Φ(xi)) ● 0.2 ● ● ● ● ● ● ● ● ● ● ● ● 0.0 ● 0.0 −2 ● ● 0.4 0.6 ● ● ● ● ● ●^ ● F(x) ● 0.4 ● ● ● ● Φ(x) ● 0.2 1.0 (b) 1.0 (a) −1 0 1 2 ● 0.0 0.2 0.4 0.6 0.8 1.0 ^ F(x) x Figura 3.9: Confronto delle funzioni di ripartizione teorica e empirica: (a) grafici sovrapposti di F̂ (x) e Φ(x); (b) grafico dei punti (F̂ (xi ), Φ(xi )) per i = 1, . . . , n 3.3.2.2 Confronto tra quantili teorici e empirici L’idea è confrontare, anziché le probabilità empiriche e teoriche, i quantili empirici e teorici. Il quantile (teorico) di ordine q per una variabile X è il (un) valore x[q] tale per cui P (X ≤ x[q] ) = q. Il quantile empirico per un campione x1 , . . . , xn è un valore x̂q per cui è q la frequenza relativa di {xi ≤ x̂q }. Il quantile non è, in generale, definito univocamente (questo è vero in particolare per il quantile empirico, ma anche per quello teorico se la distribuzione non è assolutamente continua), si può scegliere però un valore, ad esempio xq = inf{x|F (x) ≥ q} x̂q = inf{x|F̂ (x) ≥ q} Le osservazioni ordinate x(1) , . . . , x(n) rappresentano dunque i quantili empirici di ordine 1/n, 2/n, . . . , (n− 1)/n, 1. Si vuole confrontarli graficamente con i corrispondenti quantili teorici, si usa allora il grafico dei punti −1 i − 1/2 Φ , x(i) (3.18) n dove la sostituzione di i/n con (i − 1/2)/n serve in quanto Φ−1 (1) non esiste – ovvero non è finito. (Correzioni diverse possono essere impiegate, ad esempio R usa, nel caso in cui la numerosità è i−3/8 minore di 10, la correzione n+2/8 .) 2 Se X ∼ N (0, σ ), i punti del grafico dovrebbero disporsi idealmente lungo la retta di equazione y = µ + σx. Quanto più la disposizione dei punti si allontana da una retta, tanto più è in dubbio l’ipotesi di normalità. Per avere un riferimento, al grafico (3.18) si sovrappone la retta interquartilica (cioè la retta che passa per i punti (QI , Φ−1 (0.25)) e (QIII , Φ−1 (0.75)) dove QI e QIII sono rispettivamente il primo e il terzo quartile (figura 3.10). Si noti che per effettuare il confronto tramite quantili non è necessario stimare la varianza σ 2 . A titolo di esempio in tabella 3.11 si riportano i calcoli necessari per un campione di 5 unità. 50 3.3. Verifica della normalità x(i) ● ● ● ● ● QIII ●● ●● ● ●● ● ● QI ●● ● ● ● ● Φ−1(0.25) Φ−1(0.75) i − 1 2 Φ−1 n 2 Figura 3.10: Esempio di grafico dei quantili empirici contro i quantili teorici e retta interquartilica -2 0 1 1 2 0.119 0.309 0.500 0.691 0.881 i−3/8 n+2/8 -1.180 -0.497 0.000 0.497 1.180 1 1 2 3 4 5 Φ−1 0 i−3/8 n+2/8 Quantili empirici x(i) ● ● 0.000 0.497 ● −2 i ● ● −1.180 −0.497 1.180 Quantili teorici Figura 3.11: Costruzione del grafico dei quantili empirici contro i quantili teorici per un campione di cinque unità Ipotesi Strumenti grafici Strumenti inferenziali Linearità (xi , ei ), (ŷi , ei ) R2 Omoschedasticità (xi , ei ), (ŷi , ei ) (xi , |ei |), (ŷi , |ei |) test di Bartlett Normalità Densità-istogramma grafico pp grafico qq test χ2 di conformità test di Shapiro-Wilks Tabella 3.3: Ipotesi e strumenti di verifica delle stesse Capitolo 4 Modello di regressione multipla Il modello di regressione semplice permette di investigare come una variabile sia in relazione con una seconda variabile, come si è illustrato nel capitolo 1, il modello d’interesse comprende tipicamente più variabili esplicative, che possono avere varia natura, quantitativa (esempi 3, 7) o qualitativa (esempio 4), ed è possibile che variabili di entrambi i tipi siano incluse (esempio 5). Nel presente capitolo si illustra il modello lineare per un numero arbitrario di variabili quantitative, a questo può essere poi ricondotto, come si mostrerà nel capitolo successivo, il caso di variabili qualitative (o miste). Consideriamo come esempio di riferimento i dati sui ciliegi (esempio 3, figura 1.1). L’obiettivo dell’analisi è prevedere il volume ligneo sulla base di diametro e altezza. La geometria suggerisce un modello: il volume di un cilindro è dato da volume = (π/4)×(diametro)2 ×(altezza), che è una formula lineare nei logaritmi log(volume) = log(π/4) + 2 log(diametro) + log(altezza). Naturalmente gli alberi non hanno esattamente la forma di un cilindro, consideriamo allora il modello yi = β1 + β2 xi2 + β3 xi3 + εi per i = 1, . . . , 31 dove yi = log(volumei ), xi2 = log(diametroi ), xi3 = log(altezzai ), e dove, per tenere conto della natura campionaria dei dati – ripetendo l’osservazione si avrebbero valori diversi –, si assume che vi siano degli errori εi indipendenti e identicamente distributi secondo εi ∼ N (0, σ 2 ). I dati cosı̀ trasformati sono rappresentati nel pannello di destra della figura 4.1 utilizzando i diagrammi di dispersione per coppie di variabili, si veda la figura 1.1 del capitolo 1 per una rappresentazione tridimensionale. La rappresentazione nel caso della regressione multipla offre meno indicazioni che nel caso della regressione semplice, il grafico tridimensionale (in prospettiva), oltre ad essere possibile solo nel caso di due variabili esplicative, è generalmente poco leggibile, mentre la matrice dei diagrammi di dispersione, generalizzabile (teoricamente almeno) a un numero arbitrario di esplicative, permette di visualizzare l’effetto di ciascuna esplicativa, singolarmente presa, sulla risposta, è altra cosa l’effetto congiunto. Di quest’ultimo si può avere un’idea grafica separando gli effetti delle variabili. In particolare, si considerano i due modelli di regressione semplice yi = γ1 + γ2 xi2 + ηi xi3 = α1 + α2 xi2 + νi 52 10 12 14 16 18 20 2.2 ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● 70 65 70 75 80 ● ● ● ● ● ● ● ● 85 ● ● ● ● ● 70 4.0 ● ● ● 65 ● 50 ● ● ● ●● ● ●●● ● ● 30 ● ● ● ● ● ● ● 10 ● ● ● ● ● ● ● x3 ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● 3.0 ● ● ● ● ● ● ● ● ● ● ● ● ● ● 75 ● ● ●●● ● ● ● ● ● ● ● ●● ● altezza ● ● ● ● ● ● ● ● 80 ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● x2 ● ● ● ● ● 2.2 ● ● ● ● ● ● ● ● ● ●● ● ● ● 2.4 ● ● ● ● ●● ● ●● ● ● ● ● ● 4.45 ● ● ● ● 4.35 ● ● ● ● ● ● ● ● ● ● 4.25 ● ● ● ● ● ● 2.8 ● ● ● ● ● ● ● ● ● ● ● ● ● ● 2.6 ● ● ● ● ● ● ● ●● 85 10 12 14 16 18 20 diametro ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● 2.5 ● ● ● ● ● ● ● 3.0 ● ●●● 8 ● 10 ● ● ●● ●● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ●● 30 ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● 3.0 ● y 50 ●● ● 2.8 ● ● ● 2.6 3.5 volume ● 2.4 ● 70 ● 4.15 8 ● 2.5 3.0 3.5 4.0 4.15 4.25 4.35 4.45 Figura 4.1: Dati sui ciliegi, originali a sinistra e trasformati a destra. ● 4.45 4.40 ● ● 3.5 ● x3 ● ● ● ●● ● ● ● 2.5 ● ● ● ● ● 2.2 2.4 2.6 x2 2.8 3.0 ● ● ● ● ● ● ● ● ● ● ● ● ● ● −0.2 4.15 ●● ● ● ● ● ● ● ● 4.20 ● ● ● ● −0.1 ● 4.25 3.0 ● ● ● ● ● ● ● ● ● ● ● ● 0.1 ● ● 4.30 y ● ● ● ● ● ● ● 0.2 ● ● ● 4.35 ● ● ● ● ● x2 ● ● ● ex3 4.0 ●● ● ● ● ● 0.0 ● ● ● ● 2.2 2.4 2.6 2.8 3.0 x2 ● ● ● ● −0.15 −0.05 0.00 ey 0.05 0.10 x2 Figura 4.2: Aggiunta della variabile da cui i residui ey|x2 ;i e ex3 |x2 ;i , l’idea è che in tal modo si sia sottratto l’effetto di x2 tanto da y che da x3 , si considera poi la regressione tra ey|x2 ;i e ex3 |x2 ;i , che sarebbe l’effetto esplicativo addizionale di x3 scontato l’effetto di x2 . In figura 4.2 si rappresentano le tre regressioni in questione, si nota che nella regressione tra residui, la retta passa per l’origine (in quanto le medie dei residui sono nulle). Il fatto che l’ultima regressione risulti in una retta stimata con pendenza positiva e una dispersione non eccessiva dei punti intorno ad essa significa in sostanza che x3 e x2 spiegano congiuntamente più della sola x2 . (Perché, tolto il contributo di x2 , x3 spiega ancora una parte rilevante della variabilità di Y .) Notiamo poi che il modello può anche essere scritto dicendo che le Yi sono indipendenti e Yi ∼ N µi , σ 2 ; µi = β1 + β2 xi2 + β3 xi3 . Si ha dunque il modello statistico parametrico (Y, fθ , Θ) con fθ (yi ) = N µi , σ 2 , θ = (β1 , β2 , β3 , σ2 ) ∈ 4. Modello di regressione multipla 53 Θ = R3 × (0, +∞), la cui funzione di verosimiglianza è proporzionale a 31 Y 1 1 2 √ L(θ) = exp − 2 (yi − β1 − β2 xi2 − β3 xi3 ) 2σ 2πσ i=1 ( ) 31 1 X −31/2 2 −31/2 2 = (2π) (σ ) exp − 2 (yi − β1 − β2 xi2 − β3 xi3 ) . 2σ i=1 Si capisce quindi che si possono ottenere le stime di β1 , β2 e β3 minimizzando S(β1 , β2 , β3 ) = n X (yi − β1 − β2 xi2 − β3 xi3 )2 . i=1 Si può a questo punto procedere come nel caso della regressione semplice, cioè calcolare le tre derivate parziali ∂S/∂βi , eguagliarle a zero e risolvere il sistema, che è lineare. Risulta però più conveniente ottenere la soluzione nel caso generale, sfruttando la notazione matriciale come illustrato di seguito nel caso, più generale, di p variabili esplicative. 4.1 Ipotesi del modello Il modello si generalizza in modo naturale al caso di p e n qualunque. Date dunque n osservazioni di una variabile risposta (o dipendente) e p variabili esplicative (o indipendenti), le ipotesi del modello lineare multiplo sono (i) Yi = µi + εi = β1 xi1 + β2 xi2 + . . . + βp xip + εi , i = 1, . . . , n; (ii) xij costanti note, i vettori xj ∈ Rn sono linearmente indipendenti1 ; (iii) εi ∼ N 0, σ 2 indipendenti, i = 1, . . . , n. La retta di regressione è stata quindi sostituita da una funzione lineare nei parametri di p variabili esplicative (tra le quali, se nel modello si vuole includere l’intercetta, vi è una variabile che assume valore uno in corrispondenza a tutte le osservazioni: xi1 = 1 per i = 1, . . . , n). Le altre ipotesi rimangono sostanzialmente invariate, occorre aggiungere l’ipotesi di indipendenza lineare delle variabili x. Questa ipotesi aggiuntiva serve a garantire l’identificabilità del modello2 . In termini di interpretazione del modello quello che cambia è che, se prima il coefficiente angolare rappresentava semplicemente l’effetto della variabile esplicativa sulla media della variabile risposta, ora i parametri βj rappresentano l’effetto di una variabile al netto delle altre: secondo il modello µ = E(Y ) aumenta di βr unità se xr aumenta di un’unità, restando costanti le altre. 1 2 Si noti che con xj si indica il vettore in Rn contenente le n osservazioni relative alla j-ma variabile esplicativa. Infatti se le xj sono linearmente dipendenti esistono delle costanti a1 , . . . , ap non tutte nulle tali che a1 x1 + a2 x2 + . . . + ap xp = 0, e quindi posto, senza perdita di generalità, ap 6= 0, possiamo esprimere xp in funzione di (x1 , . . . , xp−1 ) nel modo seguente a1 ap−1 xp−1 , xp = − x1 − . . . − ap ap 54 4.1. Ipotesi del modello Per questa ragione i coefficienti sono anche detti coefficienti di regressione parziale. Si noti che questa interpretazione è del tutto valida matematicamente, ma dal punto di vista interpretativo può non essere realistica: nell’esempio sugli alberi è verosimile che le due esplicative siano correlate (un albero più alto è in media più grosso) e quindi gli effetti delle due variabili non sono completamente separabili. (Si noti anche che se xi1 = 1 e β1 rappresenta l’intercetta non ha senso interpretarlo in termini di variazione.) Il modello statistico parametrico implicato dalle ipotesi sopra è (Y, fθ , Θ) con fθ (Yi ) = N µi , σ 2 , θ = (β1 , β2 , . . . , βp , σ2 ) ∈ Θ = Rp × (0, +∞), la cui funzione di verosimiglianza è n Y 1 1 2 √ L(θ) = exp − 2 (yi − β1 xi1 − β2 xi2 − . . . − βp xip ) 2σ 2πσ i=1 ( ) n X 1 = (2π)−n/2 (σ 2 )−n/2 exp − 2 (yi − β1 xi1 − β2 xi2 − . . . − βp xip )2 . 2σ (4.1) i=1 Conviene però, prima di procedere nell’analisi, passare alla notazione matriciale. Osservazione 4.1 Rappresentazione grafica. Prima di passare alla trattazione analitica, è utile, per visualizzare il modello, darne una rappresentazione analoga al diagramma di dispersione nel modello di regressione semplice (di cui si è citata anche l’estensione in tre dimensioni per il caso di due variabili esplicative). Dovremo fare riferimento allo spazio cartesiano Rp in cui p − 1 assi rappresentano i valori delle p − 1 covariate (assumendo la costante sia inclusa nel modello) e il p-mo asse rappresenta la variabile risposta. Nel modello di regressione semplice la rapprsentazione è in R2 , l’asse delle ascisse è la variabile esplicativa e l’asse delle ordinate è la variabile risposta. La funzione che lega E(Yi ) a xi è g(x) = β1 + β2 x, cioè una retta nel piano cartesiano R2 delle coppie (x, y). Se p = 3 e xi1 = 1 (come nell’esempio di riferimento dei ciliegi), il legame tra E(Yi ) e le esplicative è g(x) = β1 + β2 x2 + β3 x3 , di conseguenza, il vettore delle medie µ può essere scritto in funzione delle sole prime p − 1 variabili esplicative, µ = = = β 1 x1 + . . . + β p xp a1 ap−1 β1 x1 + . . . + βp−1 xp−1 + βp − x1 − . . . − xp−1 ap ap a1 ap−1 β1 − x1 + . . . + βp−1 − xp−1 , ap ap cioè (almeno) uno dei regressori non serve. In altri termini, il modello non è identificato poiché i due punti ap−1 a1 (β1 , . . . , βp ) e β1 − ap , . . . , βp−1 − ap , 0 dello spazio parametrico Θ = Rp portano allo stesso vettore µ e quindi alla stessa legge di probabilità per Y . Questo dal punto di vista matematico, in pratica per quali ragioni può accadere che ci si trovi con variabili esplicative linearmente dipendenti? • La stessa variabile compare più volte nella matrice di dati, ad esempio perché riportata espressa in diverse unità di misura. • Una variabile è somma di altre (totale anni di istruzione, anni di istruzione preuniversitaria, anni di istruzione universitaria; percentuale di maschi e di femmine). • p > n (p = n può funzionare teoricamente, ma non è possibile stimare l’errore e il modello non riassume nulla, si parla di modello saturo). Inoltre, può accadere che il modello sia sı̀ identificato ma vicino alla non identificabilità (cioè la relazione sopra tra le xi non è verificata esattamente ma approssimativamente sı̀), questa circostanza, detta multicollinearità (si veda il capitolo 7), porta a varianze dei coefficienti elevate e quindi a stime molto incerte. 4. Modello di regressione multipla 55 cioè un piano nello spazio euclideo R3 dei punti (x2 , x3 , y) (vedi figura 1.1). Con p generico e xi1 = 1 l’equazione g(x) = β1 + β2 x2 + . . . + βp xp , rappresenta un iperpiano nello spazio Rp dei punti (x2 , x3 , . . . , xp , y). Se il modello è correttamente specificato, i punti che rappresentano i valori osservati tendono a disporsi in prossimità dell’iperpiano definito dall’equazione (i) senza gli errori. Una tale rappresentazione è utile per interpretare il modello ma è ovviamente inutile in pratica dove è preclusa dall’impossibilità di rappresentare efficacemente più di tre dimensioni. • 4.2 Rappresentazione matriciale La generalizzazione a p e n qualunque è più agevole impiegando la notazione matriciale. L’ipotesi (i) è un sistema di n equazioni che può essere scritto in forma matriciale Y1 x11 x12 . . . x1p ε1 β 1 Y2 x21 x22 . . . x2p ε2 . .. = .. .. .. .. + .. . . . . . βp Yn xn1 xn2 . . . xnp εn Y = (n × 1) X β (n × p) (p × 1) + ε (n × 1) dove Y e ε sono vettori aleatori, cioè vettori i cui elementi sono variabili aleatorie. La matrice X (anche detta matrice delle condizioni sperimentali o matrice di regressione) è non stocastica e l’ipotesi di indipendenza lineare si traduce dicendo che X ha rango pieno (cioè, appunto, che le colonne x1 , . . . , xp sono linearmente indipendenti). L’ipotesi (iii), riferita al vettore casuale ε si può scrivere ε ∼ N 0, σ 2 In , che implica 2 σ 0 ... 0 0 σ2 . . . 0 E(ε) = 0, V (ε) = . .. .. , . . . . 0 0 . . . σ2 cioè E(εi ) = 0 per ogni i; V (εi ) = σ 2 per ogni i; cov(εi , εh ) = 0 per ogni i 6= h, il che, essendo la distribuzione congiunta una normale multivariata, implica l’indipendenza. Con ciò, riscriviamo le ipotesi del modello di regressione multipla nella forma (i) Y = Xβ + ε; (ii) X non stocastica a rango pieno; 56 4.3. Stima dei parametri (iii) ε ∼ N 0, σ 2 In . Notiamo che Y è combinazione lineare di variabili normali e quindi è normale, inoltre E(Y ) = Xβ + E(ε) = Xβ, V (Y ) = σ 2 In si può allora affermare che Y ∼ N Xβ, σ 2 In . (4.2) Scriviamo dunque la verosimiglianza (4.1) sfruttando questa notazione, si ponga allora µ = Xβ = β1 x1 + . . . + βp xp , la verosimiglianza è proporzionale a n Y 1 1 2 √ f (y; X, µ, σ ) = exp − 2 (yi − µi ) 2σ 2πσ i=1 ( ) n X 1 = (2π)−n/2 (σ 2 )−n/2 exp − 2 (yi − µi )2 2σ i=1 1 = (2π)−n/2 (σ 2 )−n/2 exp − 2 (y − µ)T (y − µ) , 2σ 2 per l’inferenza esplicitiamo β, σ 2 , e si ha allora 2 −n/2 2 f (y; X, β, σ ) ∝ (σ ) 1 T exp − 2 (y − Xβ) (y − Xβ) , 2σ e quindi la log-verosimiglianza è 1 n l(β, σ 2 ) = − log(σ 2 ) − 2 (y − Xβ)T (y − Xβ). 2 2σ (4.3) da questa procederemo per ottenere gli stimatori di massima verosimiglianza (sezione 3) e per l’inferenza sul modello (sezione 6). 4.3 Stima dei parametri Vale, per la log-verosimiglianza (4.3), una considerazione analoga a quella fatta per la regressione semplice, per σ 2 fissato l(β, σ 2 ) è massima ove è minima la somma dei quadrati degli scarti SQ(β) = (y − Xβ)T (y − Xβ), (4.4) che non dipende da σ 2 , quindi argmin SQ(β) = argmax l(β, σ 2 ) β β non dipende da σ 2 ed è perciò la SMV di β, β̂. Possiamo quindi distinguere i due problemi e ottenere prima lo stimatore di massima verosimiglianza di β e poi quello di σ 2 . 4. Modello di regressione multipla 4.3.1 57 Stima di β Come mostreremo nella sezione 3.1.1, il vettore che rende minima SQ(·) è la soluzione delle equazioni normali dei minimi quadrati (y − Xβ)T X = 0, (4.5) che possono essere scritte equivalentemente X T Xβ = X T y, Pertanto, se X T X (che è una matrice p × p) è invertibile, si ha β̂ = (X T X)−1 X T y. (4.6) Si noti che la condizione per cui la matrice X ha rango pieno implica che X T X è invertibile, se cosı̀ non è, la soluzione alle equazioni normali (4.5) non è unica, il che è naturale perché il modello non è identificato. 4.3.1.1 Derivazione delle equazioni normali Mostriamo dunque che la soluzione delle equazioni normali (4.5) è il punto di massimo della somma dei quadrati (4.4). A tal fine, scriviamo per esteso le equazioni normali, si ha T y1 − β1 x11 − . . . − βp x1p x11 x12 . . . x1p .. . x21 x22 . . . x2p yi − β1 xi1 − . . . − βp xip .. .. .. = 0(p×1) , . . . .. . xn1 xn2 . . . xnp yn − β1 xn1 − . . . − βp xnp si ha cioè il sistema di p 0 = .. . 0 = .. . 0 = equazioni (y − Xβ)T x1 = .. . Pn − β1 xi1 − . . . − βp xip ) (y − Xβ)T xr = .. . Pn − β1 xi1 − . . . − βp xip ) (y − Xβ)T xp = Pn − β1 xi1 − . . . − βp xip ), i=1 xi1 (yi i=1 xir (yi i=1 xip (yi dove però si noti che n X ∂SQ(β) = −2 xir (yi − β1 xi1 − . . . − βp xip ) = −2(y − Xβ)T xr . ∂βr i=1 Il sistema delle equazioni normali equivale dunque al sistema delle p equazioni di verosimiglianza ∂SQ(β) =0 ∂βr r = 1, . . . , p. La soluzione è dunque un punto stazionario per SQ(β), per poter affermare che β̂, soluzione delle equazioni normali, è un minimo dovremo mostrare che la matrice delle derivate seconde, l’hessiano, è definita positiva, si noti allora che n X ∂ 2 SQ(β) =2 xir xis i = 1, . . . , p, ∂βr ∂βs i=1 58 4.4. Interpretazione geometrica cioè l’hessiano è 2X T X, che, essendo il rango di X pieno, è definito positivo come volevasi3 4 Stima di σ 2 4.3.2 Procediamo, anche per σ 2 , analogamente a quanto fatto per la regressione lineare semplice, sostituiamo β̂ in l(β, σ 2 ) (equazione (4.3)), ottenendo n 1 n 1 l(β̂, σ 2 ) = − log(σ 2 ) − 2 (y − X β̂)T (y − X β̂) = − log(σ 2 ) − 2 SQ(β̂), 2 2σ 2 2σ e massimizziamo a σ 2 , posto ei = yi − ŷi e detto e il vettore corrispondente, si ha Pn 2 rispetto T SQ(β̂) = i=1 ei = e e, e quindi n 1 X 2 n 2 l(β̂, σ ) = − log(σ ) − 2 ei . 2 2σ 2 i=1 Ponendo la derivata uguale a 0 si ottiene l’equazione n n 1 X 2 ∂l(β̂, σ 2 ) = − + ei = 0, ∂(σ 2 ) 2σ 2 2(σ 2 )2 i=1 la cui soluzione Pn 2 σ̂ = 2 i=1 ei n = eT e n (4.7) individua un punto stazionario. La derivata seconda calcolata in σ̂ 2 è n ∂ 2 l(β̂, σ 2 ) 1 X 2 1 n n n − 6 − 2 3 nσ̂ 2 = − < 0. = ei = 2 2 4 2 2 2 2 ∂(σ ) 2 2 2σ σ 2(σ̂ ) (σ̂ ) 2(σ̂ 2 )2 σ =σ̂ i=1 σ =σ̂ Il punto stazionario σ̂ 2 è dunque un massimo. 4.4 Interpretazione geometrica Il modello di regressione multipla può essere convenientemente interpretato dal punto di vista geometrico nello spazio Rn . 3 Una matrice B è definita positiva se aT Ba > 0 se a 6= 0, ma aT X T Xa = (Xa)T (Xa) che è 0 se e solo se Xa = 0, essendo X a rango pieno Xa = 0 ⇔ a = 0. 4 Si noti che si possono scrivere anche le derivate in forma vettoriale, si ha SQ(β) = yT y − 2yT Xβ + β T X T Xβ, da cui d SQ(β) dβ = −2yT X + 2β T X T X, quindi d SQ(β) dβ = 0 se e solo se 0 = yT X − β T X T X = (y − Xβ)T X. Infine si ha d2 SQ(β) dβ T dβ = 2X T X. 4. Modello di regressione multipla 59 4 (3, 4) ● x=(3, 1, 5) y 4 5 3 ● 2 (1, 2) 2 1 5 y=(4, 2, 1) ● (5, 1) 4 ● U.S. 2 U.S. 3 3 ● 1 3 2 1 0 0 0 0 0 1 2 3 4 1 5 2 3 4 5 U.S. 1 x Figura 4.3: Rappresentazioni del campione x = (3, 1, 5), y = (4, 2, 1) nello spazio R2 dove le coordinate rappresentano le due variabili (a sinistra) e nello spazio R3 dove le coordinate rappresentano le unità statistiche (a destra) Notiamo che il vettore y delle osservazioni relative alla variabile risposta sulle n unità statistiche giace in Rn , e lo stesso è vero per i vettori x1 , . . . , xp , colonne della matrice X e osservazioni delle p esplicative sulle n unità statistiche. Tale rappresentazione è un cambiamento di prospettiva rispetto alla rappresentazione grafica di dati e modello nello spazio cartesiano di dimensione p + 1 in cui gli assi rappresentano i valori delle esplicative e della risposta e un punto nello spazio Rp+1 rappresenta un’unità statistica (un’osservazione). In particolare il cambiamento di prospettiva consiste nel fatto che gli assi rappresentano le unità statistiche e sono quindi n (quante le osservazioni), i punti (vettori) nello spazio Rn rappresentano le variabili (risposta e esplicative). A titolo di esempio consideriamo un insieme di dati: su tre osservazioni (n = 3, p = 1) si osservano le coppie (x, y): (3, 4), (1, 2) e (5, 1). Mettiamo a confronto nella figura 4.3 la rappresentazione usuale, sul piano (x, y) (espicativa-risposta), con quella nello spazio R3 . Nella prima, con due assi, uno per x e uno per y, troviamo tre punti, rappresentanti le tre coppie di osservazioni (un punto per ciascuna unità statistica); nella seconda, con tre assi, uno per ciascuna unità statistica, troviamo due punti, uno per la variabile x = (3, 1, 5) e uno per la variabile y = (4, 2, 1). Torniamo al caso generale, con n osservazioni e p < n variabili, in cui nello spazio Rn si hanno i p + 1 vettori y, x1 , . . . , xp . In tale spazio, consideriamo l’insieme delle possibili combinazioni lineari di x1 , . . . , xp V = {µ ∈ Rn : µ = Xβ = β1 x1 + . . . + βp xp , β ∈ Rp } cioè il sottospazio di Rn generato da (x1 , . . . , xp ) ((x1 , . . . , xp ) è cioè una base per V). Essendo xi linearmente indipendenti, V è un sottospazio di dimensione p(< n). L’ipotesi alla base del modello lineare, E(Y ) = µ = Xβ, si può allora esprimere geometricamente, notando che E(Y ) = Xβ ⇔ E(Y ) ∈ V. 60 4.4. Interpretazione geometrica (a) (b) 3 y y y2 ● V ● y − Xβ = y − ^ y y − Xβ = y − ^ y 4 V ● ^ y ^ y 3 Unità statistica 2 ● 2.5 2 U.S. 3 3.0 U.S. 2 y^2 2.0 1 1.5 1.0 0.5 0 0.0 0.0 0 0 y^1 y1 0.5 1.0 3 1.5 2.0 2.5 3.0 U.S. 1 Unità statistica 1 Figura 4.4: Esempi di rappresentazione geometrica A parole, l’ipotesi di linearità significa che il vettore delle medie della variabile Y , che ha valori in Rn , giace nel sottospazio V generato dalle p variabili esplicative (si noti che, in generale, il vettore delle medie di Y giace in Rn , come il vettore Y stesso). Ad esempio, sia n = 2, p = 1 e x1 = (1, 1)T , si ha y ∈ R2 , e si avrà E(y) = (µ1 , µ2 )T ∈ R2 . L’ipotesi di linearità è 1 E(Y ) = β1 1 cioè E(Y ) ∈ V = {µ ∈ R2 : µ1 = µ2 }, il sottospazio V è una retta nel piano, in particolare, la bisettrice del I e III quadrante, E(Y ) giace in esso se le medie di Y1 e Y2 coincidono. Nella Figura 4.4(a) si rappresentano i vettori in gioco, lo spazio V è la retta tratteggiata, ŷ giace in esso. Si osservi che il vettore dei valori teorici ŷ e il vettore dei residui e sono ortogonali: la retta che dà la direzione del vettore dei residui passa per i punti (y1 , y2 ) e (ȳ, ȳ), essa ha pertanto equazione u1 + u2 = 2ȳ (se con u1 , u2 s’indicano le generiche coordinate sul piano) mentre il sottospazio V ha equazione u1 − u2 = 0. Se invece n = 3, p = 1 e x1 = (1, 1, 1)T , si ha y ∈ R3 e l’ipotesi è 1 E(Y ) = β1 1 1 cioè E(Y ) ∈ V = {µ ∈ R3 : µ1 = µ2 = µ3 }, il sottospazio V è una retta nello spazio euclideo R3 , similmente all’esempio precedente, E(Y ) giace in esso se le medie di Y1 , Y2 e Y3 coincidono (Figura 4.4(b)). Se p = 2 e x1 = (1, . . . , 1)T , mentre x2 è generica, si ha y ∈ Rn e l’ipotesi è E(Y ) = β1 1n + β2 x2 cioè E(Y ) ∈ V = {µ ∈ Rn : µ = β1 1n + β2 x2 ; β1 , β2 ∈ R}, 4. Modello di regressione multipla 61 4 y V 3.0 2 3 ^=y−^ y − Xβ y x2 2 3 2.5 ^ y 2.0 1 1.5 1.0 0.5 x1 0 0.0 0.0 0.5 1.0 1.5 2.0 2.5 3.0 1 Figura 4.5: Rappresentazione geometrica, esempio con y = (1.5, 2, 4), x1 = (2, 0.5, 0) e x2 = (0.5, 2.5, 0), allora V = {(u1 , u2 , 0) : u1 , u2 ∈ R}; ne consegue che ŷ = (y1 , y2 , 0) e dunque e = (0, 0, y3 ) il sottospazio V è un piano nello spazio Rn . In quest’ottica geometrica, possiamo interpretare anche la condizione che individuaP lo SMV e lo n 2 T SMV stesso. Indichiamo con || · ||, la norma euclidea in R , cioè ||x|| = x x = ni=1 x2i , alla quale è associata la distanza euclidea d(x1 , x2 ) = ||x1 − x2 || (sicché la norma altro non è che la distanza di x dall’origine). Nel senso di distanza si può interpretare la somma dei quadrati SQ(β), essa è la norma al quadrato di y − Xβ, ossia la distanza al quadrato tra y e Xβ SQ(β) = (y − Xβ)T (y − Xβ) = ||y − Xβ||2 , dove y ∈ Rn e Xβ ∈ V. Il vettore β, d’altra parte, varia in tutto Rp e quindi Xβ = β1 x1 + . . . + βp xp varia in tutto V (poiché x1 , . . . , xp è una base per V). Pertanto la SMV β̂ individua il punto ŷ = X β̂ in V che ha la minima distanza da y, in formule ŷ = X β̂ = Xargmin ||y − Xβ|| = argmin ||y − ỹ||. β ỹ∈V Questo elemento è la proiezione ortogonale di y su V, ossia5 y − X β̂ ⊥ V, il che significa che è ortogonale a tutti gli elementi della base, y − X β̂ ⊥ xj ∀j = 1, . . . , p, e ritroviamo dunque per questa via le equazioni normali (y − X β̂)xj = 0 ∀j = 1, . . . , p. 5 Si mostra facilmente che ỹ ∈ V, diverso dalla proiezione ortogonale ŷ ha distanza maggiore. Consideriamo ||y − ỹ||2 = ||y − ŷ + ŷ − ỹ||2 , essendo (y − ŷ)⊥V e (ŷ − ỹ) ∈ V si ha (y − ŷ)⊥(ŷ − ỹ) e quindi ||y − ŷ + ŷ − ỹ||2 = ||y − ŷ||2 + ||ŷ − ỹ||2 > ||y − ŷ||2 QED. 62 4.4. Interpretazione geometrica (Si rivedano le Figure 4.4(a) e (b) dove si è rappresentata la proiezione.) In Figura 4.5, infine, si rappresenta, a titolo di esempio, il caso con y = (1.5, 2, 4), x1 = (2, 0.5, 0) e x2 = (0.5, 2.5, 0), lo spazio V è allora il piano formato dagli assi 1 e 2. La proiezione di y è il vettore di coordinate ŷ = (y1 , y2 , 0) (ci se ne convince facilmente scrivendo la somma dei quadrati da minimizzare), il vettore dei residui è dunque e = (0, 0, y3 ). Stablito che ŷ è la proiezione ortogonale di y su V, conviene definire la matrice di proiezione, ossia la matrice che definisce l’applicazione lineare g(z) : Rn → V che associa a ciascun vettore di Rn la sua proiezione su V ⊂ Rn . Essa è rappresentata da una matrice P , (n × n), di rango p (pari alla dimensione del sottospazio V): g(z) = P z. Essendo ŷ = µ̂ = X β̂ = X(X T X)−1 X T y la matrice di proiezione cercata è P = X(X T X)−1 X T . Infine, notiamo che, essendo il vattore dei residui e ortogonale a V, esso è ortogonale a ŷ e quindi y = ŷ + e = P y + (I − P )y costituisce una scomposizione ortogonale di y. (I residui, in effetti, sono la proiezione di y sullo spazio nullo di P , ovvero sullo spazio ortogonale a V.) 4.4.1 Conseguenze dell’interpretazione geometrica Una conseguenza ovvia dell’ortogonalità dei residui con V è che la somma dei residui si annulla Pn e = 1n e = 0. In generale quindi, se il modello include se il vettore 1n è in V, infatti i i=1 l’intercetta (esplicitamente o meno), la somma dei residui è nulla. Se siamo in queste condizioni, i residui sono incorrelati con le variabili esplicative cov(e, ˆ xj ) = 1 1 (exj − ēx̄j ) = exj = 0, n n Notiamo che, nel caso in cui 1n ∈ / V, la correlazione tra e e xj è comunque nulla se x̄j = 0. Consideriamo poi la scomposizione della devianza n n n X X X (yi − ȳ)2 = (ŷi − ȳ)2 + (yi − ŷi )2 i=1 i=1 i=1 che in forma matriciale possiamo scrivere (y − 1n ȳ)T (y − 1n ȳ) = (ŷ − 1n ȳ)T (ŷ − 1n ȳ) + eT e. cioé yT y − 2ȳ1Tn y + nȳ 2 = ŷT ŷ − 2ȳ1Tn ŷ + nȳ 2 + eT e (4.8) se però il vettore 1n appartiene a V le equazioni normali implicano che (y − Xβ)T 1n = 0 e quindi 1Tn y = 1Tn ŷ e quindi l’equazione (4.8) diventa yT y = ŷT ŷ + eT e (4.9) che deriva in sostanza da un’applicazione del teorema di Pitagora, o può essere ottenuta da yT y = yT (P + I − P )y = yT P y + yT (I − P )y = yT P T P y + yT (I − P )T (I − P )y. 4. Modello di regressione multipla 63 La validità della formula di scomposizione della devianza significa che il coefficiente di determinazione R2 appartiene a [0, 1], fatto che è in generale falso se l’intercetta non è inclusa nello spazio delle variabili esplicative. Sfruttando la scomposizione (4.9) si ha anche un’espressione per i residui eT e = yT y − ŷT ŷ = yT y − β̂ T X T X β̂ = = yT y − β̂ T X T X(X T X)−1 X T y = yT y − β̂ T X T y. 4.5 Distribuzione degli stimatori Gli stimatori, individuati nella sezione 3, sono funzione di variabili aleatorie normali, servono, per determinarne la distribuzione, alcuni risultati relativi a trasformazioni di variabili normali multivariate, che sono raccolti nella sezione 5.1. 4.5.1 Premessa: risultati sulla normale multivariata Indicato con Y un vettore aleatorio di dimensione d, con Y ∼ N d (µ, Σ) s’intende che Y ha distribuzione normale d-variata con parametri µ ∈ Rd e Σ matrice d × d definita positiva , ovvero ha funzione di densità 1 −(n/2) −1/2 T −1 f (y) = (2π) |Σ| exp − (y − µ) Σ (y − µ) . 2 e si può mostrare che E(Y ) = µ, V (Y ) = Σ (per cui dev’essere una matrice semidefinita positiva). Una tale ipotesi implica che anche le distribuzioni marginali sono normali, in particolare se Y T = (Y1T , Y2T ) con dim(Y1 ) = d1 , dim(Y2 ) = d2 e d1 + d2 = d allora Y1 ∼ N d1 (µ1 , Σ11 ) dove µ1 e Σ11 sono le porzioni rilevanti di µ e Σ. Si parla poi di distribuzione normale multivariata standard con riferimento a Z ∼ N d (0, Id ), che ha densità 1 φ(z) = (2π)−(n/2) exp − zT z . 2 Citiamo alcuni risultati utili relativi alla distribuzione di trasformazioni di v.a. normali. Nel primo si afferma che un trasformato lineare affine di un v.a. normale è ancora normale Teorema 5.1 Trasformazione lineare affine di v.a. gaussiani. Se Y ∼ N d (µ, Σ); A matrice k × d, rango(A) = k e b ∈ Rk ; allora T = AY + b ∼ N k (Aµ + b, AΣAT ). Un caso particolare del teorema 5.1 è il fatto che una combinazione lineare di v.a. normali è ancora normale, esso infatti corrisponde al caso A matrice 1 × d. Il secondo risultato riguarda una forma quadratica, cioè una funzione del tipo f (x) = xT Bx, dove B è una matrice quadrata e simmetrica (si chiama quadratica perché è una combinazione lineare di quantità del tipo xi xj ). Teorema 5.2 Se Z ∼ N d (0, σ 2 Id ), σ 2 > 0 e B è una matrice d × d simmetrica e idempotente; allora Q = σ12 Z T BZ ∼ χ2rango(B) . 64 4.5. Distribuzione degli stimatori I seguenti due risultati riguardano coppie di trasformati, in particolare si danno delle condizioni soddisfatte le quali due trasformati di un v.a. gaussiano sono indipendenti, nel primo in relazione a un trasformato lineare e una forma quadratica, nel secondo in relazione a due forme quadratiche. Teorema 5.3 Se Z ∼ N d (0, σ 2 Id ), σ 2 > 0; A è una matrice k × d; B è una matrice d × d simmetrica e idempotente, AB = 0, allora T1 = AZ e T2 = Z T BZ sono indipendenti. Teorema 5.4 Se Z ∼ N d (0, σ 2 Id ), σ 2 > 0; B1 , B2 sono matrici d × d simmetriche, idempotenti e tali che B1 B2 = 0 allora T1 = Z T B1 Z e T2 = Z T B2 Z sono indipendenti. Infine, l’ultimo risultato riguarda una particolare forma quadratica, la distanza di Mahalanobis di Y dalla media: dM (Y , µ) = (Y − µ)T Σ−1 (Y − µ), per essa si ha Teorema 5.5 Se Y ∼ N d (µ, Σ), allora (Y − µ)T Σ−1 (Y − µ) ∼ χ2d . 4.5.2 Distribuzione di β̂ Essendo Y ∼ Nn (µ, σ 2 In ), lo stimatore di massima verosimiglianza β̂ = (X T X)−1 X T Y è un trasformato lineare di una v.a. normale multidimensionale. Si applica allora il teorema 5.1 con A = (X T X)−1 X T , b = 0, Σ = σ 2 In e si ha β̂ = AY ∼ N (Aµ, A(σ 2 In )AT ) dove Aµ = (X T X)−1 X T µ = (X T X)−1 X T Xβ = β, quindi β̂ è non distorto, inoltre A(σ 2 In )AT = σ 2 AAT = σ 2 (X T X)−1 X T ((X T X)−1 X T )T = σ 2 (X T X)−1 X T X(X T X)−1 = σ 2 (X T X)−1 , sicché i valori delle esplicative determinano la struttura di dipendenza degli stimatori dei coefficienti. In sintesi si ha dunque β̂ ∼ N (β, σ 2 (X T X)−1 ). (4.10) Notiamo che questo implica, in base a quanto detto sopra sulle distribuzioni marginali di vettori aleatori normali multidimensionali, che βr ∼ N (β, σ 2 [(X T X)−1 ]rr ) (4.11) dove [(X T X)−1 ]rr indica l’r-esimo elemento della diagonale di (X T X)−1 . 4.5.3 Distribuzione di σ̂ 2 Per ricondurci a uno dei risultati visti, dobbiamo scrivere σ̂ 2 come forma quadratica di un vettore normale con media nulla, ossia del vettore degli errori. Scriviamo allora nσ̂ 2 = eT e = ((I − P )Y )T (I − P )Y = Y T (I − P )Y 4. Modello di regressione multipla 65 notando però che (I − P )µ = µ − P µ = µ − µ = 0 si può scrivere e = (I − P )(Y − µ) e quindi eT e = (Y − µ)T (I − P )(Y − µ) = εT (I − P )ε (4.12) si applica allora il risultato 5.2, con Z = ε e B = (I − P ), che ha rango (n − p), si ha allora 1 T e e ∼ χ2n−p e quindi σ2 nσ̂ 2 ∼ χ2n−p . σ2 (4.13) Si deduce da questo che lo stimatore σ̂ 2 non è corretto, E(σ̂ 2 ) = σ 2 n−p n , e si rintraccia quindi lo stimatore non distorto n s2 = σ̂ 2 n−p per il quale si ha (n − p)s2 ∼ χ2n−p . σ2 4.5.4 (4.14) Distribuzione congiunta di (β̂, σ̂ 2 ) Notiamo anzitutto che β̂ − β = (X T X)−1 X T Y − β = (X T X)−1 X T Y − (X T X)−1 X T Xβ = (X T X)−1 X T (Y − Xβ) = (X T X)−1 X T ε. Usando la notazione del teorema 5.3 indichiamo ε = Z, A = (X T X)−1 X T e B = I − P , notiamo allora che AB = (X T X)−1 X T (I − X(X T X)−1 X T ) = (X T X)−1 X T − (X T X)−1 X T X(X T X)−1 X T = 0 per tutto ciò, e per l’espressione (4.12), possiamo affermare che ci troviamo nelle condizioni del risultato 5.3 e pertanto β̂−β e nσ̂ 2 sono indipendenti, che è lo stesso che dire che β̂ è indipendente da σ̂ 2 e da s2 . 4.6 Inferenza sul modello 4.6.1 Inferenza su un singolo coefficiente basata sulla quantità pivotale I risultati della sezione 5 permettono di definire delle quantità pivotali per l’inferenza su un singolo coefficiente, in particolare in virtù della (4.11), della (4.14) e dell’indipendenza tra β̂ e 66 4.6. Inferenza sul modello s2 , si ha che, qualunque sia r, β̂r − βr √ tr = p = s2 [(X T X)−1 ]rr β̂r −βr σ 2 [(X T X)−1 ]rr p s2 /σ 2 N (0, 1) ∼ r ∼ tn−p . (4.15) χ2n−p n−p Dove notiamo che s2 [(X T X)−1 ]rr = V̂ (β̂r ). Il sistema d’ipotesi ( H0 : βr = βr0 H1 : βr 6= βr0 può allora essere verificato sulla base del confronto del valore di β̂r − βr0 tr = p s2 [(X T X)−1 ]rr con una tn−p , sua distribuzione nell’ipotesi nulla, si ha dunque la regione di rifiuto di livello α |toss r | > tn−p,1−α/2 e, di conseguenza, il valore p oss oss αoss = P (|tn−p | > |toss r |) = 2 min(P (tn−p > tr ), P (tn−p < tr )). In maniera analoga si possono verificare sistemi d’ipotesi unilaterali. Sulla base della stessa quantità pivotale, si può ottenere l’intervallo di confidenza di livello 1 − α di estremi q β̂r ± tn−p,1−α/2 s2 [(X T X)−1 ]rr . 4.6.2 Verifica d’ipotesi sulla nullità di un gruppo di coefficienti In molti casi, è di interesse verificare un’ipotesi che coinvolge congiuntamente più coefficienti. In particolare, è di interesse e verrà illustrato in dettaglio, il problema della verifica dell’ipotesi di nullità di un gruppo di coefficienti, che è agevole impostare come un confronto tra modelli. Si dà anche nel seguito un cenno all’uso di questo approccio nel caso di ipotesi puntuali su più coefficienti (non necessariamente di nullità). Consideriamo l’ipotesi di nullità di un gruppo di p−p0 coefficienti, che, senza perdita di generalità, possiamo supporre siano gli ultimi, si ha allora il sistema d’ipotesi ( H0 : βp0 +1 = βp0 +2 = . . . = βp = 0, H1 : ∃r ∈ {p0 + 1, . . . , p} t.c. βr 6= 0, Per verificare un sistema di questo tipo si può procedere nel modo seguente: si stima il modello M0 con tutti i p regressori, se ne ottengono i residui e = y − X β̂ e quindi si calcola la somma dei quadrati dei residui RSS = eT e. Si stima poi il modello M0 definito da Yi = β01 xi1 + . . . + β0p0 xi,p0 + εi , 4. Modello di regressione multipla 67 che differisce da M1 per l’assenza dei regressori p0 + 1, . . . , p (oggetto dell’ipotesi). Di M0 si calcolano i residui e0 = y − X0 β̂0 e la relativa somma dei quadrati RSS0 = eT0 e0 . Chiaramente RSS0 > RSS, tuttavia la differenza è tanto più grande quanto più i p−p0 coefficienti oggetto dell’ipotesi sono rilevanti, la valutazione quantitativa si basa su un test F , che è ricavato e formalizzato nel seguito. I due modelli che vogliamo confrontare, formalizzati nella tabella 4.1, sono modelli annidati, in quanto la famiglia associata a uno è contenuta in quella associata all’altro. Conviene riscrivere il parametro β nella forma β1 .. . βp0 β0 β= βp +1 = β1 0 .. . βp dove β0 ∈ Rp0 e β1 ∈ Rp−p0 , con ciò il sistema d’ipotesi è ( H0 : β1 = 0 H1 : β1 6= 0 corrispondentemente, scriviamo la matrice X come combinazione di due sottomatrici x11 . . . x1p0 .. .. X= . . xn1 . . . xnp0 x1,p0 +1 .. . xn,p0 +1 . . . x1p .. = [X |X ] 0 1 . . . . xnp dove X0 è una matrice n × p0 e X1 è una matrice n × (p − p0 ). È allora più agevole scrivere i due modelli Modello completo (M1 ) IND Yi ∼ N P p j=1 βj xij , σ 2 Y = Xβ + ε = [X0 X1 ] P p0 j=1 β0j xij , σ02 Y = X0 β0 + ε β̂0 β̂1 β̃ = (X0T X0 )−1 X0T y eT e n σ̃ 2 = l(β̂0 , β̂1 , σ̂ 2 ) = − n log σ̂ 2 − 2 = −n log σ̂ 2 − 2 IND Yi ∼ N β0 +ε β1 β̂ = (X T X)−1 X T y = σ̂ 2 = Modello ridotto (M0 ) n 2 1 eT e 2σ̂ 2 eT 0 e0 n = 1 (y n l(β̃, 0, σ̃ 2 ) = − n log σ̃ 2 − 2 − X0 β̃)T (y − X0 β̃) 1 (y 2σ̃ 2 = −n log σ̃ 2 − 2 − X0 β̃)T (y − X0 β̃) n 2 4.6. Inferenza sul modello 68 ∼ N IND p X j=1 βj xij , σ 2 Modello completo (M ) 1 Yi i=1 j=1 θ = (β1 , . . . , βp , σ 2 ) ∈ Θ = Rp ×]0, +∞[ p n X X 1 p(y; θ) = (2πσ 2 )−n/2 exp − 2 (yi − βj xij )2 2σ j=1 p n X n 1 X l(β1 , . . . , βp0 , 0, . . . , 0, σ 2 ) = − log σ 2 − 2 (yi − βj xij )2 2 2σ i=1 j=1 Modello ridotto (M ) 0 p0 X IND β0j xij , σ02 Yi ∼ N j=1 p0 n X n 1 X 2 ) = − log σ 2 − (y − βj xij )2 i 0 2 2σ02 i=1 j=1 i=1 θ = (β , . . . , β , σ 2 ) ∈ Θ = Rp0 ×]0, +∞[ 0 0 01 0p 0 0 p0 n 1 X X (yi − β0j xij )2 − 2σ02 p0 (y; θ0 ) = (2πσ02 )−n/2 exp l(β01 , . . . , β0p , σ Tabella 4.1: Riassunto delle quantità rilevanti per il confronto tra modelli 4. Modello di regressione multipla 69 Si può allora calcolare il log-rapporto di verosimiglianza Wp (β1 )|β1 =0 = 2(l(β̂0 , β̂1 , σ̂ 2 ) − l(β̃, 0, σ̃ 2 )) n n = 2 − log σ̂ 2 + log σ̃ 2 2 2 σ̃ 2 = n log 2 σ̂ eT e0 = n log 0T . e e (4.16) (Si noti che si ha sempre eT0 e0 ≥ eT e, quindi il logaritmo è ben definito e positivo, salvo nel caso, banale, in cui i due sono eguali.) Si rifiuta se Wp (β1 )|β1 =0 è grande, cioè se eT0 e0 è grande rispetto a eT e, il che significa che i residui del modello ridotto sono grandi rispetto a quelli del modello completo. Per determinare la regione critica o il valore p si deve confrontare il valore osservato della statistica Wp (β1 )|β1 =0 , Wposs con la sua distribuzione nell’ipotesi nulla6 La statistica σ̃ 2 σ̃ 2 − σ̂ 2 − 1 = , σ̂ 2 σ̂ 2 assume valori in [0, +∞[ dato che σ̃ 2 ≥ σ̂ 2 , è equivalente a Wp in quanto ne è trasformazione monotona. Essa rappresenta l’aumento relativo della varianza stimata dell’errore che consegue dal passaggio dal modello completo a quello ridotto. Ricordiamo allora che nσ̂ 2 = εT (I − P )ε, e, analogamente, nσ̃ 2 = εT (I − P0 )ε, dove P0 è la matrice di proiezione del modello ridotto, P0 = X0 (X0T X0 )−1 X0T . La differenza delle varianze è allora n(σ̃ 2 − σ̂ 2 ) = εT (I − P0 )ε − εT (I − P )ε = εT (I − P0 − I + P )ε = εT (P − P0 )ε dove P − P0 è simmetrica, dato che P e P0 sono simmetriche, e idempotente: (P − P0 )(P − P0 ) = P P − P0 P − P P0 + P0 P0 = P − P0 − P0 + P0 = P − P0 , si noti infatti che P (P0 y) = P0 y e P0 (P y) = P0 y poiché P e P0 sono proiezioni e P : Y → V e P0 : Y → V0 ⊂ V (V0 è generato dalle prime p0 esplicative, V è generato da tutte le esplicative). Inoltre, P − P0 ha rango p − p0 e quindi, per il teorema 5.2, si ha n(σ̃ 2 − σ̂ 2 ) εT (P − P0 )ε = ∼ χ2p−p0 . σ2 σ2 Per il denominatore si ha, per la (4.13) nσ̂ 2 εT (I − P )ε = ∼ χ2n−p σ2 σ2 Si noti poi che (P − P0 )(I − P ) = P − P0 − (P − P0 )P = P − P0 − P P + P0 P = 0 6 H In base alla teoria generale della verosimiglianza, si ha Wp ∼0 χ2p−p0 , ma questa approssimazione è poco adeguata, specialmente se p è grande rispetto a n, possiamo però ricavare la distribuzione esatta. 70 4.6. Inferenza sul modello e quindi, per il teorema 5.4, n(σ̃ 2 − σ̂ 2 ) e nσ̂ 2 sono indipendenti, sicché F = σ̃ 2 −σ̂ 2 p−p0 σ̂ 2 n−p = n(σ̃ 2 −σ̂ 2 ) σ 2 (p−p0 ) nσ̂ 2 σ 2 (n−p) ∼ χ2p−p 0 p−p0 H0 ∼ χ2n−p n−p Fp−p0 ,n−p . (4.17) Se F oss rappresenta il valore osservato di F , dunque, si rifiuta l’ipotesi nulla al livello α se F oss > Fp−p0 ,n−p,1−α o, in altri termini, il valore p è dato da P (Fp−p0 ,n−p > F oss ). Il risultato può essere riassunto in una tabella nella forma Modello M0 M1 Differenza 4.6.2.1 g.d.l. n − p0 n−p 1 SS RSS0 = eT0 e0 RSS = eT e ∆ = eT0 e0 − eT e F Foss = ∆/(p−p0 ) RSS1 /(n−p) valore p P (Fp−p0 ,n−p > Foss ) Casi particolari 1: nullità di un singolo coefficiente L’impostazione in termini di confronto tra modelli applicata a un singolo coefficiente si pone come alternativa alla procedura basata sulla quantità pivotale illustrata nella sezione 6.1, il risultato è comunque il medesimo. Si consideri allora il sistema d’ipotesi ( H0 : βp = 0 H1 : βp 6= 0 dove si suppone senza perdita di generalità che il parametro d’interesse sia il coefficiente del p-mo regressore (questo sistema d’ipotesi è di particolare interesse in quanto l’ipotesi nulla corrisponde al caso particolare di non associazione di xp con la variabile risposta). Poniamo allora p0 = p − 1, sicché il vettore β è scomposto in una componente β0 di p − 1 elementi e una componente scalare β1 = βp , la verifica dell’ipotesi H0 : βp = 0 si basa sulla quantità F = σ̃ 2 −σ̂ 2 p−p0 σ̂ 2 n−p = σ̃ 2 − σ̂ 2 σ̂ 2 n−p H0 ∼ F1,n−p . che è pari a t2p dove tp è la quantità definita in (4.15) (la dimostrazione, non ovvia, è omessa). 4.6.2.2 Casi particolari 2: verifica del modello nel complesso Verificare il modello nel complesso significa che il modello ridotto è quello che comprende la sola intercetta, quindi p0 = 1 e H0 : β2 = . . . = βp = 0 e β ha componenti β0 = β1 e β1 = (β2 , . . . , βp )T Il modello ridotto è quello in cui si ha identica distribuzione Yi ∼ N β1 , σ 2 . Più in dettaglio, i due modelli messi a confronto sono 4. Modello di regressione multipla 71 Modello completo (M1 ) IND Yi ∼ N P p j=1 βj xij , σ 2 Modello ridotto (M0 ) IND Yi ∼ N β 1 , σ 2 θ = (β1 , . . . , βp , σ 2 ) ∈ Θ = Rp ×]0, +∞[ θ0 = (β1 , σ 2 ) ∈ Θ0 = R×]0, +∞[ p(y; θ) = p0 (y; θ0 ) = n o Pn Pp 2 (2πσ 2 )−n/2 exp − 2σ1 2 i=1 (yi − j=1 βj xij ) n o Pn 2 (2πσ 2 )−n/2 exp − 2σ1 2 i=1 (yi − β1 ) l(y; θ) = − n log σ 2 − 2 1 2σ 2 Pn i=1 (yi − Pp j=1 βj xij )2 l0 (y; θ0 ) = − n log σ 2 − 2 1 2σ 2 Pn i=1 (yi − β1 )2 e quindi si ha n 1X σ̃ = (yi − ȳ)2 n 2 i=1 e la statistica F F = σ̃ 2 −σ̂ 2 p−p0 σ̂ 2 n−p = n − p σ̃ 2 − σ̂ 2 H0 ∼ Fp−1,n−p . p − 1 σ̂ 2 Notiamo che σ̃ 2 − σ̂ 2 σ̃ 2 = −1= σ̂ 2 σ̂ 2 Pn (y − ȳ)2 1 R2 i=1 Pn i 2 −1= − 1 = 1 − R2 1 − R2 i=1 ei e quindi F può essere scritta F = 4.6.2.3 R2 n − p . 1 − R2 p − 1 Altri sistemi di ipotesi Possono essere poi di interesse sistemi di ipotesi che non rientrano nello schema visto. La più semplice generalizzazione riguarda un sistema d’ipotesi del tipo ( (0) (0) (0) H0 : βp0 +1 = βp0 +1 ; βp0 +2 = βp0 +2 ; . . . ; βp = βp ; , (0) H1 : ∃r ∈ {p0 + 1, . . . , p} t.c. βr 6= βr . Questi tuttavia si possono ricondurre al caso di ipotesi sulla nullità di coefficienti considerando il modello con variabile risposta (0) (0) yi0 = yi − βp0 +1 xi,p0 +1 − βp0 +2 xi,p0 +2 − . . . − βp(0) xi,p e esplicative tutte le xj , Yi0 = β10 xi1 + . . . + βp0 xip + εi , l’ipotesi H0 sopra è allora H00 : βp0 0 +1 = . . . = βp0 = 0 (0) si ha infatti, in pratica, una riparametrizzazione dove βi0 = βi se i < p0 e βi0 = βi − βi i = p0 + 1, . . . , p. per 72 4.6. Inferenza sul modello 4.6.3 Verifica d’ipotesi su un gruppo di coefficienti, caso generale Nella sezione precedente si è considerata la verifica d’ipotesi per la nullità di un gruppo di coefficienti e le generalizzazioni immediate, sostanzialmente limitate ai sistemi illustrati nella sezione 6.2.3. In tale casistica non rientrano, ad esempio ipotesi del tipo H0 : β2 = β3 = β4 H0 : β2 = 2β3 , β1 = 5 Consideriamo allora un ulteriore generalizzazione, valida per sistemi d’ipotesi che possono essere ricondotti alla forma H0 : Hβ = c; H1 : Hβ 6= c (4.18) con H matrice q × p di rango q (≤ p) (questa ipotesi non è restrittiva, se il rango è minore il sistema di vincoli può essere ridotto) e c ∈ Rq7 . Il problema può essere affrontato in modo analogo a quanto fatto sopra, stimando cioè due modelli annidati e confrontando l’adattamento. In particolare si confronta il modello completo Y = Xβ + ε, ε ∼ N 0, σ 2 I e il modello ridotto (M0 ) definito da Y = Xβ + ε c.v.Hβ = 0; ε ∼ N 0, σ 2 I Conviene leggere il secondo in termini geometrici, definiamo il sottospazio di Rn V0 = {Xβ t.c. β ∈ Rp ∩ Hβ = 0} che ha dimensione p − q (in quanto, dato il vincolo, q delle p variabili xi sono esprimibili come combinazione lineare delle altre p − q). Detto β̃ lo stimatore di β con il vincolo, cioè la soluzione di min (y − Xβ)T (y − Xβ) c.v. Hβ = 0 β∈Rp (4.19) il vettore ỹ = X β̃ è tale che ỹ ∈ V0 ed è l’elemento di V0 a minima distanza da y. La soluzione del problema di minimo vincolato (4.19) si ottiene col metodo dei moltiplicatori di Lagrange, si ha la funzione g(β, α) = (y − Xβ)T (y − Xβ) + 2(Hβ)T α = yT y − 2β T X T y + β T X T Xβ + 2(Hβ)T α 7 Ad esempio per i due sistemi sopra si ha −1 1 1 β2 = β3 = β4 ⇔ 0 e 1 β2 = 2β3 , β1 = 5 ⇔ 0 0 1 0 0 β= −1 0 0 5 β= −2 0 4. Modello di regressione multipla 73 e quindi, derivando, il sistema 0 = −2X T y + 2X T Xβ + 2H T α 0 = Hβ si ricava, dalla prima equazione, β = (X T X)−1 (X T y − H T α) = β̂ − (X T X)−1 H T α moltiplicando ambo i membri per H si ottiene l’equazione 0 = H β̂ − H(X T X)−1 H T α da cui α = (H(X T X)−1 H T )−1 H β̂ = KH β̂, dove si è posto K = (H(X T X)−1 H T )−1 , e quindi la soluzione per β è β̃ = β̂ − (X T X)−1 H T KH β̂. Con questo, possiamo ottenere l’espressione per ỹ, ỹ = X β̃ = X β̂ − X(X T X)−1 H T KH β̂ = ŷ − X(X T X)−1 H T KH(X T X)−1 X T y = (P − PH )y dove si è posto PH = X(X T X)−1 H T KH(X T X)−1 X T . La matrice P0 = (P − PH ) è quindi la matrice di proiezione da Rn a V0 . Si ha infine 1 1 σ̃ 2 = (y − ỹ)T (y − ỹ) = ||(I − P0 )y|| n n Si noti poi che a. y − ỹ ⊥ V0 Un elemento v ∈ V0 è esprimibile come v = Xβv per qualche βv tale che Hβv = 0, si ha allora (y − ỹ)T v = (y − ỹ)T Xβv = (y − ŷ + PH y)T Xβv = (y − ŷ)T Xβv + yT PH Xβv dove (y− ŷ)T Xβv = 0 in quanto Xβv ∈ V e y− ŷ ⊥ V, e PH Xβv = X(X T X)−1 H T KHβ = 0. b. PH y = y − ỹ ⊥ ỹ Si ha (PH y)T ((P − PH )y) = yT PH P y − yT PH y = 0 poiché PH P = PH . 74 4.6. Inferenza sul modello Di conseguenza, possiamo scrivere che y = ỹ + (ŷ − ỹ) + (y − ŷ) dove i tre addendi a destra sono tra loro ortogonali. Tornando dunque al sistema d’ipotesi (4.18), consideriamo il TRV λ= L(β̃, σ̃ 2 ) L(β̂, σ̂ 2 ) = σ̃ 2 σ̂ 2 −n/2 di cui λ∗ è una trasformazione monotona σ̃ 2 − σ̂ 2 ||ŷ − ỹ||2 ||(P − P0 )y||2 yT (P − P0 )y = = = T 2 2 2 σ̂ ||y − ŷ|| ||(I − P )y|| y (I − P )y Se notiamo che σ12 y ∼ N µ/σ 2 , I e che le tre matrici P0 , P − P0 , I − P , sono di rango rispettivamente p − q, q e n − p e hanno come somma la matrice identica, in base al teorema di Fisher-Cochran si ha 1 T y (P − P0 )y ∼ χ2q µT (P − P0 )µ/σ 2 2 σ 1 T y (I − P )y ∼ χ2q µT (I − P )µ/σ 2 2 σ e che i due sono indipendenti, inoltre se è vera H0 si ha µ = Xβ = 0 con Hβ = 0. si ha allora λ∗ = µT (P − P0 )µ = µT PH µ = µT X(X T X)−1 H T KH(X T X)−1 X T µ = β T X T X(X T X)−1 H T KH(X T X)−1 X T Xβ = 0 (per altra via, essendo µ ∈ V0 si ha P µ = P0 µ). D’altra parte, µT (I − P )µ = β T X T Xβ − β T X T X(X T X)−1 X T Xβ = 0 quindi nell’ipotesi nulla si ha ∗n λ 4.6.4 −p = q σ̃ 2 −σ̂ 2 H0 q ∼ σ̂ 2 n−p Fq,n−p . Interpretazione geometrica del confronto tra modelli Il problema del confronto tra modelli si presta anch’esso all’interpretazione geometrica. Nella figura 4.6 si sono rappresentati il vettore delle osservazioni y, un sottospazio V (un piano) e un sottospazio V0 contenuto in V (una retta). Il sottospazio V è associato al modello completo, mentre il sottospazio V0 è associato al modello ridotto (questo è annidato e quindi V0 ⊂ V). Il vettore ŷ rappresenta la proiezione di y su V, mentre ŷ0 ne è la proiezione su V0 (risulta allora trasparente che, se ŷ è il vettore di V a minima distanza da y, ŷ0 è più distante, e cioè e0 è più lungo di e). Il vettore d è pari a ŷ0 − ŷ e anche a e0 − e (ne discende tra l’altro che ||ŷ0 − ŷ|| = ||e0 − e||). Si noti anche che ||d|| = eT0 e0 − eT e 4. Modello di regressione multipla 75 y y 4 e e0 e d x2 1 ^ y 3.0 2.5 V0 2 3 V0 V 2 3 e0 V 2.0 ^ y0 1.5 ^ y 1.0 ^ y0 0.5 0 x1 0.0 0.5 1.0 1.5 0.0 2.0 2.5 3.0 1 Figura 4.6: Interpretazione geometrica del confronto tra modelli, a sinistra il caso generale, a destra, a titolo di esempio, il caso y = (1.5, 2, 4) (vedi figura 4.5) Questa è una conseguenza del teorema di Pitagora poiché e è ortogonale a d, infatti d = ŷ − ŷ0 ∈ V e il vettore dei residui è ortogonale allo spazio V. La stessa cosa può essere dimostrata direttamente notando che (e0 − e)T (e0 − e) = eT0 (e0 − e) − eT (e0 − e) = eT0 (e0 − e) − eT (ŷ0 − ŷ) = eT0 (e0 − e) per l’ortogonalità già citata, e si ha poi eT0 (e0 − e) = eT0 e0 − eT0 e ma eT0 e = (y − ŷ0 )T e = (y − e + e − ŷ)T e = (ŷ − e)T e + eT e − ŷT e = eT e poiché y − e ∈ V e ŷ ∈ V. È interessante notare che, essendo eT0 e0 − eT e = ||ŷ0 − ŷ|| possiamo anche affermare che si rifiuta il modello nullo quando la differenza tra le previsioni ottenute con i due modelli è relativamente grande. Se in particolare si considera il rapporto ||ŷ0 − ŷ||/||e|| si noti che questo è in relazione con l’angolo formato da e e e0 . (ŷ0 è anche la proiezione di ŷ su V0 , quindi l’angolo tra d e ŷ0 è retto.) Nella parte destra della figura 4.6 si rappresenta l’esempio già illustrato nella figura 4.5: y = (1.5, 2, 4), il confronto è tra il modello associato allo spazio V generato da x1 = (2, 0.5, 0) e x2 = (0.5, 2.5, 0): V = {(u1 , u2 , 0) : u1 , u2 ∈ R}; e il modello associato a V0 = {(u, u, 0) : u ∈ R}, cioè la retta rappresentata in figura (sottospazio di V), si ha quindi ŷ0 = ((y1 + y2 )/2, (y1 + y2 )/2, 0) = (1.75, 1.75, 0) e e0 = (−0.25, 0.25, 4). Il vettore differenza vale d = (y1 − (y1 + y2 )/2, y2 − (y1 + y2 )/2, 0) = (−0.25, 0.25, 0). 4.6.5 Costruzione di regioni di confidenza Il log-rapporto di verosimiglianza (4.16) può essere adoperato per costruire una regione di confidenza per un gruppo di coefficienti, ragioniamo nel seguito costruendo la regione per l’intera 76 4.6. Inferenza sul modello p-pla di coefficienti. Consideriamo, per un generico β0 , il sistema d’ipotesi H0 : β = β0 , H1 : β 6= β0 , il rapporto di verosimiglianza per verificare H0 è Wp (β0 ) = 2(l(β̂, σ̂ 2 ) − l(β0 , σ̂β2 0 )) dove σ̂β2 0 è il punto di massimo della verosimiglianza per β fissato pari a β0 ; si conferma facilmente che è 1 σ̂β2 0 = argmax l(β0 , σ 2 ) = ||y − Xβ0 ||2 n σ2 essendo poi n n l(β0 , σ̂β2 0 ) = max l(β0 , σ 2 ) = − log σ̂β2 0 − , 2 2 2 σ si ha Wp (β0 ) = n log σ̂β2 0 . σ̂ 2 Si rifiuta l’ipotesi nulla al livello α se Wp (β0 ) > kα , dato un campione, un intervallo di confidenza di livello 1 − α è l’insieme dei valori β0 per i quali l’ipotesi è accettata con quel particolare campione, quindi {β0 ∈ Rp : Wp (β0 ) ≤ cα } con cα tale che PH0 (Wp (β0 ) ≤ cα ) = 1 − α. Similmente a quanto fatto per la verifica d’ipotesi notiamo che Wp (β0 ) è funzione monotona crescente di 2 2 F (β0 ) = 2 −σ̂ 2 σ̂β 0 p σ̂ 2 n−p n(σ̂β −σ̂ ) 0 = σ 2 (p) nσ̂ 2 σ 2 (n−p) , che, come visto nella (4.17) (dove in questo caso p0 = 0), è distribuito secondo una Fp,n−p , si ha allora la regione di confidenza {β0 ∈ Rp : F (β0 ) ≤ Fp,n−p;1−α } È interessante riscrivere F (β0 ), si ha nσ̂β2 0 − nσ̂ 2 = (y − Xβ0 )T (y − Xβ0 ) − (y − X β̂)T (y − X β̂) = β0T X T Xβ0 − 2β0T X T y + β̂ T X T X β̂ + 2β̂ T X T y = β0T X T Xβ0 − 2β0T X T X β̂ + β̂ T X T X β̂ = (β0 − β̂)T X T X(β0 − β̂) e quindi F (β0 ) = (β0 − β̂)T X T X(β0 − β̂)/(np) σ̂ 2 /(n − p) e la regione di confidenza è n o β0 ∈ Rp : (β0 − β̂)T X T X(β0 − β̂) ≤ Fp,n−p;1−α nσ̂ 2 p/(n − p) 4. Modello di regressione multipla 77 la cui forma è un ellissoide in Rp . Esempio 4.1 Regressione lineare semplice: sviluppo matriciale. Il modello di regressione semplice (2.23) è, in notazione matriciale, 1 x1 Y1 ε1 Y2 1 x2 .. β1 + . .. = .. .. . . . β2 εn 1 xn Yn quindi 1 x1 Pn xi n 1 . . . 1 1 x2 T i=1 P P X X= = n n 2 x1 . . . xn ... ... i=1 xi i=1 xi 1 xn P P P che ha determinante |X T X| = n ni=1 x2i − ( ni=1 xi )2 = n ni=1 x2i − n2 x̄2 (non nullo se e solo se le xi sono non tutte uguali), allora # " Pni=1 x2i Pn Pn 2 Pn x̄ Pn − 1 x x − 2 2 i T −1 i n (x −x̄) (x −x̄) i=1 i=1 P i=1 i i=1 i (X X) = Pn = n x̄ Pn 1 n n i=1 x2i − n2 x̄2 − i=1 xi − Pn (x 2 −x̄) (xi −x̄)2 i i=1 i=1 Si ha poi XT y = 1 x1 y1 Pn . . . 1 y2 i=1 yi P = n . . . xn ... i=1 xi yi yn e quindi 1 β̂ = Pn 2 i=1 (xi − x̄) Pn 2 i=1 xi /n −x̄ −x̄ 1 Pn P 1 x̄ ni=1 xi yi nȳ i=1 x2i − P Pnnȳ . = Pn 2 −nx̄ȳ + ni=1 xi yi i=1 xi yi i=1 (xi − x̄) Si osservi che, se x̄ = 0, la matrice X T X è nulla sulla diagonale secondaria, il che semplifica i successivi calcoli. Si noti infine che, se consideriamo il modello con la sola intercetta si ha X =P 1Tn e X T X = n, P n 1 (X X )−1 = 1/n e d’altra parte X T y = i=1 yi quindi β̂1 = (X T X)−1 X T y = n ni=1 yi = ȳ. • Esempio 4.2 (continua) dati sui ciliegi. Sviluppiamo i calcoli matriciali per il modello yi = β1 + β2 xi2 + β3 xi3 + εi (4.20) nel caso dei ciliegi neri (esempio 3), con i dati trasformati nei logaritmi, si costruisce allora la matrice X con 31 righe e 3 colonne che è riportata nella tabella 6.5 (colonne 2, 3 e 4). Per la stima dei coefficienti (equazione (4.6)) calcoliamo 31.0 79.3 134.1 96.572 3.139 −24.165 101.455 0.849 −1.227 , X T y = 263.056 , X T X = 79.3 204.4 343.4 , (X T X)−1 = 3.139 134.1 343.4 580.7 −24.165 −1.227 6.310 439.896 78 4.6. Inferenza sul modello e quindi 96.572 3.139 −24.165 101.455 −6.632 0.849 −1.227 263.056 = 1.983 . β̂ = (X T X)−1 X T y = 3.139 −24.165 −1.227 6.310 439.896 1.117 Il modello stimato è quindi yi = −6.63162 + 1.98265xi2 + 1.11712xi3 + ei , che vuol dire, in termini delle variabili originali (volume)i = exp(yi ) = e−6.63162 (diametro)i1.98265 (altezza)i1.11712 ei = 0.00132(diametro)i1.98265 (altezza)i1.11712 ei . Valori teorici e residui sono riportati nella tabella 6.5, sulla base di questi possiamo ottenere le T 1 = 0.00598., mentre lo stimatore stime di σ 2 : la stima di massima veorimiglianza è σ̂ 2 = e n e = 31 n 31 2 2 corretto vale s = n−p σ̂ = 28 0.00598 = 0.00662. Per calcolare le quantità definite in (4.15) ai fini dell’inferenza serve la stima della matrice di varianza e covarianza di β̂, che è data da 0.640 0.021 −0.160 0.006 −0.008 . V̂ (β̂) = s2 (X T X)−1 = 0.021 −0.160 −0.008 0.042 Dagli elementi diagonali della matrice V̂ (β̂) si ricavano gli errori standard degli stimatori dei coefficienti q q √ V̂ (β̂1 ) = s2 [(X T X)−1 ]11 = 0.639664 = 0.79979, q q e analogamente V̂ (β̂2 ) = 0.075011 e V̂ (β̂3 ) = 0.204437. Consideriamo dapprima la costruzione di intervalli di confidenza per q i coefficienti. Gli estremi di un intervallo con livello 1 − α per βr sono dati da β̂r ± tn−p,1− α2 V̂ (β̂r ). Otteniamo allora gli intervalli al livello del 95%, posto α = 0.05 si ha tn−p,1− α2 = t31−3,0.975 = 2.048 e quindi l’intervallo per β1 ha estremi −6.631617±2.048×0.79979 ed è dunque [−8.269912, −4.993322]. Analogamente si ottiene per β2 l’intervallo [1.828998, 2.136302] e per β3 l’intervallo [0.698353, 1.535894]. Consideriamo poi il sistema d’ipotesi H0 : β2 = 0 contro H1 : β2 6= 0 e calcoliamo β̂2 − 0 1.98265 = −10.7924 t2 = q = 0.075011 V̂ (β̂2 ) Il confronto con una tn−p porta a rifiutare l’ipotesi nulla (con un valore p praticamente nullo). Può essere interessante verificare l’ipotesi H0 : β2 = 2 contro H1 : β2 6= 2, si calcola allora oss = 2 min{P (t √β̂2 −2 = −0.01735 n−p ≤ 0.075011 = −0.2313 e si confronta con una tn−p . Il valore p è α V̂ (β̂2 ) −0.2313), P (tn−p ≥ −0.2313)} = 2 min{0.4094, 0.5906} = 0.8188. La verifica dell’ipotesi H0 : β2 = β3 = 0 4. Modello di regressione multipla ● ● ● ● ● −1 ● ● ● ● ● 2.2 2.4 ● 2.6 ● 2.8 3.0 ● ● ● ● ● ● ● ●●● ● ● ● ● 4.15 4.20 4.25 4.30 4.35 4.40 4.45 ● ● ● ● ● ● ● ● 2.5 ● 3.0 3.5 4.0 y^ x3 x2 ●● ● ● −2 −2 ● ● ● ● −1 ●●● ● ● ● ● ● 0 0 r ● ● ● r 0 ● ● ● ● ● ● ● ● ● ● ● ●● ●● ● ● ● ● ● r ● ● ● ●● 1 ● ●● ● 1 1 ● ● ● ● ● ●● −1 ● −2 ● 79 Figura 4.7: Diagrammi di dispersione per i residui dell’esempio relativo agli alberi di ciliegio richiede di confrontare il modello (4.20) col modello ridotto yi = β10 + εi (4.21) la stima dei parametri per il modello ridotto è β̂10 = ȳ = 3.273, s20 = var(y) = 0.277 (quindi RSS0 = 8.309). Per il modello completo le stime sono date nelle sezioni precedenti, si ha RSS = 0.1855, si ha dunque, essendo p0 = 1 e p = 3, la statistica F F = RSS0 −RSS p−p0 RSS n−p = 8.309−0.1855 3−1 0.1855 31−3 = 613.09 da confrontare con una Fp−p0 ,n−p = F2,28 , il valore p è praticamente nullo. Notiamo che si ha n−p R2 31−3 0.9777 R2 = 0.9777 e che quindi si poteva ottenere F anche come F = p−p 2 = 3−1 1−0.9777 = 613.8. 0 1−R Infine, consideriamo un’ipotesi puntuale, ma non di nullità, su un gruppo di coefficienti, ad esempio H0 : β2 = 2, β3 = 1, (4.22) questo problema può essere affrontato definendo la variabile yi0 = yi − 2xi2 + xi3 e confrontando i modelli yi0 = β10 + β20 xi2 + β30 xi3 + εi yi0 = β100 + εi con la metodologia illustrata nella sezione precedente, ne risulta in questo caso una statistica F pari a 0.17 che porta ad accettare l’ipotesi nulla β 0 2 = β30 = 0 e quindi l’ipotesi (4.22). L’analisi dei residui procede in maniera non diversa da quanto illustrato per la regressione semplice. In primis si considerano in figura 4.7 i diagrammi di dispersione dei residui contro le variabili esplicative. Dai grafici non ci sono ragioni di dubitare della normalità e anche l’ipotesi di omoschedasticità risulta accettabile. Per la verifica della normalità disegniamo (figura 4.8) il grafico dei quantili e il diagramma a scatola e baffi degli stessi. Calcoliamo anche il test di Shapiro-Wilks, il cui valore è 0.9606 con valore p pari a 0.3022. • Esempio 4.3 Calcoli matriciali. Consideriamo un insieme di dati di dimensione ridotta 80 4.6. Inferenza sul modello ● ● ● 1 1 ● ● ● ● ● ● ● ● ●● ● 0 0 ● ●● ●● ●●● ● ● ● ● ● −1 −1 Quantili empirici ● −2 −2 ● ● ● −2 −1 0 1 2 Quantili teorici Figura 4.8: Grafico dei quantili e diagramma a scatola e baffi per i residui relativi all’esempio sugli alberi di ciliegio i xi1 X xi2 xi3 y ŷ = X β̂ e = y − ŷ 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 2.12 2.15 2.17 2.35 2.37 2.38 2.40 2.40 2.41 2.42 2.42 2.43 2.43 2.46 2.48 2.56 2.56 2.59 2.62 2.62 2.64 2.65 2.67 2.77 2.79 2.85 2.86 2.88 2.89 2.89 3.03 4.25 4.17 4.14 4.28 4.39 4.42 4.19 4.32 4.38 4.32 4.37 4.33 4.33 4.23 4.32 4.30 4.44 4.45 4.26 4.16 4.36 4.38 4.30 4.28 4.34 4.39 4.41 4.38 4.38 4.38 4.47 2.33214 2.33214 2.32239 2.79728 2.93386 2.98062 2.74727 2.90142 3.11795 2.99072 3.18635 3.04452 3.06339 3.05871 2.94969 3.10009 3.52046 3.31054 3.24649 3.21487 3.54096 3.45632 3.59182 3.64545 3.75185 4.01458 4.01998 4.06560 3.94158 3.93183 4.34381 2.31027 2.29788 2.30855 2.80790 2.97689 3.02258 2.80293 2.94574 3.03578 2.98146 3.05713 3.03135 3.03135 2.97491 3.11825 3.24664 3.40146 3.47507 3.31970 3.21817 3.46769 3.52410 3.47845 3.64302 3.75485 3.92948 3.96597 3.98320 3.99424 3.99424 4.35545 0.02187 0.03426 0.01384 -0.01062 -0.04303 -0.04196 -0.05566 -0.04431 0.08217 0.00926 0.12922 0.01317 0.03204 0.08380 -0.16856 -0.14655 0.11900 -0.16453 -0.07321 -0.00330 0.07327 -0.06778 0.11336 0.00243 -0.00300 0.08510 0.05401 0.08241 -0.05266 -0.06242 -0.01164 Tabella 4.2: Dati e elaborazioni per la regressione multipla sui ciliegi. 4. Modello di regressione multipla 81 i 1 2 3 4 5 yi -5 3 22 0 6 xi2 1 0 5 4 4 xi3 -1 -2 -4 -4 -0 Interessa stimare il modello yi = β1 + β2 xi2 + β3 xi3 + εi per i = 1, . . . , 5 e con ε ∼ N (0, σ 2 I). Si hanno tre variabili esplicative, di cui una è l’intercetta, quindi p = 3. Si costruisce allora la matrice X le cui colonne sono i vettori delle variabili esplicative a cui è aggiunto il vettore costante pari a 1 1 1 −1 1 0 −2 X= 1 5 −4 1 4 −4 1 4 −0 la matrice ha dunque 5 righe e 3 colonne (essa è anche di rango 3, lo si provi ad esempio triangolarizzandola). Il modello in forma matriciale è perciò 1 1 −1 1 0 −2 β1 y1 ε1 y2 = 1 5 −4 β2 + ε2 . 1 4 −4 β3 y3 ε3 1 4 −0 La stima dei coefficienti si ottiene applicando la formula β̂ = (X T X)−1 X T y 1 1 −1 1 1 1 1 1 1 0 −2 5 14 T 0 5 4 4 1 5 −4 = 14 58 X X= 1 −1 −2 −4 −4 −0 1 4 −4 −11 −37 1 4 −0 dove −11 −37 37 e quindi (X T X)−1 0.769 −0.110 0.119 = −0.110 0.063 0.031 0.119 0.031 0.093 e infine, dalla formula β̂ = (X T X)−1 X T y, −5 0.769 −0.110 0.119 1 1 1 1 1 −4.745 3 0 5 4 4 β̂ = −0.110 0.063 0.031 1 22 = 2.583 . 0.119 0.031 0.093 −1 −2 −4 −4 −0 0 −1.233 6 82 4.6. Inferenza sul modello Il modello stimato è quindi yi = −4.74481 + 2.58259xi2 + −1.23343xi3 + ei . per i = 1, . . . , 5. I valori teorici sono 1 1 ŷ = X β̂ = 1 1 1 1 0 5 4 4 −1 −0.929 −2.278 −2 −4.745 −4 2.583 = 13.102 −4 −1.233 10.519 −0 5.586 e di conseguenza otteniamo i residui −5 −0.929 −4.071 3 −2.278 5.278 e = y − ŷ = 22 − 13.102 = 8.898 0 10.519 −10.519 6 5.586 0.414 e possiamo ottenere le stime di σ 2 : la stima di massima veorimiglianza è −4.071 5.278 1 eT e 2 −4.071 5.278 8.898 −10.519 0.414 σ̂ = = 8.898 = 46.88704 n 5 −10.519 0.414 Lo stimatore corretto vale invece s2 = n 5 σ̂ 2 = 46.88704 = 117.2176 n−p 2 Si ha dunque la matrice di varianza e covarianza dello stimatore β̂ 90.087 −12.870 13.913 7.420 3.594 . V̂ (β̂) = s2 (X T X)−1 = −12.870 13.913 3.594 10.899 Infine, la matrice di proiezione P = X(X T X)−1 X T è data da 1 1 −1 1 0 −2 0.769 −0.110 0.119 1 1 1 1 1 1 0 5 4 4 P = 1 5 −4 −0.110 0.063 0.031 1 4 −4 0.119 0.031 0.093 −1 −2 −4 −4 −0 1 4 −0 0.407 0.427 −0.071 0.006 0.231 0.427 0.666 −0.055 0.116 −0.153 0.481 0.081 = −0.071 −0.055 0.565 . 0.006 0.116 0.481 0.460 −0.062 0.231 −0.153 0.081 −0.062 0.903 • 4. Modello di regressione multipla 83 4.7 Esercizi Esercizio 1 Per il modello di regressione multipla yi = β1 + β2 xi2 + β3 xi3 + εi si è ottenuta, sulla base di 15 osservazioni, la seguente tabella dei coefficienti. (Intercept) x2 x3 Estimate 1.4822 -2.3750 1.2424 Std. Error 0.5142 0.8178 0.1915 t value Pr(>|t|) 1. Si completi la tabella. 2. Si ottenga un i.c. al 95% per il coefficiente β2 . 3. Si verifichi l’ipotesi β3 = 1 al livello del 5%. 4. Si ottenga il livello di significatività osservato per l’ipotesi di cui al punto precedente. (Risposte: 1. Le ultime due colonne della tabella sono rispettivamente (2.88, −2.90, 6.49) e (0.0138, 0.0132, 0.000) 2. [−4.16, −0.59]; 3. si accetta; 4. 0.23) Esercizio 2 Si completi la tabella seguente, che riporta i risultati della stima di un modello di regressione multipla con intercetta e tre esplicative effettuata sulla base di 30 osservazioni. (Intercept) x2 x3 x4 Estimate -0.3657 -1.4389 Std. Error 1.6569 0.0299 t value Pr(>|t|) -3.17 65.69 0.2465 0.3027 (Risposte: i valori che mancano, in ordine lessicografico, sono -0.22, 0.8270, 0.4533, 0.0038, 1.9645, 0.0000, 0.2344, 1.05) Esercizio 3 Si consideri un modello di regressione multipla 20.000 5.770 4.160 5.770 8.976 4.708 XT X = 4.160 4.708 8.195 −24.520 −4.921 −12.988 Y = Xβ + ε con intercetta. Si ha −24.520 −4.921 −12.988 133.668 1. Quante sono le osservazioni? 2. Quante sono le variabili esplicative? 3. Qual è la media delle esplicative? 4. Qual è la varianza delle esplicative? Si ha poi X X X X X yi = −11.4, x2i yi = −5.7422, x3i yi = 2.4683, x4i yi = 122.1866, e2i = 74.09666 i i i i i 5. Si scriva la tabella dei coefficienti (stima, errore standard, statistica t e valore p per l’ipotesi di nullità del coefficiente) 84 4.7. Esercizi 6. Si trovi un i.c. al 95% per il coefficiente di x3 . 7. Si ottenga il livello di significatività osservato per l’ipotesi di nullità di tutti i coefficienti tranne l’intercetta. (Risposte: 1. 20; 2. 4 (con l’intercetta); 3. 0.2885, 0.2080, -1.2260; 4. 0.365, 0.366, 5.18, (varianze campionarie non corrette); 5. stime: 1.053, -2.249, 3.171, 1.333; s.e.: 0.603, 0.938, 0.975, 0.228; val-t: 1.746, -2.397, 3.252, 5.846; val.p: 0.1, 0.029, 0.005, 1.52×10−5 ; 6. [1.816, 0.849]; 7. 0.0002412) IND Esercizio 4 Un modello di regressione yi = β1 + β2 xi2 + β3 xi3 + εi , εi ∼ N 0, σ 2 , i = 1, . . . , n ha dato luogo alle seguenti previsioni xi2 -3.62 -5.18 -5.00 xi3 2.93 2.86 0.71 ŷi 5.65 3.98 -0.44 1. Si ricavino le stime dei coefficienti. 2. Sapendo che i valori di x2 sono (−3.62, −5.18, −5, −0.71, −4.25, −1.68, 2.86, 0.25, −5.14, −6.12) si completi il vettore dei residui (1.084, −2.3549, 0.6547, 2.8186, −0.5533, 0.9759, −1.9323, −0.2609, ?, ?). (Risposte: 1. 2.8784, 0.9687, 2.1414; 2. -0.78, 0.35) Capitolo 5 Modello lineare con variabili qualitative 5.1 Test t a due campioni Si è osservata la lunghezza in millimetri (mm) di 32 uova di cuculo, di cui 16 deposte in nidi di pettirosso e 15 deposte in nidi di scricciolo (un fatto caratteristico del cuculo è che non costruisce un proprio nido, ma depone le uova in nidi di altri uccelli, di modo che questi le covino insieme alle loro. Alla nascita il piccolo di cuculo elimina le altre uova presenti nel nido, restando l’unico ospite che verrà nutrito dall’uccello proprietario del nido). Si vuole valutare se le uova abbiano lunghezza diversa a seconda della specie dell’uccello cui appartiene il nido. L’analisi grafica, in particolare il confronto dei diagrammi a scatola per i due gruppi (figura 5.1), mostra una differenza di lunghezza tra i due campioni. Il problema è stabilire se una tale differenza tra i due campioni sia indicativa di una reale differenza tra le due popolazioni. Indicando con yiA , i = 1, . . . , nA i dati relativi ai pettirossi (in generale, i dati relativi alla prima popolazione) e con yiB , i = 1, . . . , nB i dati relativi agli scriccioli (alla seconda popolazione), si adotta il modello cosı̀ specificato (k) 1. yih indipendente da yj se i 6= j e/o h 6= k (in altre parole, y1A , . . . , ynAA , y1B , . . . , ynBB indipendenti tra loro.), si noti che l’indipendenza vale tanto all’interno dei gruppi tanto tra i due gruppi; 2. le due popolazioni sono normali e omsochedastiche, yiA ∼ N µA , σ 2 i = 1, . . . , nA , B 2 yi ∼ N µB , σ i = 1, . . . , nB . Si vuole dunque verificare il sistema d’ipotesi ( H0 : µA = µB , H1 : µA 6= µB . (5.1) Per ottenere una statistica fine si calcolano medie e varianze di gruppo, in partiP A Atest2utile a1 talP A colare sia ȳA = n1A ni=1 yi e sA = nA −1 ni=1 (yiA − ȳ A )2 , analogamente si definiscano ȳB e s2B . Accanto a queste si calcola la varianza congiunta 1 s2p = (nA − 1)s2A + (nB − 1)s2B . (5.2) nA + nB − 2 5.1. Test t a due campioni 23 22 21 Scricciolo (yiB ) 19.85 20.05 20.25 20.85 20.85 20.85 21.05 21.05 21.05 21.25 21.45 22.05 22.05 22.05 22.25 20 Pettirosso (yiA ) 21.05 21.85 22.05 22.05 22.05 22.25 22.45 22.45 22.65 23.05 23.05 23.05 23.05 23.05 23.25 23.85 24 86 Pettirosso Scricciolo Figura 5.1: Lunghezze delle uova di cuculo deposte in nidi di pettirosso e scricciolo Il test di omogeneità delle medie è quindi basato sulla statistica T = ȳ − ȳB qA , sp n1A + n1B (5.3) che, nell’ipotesi nulla, è distribuita secondo una tnA +nB −2 . La regione di rifiuto di livello α è |T | > tnA +nB −2,1−α/2 e il livello di significatività osservato è αoss = 2(1 − Ft,nA +nB −2 (|T oss |)). Relativamente ai dati sui cuculi si ha nA = 16, nB = 15, le medie sono pari a ȳA = 22.575 e ȳB = 21.13. Le uova deposte in nidi di pettirosso sono mediamente più lunghe, nella misura di 1.445mm, di quelle deposte in nidi di scricciolo. Le varianze sono, rispettivamente, s2A = 0.46867 e s2B = 0.55314, sufficientemente simili, data anche la scarsa numerosità campionaria, per accettare l’ipotesi di omoschedasticità (e in effetti il valore p del test di Bartlett, che qui è totalmente appropriato e non richiede scelte arbitrarie dato che i dati sono naturalmente divisi in gruppi, è 0.7564). Queste stime di gruppo danno luogo alla stima congiunta s2p = 0.50945 e si ha quindi sp = 0.71376. Si ottiene dunque la statistica toss = 22.575 − 21.13 1.445 q √ = = 15.673 1 1 0.71376 0.12917 0.71376 16 + 15 e il corrispondente valore p pari a αoss = 2P (T29 > 15.673) ≈ 10−15 . Si deve quindi concludere che la lunghezza delle uova deposte in nidi di pettirosso è effettivamente diversa, in media, da quella delle uova deposte in nidi di scricciolo. Si è considerata un’ipotesi bilaterale, quindi la conclusione riguarda solo la diversità, se si fosse considerata un’ipotesi unilaterale, ad esempio se, essendo noto che le uova di pettirosso sono più lunghe di quelle di scricciolo, ci si fosse posti il problema di stabilire se le uova di cuculo, quando deposte in nidi di pettirosso, siano più lunghe che non quando deposte in nidi di scricciolo, il sistema d’ipotesi adatto sarebbe stato ( H0 : µA ≤ µB , H1 : µA > µB . (5.4) 5. Modello lineare con variabili qualitative 87 i Lunghezza (Yi ) Ospite xi 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 21.05 21.85 22.05 22.05 22.05 22.25 22.45 22.45 22.65 23.05 23.05 23.05 23.05 23.05 23.25 23.85 19.85 20.05 20.25 20.85 20.85 20.85 21.05 21.05 21.05 21.25 21.45 22.05 22.05 22.05 22.25 Pettirosso Pettirosso Pettirosso Pettirosso Pettirosso Pettirosso Pettirosso Pettirosso Pettirosso Pettirosso Pettirosso Pettirosso Pettirosso Pettirosso Pettirosso Pettirosso Scricciolo Scricciolo Scricciolo Scricciolo Scricciolo Scricciolo Scricciolo Scricciolo Scricciolo Scricciolo Scricciolo Scricciolo Scricciolo Scricciolo Scricciolo 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 Tabella 5.1: Osservazioni in forma matriciale, in particolare la seconda e la quarta colonna sono, nel caso particolare dei cuculi, i vettori in (5.5) −1 (1− La statistica test (5.3) è ancora appropriata, ma la regione di rifiuto di livello α è T > Ft,n A +nB −2 oss oss α) e Il livello di significatività osservato è α = 1 − Ft,nA +nB −2 (T ). Con i dati sui cuculi si ottiene il valore p αoss = P (T29 > 15.673) = 5.55112e − 16. 5.1.1 Test t in forma di regressione Riscriviamo i dati in un formato adatto per definire un modello di regressione, sia allora yT xT = ( y1A , . . . , ynAA = ( 0 , ... , 0 , y1B , . . . , ynBB , 1 , ... , 1 ), ), (5.5) dove y ∈ RnA +nB , e x ∈ {0, 1}nA +nB è una variabile indicatrice (o muta o dummy) i due vettori per il caso dei cuculi sono rappresentati per intero nella tabella 5.1. Si definisce allora il modello di regressione semplice Yi = β1 + β2 xi + εi i = 1, . . . n, IND con εi ∼ N 0, σ 2 e dove n = nA + nB . Questo modello, come si osserva banalmente riscrivendolo nella forma ( Yi ∼ N β1 , σ 2 i = 1, . . . , nA , 2 Yi ∼ N β1 + β2 , σ i = nA + 1, . . . , n, (5.6) (5.7) è una riparametrizzazione del modello definito nella sezione 1, dove µA = β1 e µB = β1 + β2 . Lo stimatore dei minimi quadrati per β1 , β2 si rintraccia banalmente ricordando che esso è anche 88 5.1. Test t a due campioni N(µ1 = β1 + β2,σ2) ● N(µ0 = β1,σ 2 µ1 ^ ^ ^ µ1=y1=β0 + β1 ) y = β1 + β2x ^ ^ y = β1 + β2x ● ● ● ● ● ● ● ● ^ ^ =y0=β µ 0 0 µ0 ● ● ● 0 1 Figura 5.2: Rappresentazione degli stimatori e del modello secondo le diverse parametrizzazioni, (µA , µB , σ 2 ) come nella sezione 1 e (β1 , β2 , σ 2 ) come in (5.6) stimatore di massima verosimiglianza, allora, in virtù dell’equivarianza degli stimatori di massima verosimiglianza si ha β̂1 = µ̂A , β̂2 = µ̂B − µ̂A , (5.8) dove µ̂A e µ̂B sono gli stimatori di massima verosimiglianza della media di una normale, pari alle 1 PnA A 1 PnB B medie aritmetiche ȳA = nA i=1 yi e ȳB = nB i=1 yi . Si hanno quindi gli stimatori1 β̂1 = ȳA , β̂2 = ȳB − ȳA . (5.9) Il modello è rappresentato nella figura 5.2. Naturalmente, la retta non ha un significato al di là dei punti x = 0 e x = 1 (l’aver stimato il modello in forma di modello lineare non autorizza a calcolare la media di Y per x = 0.5, perché questo valore non ha senso, la retta di regressione è solo una rappresentazione). 1 Alla stessa soluzione si perviene, ovviamente, usando le consuete formule ((2.12) e (2.11)), essendo n X x2i = i=1 n X i=1 xi = nB , n X xi yi = nB ȳB , i=1 e si ha anche nȳ = nA ȳA + nB ȳB , quindi Pn P nB ȳB − n1 (nA ȳA + nB ȳB )nB xi yi − ȳ n xi nȳB − nA ȳA − nB ȳB i=1 Pni=1 β̂2 = Pn = = = ȳB − ȳA , 2 2 n − n /n n − nB x − x̄ x B B i=1 i i=1 i β̂1 = ȳ − β̂2 x̄ = 1 nB (nA ȳA + nB ȳB ) − (ȳB − ȳA ) = ȳA . n n 5. Modello lineare con variabili qualitative 89 Lo stimatore corretto della varianza, s2 , coincide con s2p definito in (5.2), si ha infatti n 1 X (yi − β̂1 − β̂2 xi )2 n−2 i=1 nA n X X 1 (yi − β̂1 )2 + = (yi − β̂1 − β̂2 )2 nA + nB − 2 i=1 i=nA +1 nA n X X 1 (yi − ȳA )2 + = (yi − ȳB )2 nA + nB − 2 s2 = i=1 = i=nA +1 1 (nA − 1)s2A + (nB − 1)s2B = s2p . nA + nB − 2 Inoltre, il sistema d’ipotesi ( H0 : β2 = 0, H1 : β2 6= 0, (5.10) coincide con (5.1) e il consueto test t per la nullità del coefficiente angolare, β2 , coincide con il test descritto nella sezione 1 e basato sulla statistica T in (5.3). Infatti si ha β̂2 β̂2 = q = T, t2 = q B s nnAA+n V̂ (β̂2 ) nB (5.11) poiché 1 nA + nB n s2 = s2 = s2 = s2 . 2 2 2 nB − n(nB /n) nA nB (nA + nB )nB − nB i=1 (xi − x̄) V̂ (β̂2 ) = Pn È anche istruttivo calcolare, via le formule generali, la varianza di β̂1 , si ha V (β̂1 ) = σ 2 x̄2 1 + Pn 2 n i=1 (xi − x̄) =σ 2 1 nA + nB + (nB /n)2 n nA nB = σ2 . nA Con i dati relativi ai cuculi si ottengono le stime di cui alla tabella e figura 5.3. Si confrontino le stime della tabella 5.3 con le medie campionarie dei due gruppi. Osservazione 5.1 Verifica degli assunti. S’è sorvolato sopra sulla verifica degli assunti del modello, questa prende una forma leggermente diversa a seconda che si tratti il problema come presentato nella sezione 1 o nella cornice della sezione 1.1. Per come si è formulato il problema nella sezione 1 si tratta di verificare che i due campioni siano normalmente distribuiti e omoschedastici. La coppia di diagrammi a scatola nella figura 5.1 può servire alla verifica dell’omoschedasticità, questa può naturalmente essere formalizzata con un test, ad esempio il test di Bartlett. g 1 2 TOT ng 16 15 31 s2g 0.4687 0.5531 1.0218 s2g (ng − 1) 7.0300 7.7440 14.7740 log(s2g ) -0.7579 -0.5921 -1.3500 log(s2g )(ng − 1) -11.3680 -8.2899 -19.6579 1/(ng − 1) 0.0667 0.0714 0.1381 90 5.1. Test t a due campioni 24.0 ● 23.5 ● ● ● ●● 23.0 ● yA β1 β2 E.S. 0.1784 0.2565 t 126.51 -5.63 Pr(>|t|) 0.0000 0.0000 22.0 y = yA + (yB − yA)x ● ●● ● y Stima 22.5750 -1.4450 ● ● ● ●● ● 21.5 ● ● yB ● ●● ● ● 20.5 ● ● 20.0 ● 0 1 x Figura 5.3: Tabella delle stime dei coefficienti per il modello (5.6), rappresentazione grafica dei dati (xi , yi ) e della stima del modello ● 23.5 22.0 ● ● ● ● ● ● 22.0 ● ● ● ● ● 21.5 ● ● ● ● ● ● ● 20.0 21.0 ● ● 21.0 22.5 ● 20.5 Sample Quantiles 23.0 ● 21.5 Sample Quantiles ● ● ● ● ● ● −2 −1 0 1 ● ● 2 −1 Theoretical Quantiles 0 1 Theoretical Quantiles Figura 5.4: Grafici dei quantili per i due campioni (pettirossi a sinistra, scriccioli a destra), si notino i punti con la stessa ordinata, che corrispondono a valori campionari che si ripetono e si ottiene s2p = 14.774/29 = 0.50945, e dunque la statistica T T = (31 − 2) ln 0.50945 − −19.658 = 0.09619, 1 1 1 + 3(2−1) 0.1381 − 31−2 che va confrontata con un χ21 , il livello di significatività osservato è dunque P (χ21 > T oss) = 0.7565. Dovremo poi verificare la normalità in entrambi i campioni, usando ad esempio il metodo del confronto dei quantili (figura 5.4). Se usiamo invece la formulazione in termini di regressione, di cui alla sezione 1.1, dovremo ragionare sui residui, residui che sono pari ai valori dei due campioni centrati rispetto alla media campionaria di ciascuno ( yi − ȳA , ei = yi − ŷi = yi − ȳB , i = 1, . . . , nA , i = nA + 1, . . . , nA + nB . 5. Modello lineare con variabili qualitative 91 2 (c) 2 (b) 2 (a) ● ● 1 ● ●●●●● ● 0 ●● ●●●●● ●●●● ●●● −1 Sample Quantiles 0 −1 1 0 −1 1 ●● ● ● ● −2 −2 −2 ● ● ● ei xi = 0 ei ~ ei xi = 1 ~ ei Pettirosso Scricciolo −2 −1 0 1 2 Theoretical Quantiles Figura 5.5: (a): Residui (+) e residui standardizzati (×) a confronto, si noti che ci sono alcuni gruppi di residui uguali, conseguenza del fatto che ci sono osservazioni campionarie ripetute; (b) e (c) Diagramma a scatola e grafico dei quantili per i residui standardizzati Per passare ai residui standardizzati notiamo che hi assume due soli valori2 , 1 (xi − nB /n)2 hi = + = n n(nA /n)(nB /n) ( 1/nA 1/nB se xi = 0, se xi = 1; e che quindi i residui standardizzati sono pari a q nA (yi − ȳA ) , q nA −1 ẽi = n B (yi − ȳB ) nB −1 , i = 1, . . . , nA ; i = nA + 1, . . . , nA + nB . I residui associati al gruppo più numeroso hanno varianza maggiore. Notiamo anche che se nA e nB sono grandi i residui standardizzati tendono a coincidere con i residui ei . Qualora vi sia una differenza sensibile, la verifica di omoschedasticità fatta sui residui standardizzati darà un risultato diverso dal test sui residui ei . Ad esempio coi dati sui cuculi i due valori di h sono 0.0625 per il gruppo A e 0.066667 per il gruppo B. Nella p figura 5.5(a) si mettono a confronto residui e residui p standardizzati per i dati sui cuculi. Si ha dunque nA /(nA − 1) = 1.0328 e nB /(nB − 1) = 1.0351, residui e residui standardizzati sono rappresentati nella figura 5.5. Si ottiene una statistica di Bartlett pari a 0.1014, corrispondente al valore p 0.7501. Infine, in figura 5.5(b) si confronta la distribuzione empirica dei residui con la normale, rispetto alla verifica fatta nella figura 5.4 qui si ha un unico grafico dei quantili, il che rende la lettura più agevole. Notiamo infine che, per la particolare natura della variabile esplicativa, non c’è linearità da verificare. • Osservazione 5.2 Scomposizione della devianza. È interessante ottenere la scomposizione della 2 Si noti in effetti, ad esempio con riferimento al gruppo A, che V (ei ) = V (yi − ȳA ) = V (yi ) + V (ȳA ) − 2cov (() yi , ȳA ) = σ 2 + σ2 2 1 − cov (() yi , yi ) = σ 2 1 − . nA nA nA 92 5.2. ANOVA a una via devianza. La devianza spiegata è pari a n X (ŷi − ȳ)2 = nA (ȳA − ȳ)2 + nB (ȳB − ȳ)2 i=1 2 2 1 1 = nA ȳA − (nA ȳA + nB ȳB ) + nB ȳB − (nA ȳA + nB ȳB ) n n n B 2 nA 2 nA nB ȳA − ȳB − ȳB + nB 1 − ȳA = nA 1 − n n n n n 2 n 2 B A = nA (ȳA − ȳB ) + nB (ȳB − ȳA ) n n 2 nA nB = (ȳA − ȳB ) n si ha quindi 2 (ȳA − ȳB ) nA nB R2 = Pn . 2 n i=1 (yi − ȳ) La devianza residua è Pn i=1 (yi − ŷi )2 = (n − 2)s2p quindi 2 (ȳA − ȳB ) nAnnB R2 = 1 − R2 (n − 2)s2p e moltiplicando per 1/(n − 2) si ritrova la statistica T elevata al quadrato. • 5.2 ANOVA a una via Nella sezione precedente s’è discusso del problema del confronto tra le medie in due popolazioni, il familiare t-test, e di come questo si possa formulare come un problema di verifica d’ipotesi sul coefficiente di regressione in un modello con una variabile esplicativa di tipo indicatore (dummy). Complichiamo il problema confrontando tre o più popolazioni: useremo come esempio di riferimento il caso di tre popolazioni, l’estensione al caso generico di J popolazioni è naturale. Consideriamo un esperimento in cui dei ricercatori hanno preso 15 cavie e hanno somministrato ad esse una stessa quantità di un veleno. Le cavie sono state poi suddivise casualmente in 3 gruppi (di numerosità diverse) e ciascun gruppo è stato sottoposto a un trattamento: alle cavie del primo gruppo è stato somministrato l’antidoto A, a quelle del secondo l’antidoto B e a quelle del terzo l’antidoto C. Per ciascuna cavia si è quindi misurato, in decine di ore, il tempo di sopravvivenza. Si noti che, allocando le cavie nei gruppi con un meccanismo casuale, si cerca di neutralizzare gli effetti di altre variabili, ad esempio il peso corporeo, che potrebbero alterare il risultato, cioè avere un effetto sul tempo di sopravvivenza. Tale processo è chiamato randomizzazione (casualizzazione) e l’esperimento è detto disegno sperimentale semplice a un fattore (o a un trattamento). Tramite questo esperimento, si vuole stabilire se i tre antidoti hanno la stessa efficacia, cioè se il tempo di sopravvivenza, una quantità aleatoria, ha la stessa distribuzione nei diversi gruppi (in altre parole se la distribuzione del tempo di sopravvivenza condizionatamente al gruppo (qui all’antidoto) è uguale alla distribuzione marginale). I dati raccolti sono riassunti nella tabella 5. Modello lineare con variabili qualitative 93 3.5 3.0 3.0 3.5 ● ● 1.0 ● 2.0 2.5 ● ● 1.5 ● 1.5 Sopravvivenza 2.0 ● ● 1.0 Sopravvivenza 2.5 ● ● ● 0.5 0.5 ● ● ● ● A B C A B Antidoto C Antidoto Figura 5.6: Tempi di sopravvivenza di topi avvelenati e trattati con tre diversi antidoti Trattamento (Antidoto) A B C Tempi di sopravvivenza 0.22 2.80 1.70 0.14 3.60 2.00 0.44 2.80 1.52 0.59 2.60 1.67 1.90 0.82 1.90 Graficamente, possiamo rappresentare i dati con un diagramma di dispersione, anche se la più usuale rappresentazione di dati di questo tipo sono i diagrammi a scatola e baffi Dati di questo tipo possono essere rappresentati usando due indici, si denota allora con yij il tempo di sopravvivenza dell’i-esima cavia del j-esimo gruppo, quindi j = 1, . . . , J è l’indice del gruppo (antidoto/trattamento) e i = 1, . . . , nj è l’indice dell’osservazione per gruppo. Nell’esempio si ha J = 3, n1 = 4, n2 = 3, n3 = 8 e la tabella, completata con gli indici, è i j 1 2 3 1 0.22 2.80 1.70 2 0.14 3.60 2.00 3 0.44 2.80 1.52 4 0.59 5 6 7 8 2.60 1.67 1.90 0.82 1.90 Si definiscono poi, per j = 1, . . . , J, le medie di gruppo e le varianze interne ai gruppi nj 1 X ȳj = yij , nj i=1 nj s2j 1 X = (yij − ȳj )2 . nj − 1 i=1 Con i dati dei topi avvelenati si calcolano le quantità Gruppo nj ȳj s2j A B C 4 3 8 0.347 3.067 1.764 0.0422 0.2133 0.2507 q s2j 0.2055 0.4618 0.5007 94 5.2. ANOVA a una via Si nota, da queste statistiche, che: 1. il tempo di sopravvivenza medio è diverso nei gruppi, più elevato quello del secondo gruppo, il che suggerirebbe una maggiore efficacia dell’antidoto B, somministrato a quegli individui; 2. la variabilità del tempo di sopravvivenza è diversa nei gruppi, questo può essere un problema perché i test usuali si basano sull’omoschedasticità, è opportuno quindi verificare quest’ipotesi. L’approccio usuale al problema si basa sulla scomposizione della varianza in varianza dovuta alle differenze tra i gruppi e varianza dovuta alle differenze interne ai gruppi. Definita la media generale J nj J 1 XX 1X ȳ = nj ȳj , yij = n n j=1 i=1 j=1 si può mostrare che la devianza campionaria complessiva si scompone in una parte dovuta alla variabilità interna ai gruppi e un’altra dovuta alla variabilità tra i gruppi. Si ha infatti nj nj J X J X X X (yij − ȳ)2 = (yij − ȳj + ȳj − ȳ)2 j=1 i=1 j=1 i=1 J nj = nj J J X X X XX (yij − ȳj )2 + nj (ȳj − ȳ)2 + 2 (ȳj − ȳ) (yij − ȳj ) j=1 i=1 dove Pnj i=1 (yij j=1 j=1 i=1 − ȳj ) = 0 per ogni j, quindi PJ j=1 Pnj i=1 (yij PJ − ȳ)2 = Dev. totale DEVtot j=1 (nj − 1)s2j Dev. entro i gruppi DEVint + PJ j=1 nj (ȳj − ȳ)2 Dev. tra i gruppi DEVtra Queste quantità sono campionarie, e quindi casuali, ci si attende però che quanto maggiore è la differenza di posizione (media) tra le distribuzioni gruppi, tanto più grande sia la quota della devianza totale attribuibile alla variabilità tra i gruppi (DEVtra ). Con i dati sui roditori, ad esempio, la devianza totale, pari a DEVtot = 15.22 si scompone in DEVtra = 12.91 e DEVint = 2.308, la quota dovuta alla variabilità tra i gruppi è dunque preponderante, a indicare che le medie nei tre gruppi sono diverse, come d’altronde suggerivano abbastanza chiaramente i grafici in figura 5.6. Queste considerazioni possono essere formalizzate in una verifica d’ipotesi facendo opportune assunzioni. Si assume anzitutto che le yij siano determinazioni indipendenti di v.a. Yij ∼ N µj , σ 2 . A parole, si assume che i tempi di sopravvivenza siano indipendenti e identicamente distribuiti nell’ambito di ciascun gruppo, con medie diverse da gruppo a gruppo e la stessa varianza. Si noti che le distribuzioni condizionate al gruppo d’appartenenza sono uguali se sono uguali le medie di gruppo µj , l’ipotesi di eguale efficacia degli antidoti è allora H0 : µ1 = µ2 = . . . = µJ , se questa è valida la statistica F = (DEVtra )/(J − 1) (DEVint )/(n − J) (5.12) 5. Modello lineare con variabili qualitative Unità 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 95 Sopravvivenza (y) 0.220 0.140 0.440 0.590 2.800 3.600 2.800 1.700 2.000 1.520 2.600 1.670 1.900 0.820 1.900 Antidoto A A A A B B B C C C C C C C C Tabella 5.2: Dati sui roditori in forma di matrice è distribuita come una FJ−1,n−J . Valori grandi della statistica F portano a rifiutare l’ipotesi H0 , cioè la regione di rifiuto di livello α è (DEVtra )/(J − 1) F = > FJ−1,n−J,1−α (DEVint )/(n − J) dove FJ−1,n−J,1−α è il quantile 1 − α di una FJ−1,n−J . Il livello di significatività osservato è pertanto, indicando con F oss il valore osservato della statistica F αoss = P (FJ−1,n−J > F oss ). 12.91/2 Nell’esempio si ottiene F oss = 2.308/12 = 33.56, e di conseguenza il valore p è P (F2,12 > 33.56) = 1.217e − 05, il che porta a rifiutare l’ipotesi nulla: i tre antidoti non hanno la stessa efficacia. L’esito dell’analisi viene usualmente presentato in una tabella cosı̀ formata Componente G.d.L. Devianza Gruppi J −1 P Residuo n−J P 5.2.1 Varianza ȳ)2 P 2 i,j (yij − ȳj ) P j nj (ȳj − 2 j nj (ȳj −ȳ) J−1 i,j (yij −ȳj ) 2 Valore F Valore p 2 j nj (ȳj −ȳ) J−1 P 2 i,j (yij −ȳj ) n−J αoss = P (FJ−1,n−J > F oss ) P n−J ANOVA come modello lineare Questi stessi risultati si possono ottenere impostando il problema come un modello di regressione multipla: il test F appena definito è un caso particolare del test di nullità di un sottoinsieme di componenti del vettore dei coefficienti di regressione. Conviene anzitutto scrivere i dati nella forma di cui alla tabella 5.2, passando a un solo indice. Appare allora abbastanza naturale pensare a un modello del tipo Sopravvivenza = f (Antidoto) + (errore), cioè un modello di regressione con una variabile esplicativa, antidoto, qualitativa. Questo è analogo al caso delle medie di due popolazioni, dove la variabile qualitativa era l’appartenenza all’una o all’altra. Qui sale, a tre nell’esempio, il numero di livelli dell’esplicativa. Per includere la variabile qualitativa antidoto nel modello dobbiamo riscriverla in termini numerici, cioè mediante variabili indicatrici. Usiamo il plurale perché nel caso di due popolazioni ne 96 5.2. ANOVA a una via era sufficiente una, nel caso di tre popolazioni occorrerà ricorrere a due variabili, definiamo allora ( ( 1 se antidoto è B 1 se antidoto è C xiB = xi2 = xiC = xi3 = 0 altrimenti 0 altrimenti Notiamo che questa non è l’unica codifica possibile, si è scelto cosı́ il livello ‘A’ come livello base, si poteva scegliere uno qualunque degli altri. La matrice delle variabili esplicative è allora3 , posto come d’uso xi1 = 1 ∀i, 111111111111111 X T = 0 0 0 0 1 1 1 0 0 0 0 0 0 0 0 000000011111111 e il modello può essere scritto Yi = β1 xi1 + β2 xiB + β3 xiC + εi , IND εi ∼ N 0, σ 2 . (5.13) Queste sono le stesse ipotesi alla base del test F proposto precedentemente, notiamo infatti che Yi ∼ N µi , σ 2 con µi = β1 xi1 + β2 xiB + β3 xiC significa che Yi ∼ N β1 , σ 2 , i = 1, . . . , 4 (gruppo A); Yi ∼ N β1 + β2 , σ 2 , i = 5, . . . , 7 (gruppo B); Yi ∼ N β1 + β3 , σ 2 , i = 8, . . . , 15 (gruppo C). L’interpretazione dei parametri è che β1 è la media della sopravvivenza per gli individui a cui è stato somministrato l’antidoto A; β1 + β2 la media per i soggetti cui è stato somministrato l’antidoto B (e quindi β2 è la differenza tra sopravvivenza media con antidoto B e sopravvivenza media con antidoto A) e β1 + β3 è la media per i soggetti cui è stato somministrato l’antidoto C. L’ipotesi per cui gli antidoti sono indifferenti si traduce in H0 : β2 = β3 = 0 che, si è visto, si verifica basandosi sul test del rapporto di verosimiglianza che corrisponde al IND confronto del modello (5.13) con il modello ridotto Yi = β1 + εi , con εi ∼ N (0, σ 2 ), e cioè il modello che assume che la media sia la medesima nei gruppi. Questo significa confrontare la statistica F = (σ̃ 2 − σ̂ 2 )/(J − 1) σ̂ 2 /(n − J) con la distribuzione FJ−1,n−J , sua distribuzione nell’ipotesi nulla. compaiono nella (5.14) sono (5.14) Le varianze stimate che • σ̃ 2 , stima della varianza dei residui nel modello ridotto, P cioè, essendo la stima di MV di β1 pari a β̃1 = ȳ, la varianza (marginale) di y: σ̃ 2 = n1 ni=1 (yi − ȳ)2 , ovvero la devianza totale (DEVtot ) divisa per n. 3 Si noti che, se si considerassero tre variabili indicatrici, una per ciascun gruppo, cioè alle due variabili xiB e xiC si aggiungesse la variabile xiA definita in modo analogo, la matrice delle esplicative che si ottiene con le colonne [x1 , xA , xB , xC ], dove x1 è il vettore unitario, non sarebbe a rango pieno in quanto x1 = xA + xB + xC , con tutte le conseguenze del caso. 5. Modello lineare con variabili qualitative 97 • σ̂ 2 , stima della varianza nel modello completo, cioè n 1X (yi − β̂1 − β̂2 xi2 − β̂3 xi3 )2 , n σ̂ 2 = i=1 dove le SMV β̂i , in virtù della proprietà di invarianza della SMV, soddisfano alle condizioni β̂1 = µ̂1 = ȳ1 , β̂1 + β̂2 = µ̂1 = ȳ2 , β̂1 + β̂3 = µ̂1 = ȳ3 ; e quindi si ha β̂1 = ȳ1 , β̂2 = ȳ2 − ȳ1 , β̂3 = ȳ3 − ȳ1 . Si ottiene perciò nσ̂ 2 = n X (yi − β̂1 − β̂2 xi2 − β̂3 xi3 )2 i=1 X = i:xi2 =0,xi3 =0 = X = X (yi − ȳ1 ) + X (yi − β̂1 − β̂2 )2 + i:xi2 =1,xi3 =0 2 i∈gruppo A J X X (yi − β̂1 )2 + (yi − β̂1 − β̂3 )2 i:xi2 =0,xi3 =1 X 2 (yi − ȳ2 ) + i∈gruppo B (yi − ȳ3 )2 , i∈gruppo C (nj − 1)s2j j=1 essa è quindi la devianza entro i gruppi. Si ritrova perciò la statistica definita in (5.12) F = DEVtra /(J − 1) (σ̃ 2 − σ̂ 2 )/(J − 1) = . 2 σ̂ /(n − J) DEVint /(n − J) L’esito dell’analisi viene usualmente presentato in una tabella Componente G.d.L. Devianza Spiegata J −1 P Residua n−J P 2 i (ŷi − ȳ) i (yi − ŷi )2 Valore F Valore p 1 P 2 i (ŷi −ȳ) J−1 1 P 2 i (yi −ŷi ) n−J P (FJ−1,n−J > F oss ) che è la stessa tabella proposta sopra dove le quantità sono scritte coerentemente col modello di regressione. La tabella che restituisce R quando si confrontano i due modelli è invece Modello G.d.L. Ridotto n−1 P i (yi n−J P 2 i (yi − ŷ) Completo Devianza Diff. GdL Diff Dev Valore F Valore p − ȳ)2 J −1 Con i dati dell’esempio si stima il modello 2 i (ŷi − ȳ) P 1 J−1 1 n−J 2 i (ŷi −ȳ) 2 i (yi −ŷi ) P P P (FJ−1,n−J > F oss ) 98 5.2. ANOVA a una via y = y1 + (y2 − y1)x2 + (y3 − y1)x3 ● ● ● ● ● ● ● ● y3 ● ● ● ● y1 1.5 x3 y y2 1.0 0.5 0.0 −0.5 −0.5 0.0 0.5 1.0 1.5 x2 Figura 5.7: Rappresentazione dei dati e del piano stimato, si ricordi che ȳj è la media del gruppo j-esimo. (Intercept) x2 x3 β̂i 0.3475 2.7192 1.4162 q V̂ (β̂i ) 0.2193 0.3350 0.2686 Valore t 1.58 8.12 5.27 Valore p 0.1391 0.0000 0.0002 (Si confrontino le stime dei coefficienti con le medie di gruppo calcolate sopra.) Nella figura 5.7 si sono rappresentati i dati nello spazio delle esplicative x2 e x3 e della risposta. Si noti che i punti relativi a soggetti del gruppo A hanno coordinate (0, 0, yi ), quelli del gruppo B hanno coordinate (1, 0, yi ) e quelli del gruppo C (0, 1, yi ). Si è poi rappresentato nel grafico il piano y = β̂1 + β̂2 x2 + β̂3 x3 , cioè il piano che passa per i punti (0, 0, ȳ1 ), (1, 0, ȳ2 ), (0, 1, ȳ3 ). I risultati dell’analisi della varianza sono riportati nella tabella. Modello 1 2 5.2.1.1 G.d.L. 14 12 Devianza 15.22 2.31 ∆G.d.L. ∆Devianza Valore F Valore p 2 12.91 33.55 0.0000 Notazione con due indici In alcuni testi e programmi si adotta la notazione con due indici già accennata sopra, il modello può allora essere scritto come Yij = µ + αj + εij 5. Modello lineare con variabili qualitative 99 IND con j = 1, . . . , J, i = 1, . . . , nj e εij ∼ N 0, σ 2 . Si avrebbe allora oss. gruppo A ⇒ Yi1 ∼ N µ + α1 , σ 2 , oss. gruppo B ⇒ Yi2 ∼ N µ + α2 , σ 2 , oss. gruppo C ⇒ Yi3 ∼ N µ + α3 , σ 2 ; cosı̀ facendo però si rappresentano le tre medie dei gruppi con quattro parametri, il modello non è dunque identificabile (è sovraparametrizzato). Per renderlo identificabile si pone un vincolo sui parametri, ad esempio se si pone α1 = 0, i parametri corrispondono a quelli del modello (5.13), ossia µ = β1 , α2 = β2 , α3 = β3 . P Un’altra opzione spesso adottata è di imporre il vincolo Ji=1 αj = 0, con questo, µ è la media P P delle medie di gruppo, infatti Jj=1 µj = Jj=1 (µ + αj ) = Jµ + 0, mentre αj è la differenza tra media del gruppo j-esimo e media generale. 5.2.1.2 Test per l’ipotesi di omoschedasticità di J popolazioni normali Tra le ipotesi alla base dell’ANOVA vi è l’eguaglianza delle varianze interne ai gruppi. Illustriamo perciò nel seguito un test utile per verificare che i dati siano compatibili con l’ipotesi di omoschedasticità. Consideriamo allora un modello che contempli medie e varianze diverse nei gruppi, e lo confrontiamo col modello semplificato che ipotizza l’eguaglianza delle varianze mediante il test del rapporto di verosimiglianza. Sia allora, per i = 1, . . . , nj e j = 1, . . . , J, IND Yij ∼ N µj , σj2 , e consideriamo il sistema di ipotesi con ipotesi nulla H0 : σ12 = . . . = σJ2 , contro l’ipotesi alternativa che esistano i e j, ovviamente diversi, tali che σi2 6= σj2 . Indichiamo con µ̃, σ̃ 2 e µ̂, σ̂ 2 gli stimatori di µ e σ 2 rispettivamente nel modello ridotto (nell’ipotesi H0 ) e nel modello completo. Si considera allora la statistica Wp = 2(l(µ̂, σ̂ 2 ) − l(µ̃, σ̃ 2 )). dove la stima di µ è la stessa nel modello completo e in quello ridotto, µ̂ = µ̃ = (ȳ1 , . . . , ȳJ ), mentre le stime del vettore delle varianze sono 2 σ̂ = (σ̂12 , . . . , σ̂J2 ), σ̂j2 nj 1 X = (yij − ȳj )2 nj i=1 J σ̃ 2 = (σ̃ 2 , . . . , σ̃ 2 ), σ̃ 2 = J nj 1X 1 XX nj σ̂j2 = (yij − ȳj )2 . n n j=1 j=1 i=1 100 5.2. ANOVA a una via Si ha allora nj J X X n 1 1 n 2 2 l(µ̃, σ̃ ) = − ln σ̃ − 2 (yij − ȳj ) = − ln σ̃ 2 − , 2 2σ̃ 2 2 2 j=1 i=1 e l(µ̂, σ̂ 2 ) = nj J X X 1 1 − ln σ̂j2 − 2 (yij − ȳj )2 2 2σ̂j j=1 i=1 ! nj J J 1X X nj 1 X 2 = − ln σ̂j − (yij − ȳj )2 2 2 2 σ̂j j=1 = J X j=1 j=1 − i=1 n nj ln σ̂j2 − , 2 2 (per l’ultimo passaggio si riveda la definizione di σ̂j2 ) e quindi Wp = n ln σ̃ 2 − J X nj ln σ̂j2 = n ln σ̃ 2 − ln j=1 J Y σ̂j2 nj j=1 n = log σ̃ 2 QJ j=1 σ̂j2 nj 1/n che va confrontato con un χ2J−1 . Con i dati dell’esempio si ha σ̃ 2 = 0.1876 e σ̂ 2 = (0.04222, 0.2133, 0.2507), quindi Wp = 15 0.1876 log 0.150944980946974 = 3.261, confrontando questo con un χ22 si ha il valore p: 0.1958, e quindi non si rifiuta l’ipotesi nulla di omoschedasticità. Esempio 5.1 Esempio degli hotdog. Consideriamo ora le rilevazioni delle calorie (per pezzo) in n = 54 confezioni di hot-dog prodotti con 3 diversi tipi di carne: Bovina, Mista e Pollame. Si vuole stabilire se le calorie di un hotdog siano mediamente le stesse per i tre tipi di carne. Rispetto alla notazione usata sopra si indichi con yij le calorie dell’i-mo hotdog con j = 1, . . . , J, dove J = 3 e i = 1, . . . , nj . Dati e rappresentazione grafica sono in figura 1.2 nel capitolo 1. Possiamo calcolare le statistiche di gruppo q Gruppo nj ȳj s2j s2j Bovina Mista Pollame 20 17 17 156.85 158.71 118.76 512.66 636.85 508.57 22.64 25.24 22.55 mentre la media generale è ȳ = 145.44, e la devianza totale, pari a 45759.33, si scompone in DEVtra /(J−1) DEVtra = 17692.20 e DEVint = 28067.14 e si calcola dunque la statistica F oss = DEV = int /(n−J) 17692.20/2 28067.14/51 = 16 e, di conseguenza, il valore p è P (FJ−1,n−J > F oss ) = 0, dal quale si conclude che l’ipotesi nulla è da rifiutarsi. Il modello lineare da impostare per ottenere questi risultati ha le 2 covariate ( ( 1 se x = M ista, 1 se x = P ollame, xi,M ista = , xi,P ollame = 0 altrimenti 0 altrimenti 10 6 8 ● 4 D 5.14 -0.12 2.49 1.91 2.31 5.86 2.77 5.69 3.92 7.35 1.52 6.76 1.30 2.12 -1.76 6.24 1.73 4.63 4.13 7.07 Sopravvivenza C 2.16 1.98 3.93 3.37 5.80 0.71 2.30 5.16 -0.93 -0.71 2.01 4.67 2.11 -0.54 1.99 0.04 9.48 8.23 3.01 2.71 2 B 8.00 7.52 9.18 5.76 11.60 3.61 9.74 9.75 4.86 3.61 9.70 3.77 2.67 1.91 7.72 7.38 2.96 5.59 5.56 7.20 0 A -2.72 0.73 -1.46 8.62 7.89 4.17 4.80 4.70 6.09 5.53 4.57 2.70 -1.68 2.34 -1.99 -0.07 7.72 4.37 2.97 1.06 −2 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 101 12 5. Modello lineare con variabili qualitative A B C D Antidoto Figura 5.8: Dati sull’efficacia dell’antidoto, esperimento con 80 topi La matrice dei dati, trasposta per economia di spazio, è allora 111111111111111111111111111111111111111111111111111111 = 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 000000000000000000000000000000000000011111111111111111 XT e si ottengono i coefficienti (Intercept) xMista xPollame Estimate 156.8500 1.8559 -38.0853 Std. Error 5.2456 7.7388 7.7388 t value 29.90 0.24 -4.92 Pr(>|t|) 0.0000 0.8114 0.0000 dove si noti che ȳ1 = β̂1 e ȳi = β̂1 + β̂i per i > 1: 156.850 + 0.000 = 156.850 156.850 + 1.856 = 158.710 156.850 + −38.085 = 118.760 Il consueto test F per l’ipotesi H0 : β2 = β3 = β4 = 0 corrisponde al test sopra. Per la verifica dell’ipotesi di omoschedasticità si ha σ̃ 2 = 550.47 e σ̂ 2 = (512.66, 636.85, 508.57), 54 quindi Wp = log 550.47 = 0.29115, confrontando questo con un χ22 si ha il valore p: 0.8645, 547.51 l’ipotesi di omoschedasticità è quindi accettata. • Esempio 5.2 Disegno bilanciato, 4 gruppi Consideriamo ancora un esperimento in cui si vuole stabilire se degli antidoti hanno diversa efficacia contro un veleno, ma questa volta con una numerosità campionaria più ragionevole: 80 cavie sono inoculate con veleno e antidoto. L’efficacia è misurata sempre dal tempo di sopravvivenza, espresso in decine di ore. Le 80 cavie sono divise, casualmente, in 4 gruppi di eguale numerosità e a ciascun gruppo viene somministrato un antidoto diverso. Si ha dunque un campione randomizzato e il disegno sperimentale è bilanciato a un fattore, i dati sono rappresentati in figura 5.8. 102 5.2. ANOVA a una via I dati possono essere rappresentati nella tabella seguente, in cui ad ogni colonna corrisponde un gruppo (antidoto). Calcoliamo dunque le statistiche di gruppo Gruppo ȳj s2j q s2j A B C D 3.017 6.404 2.874 3.553 11.7820 7.7752 7.6934 6.3468 3.4325 2.7884 2.7737 2.5193 La media generale è ȳ = 3.9622, e la devianza totale, pari a 802.54 si scompone in DTG = 164.2 DEVtra /(J−1) 164.2/3 e DEG = 638.35, si calcola dunque la statistica F oss = DEV = 638.35/76 = 6.51644 e di int /(n−J) oss conseguenza il valore p è P (FJ−1,n−J > F ) = 0.00055536. I risultati si possono sintetizzare nella tabella Gruppi Residuo G.d.L. 3 76 Devianze 164.200 638.350 Varianze 54.733 8.399 Valore F 6.516 Valore p 0.001 Il modello lineare da impostare per ottenere questi risultati ha le 3 covariate xi,B ( 1 = 0 se x = B, altrimenti xi,C ( 1 se x = C, = 0 altrimenti xi,D ( 1 se x = D, = 0 altrimenti La matrice dei dati, trasposta, è allora XT 11111111111111111111111111111111111111111111111111111111111111111111111111111111 00000000000000000000111111111111111111110000000000000000000000000000000000000000 = 00000000000000000000000000000000000000001111111111111111111100000000000000000000 00000000000000000000000000000000000000000000000000000000000011111111111111111111 e si ottiene (Intercept) xB xC xD Estimate 3.0169 3.3876 -0.1429 0.5363 Std. Error 0.6480 0.9165 0.9165 0.9165 t value 4.66 3.70 -0.16 0.59 Pr(>|t|) 0.0000 0.0004 0.8765 0.5602 e si noti che ȳ1 = β̂1 e ȳi = β̂1 + β̂i per i > 1. Il test F per l’ipotesi di nullità dei coefficienti (H0 : β2 = β3 = β4 = 0) corrisponde al test sopra. Per la verifica dell’ipotesi di omoschedasticità si ha σ̃ 2 = 8.3994 e σ̂ 2 = (11.782, 7.7752, 7.6934, 6.3468) 8.3994 80 = 2.1363 confrontando questo con un χ23 si ha il valore p 0.5446, si quindi Wp = log 8.178072 accetta perciò, in questo caso, l’ipotesi di omoschedasticità. • 5. Modello lineare con variabili qualitative 103 5.3 ANOVA a 2 vie Nell’ANOVA si investiga l’effetto di una variabile fattore su una variabile risposta, complichiamo il problema introducendo un secondo fattore. Consideriamo un esperimento per valutare l’efficacia di 4 antidoti: A, B, C, D rispetto a 3 diversi veleni: I, II, III. L’esperimento prevede che 48 cavie vengano suddivise in 3 × 4 gruppi (uno per ciascuna accoppiata veleno-antidoto) di numerosità 4 e a ciascun gruppo si somministrino un antidoto e un veleno per poi misurare il tempo di sopravvivenza. Si ha cioè un disegno fattoriale 4 × 3 con 4 replicazioni. Veleno Antidoto Sopravvivenza I A B C D A B C D A B C D 0.31, 0.45, 0.46, 0.43 0.82, 1.1, 0.88, 0.72 0.43, 0.45, 0.63, 0.76 0.45, 0.71, 0.66, 0.62 0.36, 0.29, 0.4, 0.23 0.92, 0.61, 0.49, 1.24 0.44, 0.35, 0.31, 0.4 0.56, 1.02, 0.71, 0.38 0.22, 0.21, 0.18, 0.23 0.3, 0.37, 0.38, 0.29 0.23, 0.25, 0.24, 0.22 0.3, 0.36, 0.31, 0.33 II III Un esperimento cosı̀ organizzato è detto anche disegno sperimentale a due fattori (veleno e antidoto) completamente randomizzato (perché le unità statistiche sono assegnate casualmente a entrambi i fattori). L’obiettivo dell’analisi è investigare l’effetto dei due fattori sulla variabile risposta, cioè stabilire se la distribuzione della variabile risposta sia la stessa per i vari livelli dei fattori. Questi possono avere un effetto separato ma possono anche interagire: più precisamente, e facendo riferimento all’esempio, possiamo studiare 1. l’effetto marginale del fattore veleno: se cioè i veleni hanno mediamente lo stesso effetto; 2. l’effetto marginale del fattore antidoto: se cioè gli antidoti hanno mediamente lo stesso effetto; 3. se vi sia interazione tra i due fattori: cioè se gli antidoti sono diversamente efficaci per i diversi veleni (ad esempio l’antidoto A potrebbe essere efficace contro il veleno I ma non contro il veleno II); (Per meglio intendere l’importanza dell’interazione si rifletta sul fatto che, in assenza di esso, uno sceglierebbe, tra gli antidoti, semplicemente quello con l’effetto maggiore; in presenza di interazione potrebbe emergere che vada somministrato un antidoto diverso a seconda del veleno ingerito.) L’analisi dell’effetto marginale di un fattore alla volta corrisponde a quanto già visto. L’effetto marginale dei due fattori nel campione può essere visualizzato mediante dei diagrammi a scatola e baffi affiancati (figura 5.3). Il veleno II appare quello ad effetto più lento, l’antidoto A appare 104 5.3. ANOVA a 2 vie 1.2 1.0 0.8 0.4 0.2 I Liv. I II III Df 2 45 ● 0.6 1.0 0.2 0.4 0.6 0.8 1.2 ● Sum Sq 1.03 1.97 II Media 0.62 0.54 0.28 Mean Sq 0.52 0.04 III A Liv. A B C D S.d. 0.21 0.29 0.06 F value 11.79 Pr(>F) 0.0001 Df 3 44 Sum Sq 0.92 2.08 B C D Media 0.31 0.68 0.39 0.53 Mean Sq 0.31 0.05 S.d. 0.10 0.32 0.17 0.22 F value 6.48 Pr(>F) 0.0010 Tabella 5.3: Analisi degli effetti dei due fattori effettuata separatamente: calcolo delle medie di gruppo confronto delle stesse mediante ANOVA a una via I II III A 0.41 0.32 0.21 B 0.88 0.81 0.33 C 0.57 0.38 0.23 D 0.61 0.67 0.33 Tabella 5.4: Medie di gruppo per i dati su antidoti e veleni il meno efficace, mentre il D è il più efficace. L’esame dei diagrammi a scatola corrisponde, in sostanza, a confrontare le medie dei gruppi formati in base ai livelli di un fattore alla volta. Si ricade, in pratica, nel caso dell’ANOVA a 1 fattore, e si possono fare le due analisi separatamente, si veda la tabella 5.3. Per dare una rappresentazione grafica dell’interazione consideriamo le medie dei 3 × 4 gruppi, sia allora, ad esempio ȳII,B sopravvivenza media delle 4 cavie cui è stato somministrato il veleno II e l’antidoto B. Si hanno dunque le 12 medie della tabella 5.4, che possono essere rappresentate nel diagramma di interazione riportato in figura 5.10 nelle sue due. Ovviamente si può invertire il ruolo delle due variabili nel grafico, il senso della rappresentazione non cambia. Per meglio intendere l’interpretazione del diagramma di interazione esaminiamo i casi limite, mostrati in figura 5.9. Il primo fattore, il veleno, è rappresentato in ascissa, quindi le diverse spezzate corrispondono a diversi livelli del secondo fattore, l’antidoto. Nel caso (a) le linee sono quasi coincidenti, quindi ȳ•,A ≈ ȳ•,B ≈ ȳ•,C ≈ ȳ•,D in altre parole, i diversi antidoti (fattore non in ascissa) hanno lo stesso effetto. Nel caso (b), dove le linee sono quasi orizzontali si ha ȳI,• ≈ ȳII,• ≈ ȳIII,• 5. Modello lineare con variabili qualitative 6 C D B A 2 2 2.0 2.0 3 2.5 3 4 mean of Sopravvivenza 5 4 4.0 5 C D B A 6 Antidoto C D B A mean of Sopravvivenza 4.5 7 5.0 (d) Antidoto 3.5 3.0 (c) Antidoto 3.0 A C D B mean of Sopravvivenza 4.0 3.5 (b) Antidoto 2.5 mean of Sopravvivenza (a) 105 I II Veleno III I II III I Veleno II III Veleno I II III Veleno Figura 5.9: Alcuni casi limite di diagrammi di interazione, in ordine lessicografico: (a) il secondo fattore (quello non in ascissa) è ininfluente; (b) il primo fattore (in ascissa) è ininfluente; (c) assenza di interazione; ; (d) presenza di interazione ovvero i diversi veleni (fattore in ascissa) hanno lo stesso effetto. Nel caso (c) le linee sono quasi parallele, in termini di medie si ha un effetto dei due fattori (ragionando come nei casi precedenti questo risulta chiaro), ma si ha anche ȳI,B − ȳI,A ≈ ȳII,B − ȳII,A ≈ ȳIII,B − ȳIII,A ȳI,C − ȳI,A ≈ ȳII,C − ȳII,A ≈ ȳIII,C − ȳIII,A ... cioè la differenza di effetto tra antidoto A e antidoto B è la stessa quale che sia il veleno somministrato, e cosı̀ per gli altri antidoti: non c’è interazione. La cosa si può leggere anche in termini di effetto del veleno in corrispondenza ai diversi antidoti, osservando che ȳI,A − ȳII,A ≈ ȳI,B − ȳII,B ≈ ȳI,C − ȳII,C ≈ ȳI,D − ȳII,D ȳI,A − ȳIII,A ≈ ȳI,B − ȳIII,B ≈ ȳI,C − ȳIII,C ≈ ȳI,D − ȳIII,D Infine nel caso (d) si ha interazione, ad esempio si nota che l’antidoto C è il più efficace contro il veleno I, ma l’antidoto B è il più efficace contro il veleno II (questa è un’interazione macroscopica, il solo mancato parallelismo ossia la non validità di una qualunque delle eguaglianze di cui sopra è sinonmo di interazione. Nel caso dei dati su antidoti e veleni l’analisi grafica (figura 5.10), fatta sia mediante diagrammi di interazione sia mediante diagrammi a scatola condizionati, suggerisce che vi sia interazione: ad esempio, gli antidoti B e D hanno effetto simile contro il veleno III, mentre il B è preferibile contro il veleno I e, in una certa misura, anche contro il veleno II. I diagrammi a scatola condizionati forniscono qualche informazione in più perché, oltre agli andamenti, possiamo leggervi la variabilità nei vari gruppi, d’altra parte è meno immediato il confronto perché dobbiamo ricorrere a diversi pannelli. Come nell’ANOVA a 1 fattore, il problema può essere impostato in termini di modello di regressione, in particolare, di verifica dell’ipotesi di nullità su gruppi di coefficienti. La matrice dei dati contente la variabile risposta e i due fattori è riportata in tabella 5.5 I modelli di regressione possibili sono 1. La sopravvivenza dipende solo dal veleno: (sopravvivenza) = f (veleno) + (errore); si ricade allora nel caso dell’ANOVA a un fattore, già considerato. 2. La sopravvivenza dipende solo dall’antidoto: (sopravvivenza) = g(antidoto) + (errore); è analogo al caso precedente, per l’altro fattore. 0.9 5.3. ANOVA a 2 vie 0.9 106 yI, B yI, B Antidoto 0.2 0.8 yIII, C yIII, A I II 0.7 II I III yII, D yI, D 0.6 0.3 III, B yyIII, D yII, A yII, B yI, C 0.5 mean of Sopravvivenza yII, C 0.2 0.4 yI, A 0.4 0.8 0.7 yII, D 0.5 0.6 B D C A yI, D yI, C 0.3 mean of Sopravvivenza Veleno yII, B yI, A yII, C yIII, B yII, A yIII, D yIII, C yIII, A III A B C Veleno C D ● III ● 1.2 1.0 1.0 0.8 0.8 0.2 A B 1.2 1.0 ● ● ● 0.2 I II 1.2 ● 0.8 ● 0.6 ● ● 0.6 ● 0.4 ● ● I II ● ● ● ● ● ● 0.2 yi 0.31 0.82 0.43 0.45 0.45 1.10 0.45 0.71 0.46 0.88 0.63 0.66 0.4 ● 1.0 ● 0.8 i 1 2 3 4 5 6 7 8 9 10 11 12 Sopravvivenza ● ● Figura 5.10: veleni 0.6 0.4 ● Sopravvivenza 1.2 0.6 ● 0.4 D Antidoto 0.2 III I II III A B C D A B C D Diagrammi di interazione e diagrammi a scatola e baffi per i dati su antidoti e Vel. I I I I I I I I I I I I Ant. A B C D A B C D A B C D i 13 14 15 16 17 18 19 20 21 22 23 24 yi 0.43 0.72 0.76 0.62 0.36 0.92 0.44 0.56 0.29 0.61 0.35 1.02 Vel. I I I I II II II II II II II II Ant. A B C D A B C D A B C D i 25 26 27 28 29 30 31 32 33 34 35 36 yi 0.40 0.49 0.31 0.71 0.23 1.24 0.40 0.38 0.22 0.30 0.23 0.30 Vel. II II II II II II II II III III III III Ant. A B C D A B C D A B C D Tabella 5.5: Antidoti e veleni: matrice dei dati i 37 38 39 40 41 42 43 44 45 46 47 48 yi 0.21 0.37 0.25 0.36 0.18 0.38 0.24 0.31 0.23 0.29 0.22 0.33 Vel. III III III III III III III III III III III III Ant. A B C D A B C D A B C D 5. Modello lineare con variabili qualitative 107 3. La sopravvivenza dipende dal veleno e dall’antidoto, ma l’effetto dell’antidoto è lo stesso per ogni veleno (senza interazione): (sopravvivenza) = f (veleno) + g(antidoto) + (errore); il modello è un ANOVA a due fattori senza interazione. 4. La sopravvivenza dipende dal veleno e dall’antidoto e l’effetto dell’antidoto non è lo stesso per ogni veleno (con interazione): (sopravvivenza) = f (veleno) + g(antidoto) + h((veleno) × (antidoto)) + (errore); il modello è un ANOVA a due fattori con interazione. Costruiamo allora delle variabili indicatrici per i fattori, combinando le quali costruiamo i vari modelli (prime sei colonne della matrice in tabella 5.7) ( ( ( 1 se veleno=I 1 se veleno=II 1 se veleno=III vI = vII = vIII = 0 altrimenti 0 altrimenti 0 altrimenti ( ( ( ( 1 se ant.=A 1 se ant.=B 1 se ant.=C 1 se ant.=D aA = aB = aC = aD = 0 altr. 0 altr. 0 altr. 0 altr. 5.3.1 Modello ANOVA a due fattori senza interazione Costruiamo allora il modello ANOVA a due vie senza interazione ragionando come nel caso dell’ANOVA a una via: includiamo nel modello, per ogni fattore, una variabile indicatrice per ogni livello del fattore tranne il primo. Specifichiamo allora il modello Yi = µ + αII vi,II + αIII vi,III + γB aB + γC aC + γD aD +εi {z } | {z } | effetto del veleno IND effetto dell’antidoto con εi ∼ N (0, σ 2 ) e dove la matrice delle esplicative è la matrice 48 × 6 costituita dalle prime sei colonne della tabella 5.7. È utile scrivere le medie della sopravvivenza (y) per i vari gruppi in termini dei coefficienti del modello (tabella in figura 5.11 da cui l’interpretazione dei coefficienti stessi: µ è la media del gruppo (I, A); αII (αIII ) la differenza nella sopravvivenza tra veleno II (III) e veleno I; γB (γC , γD ) la differenza nella sopravvivenza tra antidoto B (C, D) e antidoto A. Si ha quindi un effetto marginale del veleno (le medie relative ai tre veleni sono diverse) e un effetto marginale dell’antidoto ma non si ha un effetto interazione: si noti che la differenza di sopravvivenza media tra un antidoto e l’altro non dipende dal veleno e, simmetricamente, potremmo dire che la differenza di sopravvivenza tra un veleno e l’altro non dipende dall’antidoto. I sistemi di ipotesi di interesse sono allora esprimibili come ipotesi di nullità di un gruppo di coefficienti, e quindi di confronto tra il modello sopra e un modello ridotto4 In particolare: 1. assenza dell’effetto marginale del veleno: H0 : αII = αIII = 0; modello ridotto: Yi = µ + γB aB + γC aC + γD aD + εi (εi ∼ N (0, σ 2 ) indipendenti); 2. assenza dell’effetto marginale dell’antidoto: H0 : γB = γC = γD = 0; modello ridotto: Yi = µ + αII vi,II + αIII vi,III + εi (εi ∼ N (0, σ 2 ) indipendenti); 4 Con le tecniche della sezione 6.2 del capitolo 4. 108 5.3. ANOVA a 2 vie 7 µ + αII + γC Antidoto µ + αII µ + αII + γB µ + αII + γC µ + αII + γD µ + αIII µ + αIII + γB µ + αIII + γC µ + αIII + γD 5 µ µ + γB µ + γC µ + γD 4 A B C D III C B µ + γC µ + γD 3 I µ + αIII + γC D µ + γB 2 Antidoto Veleno II mean of Sopravvivenza 6 µ + αII + γD µ µ + αII + γB µ + αIII + γD µ + αII µ + αIII + γB A µ + αIII I II III Veleno Figura 5.11: Medie di gruppo in termini dei coefficienti del modello e rappresentazione sul diagramma d’interazione I fattore 2 ... II fattore 1 J 1 2 3 .. . µ µ + γ2 µ + γ3 .. . µ + α2 µ + α2 + γ2 µ + α2 + γ3 .. . ... ... ... .. . µ + αJ µ + αJ + γ2 µ + αJ + γ3 .. . K µ + γK µ + α2 + γK ... µ + αJ + γK Tabella 5.6: Medie dei gruppi in termini dei coefficienti 3. assenza degli effetti marginali: H0 : αII = αIII = γB = γC = γD = 0; modello ridotto: Yi = µ + εi (εi ∼ N (0, σ 2 ) indipendenti). Sin qui il modello è stato formalizzato con riferimento all’esempio di antidoti e veleni, in generale, i due fattori avranno J e K livelli, indichiamo le variabili indicatrici che descrivono rispettivamente il primo e il secondo fattore con xi,2 , . . . , xi,J (J − 1) variabili xi,J+1 , . . . , xi,J+K−1 (K − 1) variabili Il modello è allora, posto xi,1 = 1 ∀i Yi = µxi,1 + α2 xi,2 + . . . + αJ xi,J + γ2 xi,J+1 + . . . + γK xi,J+K−1 +εi | {z } | {z } effetto del I fattore IND effetto del II fattore con εi ∼ N (0, σ 2 ). I coefficienti sono dunque in numero di J + K − 1 e sono interpretabili, in termini di medie della Y come nella tabella 5.6, mentre le ipotesi si scrivono (posto p = J + K − 1), 1. assenza dell’effetto marginale del I fattore: H0 : α2 = α3 = . . . = αJ−1 = 0, e si ha p0 = K e la distr. in ipotesi nulla è FJ−1,n−(J+K−1) . 2. assenza dell’effetto marginale del II fattore: H0 : γ2 = γ3 = . . . = γK−1 = 0, e si ha p0 = J e la distr. in ipotesi nulla è FK−1,n−(J+K−1) . 5. Modello lineare con variabili qualitative 109 3. assenza degli effetti marginali: H0 : α2 = . . . = αJ = γ2 = . . . = γK = 0, e si ha p0 = 1 e la distr. in ipotesi nulla è FJ+K−2,n−(J+K−1) . Possiamo riscrivere il modello adottando una notazione con tre indici, indichiamo allora con Yijk la variabile risposta per l’i-ma unità (i = 1, . . . , njk ); nel gruppo jk dove j = 1, . . . , J è il livello del primo fattore e k = 1, . . . , K il livello del secondo fattore. Con ciò il modello è Yijk = µjk + εijk IND per i = 1, . . . , njk , j = 1, . . . , J, k = 1, . . . , K e dove εijk ∼ N (0, σ 2 ) e µjk = µ + αj + γk e si pongono i vincoli α1 = 0, γ1 = 0 (altrimenti il modello non sarebbe identificabile). Con questa notazione è più agevole scrivere la scomposizione della varianza, poniamo n= n X K X njk , nj· = j=1 k=1 K X njk , n·k = n X njk , j=1 k=1 e n ȳ·· = K n 1 XXX yijk n (media campionaria generale) j=1 k=1 i=1 ȳj· = ȳ·k = K n 1 XX yijk nj· (m.c. oss. livello j del I fattore) 1 n·k (m.c. oss. livello k del II fattore) k=1 i=1 n X n X yijk j=1 i=1 Si mostra che la devianza totale (SQTot ) può essere scomposta in una parte dovuta al primo fattore (SQI ), una al secondo (SQII ) e una residua (SQRes ) come nello schema seguente Pn 2 J −1 SQI (I fattore) j=1 nj· (ȳj· − ȳ·· ) + SQII (II fattore) SQRes (Residua) n − (J + K − 1) SQTot (Totale) PK K −1 n−1 k=1 n·k (ȳ·k Pn j=1 PK Pn i=1 (yijk k=1 Pn j=1 − ȳ·· )2 + − ȳj· − ȳ·k + ȳ·· )2 = PK Pn k=1 i=1 (yijk − ȳ·· )2 Si mostra allora che il test per il primo fattore, a J livelli, è F = SQI /(J − 1) H0 ∼ FJ−1,n−(J+K−1) . SQRes /(n − (J + K − 1)) Un’analoga considerazione vale naturalmente per il secondo fattore. Nell’esempio, dove il veleno è il fattore I, j = 1, . . . , 3 e l’antidoto è il fattore II, k = 1, . . . , 4, quindi njk = 4 per j = 1, . . . , 3 e k = 1, . . . , 4; nj· = 16 per j = 1, . . . , 3; n·k = 12 per k = 1, . . . , 4. 110 5.3. ANOVA a 2 vie Si ottengono allora le medie ȳ·· = 0.48; ȳ1· = 0.62; ȳ2· = 0.54; ȳ3· = 0.28; ȳ·1 = 0.31; ȳ·2 = 0.68; ȳ·3 = 0.39; ȳ·4 = 0.53. e la scomposizione v a Residuals Total Df 2 3 42 Sum Sq 1.03 0.92 1.05 3.01 Mean Sq 0.52 0.31 0.03 F value 20.64 12.27 Pr(>F) 0.0000 0.0000 Dove la tabella corrisponde a Componente G.d.L. Devianza Varianza Test F Valore p (I fattore) J −1 SQI SQI J−1 SQI J−1 SQRes n−(J+K−1) P (F > FJ−1,n−(J+K−1) ) (II fattore) K −1 SQII SQII K−1 SQII K−1 SQRes n−(J+K−1) P (F > FK−1,n−(J+K−1) ) (Residua) n − (J + K − 1) SQRes SQRes n−(J+K−1) n−1 SQTot SQTot n−1 (Totale) 5.3.2 Modello ANOVA a due fattori con interazione Il modello ANOVA con interazione viene costruito sempre a partire dalle variabili indicatrici definite nella sezione precedente, in particolare l’interazione è modellata utilizzando i prodotti delle indicatrici dei livelli dei due fattori, come espresso nella formula Yi = µ + αII vi,II + αIII vi,III + {z } | eff. veleno + γB aB + γC aC + γD aD + | {z } eff. antidoto + δ1 vII aB + δ2 vIII aB + δ3 vII aC + δ4 vIII aC + δ5 vII aD + δ6 vIII aD + | {z } eff. interazione +εi IND con εi ∼ N (0, σ 2 ), si hanno dunque 1 + (J − 1) + (K − 1) + (J − 1)(K − 1) = JK coefficienti, tanti quanti i gruppi. La matrice delle esplicative è quindi in tabella 5.7 Per interpretare il modello è utile scrivere le medie dei gruppi in termini dei coefficienti. Questi ultimi possono poi essere rappresentati nel diagramma d’interazione come in figura 5.12. 5. Modello lineare con variabili qualitative 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 (Intercept) 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 vII 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 vIII 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 aB 0 1 0 0 0 1 0 0 0 1 0 0 0 1 0 0 0 1 0 0 0 1 0 0 0 1 0 0 0 1 0 0 0 1 0 0 0 1 0 0 0 1 0 0 0 1 0 0 aC 0 0 1 0 0 0 1 0 0 0 1 0 0 0 1 0 0 0 1 0 0 0 1 0 0 0 1 0 0 0 1 0 0 0 1 0 0 0 1 0 0 0 1 0 0 0 1 0 aD 0 0 0 1 0 0 0 1 0 0 0 1 0 0 0 1 0 0 0 1 0 0 0 1 0 0 0 1 0 0 0 1 0 0 0 1 0 0 0 1 0 0 0 1 0 0 0 1 111 vII:aB 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 1 0 0 0 1 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 vIII:aB 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 1 0 0 0 1 0 0 0 1 0 0 vII:aC 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 1 0 0 0 1 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 vIII:aC 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 1 0 0 0 1 0 0 0 1 0 vII:aD 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 1 0 0 0 1 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 vIII:aD 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 1 0 0 0 1 0 0 0 1 Tabella 5.7: Matrice delle esplicative, modello con interazione II III A B C D µ µ + γB µ + γC µ + γD µ + αII µ + αII + γB + δ1 µ + αII + γC + δ3 µ + αII + γD + δ5 µ + αIII µ + αIII + γB + δ2 µ + αIII + γC + δ4 µ + αIII + γD + δ6 4 I µ + αIII + γC + δ4 Antidoto µ + αIII + γD + δ6 µ + αII + γC + δ3 µ + γD 3 Antidoto µ + γC µ + γB 2 Veleno mean of Sopravvivenza 5 6 µ + αII + γDB + δ15 µ I µ + αII µ + αIII + γB + δ2 µ + αIII II Veleno Figura 5.12: Coefficienti del modello rappresentati nel diagramma d’interazione III C D B A 112 5.3. ANOVA a 2 vie Questo modello consente di verificare anche l’ipotesi di assenza di interazione, che in termini di nullità dei coefficienti è H0 : δ1 = . . . δ6 = 0 che è sempre esprimibile in termini di un test F . Scriviamo la scomposizione della varianza usando la notazione a triplo indice Yijk = µjk + εijk , IND dove εijk ∼ N (0, σ 2 ), si ha µjk = µ + αj + γk + δjk con i vincoli α1 = 0, γ1 = 0, per j = 1, . . . , J e k = 1, . . . , K, restano perciò (J − 1)(K − 1) coefficienti δ. P Definito ȳjk = n1jk ni=1 yijk , la varianza si può scomporre in δ1k = δj1 = 0 SQI (I fattore) J −1 Pn − ȳ·· )2 + SQII (II fattore) K −1 PK − ȳ·· )2 + SQInt (Interazione) (J − 1)(K − 1) SQRes (Residua) n − JK j=1 nj· (ȳj· k=1 n·k (ȳ·k Pn j=1 PK k=1 njk (ȳjk Pn j=1 PK Pn k=1 Pn n−1 SQTot (Totale) − ȳj· − ȳ·k + ȳ·· )2 + j=1 i=1 (yijk PK Pn k=1 − ȳjk )2 = i=1 (yijk − ȳ·· )2 Si mostra allora che il test per la significatività di una delle componenti (I fattore, II fattore o interazione) può essere espresso come F = SQ(componente)/GdL(componente) H0 ∼ FGdL(componente),n−JK . SQRes /(n − JK) Con i dati dell’esempio si ha v a v:a Residuals Total Dove la tabella corrisponde a Df 2 3 6 36 Sum Sq 1.03 0.92 0.25 0.80 3.01 Mean Sq 0.52 0.31 0.04 0.02 F value 23.22 13.81 1.87 Pr(>F) 0.0000 0.0000 0.1123 5. Modello lineare con variabili qualitative 113 Componente G.d.L. Devianza Varianza Test F Valore p (I fattore) J −1 SQI SQI J−1 SQI J−1 SQRes n−JK P (F > FJ−1,n−JK ) (II fattore) K −1 SQII SQII K−1 SQII K−1 SQRes n−JK P (F > FK−1,n−JK ) SQInt SQInt (J−1)(K−1) SQInt (J−1)(K−1) SQRes n−JK P (F > FK−1,n−JK ) n − JK SQRes SQRes n−(J+K−1) n−1 SQTot SQTot n−1 (Interazione) (J − 1)(K − 1) (Residua) (Totale) 5.4 ANCOVA L’analisi della varianza è, in sostanza, un modello lineare avente, come variabili esplicative, sole variabili qualitative. Si dà però anche il caso misto, in cui si hanno tra le esplicative sia variabili qualitative che quantitative, questa situazione ricade sotto il nome di analisi della covarianza (ANCOVA). Si prendano le mosse da un insieme di dati (tabella 1.3), per 32 neonati nati vivi si sono rilevati: il peso alla nascita (in grammi); la durata della gestazione (in settimane); la circostanza se la madre fumasse in gravidanza (S/N). L’obiettivo è valutare se il fatto che la madre fumi ha un effetto sul peso medio del neonato, si ritene però opportuno tenere conto della durata della gestazione (è noto che, più lunga la durata, maggiore il peso, in media, del neonato). La variabile ‘fumo’ è qualitativa, si possono allora avere diverse situazioni, in particolare ci si può chiedere (i) se, tenuto conto della durata della gestazione, ci sia una differenza in media tra peso dei neonati di madri fumatrici e peso dei neonati di madri non fumatrici; (ii) se la relazione tra peso alla nascita e durata della gestazione sia la stessa per le madri non fumatrici e per le madri fumatrici. Non vi fosse da tener conto della durata della gravidanza, la differenza nel peso medio tra neonati di madri fumatrici e di madri non fumatrici verrebbe messa in luce dal confronto tra i due diagrammi a scatola in figura 5.13(a). Si potrebbe poi ragionare nella cornice del test t, già visto: indicando con YiF e YiN F i pesi dei neonati di madri fumatrici e non fumatrici rispettivamente s’avrebbe il modello IND YiF ∼ N (µF , σF2 ), i = 1, . . . , nF , IND 2 YjN F ∼ N (µN F , σN F ), j = 1, . . . , nN F , 114 5.4. ANCOVA (b) (c) ● ● 3200 ● ● ● ● ● ● S ● N S 34 Madre fumatrice 2400 2400 2400 N ● S S N S S S N ● ● S N S N S S N 2600 2600 ● ● N N N 2800 ● ● N N S S S S N ● ● Peso ● ● N N ● ● ● 3000 neonati$Peso 3200 ● 2800 3200 3000 2800 N ● ● ● 2600 ● ● 3400 3400 3400 ● ● 3000 (a) ● 36 38 40 42 N S 34 Durata della gravidanza (settimane) S 36 38 40 42 Durata della gravidanza (settimane) Figura 5.13: Pesi dei neonati e variabili esplicative 2 , l’ipotesi secondo cui il fatto che la madre fumi o meno in e quindi se si assume σF2 = σN F gravidanza non ha influenza sul peso del bambino, µF = µN F , si può verificare con il familiare t test. Per i dati sui neonati, ad esempio, le medie di gruppo sono pari a 2973.6 per le madri fumatrici e 3066.12 per le madri non fumatrici. Le varianze sono 125883.58 e 118605.72 e la varianza complessiva è 122244.65. Si ottiene perciò la statistica t pari a 0.748 e l’ipotesi nulla di eguaglianza delle medie è accettata con valore p pari a 2P (t30 > 0.748) = 0.4601. Si concluderebbe perciò che i dati non mostrano un effetto significativo del fumo sul peso del neonato. Si ha però che, come già accennato, la durata della gravidanza ha un’influenza sul peso del neonato, basti osservare il diagramma di dispersione tra le due quantità (figura 5.13(b)). La stima del modello lineare Pesoi = β1 + β2 Duratai + εi q (β̂2 = 130.82, V̂ (β̂2 ) = 12.9) conferma l’impressione, il test per β2 = 0 rifiuta l’ipotesi nulla. Questo suggerisce che sia appropriato considerare congiuntamente le due variabili, includendole in un unico modello. Preliminarmente alla costruzione del modello vogliamo visualizzare le tre variabili assieme, per fare ciò usiamo un diagramma di dispersione per Durata e Peso impiegando diversi simboli per distinguere le osservazioni relative a madri fumatrici da quelle relative a madri non fumatrici (figura 5.13(c)). Il grafico suggerisce che, a parità di durata, il peso sia maggiore per i neonati di madre non fumatrice Si noti che questa differenza scompariva nell’analisi marginale perché confusa dalla variabilità del peso rispetto alla durata della gestazione. Indicando da ora in poi con x la durata della gestazione, possiamo formalizzare un’analisi rispetto alle due variabili scrivendo i due modelli YiF = β1F + β2F xi + εi , IND εi ∼ N (0, σF2 ), i = 1, . . . , nF ; IND 2 YiN F = β1N F + β2N F xi + εi , εi ∼ N (0, σN F ), i = 1, . . . , nF ; che implicano YiF IND N (µFi , σF2 ), i = 1, . . . , nF , YjN F IND F 2 N (µN j , σN F ), j = 1, . . . , nN F , ∼ ∼ con µFi F µN j = β1F + β2F xi , i = 1, . . . , nF , = β1N F + β2N F xj , j = 1, . . . , nN F . 5. Modello lineare con variabili qualitative β1F = β1N F , β2F 6= β2N F β1F 6= β1N F , β2F 6= β2N F NF NF F F F Durata Peso NF Peso Peso β1F 6= β1N F , β2F = β2N F 115 Durata Durata Figura 5.14: Raffigurazione di modelli alternativi Le medie dipendono linearmente da x, fare il confronto tenendo conto della gestazione significa fissare un valore per quest’ultima e confrontare le medie che ne risultano: µF0 = β1F + β2F x0 e F = β N F + β N F x . Le due medie sono uguali per ogni x – cioè il fumo non ha alcun effetto µN 0 0 0 1 2 – se e solo se β1F = β1N F , β2F = β2N F . Viceversa, si possono avere tre diverse situazioni (ipotesi alternative) visualizzate in figura 5.14. Dal punto di vista interpretativo le quattro situazioni illustrate corrispondono a β1F 6= β1N F , β2F = β2N F C’è un effetto del fumo sulla media ma la relazione tra peso e durata è la stessa. Il fatto che la madre fumi comporta una variazione della media del peso del neonato e questa variazione è la stessa qualunque sia la durata della gestazione. β1F = β1N F , β2F 6= β2N F La relazione tra peso e durata cambia a seconda che la madre sia fumatrice o meno. Questa particolare situazione non ha un’interpretazione chiara a meno che l’intercetta abbia un significato specifico, e non è questo il caso poiché l’intercetta sarebbe il peso del neonato qualora la durata fosse pari a zero, cosa non sensata. β1F 6= β1N F , β2F 6= β2N F C’è un effetto del fumo sulla media e la relazione tra peso e durata cambia a seconda che la madre sia fumatrice o meno. Il fatto che la madre fumi comporta una variazione della media del peso del neonato, la misura della variazione dipende dalla durata della gestazione. β1F = β1N F , β2F = β2N F Non c’è effetto né sulla media, né sulla relazione tra peso e durata. Che la madre fumi o meno, non comporta variazioni sulla media del peso del neonato, quale che sia la durata della gestazione. (Il peso dipende solo dalla durata della gestazione e non dal fatto che la madre sia fumatrice.) 5.4.1 ANCOVA come modello lineare Possiamo scrivere un unico modello lineare in cui, al variare dei parametri, si realizzano le quattro situazioni elencate sopra, occorre però aggiungere l’ipotesi di omoschedasticità tra i due gruppi: 2 2 σF2 = σN F = σ . Si ha allora il modello YiF = β1F + β2F xi + εi , IND εi ∼ N (0, σ 2 ), i = 1, . . . , nF ; IND YiN F = β1N F + β2N F xi + εi , εi ∼ N (0, σ 2 ), i = 1, . . . , nF ; 116 5.4. ANCOVA che può essere scritto come un modello lineare ponendo xi2 = durata della gravidanza i-esima; ( 1 se madre fumatrice, xi3 = 0 altrimenti; xi4 = xi2 xi3 ; (si veda la tabella 5.8 dove è riportata la matrice dei dati associata al modello) e Yi = β1 xi1 + β2 xi2 + β3 xi3 + β4 xi4 + εi , IND per i = 1, . . . , n (n = nF + nN F ) con εi ∼ N (0, σ 2 ). Si ha cioè, per le madri non fumatrici Yi = β1 + β2 xi2 + εi ; i = 1, . . . , nN F , mentre per le madri fumatrici Yi = (β1 + β3 ) + (β2 + β4 )xi2 + εi ; i = nN F + 1, . . . , nN F + nF . Rispetto al modello della sezione precedente, quindi, salvo l’aver aggiunto l’ipotesi di omoschedasticità, siamo di fronte a una riparametrizzazione per cui β1 = β1N F , β2 = β2N F , β1 + β3 = β1F , β2 + β4 = β2F . Le ipotesi alternative sopra • β1F 6= β1N F , β2F = β2N F • β1F = β1N F , β2F 6= β2N F • β1F 6= β1N F , β2F 6= β2N F • β1F = β1N F , β2F = β2N F 5.4.1.1 si possono ⇔ β3 6= 0, ⇔ β3 = 0, ⇔ β3 6= 0, ⇔ β3 = 0, scrivere allora β4 = 0, β4 6= 0, β4 6= 0, β4 = 0. Verifica delle ipotesi Illustriamo ora come le diverse ipotesi sull’effetto del fenomeno ‘fumo’ possano essere verificate mediante confronti tra modelli. L’ipotesi di assenza di un qualunque effetto del fumo corrisponde a H0 : β3 = β4 = 0, e si verifica dunque confrontando i modelli M0 : Yi = β1 + β2 xi2 + εi , M4 : Yi = β1 + β2 xi2 + β3 xi3 + β4 xi4 + εi , il che può essere fatto calcolando le somme dei quadrati dei residui nei due modelli, RSS0 e RSS4 , e calcolando dunque la statistica F = (RSS0 − RSS4 )/2 H0 ∼ F2,n−4 . RSS4 /(n − 4) 5. Modello lineare con variabili qualitative Peso 2940 2420 2760 2440 3301 2715 3130 2928 3446 2957 2580 3500 3200 3346 3175 2740 3130 2450 3226 2729 3410 3095 3244 2520 3523 2920 3530 3040 3322 3459 2619 2841 Durata 38 36 39 35 42 36 39 39 42 39 38 42 41 42 41 38 38 34 40 37 40 39 39 35 41 38 42 37 39 40 35 36 117 Fumo S S S S S S S S S S S S S S S S N N N N N N N N N N N N N N N N x1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 x2 38 36 39 35 42 36 39 39 42 39 38 42 41 42 41 38 38 34 40 37 40 39 39 35 41 38 42 37 39 40 35 36 x3 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 x4 38 36 39 35 42 36 39 39 42 39 38 42 41 42 41 38 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 Tabella 5.8: Matrice dei dati N N N 3400 NF F Comp 3200 N N S S S N 3000 N S N S S S S (Intercept) x2 x3 x4 2800 N 2600 S N N Estimate -2546.1379 147.2069 71.5738 -8.1781 Std. Error 501.0669 13.1203 716.9499 18.5152 t value -5.08 11.22 0.10 -0.44 Pr(>|t|) 0.0000 0.0000 0.9212 0.6621 S N 2400 Peso S S N N N S S N 34 S S 36 38 40 42 Durata Figura 5.15: Rappresentazione grafica dei modelli M0 e M4 , stime per il modello M4 . 118 5.4. ANCOVA I due modelli M0 e M4 sono rappresentati nella figura 5.15. Si ottiene poi RSS0 = 839951.03 e RSS4 = 384391.46, da cui la statistica F = 16.59 che porta a rifiutare l’ipotesi nulla di assenza dell’effetto del fumo. Si nota (tabella dei coefficienti in figura 5.15) che, sebbene la verifica d’ipotesi abbia portato a rifiutare l’ipotesi secondo cui β3 = β4 = 0, si accetterebbero le ipotesi separate β3 = 0 e β4 = 0. Questo suggerisce che il modello possa essere semplificato5 . A guardare il grafico, le due rette stimate appaiono parallele, sicché pare ragionevole valutare un modello con β4 = 0, ammettendo cioè una differenza sulla sola intercetta. È in effetti spesso di interesse verificare l’esistenza di un effetto di interazione contro l’esistenza di un effetto marginale, cioè confrontare i modelli M3 : Yi = β1 + β2 xi2 + β3 xi3 + εi , M4 : Yi = β1 + β2 xi2 + β3 xi3 + β4 xi4 + εi , 3 −RSS4 )/1 mediante la statistica F = (RSS RSS4 /(n−4) , che, nell’ipotesi nulla, è distribuita secondo una F1,n−4 . Si ottiene RSS3 = 387069.83 da cui la statistica F = 0.2 a cui corrisponde un valore p di 0.66, si accetta dunque l’ipotesi nulla, corrispondente al modello M3 . La tabella dei coefficienti (Intercept) x2 x3 Estimate -2389.5729 143.1003 -244.5440 Std. Error 349.2061 9.1281 41.9818 t value -6.84 15.68 -5.83 Pr(>|t|) 0.0000 0.0000 0.0000 mostra che si rifiuta l’ipotesi di nullità di ciascun coefficiente. (In particolare si rifiuterebbe l’ipotesi nulla nel confronto tra il modello M0 e M3 .) Insomma, la circostanza che la madre fumi in gravidanza ha un effetto sulla media del peso del neonato a parità di durata di gestazione e tale effetto è quantitativamente lo stesso per qualunque durata. I confronti fatti possono essere sintetizzati nella tabella seguente x2 x3 x4 Residuals Df 1 1 1 28 Sum Sq 2895838.47 452881.20 2678.37 384391.46 Mean Sq 2895838.47 452881.20 2678.37 13728.27 F value 210.94 32.99 0.20 Pr(>F) 0.0000 0.0000 0.6621 In ciascuna riga è riportata, nella colonna Sum Sq, la differenza tra la somma dei quadrati del modello con le variabili delle righe precedenti e il modello cui viene aggiunta la variabile riferita alla riga (la riga x3 riporta il confronto tra il modello con la sola x2 e il modello con x2 e x3), la colonna Df contiene le corrispondenti differenze di gradi di libertà e la colonna Mean Sq contiene i rapporti tra le due colonne precedenti. Le statistiche F riportate nella penultima colonna sono i rapporti tra la Mean Sq della riga e la media dei quadrati dei residui (ultima riga). Si noti perciò che i test sono diversi da quelli che si ottengono confrontando i modelli con le analisi della varianza sopra (cambia il denominatore della statistica F e cambiano i gradi di libertà). Si noti anche che i risultati non possono essere riferiti alla componente ma a specifici confronti, cambiando l’ordine delle variabili cambiano i risultati. 5 (Il valore p più elevato è quello per il test dell’ipotesi di nullità del coefficiente β3 , si preferisce però considerare il modello con β4 = 0, perché più facilmente interpretabile.) 5. Modello lineare con variabili qualitative 119 ● ● ● ● ● ● ● ● ● ● ● ● ●● ●● ● ● ● ● ●● ● ● ● ● 6 ● ● ● ● ● ● ● ● ● Communication Energy Finance HiTech Manufacturing Medical Other Retail Transportation ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ●● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● 5 6 7 8 9 10 11 5 6 7 log(Patrimonio) ●● ● ● 8 9 Communication Energy Finance HiTech Manufacturing Medical Other Retail Transportation 10 11 ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ●● ●● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● 10 9 ● ●● ● ● ● 8 ●● ● ● ● ● ● ● ● ● ● ● ● ● log(Vendite) 9 ● ● ● ● ● ● ● 7 7 ● ● ● ● ● 7 ● ● ● ● ● ● ●● 8 ● log(Vendite) ● ● ● ● ● ● ● 6 9 8 log(Vendite) ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● 6 ● ● ● ●● ● ● ● ● 10 10 ● ● ● ● ●● ● ● ● ● ● ● ● ● ● 11 (c) 11 (b) 11 (a) ● ● ● ● ● ● ● ● 5 6 log(Patrimonio) 7 8 9 Communication Energy Finance HiTech Manufacturing Medical Other Retail Transportation 10 11 log(Patrimonio) Figura 5.16: Modelli stimati per i dati sulle imprese Esempio 5.3 Imprese. Per 77 imprese statunitensi si sono rilevate le vendite e il patrimonio nel 1986 ed è registrato anche il settore produttivo (Fonte: DASL). Quest’ultima variabile è ovviamente di tipo qualitativo, in particolare si considerano i 9 livelli: Communication, Energy, Finance, HiTech, Manufacturing, Medical, Other, Retail, Transportation. I dati sono rappresentati in figura 5.16(a), dove si sono usate le trasformate logaritmiche per linearizzare le relazioni. Ha senso porsi le seguenti questioni (i) se, a parità di patrimonio, le vendite siano, in media, diverse nei diversi settori; (ii) se la variazione della media del logaritmo delle vendite corrispondente a una variazione unitaria del logaritmo del patrimonio sia la medesima nei vari settori. Assumendo eguale varianza nei gruppi (settori), e indicando con xi il logaritmo del patrimonio, con yi il logaritmo delle vendite e con zij , j = 1, . . . , 9 le variabili indicatrici dei settori, si specifica il modello 9 9 X X Yi = β 1 + β 2 x i + αi zij + δi xi zij + εi , ε ∼ N (0, σ 2 I), (5.15) i=2 i=2 la cui stima è rappresentata in figura 5.16(b). Si può allora rispondere alla questione (ii) verificando l’ipotesi H0 : δ2 = δ3 = . . . = δ9 = 0, ossia confrontando il modello (5.15) col modello ridotto Yi = β1 + β2 xi + 9 X αi zij + εi , ε ∼ N (0, σ 2 I). (5.16) i=2 La sintesi del confronto, da cui si accetta l’ipotesi nulla e quindi l’assenza di differenze nella relazione tra patrimonio e vendite nei diversi settori, è espressa in tabella. 1 2 Res.Df 69 61 RSS 21.64 18.00 Df Sum of Sq F Pr(>F) 8 3.64 1.54 0.1616 Notiamo che in effetti si accetta l’ipotesi nulla di eguaglianza a zero per tutti i parametri del modello, come mostra la tabella 5.17. Alla domanda (i) si risponde confrontando il modello (5.16) con il modello ridotto Yi = β1 + β2 xi + εi . La sintesi del confronto è espressa in tabella, la differenza nelle somme dei quadrati 120 5.5. Esercizi β1 β2 α−Energy α−Finance α−HiTech α−Manuf α−Medical α−Other α−Retail α−Transp Estimate 0.7825 0.9940 -0.0807 1.2206 -0.9973 -0.9904 -0.6181 -0.8644 -1.6661 -1.0438 s.e. 0.6906 0.0667 0.4289 0.4363 0.4427 0.4340 0.5028 0.4542 0.4338 0.4590 t 1.13 14.90 -0.19 2.80 -2.25 -2.28 -1.23 -1.90 -3.84 -2.27 β1 β2 α−Energy α−Finance α−HiTech α−Manuf α−Medical α−Other α−Retail α−Transp δ−Energy δ−Finance δ−HiTech δ−Manuf δ−Medical δ−Other δ−Retail δ−Transp Pr(>|t|) 0.2611 0.0000 0.8512 0.0067 0.0275 0.0256 0.2232 0.0612 0.0003 0.0261 Estimate 0.1080 1.0736 3.0926 2.1901 -1.8095 -2.0536 -0.6663 -3.4185 1.2197 -2.2923 -0.4220 -0.1240 0.0951 0.1311 0.0318 0.3534 -0.3408 0.1645 s.e. 5.1532 0.6060 5.2641 5.2188 5.2865 5.5531 5.3821 5.5070 5.6147 6.1177 0.6233 0.6183 0.6212 0.6555 0.6502 0.6590 0.6604 0.7359 t 0.02 1.77 0.59 0.42 -0.34 -0.37 -0.12 -0.62 0.22 -0.37 -0.68 -0.20 0.15 0.20 0.05 0.54 -0.52 0.22 Pr(>|t|) 0.9833 0.0814 0.5590 0.6762 0.7333 0.7128 0.9019 0.5371 0.8288 0.7092 0.5009 0.8417 0.8789 0.8422 0.9611 0.5937 0.6077 0.8238 Figura 5.17: Stime dei coefficienti per il modello (5.16) a sinistra e (5.15) a destra dei residui è tale per cui si rifiuta l’ipotesi nulla, la media dei logaritmi delle vendite è, a parità di patrimonio, diversa da un settore all’altro. 1 2 Res.Df 77 69 RSS 75.92 21.64 Df Sum of Sq F Pr(>F) 8 54.28 21.64 0.0000 Dall’esame della tabella dei coefficienti e del grafico del modello (figura 5.16(c)) possiamo notare alcuni dettagli: non per tutti i coefficienti si rifiuta l’ipotesi di nullità al livello del 5%, per alcuni settori (in particolare: Energia, Medico e la classe residuale Altri settori) dunque non vi è differenza nella media delle vendite col settore delle comunicazioni (che è quello preso come base). Per altri settori si hanno coefficienti simili in valore (tenuto conto degli s.e.) quindi altri settori non presentano, presumibilmente, differenze (ad esempio: Alta tecnologia e Manifatturiero), è però più complesso formalizzare questo tipo di verifiche. • 5.5 Esercizi Esercizio 1 Si scriva il modello (5.6) in forma matriciale e si ottengano le quantità rilevanti usando le formule generali. (Risposte: ovviamente coincidono con quelle già ottenute sopra, si dà solo la matrice Le quantità n n B XT X = ) nB nB Esercizio 2 Si illustri come verificare l’ipotesi nulla µA = µ0 contro µA 6= µ0 usando il modello (5.6). Esercizio 3 Si completi la tabella ANOVA fattore Residuals e si dica Df 3 12 Sum Sq 24.44 Mean Sq 11.29 F value Pr(>F) 5. Modello lineare con variabili qualitative 121 1. quanti sono i gruppi; 2. quante sono le osservazioni; 3. se si accetta o rifiuta l’ipotesi. Esercizio 4 La tabella che segue riporta i risultati di un ANOVA a un fattore fattore Residuals Df 2 6 Sum Sq 0.85 6.70 Mean Sq 0.42 1.12 F value 0.38 Pr(>F) 0.6996 Si dica 1. Quante sono le osservazioni del campione. 2. Quante sono le osservazioni per gruppo sapendo che il disegno sperimentale ? bilanciato (cio? lo stesso numero di osservazioni per ciascun gruppo). 3. Qual ? la varianza della variabile risposta. Esercizio 5 Per verificare se tre sonniferi A, B e C hanno diversa efficacia si suddivide casualmente un campione di individui in tre gruppi a ciascuno dei quali si somministra uno dei sonniferi, si misura poi per ciascun individuo il numero di ore di sonno. In particolare i sonniferi A, B e C sono somministrati rispettivamente a 3, 11 e 7 individui. Si definscono le variabili xB e xC (indicatrici) dove xBi (xCi ) è 1 se all’individuo i si ? somministrato il sonnifero B (C) e 0 altrimenti. Si stima poi un modello di regressione multipla con variabile risposta il numero di ore di sonno e variabili esplicative xB e xC, le stime dei coefficienti sono riportate nella tabella (Intercept) xB xC Estimate 7.9500 -1.0373 1.1086 Std. Error 0.5108 0.5763 0.6105 t value 15.56 -1.80 1.82 Pr(>|t|) 0.0000 0.0887 0.0861 Si ottengano 1. Le ore medie di sonno per ciascun sonnifero. 2. La media complessiva della variabile risposta. 3. Sapendo poi che la somma dei quadrati della variabile risposta è 1303.75, si ottengano la devianza totale e le sue componenti. 4. Si verifichi l’ipotesi secondo cui i sonniferi hanno la stessa efficacia. Esercizio 6 Si considerino le rilevazioni delle calorie (per pezzo) in 54 confezioni di hot-dog prodotti con 3 diversi tipi di carne: Bovina, Mista e Pollame, rappresentati nella figura 1.2 1. Si ottengano le calorie medie per tipo di carne. 2. Si calcolino le devianze (varianze) interne ai gruppi e tra i gruppi e si verifichi che la loro somma è uguale alla devianza (varianza) totale. 3. Si verifichi l’ipotesi secondo cui i tre tipi di carne comportano in media le stesse calorie stimando un opportuno modello di regressione multipla. Esercizio 7 Considerando un ANOVA a una via con tre gruppi, si ottengano gli stimatori dei coefficienti per il modello lineare mediante calcolo matriciale. 122 5.5. Esercizi Soluzione (cenno): data la natura della matrice X si ha n n 2 n3 n2 0 XT X = n3 e |X T X| = nn2 n3 − n2 n23 − n22 n3 = n2 n3 (n − n2 − n3 ) = n1 n2 n3 , pertanto n2 n3 −n2 n3 −n2 n3 1/n1 −1/n1 −1/n1 1 nn3 − n23 n2 n 3 = 1/n1 + 1/n2 1/n1 (X T X)−1 = n1 n2 n3 2 nn2 − n2 1/n1 + 1/n3 si ha poi X T y = (nȳ, n2 ȳ2 , n3 ȳ3 )T e si ottengono facilmente i già discussi stimatori. Esercizio 8 Con i dati sui tempi olimpici maschili e femminili (esempio 6 del capitolo 1) si risponda ale seguenti domande. 1. Vi è una differenza in media tra i tempi maschili e femminili? 2. Il miglioramento negli anni è lo stesso per maschi e femmine? Capitolo 6 Punti leva, anomali, influenti Nella figura 6.1 si sono rappresentate 10 osservazioni (xi , yi ) (pallini neri) e la relativa retta dei minimi quadrati (in nero). Si è poi aggiunto un tredicesimo punto, alternativamente quello rappresentato dal triangolo blu, a = (xa , ya ) nel seguito, dal quadrato verde, b = (xb , yb ), o dal rombo rosso, c = (xc , yc ). In ciascun caso si è ricalcolata la retta dei minimi quadrati con gli ora 13 punti a disposizione ottenendo le tre rette identificate dai colori corrispondenti ai punti. Osserviamo l’effetto del tredicesimo punto sulla retta stimata • a non è in linea con l’andamento degli altri, tuttavia la sua aggiunta non porta a una grande variazione della retta dei MQ, diminuisce invece di molto l’R2 ; • b è in linea con l’andamento, ancorché molto distante sull’asse delle ascisse, e la sua aggiunta porta a una variazione minima della retta, aumenta d’altra parte l’R2 ; • c non è in linea con l’andamento ed è distante sull’asse delle ascisse, la retta dei MQ si modifica sensibilmente e l’R2 si riduce. Per catalogare meglio questi comportamenti conviene dare le seguenti definizioni punto leva: un punto è leva se è distante dalla massa sul piano delle covariate (si noti, è una caratteristica relativa alle sole covariate); punto anomalo: un punto è anomalo se è distante dagli altri quanto alla relazione tra le variabili, il punto è lontano dalla retta di regressione sul piano (x, y); punto influente: un punto è influente se ristimando la retta senza di esso si ottengono coefficienti sensibilmente diversi. Nella figura 6.1 sono leva i punti b e c, anomali a e c, mentre è influente il solo c. S’intuisce allora che la rilevanza dei punti leva è nel fatto che hanno la potenzialità di influenzare la stima in quanto la retta sarà forzata a passare vicino ad essi (si ricordi il discorso fatto sulla varianza dei residui nel contesto della regressione semplice, se un punto ha ascissa x tale che |x− x̄| è elevato, ha varianza piccola, nella sezione 1.1 si estende il discorso alla regressione multipla), se un punto leva non è anomalo, tuttavia, avrà poca influenza sulla stima dei coefficienti, esso diventa influente se è leva e contemporaneamente anomalo. Si noti che l’esemplificazione fatta con riferimento a un singolo punto ha scopo illustrativo, ed è anzi ben possibile trovare situazioni in cui più punti sono ‘strani’, si veda la figura 6.2 per alcuni esempi. La presenza di punti con queste caratteristiche disturba l’inferenza nel senso che tutte o parte delle conclusioni che si traggono dipendono fortemente da una o poche unità campionarie. È 124 6.1. Diagnostiche a R2 0.68 0.03 0.94 0.17 b y nero blu (con a) verde (con b) rosso (con c) ● ● c ● ● ●● ● ● ● ● ● ● s 0.10 0.75 0.10 0.15 x ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● y ● ● ● ● ●● ● ● ●● ● 0 ● ● ● y ● ● ● ● ● 2 ● −1 0 ● ● ● ● −1 0 y ● ● −3 1 ● ● ● 2 ●● ● 3 ● 1 ● 1 3 Figura 6.1: Esempi di: punti leva (rombo rosso, c e quadrato verde, b); valori anomali (triangolo blu, a e rombo rosso, c); e osservazioni influenti (rombo rosso, c). ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● −1.0 −0.5 0.0 0.5 1.0 ● −1.0 −0.5 0.0 x (a) 0.5 1.0 1.5 ●●● −1 −5 −3 ● ●● ● ● ● −1 0 1 x (b) 2 3 x (c) Figura 6.2: Esempi vari: sono rappresentate in nero la retta ottenuta con i soli punti neri, in rosso/verde quella ottenuta con i neri e il rosso/verde in blu quella ottenuta con tutti i punti; in (a) si nota come gli effetti si sommano; in (b) si compensano; in (c) è esemplificato l’effetto di un gruppo importante perciò notarne la presenza, e a tal fine nella sezione 1 si illustrano opportuni indicatori, e eventualmente porre dei rimedi, alcuni dei quali sono descritti nella sezione 2. 6.1 Diagnostiche L’individuazione di punti con le caratteristiche illustrate sopra può essere agevolmente fatta guardando il grafico nel caso della regressione semplice, non cosı̀ nel caso della regressione multipla. Nel seguito perciò si illustrano alcuni indicatori numerici utili per individuare punti leva, osservazioni anomale e osservazioni influenti. Per molti di essi in letteratura sono suggerite delle specifiche soglie al di sopra delle quali l’osservazione è da considerarsi degna di attenzione. Sebbene si riportino tali soglie, il suggerimento generale è di non usarle in maniera troppo automatica, essendo più opportuno calcolare i valori degli indicatori e esaminare più attentamente quei punti in corrispondenza ai quali gli indicatori sono alti rispetto agli altri. Ricordiamo che i valori teorici per il generico modello lineare (4.2) si ottengono con ŷ = X(X T X)−1 Xy, dove X(X T X)−1 X è la matrice di proiezione, indicata con P nei capitoli precedenti e H in questo capitolo (da hat matrix, per uniformità con la letteratura e il pacchetto R). 6. Punti leva, anomali, influenti 125 Al fine di isolare il contributo dell’i-esima osservazione risulterà utile stimare il modello senza l’osservazione i-esima, si indicheranno nel seguito le quantità associate a questo secondo modello con il pedice −i, sicché X−i è la matrice (n − 1) × p ottenuta togliendo l’i-esima riga dalla matrice X, y−i ∈ Rn−1 è il vettore y senza l’i-esima osservazione. Si ha allora Y−i = X−i β−i + ε, ε ∼ N 0, σ 2 In−1 . (6.1) Si ha poi lo stimatore T T β̂−i = (X−i X−i )−1 X−i y−i . (6.2) Con il modlelo (6.1) si calcolano poi i valori teorici e i residui per tutte le n osservazioni, si definiscono allora le quantità ŷ−i = X β̂−i , e−i = y − ŷ−i , s2−i = eT−i e−i /(n − p − 1) (si noti il leggero abuso di notazione, a rigori per uniformità sarebbe ŷ−i = X−i β̂−i , si noti peraltro che X−i β̂−i e X β̂−i sono uguali salvo che per l’osservazione i-esima). Si vedrà nel seguito, e in particolare nella sezione 1.4 che queste quantità si possono calcolare senza bisogno di ristimare il modello. 6.1.1 Punti leva Un punto si definisce leva in virtù del valore assunto dalle esplicative in quel punto rispetto agli altri, per effetto di queste, il modello tende ad avere un residuo (relativamente) piccolo in corrispondenza ad esso (ossia il modello è forzato a passarvi vicino). Si ricordi che, per i residui e = y − ŷ = y − Hy, si ha V (e) = (I − H)σ 2 , (6.3) da cui V (ei ) = (1 − hii )σ 2 , (6.4) sicché il residuo i-esimo è tanto meno variabile quanto più grande è hii (i-esimo elemento della diagonale di H), perciò un elevato P valore di hii è indice di un punto leva. Il coefficiente leva 1 soddisfa a 0 < hii < 1 , e si ha i hii = rango(H) = p: il valore medio di hii è quindi p/n. In letteratura sono suggerite come soglie di attenzione il doppio o il triplo del valor medio: 2p/n (piccoli campioni) o 3p/n. Aiuta nell’interpretazione degli hii notare che Ŷi = n X j=1 hij Yj = hii Yi + X hij Yj . (6.5) j6=i Il valore hii misura quindi quanto pesa Yi nel determinare Ŷi . Nel caso in cui il modello comprende l’intercetta si può mostrare (vedi sezione 1.4.6) che hii = 1 1 + (x̃i − µ)Σ−1 (x̃i − µ) , n (6.6) 1 Che hii < 1 è ovvio stante che altrimenti V (ei ) sarebbe minore di zero. Che hii ≥ 0 discende dal fatto che hii è l’i-esimo elemento diagonale di X(X T X)−1 X, ossia, indicando con xi ∈ Rp l’i-esima riga di X, hii = T xTi (X T X)−1 xi , che è maggiore (o uguale) di zero X)−1 è (semi)definita positva. Alternativamente, si ricordi Pnse (X 2 2 che la matrice H è idempotente, quindi hii = j=1 hij . Si noti anche che, se il modello contiene l’intercetta, allora hii ≥ 1/n (in virtù della formula mostrata nella sezione 1.4.6). 6.1. Diagnostiche 6 0.15 126 0.10 4 ● ● 2 0 x2 hi −2 0.05 ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ●● ●●● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● −6 0.00 −4 ● −6 −4 −2 0 2 4 6 −6 −4 −2 0 2 4 6 x1 x Figura 6.3: A sinistra: andamento della funzione h(x) per un modello con singolo regressore (e intercetta) nel caso di un campione di dimensione 20 (in rosso) e di un campione di dimensione 100 (in nero), le linee orizzontali rappresntano soglie a p/n, 2p/n e 3p/n; a destra: andamento della funzione h per un modello con due regressori (e l’intercetta) dove µ è il vettore delle medie delle covariate (esclusa l’intercetta) e Σ la loro matrice di varianza campionaria. La misura della leva è quindi proporzionale a (x̃i − µ)Σ−1 (x̃i − µ) che è il quadrato della distanza di Mahalanobis di x̃i dalla media delle covariate, i luoghi dei punti a leva costante sono quindi ellissoidi in Rp−1 , nella figura 6.3 si sono rappresentati i casi p = 2 e p = 3. Un punto è leva o meno indipendentemente dal valore assunto dalla variabile risposta, esso quindi non ha necessariamente effetto sulla stima dei β̂, ha però un effetto su R2 , che, se il punto non è anomalo, risulterà più alto (si vedano gli esempi nella figura 6.1, il punto b, che è ‘in linea’ con gli altri, non produce un grande cambiamento nella retta ma incrementa R2 ). Il rischio perciò è di sopravvalutare la bontà del modello in termini di adattamento. 6.1.2 Valori anomali Un valore è anomalo per il modello (??) quando si discosta ‘di molto’ dal modello stimato, tale scostamento si misura evidentemente con il residuo, in particolare il residuo standardizzato e∗i = √ o studentizzato (internamente) ei 1 − hi ei ri = √ , s 1 − hi questi sono, lo ricordiamo, approssimativamente normali (vedi discorso fatto su analisi dei residui), non sono distribuiti secondo una t in quanto numeratore e denominatore non sono indipendenti. Gli strumenti di analisi dei residui già visti – residui contro valori teorici, grafico dei quantili – sono in grado di evidenziare residui anormalmente elevati, tuttavia non è detto che un valore anomalo abbia un residuo elevato, per quanto visto sopra, se il punto è anche leva potrebbe avere un residuo contenuto: si definiscono perciò alcuni ulteriori indicatori. 6. Punti leva, anomali, influenti 127 Si ottiene un ‘residuo’ distribuito secondo una t per l’i-esima osservazione stimando il modello senza l’i-esimo punto, ottenendo da tale stima la stima della varianza: s2−i e calcolando ri∗ = e √i , s−i 1 − hi (6.7) che è a questo punto distribuito secondo una tn−p−1 , si parla di residuo studentizzato esternamente. Si noti che non è effettivamente necessario ristimare la retta poiché si mostra che (sezione 1.4.5) (n − p)s2 − e2i (1 − hii )−1 s2−i = . (6.8) n−p−1 La quantità (6.7) è anche riferibile al modello Y = Xβu + δv + ε, ε ∼ N 0, σ 2 I , (6.9) dove v è una variabile indicatrice definita da ( 1 se j = i, vj = 0 altrimenti. Il parametro δ indica allora lo scostamento dell’i-esimo punto dal modello originale (cioè (??)), si consideri allora il sistema d’ipotesi H0 : δ = 0 contro H1 : δ 6= 0, la statistica test tδ = δ̂ V̂ (δ̂) , (6.10) la cui distribuzione è tn−p−1 coincide con ri∗ definito in (6.7) (si veda la sezione 1.4.4). Quali valori di ri∗ siano da ritenere troppo elevati viene a questo punto dal confronto con la distribuzione tn−p−1 , con l’avvertenza però che siccome il confronto viene fatto n volte siamo di fronte a un problema di test ripetuti e quindi dobbiamo applicare una correzione, ad esempio quella di Bonferroni, per cui il valore p associato al residuo ri∗ non è 2P (tn−p−1 > |ri∗ |) ma 2nP (tn−p−1 > |ri∗ |). 6.1.3 Valori influenti Diciamo che un’osservazione è influente se, quando essa viene tolta, la stima cambia in misura rilevante. Una misura naturale dell’influenza è allora la distanza di Cook: dal modello senza l’i-esima osservazione si ottengono i valori teorici ŷ−i = X β̂−i ∈ Rn e si calcola la distanza, standardizzata, tra la previsione dal modello stimato con tutte le osservazioni e la previsione dal modello stimato senza l’i-esima osservazione; si nota poi che tale distanza corrisponde anche alla distanza standardizzata tra gli stimatori di β con e senza l’osservazione i-esima. Di = = = 1 (ŷ − ŷ−i )T (ŷ − ŷ−i ) ps2 1 (X β̂ − X β̂−i )T (X β̂ − X β̂−i ) ps2 1 (β̂ − β̂−i )T X T X(β̂ − β̂−i ). ps2 (6.11) 6.1. Diagnostiche 3 128 1−h 0 1 h −1 D < D0 −2 r = − D0p 1−h h D > D0 −3 r (residui standardizzati) 2 r = + D0p 0.0 0.2 0.4 0.6 0.8 1.0 h (punteggio leva) Figura 6.4: Grafico per coefficiente leva e distanza di Cook Più è grande il valore di Di più l’osservazione è influente, i valori soglia di solito considerati sono 0.5 o 1, sono anche state suggerite soglie più specifiche quali ad esempio 4/(n − p). S’intuiva dal grafico iniziale che il carattere di influenza dipende dai residui yi − ŷi e da quanto l’osservazione è leva. Questo non è evidente dalla formulazione (6.11), si mostra però (vedi la sezione 1.4.1) che 2 1 ei 1 hii hii √ Di = = ri2 . (6.12) p s 1 − hii 1 − hii p 1 − hii La formula riflette il fatto che, a parità di residuo assoluto (|ri |), la distanza di Cook è tanto più hii grande quanto più grande è hii ovvero il rapporto 1−h che, si noti, è pari a VV ((eŶii)) . ii La (6.12), inoltre, suggerisce un modo di rappresentare in un unico grafico le tre quantità: residui (r), coefficienti leva (h) e distanze di Cook (D). Un tale grafico può essere strutturato come in figura 6.4, dove in un piano cartesiano si indicano i coefficienti h sull’asse delle ascisse e i residui standardizzati r sull’asse delle ordinate, si rappresentano poi nel piano alcune linee di livello della funzione D(r, h) = (1/p)r2 h/(1 − h) – tipicamente i livelli 0.5 e 1 già citati sopra – in modo da evidenziare le osservazioni che superino tali soglie “critiche”. Per degli esempi si vedano le figure 6.6(e) 6.8(c). Alternativamente, si possono rappresentare su un piano cartesiano i punti di coordinate hii , Di 1 − hii e alcune linee di livello della funzione r2 (D, h) = D 1−h h , che sono delle rette (si veda per un esempio la figura 6.6(f )). La distanza di Cook è un modo sintetico di misurare l’influenza dell’osservazione i-esima sul modello nel complesso, si possono considerare misure specifiche di alcuni aspetti, singoli coefficienti o singoli valori teorici. Nel seguito sono presentate alcune misure standard che, si noti, sono singoli addendi della distanza di Cook nell’una o nell’altra forma. Consideriamo dapprima la variazione nella stima di ciascuno dei coefficienti βj dovuta all’eliminazione del caso i-esimo, si definiscono i DFBETAi = β̂ − β̂−i = (X T X)−1 xi (1 − hii )−1 (yi − ŷi ) , (6.13) 6. Punti leva, anomali, influenti 129 eventualmente standardizzati β̂j − β̂−i,j stDFBETAij = √ . V (β̂−i,j ) (6.14) Per esaminare i (st)DFBETA è utile disegnare dei grafici (per ciascuno j) da cui emergono le √ osservazioni più influenti coefficiente per coefficiente, valori superiori a 2/ n di stDFBETA sono sospetti. Si noti che questa strategia ha il difetto che i valori da esaminare sono numerosi (np). Ancora un’altra possibilità è di confrontare puntualmente i valori teorici ottenuti con e senza l’osservazione i-esima hii DFFITi = ŷ − ŷ−i = ei (6.15) 1 − hii ci saranno in questo caso n × n valori da considerare. 6.1.4 Derivazione di alcune formule Alcuni dei risultati usati sopra richiedono, per essere dimostrati, alcuni passaggi di algebra lineare, non essendo questi aspetti centrali al discorso li si è concentrati in questa sezione, con gli opportuni richiami puntuali al resto del testo. Molti dei risultati in questione fanno riferimento al modello stimato senza l’i-esima osservazione e definito in (6.1). Le quantità associate al modello (6.1) sono legate a quelle associate al modello (??) ed è questo legame che va sfruttato per mostrare i vari risultati. Il punto di partenza è allora esprimere lo stimatore β̂−i (6.2) in funzione di β̂, si ha che β̂−i = β̂ − (X T X)−1 xi yi − ŷi , 1 − hii (6.16) dove xi è il vettore p × 1 delle osservazioni relative all’i-esima unità. Per mostrare la (6.16) partiamo dalla (6.2) T T β̂−i = (X−i X−i )−1 (X−i y−i ) e notiamo che, essendo X−i la matrice (n − 1) × p ottenuta togliendo l’i-esima riga dalla matrice T X T T T T X, si ha X−i −i = X X − xi xi e X−i y = X y − xi yi , da cui β̂−i = (X T X − xi xTi )−1 (X T y − xi yi ). (6.17) Si usa allora l’identità di Woodbury (semplificata): (A+BC)−1 = A−1 −A−1 B(I+CA−1 B)−1 CA−1 , che implica (X T X − xi xTi )−1 = (X T X)−1 + (X T X)−1 xi (I − xTi (X T X)−1 xi )−1 xTi (X T X)−1 , dove xTi (X T X)−1 xi = hii e quindi (I − xTi (X T X)−1 xi )−1 = (1 − hii )−1 I. La (6.17) diventa dunque β̂−i = ((X T X)−1 + (1 − hii )−1 (X T X)−1 xi xTi (X T X)−1 )(X T y − xi yi ) = (X T X)−1 X T y + (1 − hii )−1 (X T X)−1 xi xTi (X T X)−1 X T y − (X T X)−1 xi yi − (1 − hii )−1 (X T X)−1 xi xTi (X T X)−1 xi yi 130 6.1. Diagnostiche sfruttando di nuovo il fatto che xTi (X T X)−1 xi = hii e notando anche che xTi (X T X)−1 X T è l’i-esima riga della matrice di proiezione e quindi xTi (X T X)−1 X T y = ŷi si ha β̂−i = β̂ + (1 − hii )−1 (X T X)−1 xi ŷi − (X T X)−1 xi yi − (1 − hii )−1 (X T X)−1 xi hii yi = β̂ − (X T X)−1 xi yi + (1 − hii )−1 hii yi − (1 − hii )−1 ŷi = β̂ − (X T X)−1 xi (1 − hii )−1 (yi − ŷi ) . QED. 6.1.4.1 Formula (6.12) per la distanza di Cook Nella (6.11) si sostituisce β̂ − β̂−i = (X T X)−1 xi (1 − hii )−1 (yi − ŷi ) , ottendo Di = = = 1 T T −1 T x (X X) X X(X T X)−1 xi (1 − hii )−2 (yi − ŷi )2 ps2 i 1 hii (1 − hii )−2 (yi − ŷi )2 ps2 1 2 hii r . p i 1 − hii che è la (6.12). 6.1.4.2 Residui di previsione e−i Calcoliamo i valori teorici per l’intero campione (compresa l’osservazione i-esima) secondo il modello (6.1), sfruttando la (6.16) si ha ŷ−i = X β̂−i = X β̂ − X(X T X)−1 xi (1 − hii )−1 (yi − ŷi ) . In particolare per l’i-esima osservazione (non usata per ottenere β̂−i ) si ha ŷ−i,i = xTi β̂−i = xTi β̂ − xTi (X T X)−1 xi (1 − hii )−1 (yi − ŷi ) = xTi β̂ − hii (1 − hii )−1 (yi − ŷi ) = (1 − hii )−1 (ŷi − hii yi ), il corrispondente residuo, detto anche residuo di previsione, è quindi e−i,i = yi − ŷ−i,i = yi − ŷi . 1 − hii Si noti che e−i,i coincide con il residuo standardizzato. (6.18) 6. Punti leva, anomali, influenti 6.1.4.3 131 Inversione di una matrice a blocchi Nel seguito servirà invertire una matrice a blocchi, vale la formula −1 A B (A − BD−1 C)−1 −A−1 B(D − CA−1 B)−1 = . C D −(D − CA−1 B)−1 CA−1 (D − CA−1 B)−1 (6.19) Si noti anche che si ha (A − BD−1 C)−1 = A−1 + A−1 B(D − CA−1 B)−1 CA−1 , (6.20) (A − BD−1 C)−1 BD−1 = A−1 B(D − CA−1 B)−1 , (6.21) D −1 C(A − BD −1 −1 C) −1 = (D − CA −1 B) −1 CA , D−1 + D−1 C(A − BD−1 C)−1 BD−1 = (D − CA−1 B)−1 , 6.1.4.4 (6.22) (6.23) Dimostrazione di tδ = ri∗ (6.10) e (6.7) Si noti anzitutto che nella (6.10) si ha δ̂ = e−i,i (la presenza della variabile v fa sı̀ che il modello P (6.9) abbia residuo i-esimo nullo, i coefficienti β̂v realizzano pertanto il minimo di j6=i (yi −Xβv )2 perché il restante è zero), si ha allora δ̂ = yi − ŷ.i,i = ei /(1 − hii ) per la (6.18), mentre V̂ (δ̂) = s2−i [(X̄ T X̄)−1 ]ii , dove X̄ = [v, X], supponendo senza perdita di generalità i = 1 avremo 1 xTi T . (X̄ X̄) = xi X T X Usando la formula (6.19) per l’inversione di una matrice a blocchi otteniamo l’elemento (1, 1) di (X̄ T X̄)−1 , che è quello che qui interessa, [(X̄ T X̄)−1 ]11 = (1 − xTi (X T X)−1 xi )−1 = (1 − h11 )−1 . Si ha perciò δ̂ ei (1 − hii )−1 e q p √ i = = , −1 s 1 − h s (1 − h ) −i 11 −i 11 V̂ (δ̂) cioè la (6.10) QED. 6.1.4.5 Formula (6.8) per s2−i Consideriamo la varianza s2−i , per essa si ha T T T (n − p − 1)s2−i = y−i y−i − β̂−i X−i y−i yi − ŷi T T −1 T 2 T x (X X) (X T y − xi yi ) = y y − yi − β̂ − 1 − hii i yi − ŷi T T −1 T yi − ŷi T T −1 = yT y − yi2 − β̂ T X T y + β̂ T xi yi + xi (X X) X y − x (X X) xi yi 1 − hii 1 − hii i 132 6.1. Diagnostiche notiamo che β̂ T xi = xTi (X T X)−1 X T y = ŷi e sostituiamo = eT e − yi2 + ŷi yi + = eT e − yi − ŷi yi − ŷi ŷi − hii yi 1 − hii 1 − hii yi − ŷi , 1 − hii da cui la (6.8) QED. 6.1.4.6 Formula (6.6) per hii Consideriamo hii = xTi (X T X)−1 xi , supponendo che l’intercetta sia nel modello scomponiamo la matrice X, n × p come X = [1 X̃], X̃ è la matrixce n × (p − 1) delle covariate esclusa l’intercetta. Poniamo anche µ = X̃ T 1/n ∈ Rp−1 (cioè µ è il vettore delle medie campionarie delle covariate), e M = X̃ T X̃ (M è una matrixce Pn (p − 1) × (p − 1) con elementi Mij = h=1 xhi xhj ). La matrice X T X si scompone allora nel modo seguente 1 µ1 ... µp−1 µ1 M11 . . . M1,p−1 1 µT T X X = n . . = .. .. µ M .. . . µp−1 M1,p−1 . . . Mp−1,p−1 Ricordando la formula (6.19) per l’inversione di una matrice a blocchi si ha 1 (1 − µT M −1 µ)−1 −µT (M − µµT )−1 T −1 (X X) = , (M − µµT )−1 n −(M − µµT )−1 µ dove poniamo Σ = M − µµT (matrice di varianza campionaria di X̃). Scomponendo anche 1 l’i-esima riga della matrice X in xi = , si ha x̃i (1 − µT M −1 µ)−1 −µT Σ−1 1 1 1 x̃Ti hii = −Σ−1 µ Σ−1 x̃i n T −1 −1 T −1 (1 − µ M µ) − µ Σ x̃i 1 1 x̃Ti = −Σ−1 µ + Σ−1 x̃i n 1 = (1 − µT M −1 µ)−1 − µT Σ−1 x̃i − x̃Ti Σ−1 µ + x̃Ti Σ−1 x̃i n 1 (1 − µT M −1 µ)−1 − 2µT Σ−1 x̃i + x̃Ti Σ−1 x̃i = n 1 (1 − µT M −1 µ)−1 − µT Σ−1 µ + (x̃i − µ)Σ−1 (x̃i − µ) (6.24) = n si ha però (A − BD−1 C)−1 BD−1 = A−1 B(D − CA−1 B)−1 (equazione (6.21)), da cui (1 − µT M −1 µ)−1 µT M −1 = µT (M − µµT )−1 e, moltiplicando ambo i membri per µ, (1 − µT M −1 µ)−1 µT M −1 µ = µT (M − µµT )−1 µ = µT Σ−1 µ sostituendo nella (6.24) si ottiene la (6.6) QED 6. Punti leva, anomali, influenti 133 6.2 Cause e rimedi Un punto leva, anomalo o influente è un punto che si discosta, per qualche aspetto, dagli altri. (In particolare, i punti leva si discostano per quanto riguarda le esplicative, i punti anomali quanto alla risposta condizionatamente alle esplicative, i punti influenti quanto ad entrambe.) Come ci si debba comportare con esso dipende dal motivo per cui si discosta, che quindi va indagato. Partendo dai casi banali può essere che vi sia un errore nella raccolta o registrazione dei dati, in un caso simile l’osservazione non è genuina e andrà corretta o eliminata dall’analisi. Può essere poi che l’osservazione sia corretta, ma che le variabili siano misurate, per quell’unità, in condizioni diverse dalle altre (ad esempio, si misurano lunghezza e tempo impiegato a compiere diversi percorsi urbani, una e una sola delle osservazioni è fatta in un giorno di neve e sciopero dei mezzi pubblici, è ragionevole attendersi che questa sia anomala in un modello in cui il tempo è la variabile risposta e la lunghezza del percorso l’esplicativa). L’osservazione non è in tal caso eliminabile a cuor leggero, sarà interessante investigare il perché della sua stranezza, ed eventualmente riportare i risultati ottenuti con e senza l’osservazione stessa chiarendo che i secondi sono meno generali. Infine, è possibile che l’osservazione ‘strana’ non abbia in realtà niente di particolare ma sia una realizzazione eccezionale (ma non impossibile) del fenomeno. In tal caso l’eliminazione sarebbe evidentemente scorretta, si può eventualmente rimediare utilizzando metodi di stima robusti rispetto alla presenza di valori anomali o eventualmente rispecificando il modello. Relativamente a quest’ultimo punto va notato infatti che un osservazione che è ‘strana’ per un modello non lo è necessariamente in un altro, ad esempio una trasformazione delle variabili esplicative può avvicinare alla media un punto che, con le variabili originali, è leva; oppure, se il modello con le variabili originali ha residui non gaussiani, si possono osservare numerosi residui grandi che possono risultare valori anomali, trasfromando in modo da normalizzare i residui il problema dovrebbe sparire. Si noti peraltro che l’opzione di rispecificare è ragionevole in presenza di più valori anomali, e porta con se il rischio di sovradattare il modello. Insomma, l’eliminazione è un’opzione legittima solo in casi circoscritti, al di fuori dei quali è buona pratica investigare le ragioni delle particolarità e includerle nel modello o comunque nell’analisi (effettuando ad esempio analisi separate). Si noti infine che il problema è mitigato in presenza di una grande base di dati. 6.3 Alcolici e tabacchi in Gran Bretagna Per undici regioni della Gran Bretagna si conosce la spesa media delle famiglie in tabacchi e alcolici2 . Si vuole analizzare il legame tra le due grandezze: in termini di modello di regressione è egualmente sensato considerare il consumo medio di alcolici in funzione di quello di tabacchi o viceversa, cioè i ruoli di variabile risposta ed esplicativa sono intercambiabili. Supponiamo di considerare la spesa in tabacchi come variabile esplicativa. Disegnando il corrispondente diagramma di dispersione (figura 6.5) emerge una relazione crescente – e plausibilmente 2 I dati sono ripresi da http://lib.stat.cmu.edu/DASL/Stories/AlcoholandTobacco.html, che a sua volta li riprende da Moore, David S. e George P. McCabe (1989), Introduction to the Practice of Statistics, p. 179. La fonte primaria è il Family Expenditure Survey, Department of Employment, 1981 (British official statistics) 134 6.3. Alcolici e tabacchi in Gran Bretagna 6.5 North 6.0 Northeast Yorkshire Southeast Scotland ● ● Wales East Midlands Southwest ● ● ● ● West Midlands 5.5 Tobacco 4.03 3.76 3.77 3.34 3.47 2.92 3.20 2.71 3.53 4.51 4.56 5.0 Alcohol 6.47 6.13 6.19 4.89 5.63 4.52 5.89 4.79 5.27 6.08 4.02 4.5 Region North Yorkshire Northeast East Midlands West Midlands East Anglia Southeast Southwest Wales Scotland North. Ireland ● ● ● East Anglia ● 4.0 1 2 3 4 5 6 7 8 9 10 11 Spesa media famiglie in alcolici (sterline a settimana) lineare – tra le due quantità. Spicca nel diagramma la posizione dell’Irlanda del Nord, dove la spesa per alcolici risulta bassa rispetto a quella in tabacchi. Northern Ireland 2.5 3.0 3.5 4.0 ● 4.5 Spesa media famiglie in tabacchi (sterline a settimana) Figura 6.5: Alcolici e tabacchi in GB: diagramma di dispersione Stimiamo comunque il modello Alcohol = β1 + β2 Tobacco + errore, che indichiamo nel seguito con M0 . Le stime ottenute sono riportate nella tabella 6.2; il modello ha un R2 molto basso e il coefficiente della variabile tabacco non è significativamente diverso da 0, non emerge cioè un legame tra le due quantità. Analizziamo poi i residui mediante i grafici in figura 6.6: i residui più grandi si hanno per i = 11 (Northern Ireland) e i = 1 (North), come si vede dai grafici 6.6(a) e 6.6(c); le due osservazioni corrispondono anche ai quantili empirici che più si discostano dalla forma ideale del grafico dei quantili empirici-teorici (figura 6.6b). Si procede poi al calcolo del coefficiente leva e della distanza di Cook, a titolo di esempio per l’unità i = 1 si ha ŷ1 = 4.3512 + 0.3019 × 4.03 = 5.568 e quindi e1 = y1 − ŷ1 = 6.47 − 5.568 = 0.902. Essendo inoltre x̄ = 3.6182 risulta x1 − x̄ = 4.03 − 3.6182 = 0.4118 e di conseguenza h11 = 1 (x1 − x̄)2 0.41182 1 + Pn = + = 0.1395. 2 n 11 3.4894 i=1 (xi − x̄) Si ottiene allora, essendo s2 = 0.81962 , e1 0.902 p ri = p = = 1.1864 0.8196 (1 − 0.1395) s2 (1 − h11 ) e, infine, D1 = r12 h11 1.18642 0.1395 = = 0.1141. p 1 − h11 2 1 − 0.1395 Per le altre unità si riportano i risultati nella tabella 6.1. 6. Punti leva, anomali, influenti 135 Residuals vs Fitted Normal Q−Q ● 1.5 ● ● ●6 1● ●6 ● ● ● ● ● ● ● ● −2 ●6 Standardized residuals ● ● 1.0 1 ● ● ● 0 0.0 0.0 11 ● ● 11 5.3 5.4 5.5 5.6 5.7 −1.5 −1.0 −0.5 0.0 0.5 1.0 1.5 5.2 5.3 5.4 5.5 Fitted values Theoretical Quantiles Fitted values lm(Alcohol ~ Tobacco) lm(Alcohol ~ Tobacco) lm(Alcohol ~ Tobacco) (a) (b) Cook's distance Cook's dist vs Leverage hii (1 − hii) 3 2.5 2 1.5 1 ● ●6 0.5 1.5 1.0 ● ● Cook's distance 0 ● −1 Standardized residuals ● ● 1 1 −2 1.5 1.0 0.5 ● ● −3 0.0 11 ● 4 6 8 11 ● 0.5 ●1 6 2 5.7 (c) Residuals vs Leverage 11 1 5.6 0.5 5.2 10 0.0 Residuals −2.0 −1.5 −1.0 −0.5 ● ● ● −1 ● Standardized residuals 0.5 1● ● 0.5 1.0 11 ● 1● ● ● ● Cook's distance Scale−Location Cook's distance 0.00 0.05 0.10 0.15 0.20 0.25 0.30 0.35 ● ●● ● 0.05 0.1 ●6 ●1 ● ● ● 0 0.15 0.2 0.25 Obs. number Leverage Leverage hii lm(Alcohol ~ Tobacco) lm(Alcohol ~ Tobacco) lm(Alcohol ~ Tobacco) (d) (e) 0.5 0.3 0.35 (f ) Figura 6.6: Analisi dei residui per il modello M0 per alcolici e tabacchi in GB: (a): grafico dei residui contro i valori teorici; (b) confronto dei quantili dei residui contro i quantili della normale; (c) grafico delle radici dei valori assoluti dei residui standardizzati contro i valori teorici; (d) grafico delle distanza di Cook, le barre arrivano al punto (i, Di ), serve a confrontare i valori, interessa quali punti hanno distanza di Cook grande relativamente agli altri; (e) è il grafico 6.4 discusso nella sezione 1.3; (f ) è il grafico discusso alla fine della sezione 1.3 i 1 2 3 4 5 6 7 8 9 10 11 yi 6.47 6.13 6.19 4.89 5.63 4.52 5.89 4.79 5.27 6.08 4.02 xi 4.03 3.76 3.77 3.34 3.47 2.92 3.20 2.71 3.53 4.51 4.56 yi − ŷi 0.9020 0.6435 0.7005 -0.4696 0.2311 -0.7128 0.5726 -0.3794 -0.1470 0.3671 -1.7080 xi − x̄ 0.4118 0.1418 0.1518 -0.2782 -0.1482 -0.6982 -0.4182 -0.9082 -0.0882 0.8918 0.9418 hii 0.1395 0.0967 0.0975 0.1131 0.0972 0.2306 0.1410 0.3273 0.0931 0.3188 0.3451 ri 1.1864 0.8261 0.8997 -0.6084 0.2968 -0.9915 0.7538 -0.5644 -0.1883 0.5427 -2.5751 Di 0.1141 0.0365 0.0437 0.0236 0.0047 0.1473 0.0466 0.0775 0.0018 0.0689 1.7472 Tabella 6.1: Calcolo del coefficiente leva e della distanza di Cook per i dati su alcolici e tabacco in GB β3 0.050 0.820 0.615 0.446 2.041 1.001 2.038 0.076 1.006 0.281 3.576 0.007 -2.608 0.551 -4.732 0.001 0.750 0.446 6.0 2.041 1.001 2.038 0.076 1.006 0.281 3.576 0.007 5.5 4.351 1.607 2.708 0.024 0.302 0.439 0.688 0.509 5.0 M2 β1 + β2 x + β3 IRL (tutte oss.) 4.5 β2 Estimate Std. Error t value Pr(>|t|) Estimate Std. Error t value Pr(>|t|) Estimate Std. Error t value Pr(>|t|) R2 s M1 β1 + β2 x (senza Irl Nord) 4.0 β1 M0 β1 + β2 x (tutte oss.) 6.5 6.4. Folli del Massachusetts Spesa media famiglie in alcolici (sterline a settimana) 136 2.5 3.0 3.5 4.0 4.5 Spesa media famiglie in tabacchi (sterline a settimana) Tabella 6.2: Stime dei modelli e loro rappresentazione: retta di regressione con (M0 , in rosso) e senza (M1 , nero) l’Irlanda del Nord La distanza di Cook risulta elevata, pari a 1.7, per l’osservazione relativa all’Irlanda del Nord (grafico 6.6d), che si qualifica quindi come osservazione influente. I grafici 6.6(e) e 6.6(f ) mostrano come l’osservazione relativa all’Irlanda del Nord ha anche il coefficiente leva più alto ancorchè non elevato in senso assoluto, e in effetti l’osservazione non è eccezionale quanto alla spesa per tabacchi. È interessante confrontare i risultati ottenuti stimando il modello su tutte le osservazioni con i risultati ottenuti stimando il modello senza l’osservazione relativa all’Irlanda del Nord. Si nota, dal grafico 6.2 dove sono disegnate le due rette che si ricavano e dalla tabella 6.2 dove sono riportate le stime, che l’inclusione dell’osservazione irlandese modifica in misura rilevante il modello stimato. Senza l’Irlanda del Nord, si stima una relazione significativa tra spesa in alcolici e spesa in tabacco. Nella tabella 6.2 si riportano anche le stime ottenute usando tutti i dati ma in un modello con una variabile esplicativa muta pari a 1 per l’Irlanda del Nord e 0 altrimenti: la stima del coefficiente di quest’ultima, pari a −2.6 con s.e. 0.55 porta a concludere che il coefficiente è significativamente diverso da 0. Una conclusione ragionevole è affermare che vi è una correlazione positiva tra gli ammontari spesi per i due beni, ma con l’esclusione dell’Irlanda del Nord, sul motivo di tale differenziazione si potrebbe ulteriormente indagare (ad esempio, si tratta di un consumo effettivamente inferiore o c’è una differenza di prezzo in uno dei due beni rispetto alle altre regioni tale da mascherare una relazione positiva tra le quantità?). Si noti che, sia sulla base del coefficiente di determinazione che sulla base del test per la nullità del coefficiente β2 , la conclusione relativamente alla relazione tra spesa per alcolici e tabacchi è diversa nel secondo e terzo modello. 6.4 Folli del Massachusetts In uno studio del 1854 vennero rilevate, nelle 14 contee del Massachusetts, la percentuale di malati mentali in cura presso il loro domicilio (anziché ricoverati) e la distanza dal più vicino 80 ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● 40 PHOME ● ● ● ● 60 ● 60 ● ● NANTUCKET 20 PHOME 77 81 75 69 64 47 47 6 49 60 68 76 25 79 40 DIST 97 62 54 52 20 14 10 4 14 14 16 44 77 52 PHOME COUNTY Berkshire Franklin Hampshire Hampden Worcester Middlesex Essex Suffolk Norfolk Bristol Plymouth Barnstable Nantucket Dukes 20 1 2 3 4 5 6 7 8 9 10 11 12 13 14 137 80 6. Punti leva, anomali, influenti SUFFOLK ● 20 40 60 80 100 DIST 0.05 0.10 0.15 0.20 ● 0.25 I(1/DIST) Figura 6.7: Diagrammi di dispersione per i dati sui lunatici nel Massachussetts, variabili originali e trasformate presidio ospedaliero3 . È ragionevole ritenere che vi sia una relazione tra le due quantità, come mostra anche il diagramma di dispersione in figura 6.7 a sinistra; da quest’ultimo si rileva anche che la relazione non è lineare e quindi si opta per una trasformazione della variabile distanza. Il diagramma di dispersione tra percentuale di curati a domicilio e il reciproco della distanza (figura 6.7 a destra) suggerisce l’impiego del modello PHOME = β1 + β2 1 + errore DIST (indichiamo nel seguito x = 1/DIST e il modello con M0 ). La stima di M0 è riportata nella tabella 6.3. Per l’analisi dei residui si riportano i grafici essenziali in figura 6.8. Dall’esame di questi – in particolare di 6.8(c) che riguarda leva e distanza di Cook – si rileva l’esistenza di un punto leva (l’osservazione 8, relativa alla contea del Suffolk), che però non è un valore anomalo, presenta infatti un residuo contenuto. D’altro canto si ha un valore influente (l’osservazione 13, relativa alla contea di Nantucket) in quanto ha distanza di Cook superiore a 0.5 che non è però un punto leva. Il carattere di punto anomalo dell’osservazione 13 e il fatto che l’osservazione 8 non è anomala risulta anche dal confronto delle stime dei modelli con variabili mute MS : PHOME = β1 + β2 1 + β3 SUF + errore, DIST 1 + β3 NAN + errore, DIST riportato in forma grafica (figura 6.9) e tabulare (tabella 6.3). Il coefficiente β3 è significativo solo per MN , non per MS . Una motivazione per la peculiarità delle contee del Suffolk e di Nantucket si ha dalle caratteristiche geografiche (si veda la mappa in figura 6.9): nella contea di Suffolk si trova la città più grande dello stato, Boston, da cui distanze mediamente inferiori, mentre Nantucket è un’isola, da cui la distanza non riflette il tempo necessario per gli spostamenti come una distanza terrestre. MN : PHOME = β1 + β2 3 Lo studio fu condotto dalla Massachusetts Commission on Lunacy, si veda J.M. Hunter, Need and Demand for Mental Health Care: Massachusetts 1854, The Geographic Review, 77:2 (April 1987), pp 139-156. I dati provengono da http://lib.stat.cmu.edu/DASL/Stories/lunatics.html 138 6.4. Folli del Massachusetts Normal Q−Q Residuals vs Leverage 1 11 ● ●2 ● ● ● ● ● ● ● 2● ● ● ● 13 ● 0 8● ● ● 20 30 40 50 60 0.5 1 −3 ● 13 Cook's distance ● 13 10 1 0.5 ●● −1 ● −2 Standardized residuals 0 ● −1 ● ● ● −2 ● ● ● −3 0 ● ● ● ● ● ● −50 −40 −30 −20 −10 70 −1 0 1 0.0 0.2 0.4 Fitted values Theoretical Quantiles Leverage lm(PHOME ~ I(1/DIST)) lm(PHOME ~ I(1/DIST)) lm(PHOME ~ I(1/DIST)) (a) (b) (c) 80 Figura 6.8: Analisi dei residui per il modello (4) ● ● ● ●● ● β1 + β2x β1 + β2x + β3SUFFOLK β1 + β2x + β3NANTUCKET ● ● ● ● ● 40 PHOME 60 ● ● NANTUCKET 20 Residuals 2● ● ● ● ● ● 11 ● Standardized residuals 10 1 Residuals vs Fitted SUFFOLK 0.05 0.10 0.15 0.20 ● 0.25 I(1/DIST) Figura 6.9: Stime dei modelli M0 , MS e MN ; mappa delle contee del Massachusetts β1 β2 β3 Estimate Std. Error t value Pr(>|t|) Estimate Std. Error t value Pr(>|t|) Estimate Std. Error t value Pr(>|t|) M0 β1 + β2 x MS β1 + β2 x + β3 SUF MN β1 + β2 x + β3 NAN 73.927 5.493 13.459 0.000 -266.324 66.211 -4.022 0.002 72.954 7.620 9.574 0.000 -240.697 149.330 -1.612 0.135 -6.780 35.030 -0.194 0.850 80.063 2.246 35.650 0.000 -310.135 26.110 -11.878 0.000 -51.035 6.125 -8.332 0.000 Tabella 6.3: Stime per i dati sui lunatici 0.6 0.8 Capitolo 7 Limiti del modello lineare e cenni alle principali estensioni Il modello di regressione multipla è uno dei più semplici strumenti che permette di studiare come cambia la distribuzione condizionata di una variabile, detta variabile risposta, al variare delle variabili condizionanti, dette variabili esplicative. Questa semplicità rende il modello desiderabile sotto vari aspetti (per varie ragioni), essa significa semplicità di calcolo, generalità del modello e facilità d’interpretazione. La semplicità computazionale si potrebbe pensare poco rilevante con gli odierni strumenti di calcolo, questo è in parte vero ma rimane decisamente un vantaggio il fatto di disporre di soluzioni in forma chiusa per tutte le quantità d’interesse. La generalità del modello significa che la struttura che si assume è sufficientemente semplice da adattarsi a un’ampia gamma di circostanze (applicazioni): la distribuzione normale emerge molto spesso come approssimazione (teorema del limite centrale) per molte altre distribuzioni; la relazione lineare è una prima approssimazione – almeno localmente – per qualunque funzione derivabile con derivata continua (sviluppo di Taylor al primo ordine); anche il fatto che vari solo la media, e non gli altri aspetti della distribuzione condizionata, è sovente un’ipotesi tenibile. Quanto all’interpretazione, focalizzare il modello sulla sola media è spesso auspicabile in quanto questa è l’(unico) aspetto d’interesse. Inoltre, se la relazione tra media della risposta e esplicative è espressa dalla (7.1), una variazione in una delle variabili esplicative comporta una variazione della media della risposta che è indipendente e dal livello di partenza dell’esplicativa stessa e dal livello delle altre esplicative1 : la misura in cui la risposta dipende da ciascuna delle esplicative è quindi completamente sintetizzata da un unico parametro. Va poi sottolineato che l’importanza del modello di regressione multipla risiede anche nel fatto che esso è alla base di molti modelli più complessi, sviluppati per superarne i limiti. La semplicità gioca sı̀ a favore del modello lineare ma ne limita anche l’impiego: se le ipotesi non si conformano ai dati l’inferenza basata sul modello può essere fuorviante. Il non conformarsi è naturalmente relativo e un moderato scostamento dalle ipotesi può ritenersi accettabile, cioè si può assumere che l’effetto sulle conclusioni inferenziali sia trascurabile. A 1 Confrontiamo la media di Y in corrispondenza a x0 = (x01 , . . . , x0p )T con la media di Y in corrispondenza a x1 = (x01 , . . . , x0h + 1, . . . , x0p )T = xT0 + (0, . . . , 0, 1, 0, . . . , 0)T , la differenza è E(Y |x1 ) − E(Y |x0 ) = xT0 β − (xT0 + (0, . . . , 0, 1, 0, . . . , 0))β = βh . 140 7.1. Non linearità titolo d’esempio questo è piuttosto trasparente per quanto riguarda la linearità: se la relazione sottostante non è lineare le stime saranno attendibili solo nella misura in cui la funzione lineare costituisce una buona approssimazione della vera relazione sottostante. La scelta di ignorare piccoli scostamenti dalle ipotesi, con i rischi del caso, porterà ad applicare il modello cosı̀ com’è e non richiede ulteriore discussione. (In realtà, occorrerebbe un’ampia discussione che ricade nell’ambito della robustezza: s’indaga cioè quanto cambino le conclusioni basate su certe ipotesi quando il modello non è valido, una tale discussione è fuori dagli scopi del documento.) Se lo scostamento è ritenuto non accettabile si deve rimediare o modificando il metodo di stima o aggiustando il modello (cioè con modifiche minori dello stesso) o utilizzando un modello diverso, capace di conformarsi ai dati a disposizione. Più analiticamente possiamo elencare cinque elementi rispetto ai quali le cose possono andare male e richiedere un rimedio: (1) linearità, che la media di Y è funzione lineare delle variabili esplicative, E(Yi ) = µi = (x(i) )T β; (2) normalità, che le variabili Yi |x(i) hanno distribuzione normale 1 1 2 2 Yi ∼ f (y, µi , σ ) = √ exp − 2 (y − µi ) ; 2σ 2πσ (7.1) (7.2) (3) omoschedasticità, che la varianza di Yi (ovvero, date le altre ipotesi, di εi ) non dipende da i; (4) indipendenza, che Yi è indipendente da Yj per ogni coppia i, j con i 6= j (questo equivale all’indipendenza degli errori εi ); (5) rango pieno, che la matrice X sia non stocastica e a rango pieno (pari a p). Nel seguito, passiamo in rassegna i rimedi principali allo scostamento da ciascuna delle ipotesi del modello. 7.1 Non linearità Per ragionare di modelli non lineari possiamo metterci in due diverse prospettive: una forma funzionale per la relazione tra Y e x è suggerita, a meno di alcuni parametri, dalla teoria sottostante al fenomeno che Y e x descrivono (ad es. una teoria fisica o economica), oppure dobbiamo studiare la relazione tra le quantità senza pregiudizi. Ragionando nella prima prospettiva, chiediamoci quali relazioni funzionali possono essere inquadrate nel modello lineare. Anzitutto, va ricordato che l’ipotesi di linearità si riferisce ai parametri, non alle variabili, il che significa che nel modello lineare rientrano quelle situazioni in cui E(Y ) è legata linearmente a uno o più trasformati di x, Yi = β1 + β2 g2 (xi ) + . . . + βp gp (xi ) + εi (7.3) 7. Limiti del modello lineare e cenni alle principali estensioni 141 con g2 , . . . , gp funzioni note. Ancora, la classe di relazioni è ulteriormente ampliabile se si considerano trasformazioni della Y , ad esempio una relazione del tipo Yi = α1 xαi22 eα3 xi3 εi è linearizzabile nella forma log Yi = log α1 + α2 log xi2 + α3 xi3 + log εi , (7.4) e si specifica quindi un modello lineare con la variabile risposta Y ∗ = log Y , si noterà che in tal modo si specifica un modello normale per log εi e log Yi |x(i) e quindi lognormale per gli errori εi e per Yi |x(i) . Distinguiamo i due tipi di trasformazione, relativi alle sole esplicative (7.3) o relativi anche alla variabile risposta (7.4) per sottolineare che nel primo caso la trasformazione è compatibile con l’ipotesi di normalità e omoschedasticità della Y |x, nel secondo caso no. In altre parole una trasformazione del tipo (7.3) può rimediare alla non linearità del modello espresso dalle ipotesi (i)-(iv) senza modificarne altri aspetti, mentre una trasformazione del tipo (7.4) porta a modificare l’ipotesi distributiva. Insomma, se si ritiene che Y |x sia normale e non si è disposti ad abbandonare tale ipotesi, il ricorso al modello lineare dopo trasformazioni del tipo (7.4) è precluso (salvo quanto detto nella sezione 2). Ragionare nella seconda prospettiva significa che, osservato che la relazione tra Y e x non è adeguatamente descritta da un’applicazione lineare (questo può venire dall’analisi esplorativa iniziale o, più realisticamente se le esplicative sono più d’una, dall’analisi dei residui), si cerca una trasformazione del tipo (7.3) o del tipo (7.4) che ‘linearizzi’ la relazione. Tranne che nel caso di un’unica variabile esplicativa questo è un modo poco realistico di procedere, e anche poco efficiente dato che le trasformazioni possibili sono infinite. È in ogni caso ragionevole √ provarne alcune, tipicamente x, 1/x, x2 o log x o analoghe per y, è comunque più tipico usare le trasformazioni per la risposta per stabilizzare la varianza o normalizzare (vedi poi). 7.1.1 Interpretazione con un modello trasformato È anche rilevante osservare che, trasformando, si perde in parte la semplicità di interpretazione, in particolare, con entrambi i tipi di trasformazione la misura della variazione di Y ‘dovuta’ a x non è più costante e sintetizzabile completamente da un parametro; se poi la trasformazione coinvolge la Y (nello stile della (7.4)) non si dispone, in generale, neppure di un modello per la media di Y . Nel caso di trasformazioni del tipo (7.3) il modello per la media di Y è E(Y ) = β1 + β2 g2 (x) + . . . + βp gp (x) (7.5) ma non c’è più un coefficiente interpretabile come variazione di Y corrispondente a una variazione unitaria di x indipendente dal livello di partenza2 . 2 Ad esempio, per il semplice modello Y = β1 + β2 x2 + β3 z + ε si ha, in corrispondenza a (x + ∆x, z) il valor medio Y1 = β1 + β2 (x + ∆x)2 + β3 z e quindi la variazione tra (x, z) e (x + ∆x, z) è Y1 − Y = 2β2 x∆x + β2 (∆x)2 dipende anche dal livello di partenza x. 142 7.1. Non linearità Nel caso di trasformazioni del tipo (7.4) si modella la media di una variabile diversa dalla variabile risposta originale. Non si potrà quindi ricavare un modello per la media della risposta originale, al più si potrà ricavare una previsione della risposta sulla scala originale, il modello è infatti E(f (Y )) = Xβ, da cui, a meno del caso privo d’interesse in cui f è lineare, non si può ricavare E(Y ). Si può ottenere una previsione per Y da f[ (Y ) = X β̂ scrivendo Ŷ = f −1 (X β̂) (7.6) da cui si possono ottenere intervalli di confidenza sulla base del modello per il trasformato. Si noterà peraltro che una variazione unitaria di una delle esplicative porta a una variazione della risposta che dipende sia dal livello di partenza che dai livelli delle altre esplicative3 . Esempio 7.1 Log-normale Si può apprezzare meglio la differenza tra le diverse quantità coinvolte in un esempio in cui tute le quantità rilevanti sono calcolabili in forma chiusa. Si consideri allora il modello Yi∗ = log Yi ∼ N β1 + β2 x, σ 2 (7.7) allora Yi è log-normale con parametri β1 + β2 xi e σ 2 , si ha perciò la media σ2 E(Yi ) = exp β1 + β2 x + , 2 e la varianza 2 2 V (Yi ) = (eσ − 1)eβ1 +β2 x+σ . (Si noti che Yi ha varianza non costante, la trasformazione col logaritmo stabilizza anche la varianza.) Si può quindi usare la previsione di Yi s2 \ Ŷi = E(Y ) = exp β̂ + β̂ x + , (7.8) i 1 2 2 con β̂1 , β̂2 e s2 gli usuali stimatori per il modello (7.7). La previsione per Yi nell’ottica di (7.6) è invece Ŷi = exp {β1 + β2 xi } 3 Si consideri il caso semplice in cui f (Y ) = √ (7.9) Y e il modello ha due esplicative x e z, allora la previsione è Ŷ = (β̂1 + β̂2 x + β̂3 z)2 se x aumenta di ∆x la previsione diventa Ŷ1 = (β̂1 + β̂2 (x + ∆x) + β̂3 z)2 e quindi Ŷ1 − Ŷ = β22 (∆x)2 + 2β̂1 β̂2 ∆x + 2β̂22 x∆x + 2β̂2 β̂3 z∆x. Nel caso di variazione unitaria di x, ad esempio, Ŷ1 − Ŷ = β22 + 2β̂1 β̂2 + 2β̂22 x + 2β̂2 β̂3 z. La variazione quindi dipende tanto da x che da z. ● ● ● ●● ● ● ● ● ● ●● ● ● ● ● 40 ● ●● Y 3 2 1 ●● 0 log(Y) ● ● ● ● ● ● ●● ●● ● ● ● ● ● ●● ● ●● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ●● ● ● 10 −1 0.0 ● ● 0 0.5 ● ● 1.0 1.5 ● ●● ● ● ●● ● ● ● ● ●● ● ●● ● ● ● ●● ● ● ● ● ● ● ● ● ●●●● ●● ●●●●● ●● ● ● ●● 0.0 0.5 x ● ● ● ● ● ● ● ●● ● ●● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● 50 ● ● ● 30 ● ● ● ● 143 20 4 7. Limiti del modello lineare e cenni alle principali estensioni ● ● ● ● ● ● ●● ● ● ●● ● ● ● ● ●● ● ● ● ● 1.0 1.5 x Figura 7.1: Diagrammi di dispersione e funzioni di regressione stimate per l’esempio con i dati log-normali 2 (che è minore della previsione (7.8) dato che σ 2 > 0 e quindi eσ /2 > 1). Nei due grafici in figura 7.1 si riportano le quantità descritte sopra per un campione di 100 unità, simulato con β1 = 1/2, β2 = 3/2 e σ 2 = 1. Nel grafico a sinistra si riporta la retta stimata tra log Yi e xi (β̂1 + β̂2 x, linea continua) e la vera retta di regressione (β1 + β2 x, linea continua). Nel grafico a destra si usa invece la scala di Y , e si riportano in rosso continuo la funzione (7.8) e in rosso tratteggiato la corrispondente vera funzione; in verde continuo si è rappresentata la (7.9) e col tratteggio la corrispondente vera funzione. La retta rappresentata in blu è la retta di regressione stimata tra Yi e xi . • 7.1.2 Modelli polinomiali e estensioni Una strategia abbastanza generale per modellare una relazione non lineare tra Y e x col metodo (7.3) è il modello polinomiale, in cui gj (x) = xj . Questa è la più ovvia estensione del modello lineare: si mantiene una certa semplcità e allo stesso tempo si considera una classe molto ampia di forme funzionali (se si lascia tendere p a +∞ si ottiene una classe densa nell’insieme delle funzioni C +∞ , ovvero si ricordi che qualunque funzione in C +∞ può essere approssimata da un polinomio mediante lo sviluppo di Taylor). In effetti, però, l’uso di funzioni potenza può portare problemi di multicollinearità, per cui per il loro impiego occorre apportare dei correttivi. L’uso di potenze della variabile esplicativa è in effetti alla base di altri modelli, ad esempio quelli basati su funzioni spline, in cui non si assume una specifica forma funzionale per la relazione da stimare. Esempio 7.2 Regressione polinomiale Nel grafico si riporta un esempio di regressione polinomiale su dati simulati da Yi = g(x) + εi . Si sono stimati, per p = 1, . . . , 9, i modelli Yi = β 1 + p X β1+j xj + εi , IND εi ∼ N 0, σ 2 . j=1 Nei nove grafici in figura 7.2 si riportano la vera funzione g(x) (in rosso) e la stima di E(Y |x) in accordo al modello (sono in ordine lessicografico) con l’intervallo di confidenza associato. • 144 7.1. Non linearità ● ● ● ●● ● 0.0 0.5 1.0 1.5 2.0 0.0 0.5 1.0 1.5 2.0 2 ● 1 ● ● ● 0 ●● ● ● ●● ●● ● ● ● ● ● ● ● 0.0 0.5 1.0 1.5 2.0 ● ● ● ● 0.0 0.5 1.0 1.5 2.0 ● −1 2 1 0 ● ● −1 ● ● 2 ● ● ● 1 ● ● ● ●● ● ● ● ● ● ●● ● ●●● ● ● ● ●● 0 ● ● ● ● ● ●●● ● ● ● ●● ●● ● ● ● ● ● ● ●● ●● ● ● ● ● ● ● ● 0.0 0.5 1.0 1.5 2.0 ● ● ● ●●● ● ● ● ●● ● ●● ● ● ● 2 ● ● ● 0.0 0.5 1.0 1.5 2.0 ● ● 1 ● ● ● ● ● ● ● 0 ●● ● ● ● ● ●● ● ● ● ● ● −1 2 1 ●● ● ● ● ● ● 0 1 ● ● ●● ● ● ●●● ● ● ● −1 2 ● ● ●● ● ●● ● ● ●●● ● ● ● −1 0 ● ● ● ● ● ● ● ● ● ● ● ● 0.0 0.5 1.0 1.5 2.0 ● ● ● 2 ● 1 ● ● ● ●● ● ● ● ● ● ● ● 0 ●● ● ● ●● ●●● ● ● ● −1 2 ●● ● ● ● ● ● ● ● ● ● ●●● ● ● ● ● ● −1 ● ● ● ● 1 ● ● ●● 0 ● ● −1 0 1 ● ● ● ●●● ● ● ● ● ● −1 2 ● 0.0 0.5 1.0 1.5 2.0 ● ● ● ●●● ● ● ● ●● ● ● ●● ●● ● ● ● ● ● ● 0.0 0.5 1.0 1.5 2.0 Figura 7.2: Regressione con polinomi di grado via via crescente 7. Limiti del modello lineare e cenni alle principali estensioni 145 7.2 Non normalità L’ipotesi di normalità serve, in sostanza, per l’inferenza sui parametri; rinunciando ad essa gli stimatori dei minimi quadrati mantengono buone proprietà, essi sono corretti e efficienti (cioè a varianza minore) tra gli stimatori lineari corretti (teorema di Gauss-Markov, si veda la sezione 2.1). È perciò possibile rinunciare semplicemente all’ipotesi di normalità e interpretare i risultati in termini di minimi quadrati e geometrici. In assenza però dell’assunto di normalità, non valgono i risultati sulla base dei quali si fa inferenza sui parametri, in particolare rimane non determinata la distribuzione di probabilità degli stimatori e, di conseguenza, non è immediato ottenere regioni di confidenza o effettuare verifiche d’ipotesi (si può, ad esempio, usare tecniche basate sul ricampionamento). Se l’ipotesi di normalità non è tenibile per Y ciò non significa che non sia valida per un trasformato di Y , fermi restando i problemi interpretativi di un modello trasformato già discussi nella sezione 1.1. Nella sezione 2.2 si illustrano alcune classi di trasformazioni e un metodo per l’individuazione della miglior trasformazione dal punto di vista della normalizzazione. 7.2.1 Ipotesi del II ordine e teorema di Gauss-Markov Il termine ipotesi del II ordine nasce dal fatto che, della distribuzione dell’errore, ovvero della risposta, si considerano solo i primi due momenti. In particolare si assume (a) Y = Xβ + ε; (b’) V (ε) = σ 2 I; (c) X non stocastica a rango pieno. Dove rispetto al modello usuale si è sostituita l’ipotesi (b) con (b’): non si fanno ipotesi sulla distribuzione dell’errore ma si assume che la matrice di varianza e covarianza sia una costante per la matrice identica. Si noti che questo equivale a omoschedasticità e non correlazione degli errori (non si parla in questo caso di indipendenza). Si definisce allora lo stimatore dei minimi quadrati per β β̂ = argmin(y − Xβ)T (y − Xβ) (7.10) β∈Rp esso è dato da β̂ = (X T X)−1 X T y, funzione lineare della y. Per lo stimatore dei minimi quadrati si hanno le proprietà 1. Gli stimatori dei minimi quadrati sono corretti: E(β̂) = β; 2. La varianza degli stimatori dei minimi quadrati è V (β̂) = σ 2 (X T X)−1 . Inoltre, sotto tali condizioni gli stimatori di β dei minimi quadrati sono i più efficienti tra gli stimatori lineari non distorti, come espresso nel Teorema 2.1 Gauss-Markov. Nelle ipotesi (a), (b’), (c) e indicando con β̂ lo stimatore dei minimi quadrati, se β̃ è uno stimatore lineare e corretto di β, allora, V (β̃i ) ≥ V (β̂i ) ∀i = 1, . . . , p. 146 7.2. Non normalità Si può mostrare questo fatto scrivendo lo stimatore β̃ come β̃ = (A+C)y dove A = (X T X)−1 X T , si è cioè espresso β̃ come la somma di β̂ = Ay e di una c.l. di y, questo è sempre possibile se β̃ è lineare. In virtù del fatto che β̃ è corretto si ha poi, per ogni β, β = E(β̃) = (A + C)E(y) = (A + C)Xβ = β(I + CX) (essendo AX = I), si ha allora CX = 0. La varianza è dunque V (β̃) = V ((A + C)y) = (A + C)V (y)(A + C)T = σ 2 (AAT + CAT + AC T + CC T ) ma CAT = C((X T X)−1 X T )T = CX(X T X)−1 = 0 e analogamente AC T = 0, sicché V (β̃) = σ 2 (X T X)−1 + σ 2 CC T = V (β̂) + σ 2 CC T siccome i termini diagonali di CC T sono non negativi (somma di quadrati) si ha la tesi. Questa proprietà si estende a combinazioni lineari di β nel senso che ψ̂ = aT β̂ è lo stimatore più efficiente di ψ = aT β tra gli stimatori lineari non distorti. Entrambe le affermazioni seguono immediatamente dalla seguente formulazione del teorema. Teorema 2.2 Gauss-Markov II. Nelle ipotesi (a), (b’), (c) e indicando con β̂ lo stimatore dei minimi quadrati, se β̃ è uno stimatore lineare e corretto di β, allora V (β̃) ≥ V (β̂) nel senso che V (β̃) − V (β̂) è semidefinita positiva. DIM: Se β̃ è uno stimatore lineare, allora esso può essere scritto come β̃ = C T y per una qualche matrice C (n × p), allora V (β̃) = σ 2 C T C e, ricordando anche che V (β̂) = σ 2 (X T X)−1 , potremo scrivere V (β̃) − V (β̂) =σ 2 (C T C − (X T X)−1 ). Essendo poi β̃ corretto si ha C T E(y) = C T Xβ = β e quindi C T X = X T C = I, si può scrivere perciò V (β̃) − V (β̂) =σ 2 (C T C − C T X(X T X)−1 X T C) =σ 2 C T (I − P )C, essendo però (I − P ) idempotente si ha, per qualunque a ∈ Rp , aT C T (I − P )Ca = aT C T (I − P )T (I − P )Ca = ||(I − P )Ca||2 ≥ 0, come volevasi dimostrare. Da questo discende che 7. Limiti del modello lineare e cenni alle principali estensioni 147 1. V (β̃i ) ≥ V (β̂i ) poiché i termini sulla diagonale di una matrice semidefinita positiva sono non negativi. 2. posto ψ̃ = aT β̃ si ha allora V (ψ̃) = aT V (β̃)a e quindi V (ψ̃) − V (ψ̂) = aT V (β̃)a − aT V (β̂)a = aT (V (β̃) − V (β̂))a ≥ 0. 7.2.2 Trasformazioni di Box-Cox È in molti casi possibile rintracciare un trasformato della variabile originale la cui distribuzione è approssimativamente normale. A questo fine sono stata proposte diverse classi di trasformazioni convenienti, la più famosa tra queste è detta, dai nomi dei proponenti, di Box-Cox ( λ y −1 λ 6= 0, λ yλ = φλ (y) = (7.11) log y λ = 0; e coinvolge in sostanza le funzioni potenza con esponente positivo e la funzione logaritmo. Le trasformazioni (7.11) sono ovviamente valide solo per y > 0, un’estensione per y qualunque è ( (y+ν)λ −1 λ 6= 0, λ yλ,ν = φλ,ν (y) = (7.12) log(y + ν) λ = 0. Il parametro λ può essere scelto per tentativi, provando l’effetto di diversi valori sulla distribuzione, oppure stimato col metodo della massima verosimiglianza. 2 L’assunzione yλ ∼ N Xβ, σ I permette di scrivere la funzione di densità di yλ , 1 2 −n/2 T f (yλ ) = (2πσ ) exp − 2 (yλ − Xβ) (yλ − Xβ) (7.13) 2σ per ottenere la funzione di verosimiglianza di λ occorre scrivere la funzione di densità di Q y, pari a f (y) = f (yλ )J(λ, y) dove J(λ, y) è lo Jacobiano di trasformazione, pari a J(λ, y) = ni=1 yiλ−1 , si ha allora Y n 1 2 2 −n/2 T L(λ, β, σ ) ∝ f (y) = (2πσ ) exp − 2 (yλ − Xβ) (yλ − Xβ) yiλ−1 . (7.14) 2σ i=1 Si ottiene allora facilmente la verosimiglianza profilo per λ Lp (λ) = argminL(λ, β, σ 2 ) β,σ 2 poiché il massimo a destra si ottiene, fissato λ, per β̂λ = (X T X)−1 X T yλ , σ̂λ2 = (yλ − X β̂λ )T (yλ − X β̂λ )/n e quindi Lp (λ) = L(λ, β̂λ , σ̂λ2 ) n n n oY 2 ∝ exp − log σ̂λ yiλ−1 , 2 i=1 148 7.2. Non normalità Estimate Std. Error t value Pr(>|t|) (Intercept) 4.6271 2.5185 1.84 0.0724 x 11.9775 1.8616 6.43 0.0000 Tabella 7.1: Stima del modello lineare per i dati della figura 7.3 da cui n X n n lp (λ) = − log σ̂λ2 + (λ − 1) log yi = − log 2 2 i=1 σ̂λ2 ( ! 2(λ−1)/n i=1 yi ) Qn Si noti che T σ̂λ2 1 yλ − X β̂λ yλ − X β̂λ 1 T s2λ = Qn = Q = yλ,g (I − P )yλ,g , 2(λ−1)/n Qn n n 1/n λ−1 1/n λ−1 n ( i=1 yi ) y y i=1 i i=1 i Q 1/n dove yλ,g = yλ /( ni=1 yi ) e P è la matrice di proiezione associata al modello. La quantità ns2λ è quindi la somma dei quadrati dei residui per il modello yλ,g = Xβ + ε, e questo fornisce un modello per ricavare in maniera semplice la stima di λ e la log-verosimiglianza profilo. Quale che sia il metodo, è usuale determinare λ, calcolare il trasformato conseguente e poi impiegare il modello lineare. In altre parole, l’inferenza sul modello lineare (su β e σ 2 ) è fatta condizionatamente al valore scelto per λ, è stato argomentato che questo ha un effetto contenuto sui risultati. Esempio 7.3 trasformazione di Box Cox Si considerino i dati (xi , yi ), i = 1, . . . , 50 rappresentati nel diagramma di dispersione nella figura, adattando ad esso il modello lineare yi = β1 + β2 xi + εi . si ottiene la stima riportata nella tabella 7.1 con coefficiente di determinazione 0.463, l’esame dei grafici dei residui mostra che essi sono asimmetrici (secondo e terzo pannello), e lo scostamento dalla normalità è evidente. Si procede perciò a cercare una trasformazione normalizzante tra quelle di Box-cox, e si disegna perciò la log-verosimiglianza profilo (figura 7.4). Questa è massima in λ̂ = −0.1, si trasformano perciò i dati secondo la yλ̂ = (y −0.1 − 1)/ − 0.1 e si stima un nuovo modello, yλ̂,i = β10 + β20 xi + ε0i ottenendo le stime con coefficiente di determinazione 0.573, la cosa più interessante è comunque che i residui del modello stimato dopo la trasformazione sono compatibili con l’ipotesi di normalità (figura 7.5). Nell’ultimo pannello si confronta la previsione di Y ottenuta col modello iniziale (in nero) e quella ottenuta col modello trasformato (in rosso), ŷˆ = (λ̂ŷλ̂ + 1)1/λ̂ = (λ̂(β̂10 + β̂20 x) + 1)1/λ̂ . • 40 7. Limiti del modello lineare e cenni alle principali estensioni 149 20 ● ● ● ● ● ● ● ● ● 0.5 ● ● ● 1.0 1.5 2.0 ● ● ● ● ● ● ●● ●● ● ●● ● ● ● ● ● ● ● ● ● 15 x ●● ● ● ● ● ● ● 20 ● ● 3 2 10 ● ●● ● ●● ● ● ●● ● ● ● ● 1 15 ● ● −5 ● 10 ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ●● ● ● ●● ● ● ● ● 47 ● ●4 ● 13 ● ● ●● ● ●● ●● ●●●● ●●● ●● ●● ● ● ●●●●● ●●●● ●●●●● ●●● ● ● ●● 0 ● 13 ● −1 y ● ● ●4 5 ● Residuals 30 ● ● ● ● ● 47 0 ● ● Standardized residuals ● ● 25 −2 −1 0 1 2 Fitted values Theoretical Quantiles lm(y ~ x) lm(y ~ x) −175 −185 95% −195 log−Likelihood Figura 7.3: Dati per l’esempio 3 e analisi dei residui −2 −1 0 1 2 λ y ● 20 ● 0.5 ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● 1.5 2.0 ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● 1.0 ●● ● ●● x Figura 7.5: 3) ● ● ●● ●● ● ●● ● ● ● ● ● ● ● ● ● 2.2 2.4 2.6 2.8 3 47 ● ● 4● 44 2 ● ● ● ● ●●● ●● ● ●●●● ●● ●● ●● ●●● ● ●● ●●● ●●● ●●●●● ●● ●●●● ● ●● ● −2 ● ● ● ● ● ●● ● ● ● ● ●● ● ● ● ●● −0.4 ● ● ● 10 ● ● ● 4● 1 ● ● 44 0 ● Residuals 30 ● ● ● 47 −1 ● ● Standardized residuals ● 0.0 0.2 0.4 0.6 40 Figura 7.4: Verosimiglianza profilo per λ con i dati dell’esempio 3 ● −2 −1 0 1 Fitted values Theoretical Quantiles lm(yt ~ x) lm(yt ~ x) 2 Dati trasformati e analisi dei residui dopo la trasformazione di Box-Cox (esempio 150 7.3. Eteroschedasticità Tabella 7.2: Box-Cox 7.2.3 Estimate Std. Error t value Pr(>|t|) (Intercept) 1.8823 0.0862 21.84 0.0000 x 0.5109 0.0637 8.02 0.0000 Stima del modello lineare per i dati della figura 7.3 dopo la trasformazione di Modelli lineari generalizzati L’opzione di trasformare può risultare inadeguata, o perché si necessita di un modello per Y e non per il trasformato o perché non esiste una trasformazione normalizzante, come è ad esempio il caso qualora Y sia discreto. Una classe di modelli per variabile risposta non normale è data dai modelli lineari generalizzati, in cui si si assume per la variabile risposta una distribuzione del tipo yθi − b(θi ) Yi ∼ f (y, θi , ν) = exp − + κ(y, ν) (7.15) ν e che una funzione della media sia funzione lineare delle variabili esplicative, g(E(Yi )) = (x(i) )T β. (7.16) Si noti che le ipotesi (7.15) e (7.16) sostituiscono le ipotesi (7.2) e (7.1) del modello lineare. Si noti altresı̀ che il modello lineare è un caso particolare di modello lineare generalizzato, la distribuzione normale in (7.2) può infatti essere scritta nella forma (7.15) come 1 y2 1 2 2 2 (2yµi − µ ) − 2 − log(2π) − log σ f (y, µi , σ ) = exp 2σ 2 2σ 2 e la (7.16) con g funzione identica equivale alla (7.1). Nella classe (7.15) rientrano numerose distribuzioni, continue e discrete quali la distribuzione gamma, la Poisson, la binomiale. Con i GLM si modella dunque la media della variabile risposta, legando quest’ultima a una funzione lineare delle variabili esplicative. Si noti che non si ha (salvo nel caso della normale?) la struttura additiva segnale+errore del modello lineare. Si noti infine che alcuni GLM prevedono specifiche forme di eteroschedasticità (ad esempio nel modello di Poisson V (Y ) = E(Y ), queste sono legate all’ipotesi distributiva, l’uso dei GLM non è, pertanto, una soluzione al problema dell’eteroschedasticità, è però vero che in caso di non normalità il problema di non normalità e quello di eteroschedasticità possono essere legate e quindi risolte a un tempo col ricorso a un GLM. 7.3 Eteroschedasticità Ci si ponga nella situazione in cui V (Yi |x(i) ) = σi2 , in questo caso lo stimatore dei minimi quadrati è corretto ma non efficiente, è ancora normale ma la matrice di varianza è (X T X)−1 X T V (Y |X)X(X T X)−1 , non valgono di conseguenza i consueti risultati su cui è basata l’inferenza. 7. Limiti del modello lineare e cenni alle principali estensioni 151 Nel seguito si trattano due possibili rimedi, nel primo si modifica il modello trasformando la variabile risposta (si parla di trasformazioni per stabilizzare la varianza), nel secondo il modello è invariato ma si modifica il metodo di stima, usando i minimi quadrati generalizzati. 7.3.1 Trasformazioni per stabilizzare la varianza Un’opzione è, anche qui, operare una trasformazione della Y , questa è un’alternativa efficace se la varianza di Y è legata alla media, V (Yi ) ≈ kh(E(Yi )), in tal caso infatti una trasformazione Yi∗ = g(Yi ) ha varianza approssimativamente costante se h ∝ 1/(g 0 )2 , con il metodo delta infatti si ha che V (g(Yi )) ≈ g 0 (E(Yi ))2 V (Yi ) = k. Alcune trasformazioni che stabilizzano specifici schemi di varianza seguono nella tabella. schema h(µ) V (Y ) = E(Y ) V (Y ) = E(Y )2 V (Y ) = E(Y )3 V (Y ) = E(Y )(1 − E(Y )) µ µ2 µ3 µ(1 − µ) g(y) √ y log y y −1/2 √ sin−1 y (g 0 (y))−2 4y y2 4y 3 4y(1 − y) Si noti in particolare che la prima trasformazione può essere utile quando i dati sono conteggi, distribuiti secondo una Poisson, in tal caso se i valori sono sufficientemente grandi può essere ragionevole adottare l’ipotesi di normalità, occorre però trasformare per rendere le Yi omoschedastiche. L’ultima trasformazione invece è utile quando le osservazioni sono proporzioni relative a variabili dicotomiche. Una proporzione è compresa tra 0 e 1 e questo porterebbe ad escludere il modello normale, tuttavia se le proporzioni osservate sono sufficientemente discoste da 0 e 1 il modello normale può essere accettabile. Rimane il fatto che la varianza di una proporzione è legata alla media secondo la relazione sopra e quindi la trasformazione risulta opportuna. Esempio 7.4 Trasformazione radice quadrata Si considerino i dati (xi , Yi ) nella figura, stimando su essa il modello Yi = β1 + β2 x + εi si ottiene la stima riportata nei pannelli superiori della figura 7.7, dall’analisi dei residui emerge il carattere eteroschedastico degli stessi. √ Si procede perciò a trasformare la variabile risposta definendo Yi∗ = Yi , che pare una valida opzione, e l’analisi dei residui è soddisfacente (seconda riga della figura 7.6). • 152 7.3. Eteroschedasticità 6 8 26 ● 10 ● ● 4 ● ● ● ● ●● ● ● ●●● ●● ●● ● ● ● ● ● ● ●● ●● ● ●● ● ● 6 8 10 ● ● ● ● ● ● ● ● ● ● ●2 2 x ● ● ●● ● ● 4 ● ● ● ● ●● ● ● 3 2 1 50 26 ● 3 −2 −1 0 1 2 lm(y ~ x) ● ● ● ● ● ● 40 Theoretical Quantiles ● ● ● −1.5 2 3 ● ●● 1 30 lm(y ~ x) ● ● ●● Fitted values ● ● ● 2 20 ● 39 ●● 0.5 6 5 ● ●●● ● ● ●● ● ● ● Residuals ●● ● ● ● y* ● ● ● ● 26 10 −0.5 7 ● 0 ● ●● ●●● ●● ●● ● ●●● ●●● ● ● ●●●●● ●● ● ●●●● ●●●● ●● ● ● ● ● ●●● 4 5 6 ● 2 4 ● ● ● ● x ● ● ● ● 2 ● ● ●● ●●● ●● ●● ● ● ● ● ●●● 0 ● ● ● ● ● ● ● 0 ●● ● ● ●● ● ● ● ● −2 ● ●● ● ● ● ● 39 ● ●●● ● ● 1 ● ● ● ●● ● ●● ●●● ●●● ●● ●● ● ●● ● ●● ●●●●●● ●●● ●● ● ● ●● ● ●● 0 ● ● 25 ● 22 ● −1 ● ● ● ●● ● ● ● ● ● ● ● ●● ● ●● Standardized residuals ● ● ● ● ● ● 5 ● ● Standardized residuals ● Residuals ● ● 22 ● −2 ● ● ● ●●● ● ● ●● ● ●● −5 ● 25 ● 15 ● ● ●● −15 10 20 30 40 50 0 y ● 7 ● 26 ●2 −2 −1 0 1 2 Fitted values Theoretical Quantiles lm(yt ~ x) lm(yt ~ x) Figura 7.6: Dati e modelli per l’esempio 4, la prima riga fa riferimento alle stime sulla variabile originale, quella inferiore alla trasformazione 7.3.2 Minimi quadrati generalizzati I minimi quadrati generalizzati (GLS da Generalized Least Squares) sono un metodo di stima alternativo, usando il quale si mantiene invariata la struttura del modello, si ha cioè ancora Y = Xβ + ε, (7.17) ma si sostituisce l’ipotesi di omoschedasticità con l’ipotesi V (ε) = σ 2 Ω, dove Ω è una matrice diagonale nota. La log-verosimiglianza del modello è allora n 1 l(β, σ 2 ) = − log σ 2 − 2 (y − Xβ)T Ω−1 (y − Xβ) 2 2σ (7.18) e quindi lo stimatore di massima verosimiglianza è4 β̂ = argmin(y − Xβ)T Ω−1 (y − Xβ) = (X T Ω−1 X)−1 X T Ω−1 y. β 4 La funzione SQ(β) = (y − Xβ)T Ω−1 (y − Xβ) = yT Ω−1 y − 2β T X T Ω−1 y + β T X T Ω−1 Xβ e quindi lo SMV è definito eguagliando a zero il gradiente 0= d SQ(β) = −2β T X T Ω−1 y + 2X T Ω−1 Xβ dβ e quindi β̂ = (X T Ω−1 X)−1 X T Ω−1 y.. (7.19) 7. Limiti del modello lineare e cenni alle principali estensioni 153 Diventa poi banale calcolare la matrice di varianza e successivamente fare inferenza sui parametri, si noti infatti che β̂ è ancora una funzione lineare delle osservazioni. Si noti che, rispetto ai minimi quadrati ordinari, con i GLS si minimizza la funzione n X 1 SQg = (yi − (xi1 , . . . , xip )β)2 . (7.20) ωii i=1 I contributi alla somma dei quadrati ordinari vengono pesati in ragione di 1/ωii , ossia in ragione del rapporto tra varianze: maggiore è ωii , cioè maggiore la varianza dell’errore dell’osservazione i-esima, minore è il peso del relativo scarto. In altre parole, si pesano poco gli scostamenti dalle yi ove la varianza è maggiore. Inoltre, si può interpretare la stima GLS come una stima OLS su dei dati trasformati linearmente: posto Ω−1 = GT G lo stimatore GLS è lo stimatore OLS per il modello con risposta Y ∗ = GY e X = GX. Se la matrice Ω non è nota, l’inferenza si complica ma rimane possibile. Esempio 7.5 Stima GLS Si considerino i dati riportati nel grafico sotto, per i quali è noto che la varianza è 64 volte più grande quando x < 1/4 o x > 3/4. Tale eteroschedasticità è evidente già dall’esame del diagramma di dispersione (figura 7.7(a)), ancor più se si guarda aall’analisi dei residui del modello lineare stimato con OLS (figura 7.7(b) e (c)). Si stima dunque il modello con il metodo GLS, si noti dal confronto tra le tabelle 7.3 e 7.3 che cambiano tanto i valori delle stime che gli errori standard, tali differenze non sono apprezzabili se si guarda ai grafici in figura 7.7(d) - (f ) (si noti, i residui dei GLS non devono essere omoschedastici, ma dell’eteroschedasticità si è tenuto conto nel calcolare stime e relativi s.e.). • β0 β1 Stima S.E. t Pr(>|t|) Stima S.E. t Pr(>|t|) 0.5059 0.4433 1.14 0.2594 β0 0.7952 0.3364 2.36 0.0222 1.7058 0.6779 2.52 0.0153 β1 1.3529 0.5568 2.43 0.0189 Tabella 7.3: Stime OLS (sinistra) e GLS (destra) per i dati dell’esempio 5 7.4 Dipendenza Come nel caso dell’eteroschedasticità, si possono usare i GLS, che permettono di specificare una matrice di covarianza degli errori non diagonale. Altrimenti, si potrà ricorrere a modelli per serie storiche. 7.5 Multicollinearità Se la matrice X non è a rango pieno il modello non è identificato, l’unico rimedio in questo caso è ridurre il numero di variabili esplicative. 154 7.5. Multicollinearità ● ● ●● ●● ● ●●● ● ● ●● ●● ● ● ● ●● ●● ● ● ● ● ● ● ● ● ● ● ● 0 ● −2 ● ● ● ● ● ●● ●● ● ● ●● ● ●●● ●● ●● ●● ●● ●● ● ● ●● ● ● ● ● ● ● ● ● ● ●2 ● ● ● ●6 ● 0.0 0.2 0.4 0.6 0.8 1.0 0.5 1.0 x (a) 1.5 3 2 ●● ●● 1 2 ● ● −2 ● ● ● ● 0 ● 2 y ● ● ● Residuals ● ● ● 38 ● ● ● ● ● ● ●●● ●●●●●●● ●●●●●●● ●●●●● ●● ● ●●● ●●●●● ●●● 0 4 ● ● Standardized residuals 4 38 ● ●● −2 6 ● 2.0 ●2 ●6 −2 −1 0 1 2 Fitted values Theoretical Quantiles lm(y ~ x) lm(y ~ x) (b) (c) ● ●● ●● ● ●●● ● ● ●● ●● ● ● ● ●● ●● ● ● ● ● ● ● ● ● ● ● ● 0 ● ● ● ● 0.0 0.2 0.4 0.6 x 0.8 1.0 ● ● ●● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● 0.8 ● ● ●●● ● ●● ●● ●● ●● ●● ● ● ● ●2 ● ● ●6 1.2 1.6 2.0 3 2 ● ●● ●● ● 1 2 ● ● ● −4 −2 ● ● ● 0 ● ● Residuals ● 2 y ● −2 ● ● ● 38 ● ● ● ●●●● ●●●●●● ●●●●●● ●● ●● ●●● ●● ●●● ●●●●●● ●● ● ●● 0 4 ● ● ● Standardized residuals 4 38 ● ● −2 6 ● ●2 ●6 −2 −1 0 1 Fitted values Theoretical Quantiles lm(y ~ x) lm(y ~ x) 2 (d) (e) (f ) Figura 7.7: Dati e stime per l’esempio 5, la prima riga fa riferimento alle stime OLS, quella inferiore alla stime GLS 7. Limiti del modello lineare e cenni alle principali estensioni 155 Più interessante è il caso in cui la matrice X sia a rango pieno ma con determinante di X T X vicino a 0, cioè le variabili esplicative sono linearmente indipendenti ma vicine alla lineare dipendenza. Questo, com’è noto, porta a varianze degli stimatori elevate e, spesso, stime difficilmente interpretabili. Anche qui, l’esclusione di alcune delle esplicative è una possibile soluzione, se però si vogliono mantenere tutte le variabili nel modello si può usare la ridge regression (regressione contratta?). 7.5.1 Ridge regression L’idea nella ridge regression consiste nel modificare la matrice X T X in modo da incrementare il valore del determinante, si definisce allora lo stimatore β̂R = (X T X + λI)−1 X T y (7.21) che è uno stimatore distorto ma con varianza minore dello stimatore dei minimi quadrati β̂. Lo stimatore β̂R può essere interpretato in due modi equivalenti, β̂R = argmin(y − Xβ)T (y − Xβ) + λβ T β (7.22) β ma anche β̂R = argmin (y − Xβ)T (y − Xβ) (7.23) β:||β||2 ≤c In sostanza si penalizzano nella stima valori elevati dei coefficienti, ovvero si impone una contrazione degli stessi verso lo zero, contenendone cosı̀ la varianza. Seguendo la (7.22) si può interpretare β̂R in ottica bayesiana come moda della distribuzione a −1 posteriori di β con una a priori β ∼ N 0, λ . Il problema della scelta di λ corrisponde a un problema di selezione del modello, ove va contemperata l’esigenza di contenere la distorsione (che cresce con λ) con quella di ridurre la varianza (che decresce con λ). Sono quindi utilizzabili metodi per il confronto tra modelli (non nidificati) come ad esempio la validazione incrociata. Indice analitico Bartlett, test di, 44 normalità, test di, 46 Calorie analisi, 100 generalità, 9 Causalità, 7 Ciliegi neri generalità, 8 modello, 51 modello sviluppato, 77 coefficiente di correlazione, 15 Coefficiente di determinazione, 31 conformità, test di, 46 Previsione, 33 Punto anomalo, 123, 126 esempio, 137 influente, 123, 127 esempio, 136 leva, 123, 125 esempio, 137 Distanza di Cook, 127 Funzione di ripartizione empirica, 48 Galton, 15 Identificabilità ANOVA, 96, 99 regressione multipla, 53 regressione semplice, 18 Interpretazione geometrica confronto tra modelli, 74 della regressione multipla, 58 Ipotesi del II ordine teorema di Gauss-Markov, 145 verifica, 42 Multicollinearità, 53, 153 Neonati analisi, 113 generalità, 10 Normale bivariata, 6 multivariata, 63 normalità verifica grafica, 48 QQ plot, 49 quantile-quantile, grafico, 49 Quantili, 49 Rapporto di verosimiglianza, 28, 67, 96 Regressioneverso la media, 15 Shapiro-Wilk, test di, 47 Shuttle generalità, 13 Statistica t, 66 Stimatore dei minimi quadrati reg multipla, 56 reg semplice, 17 di massima verosimiglianza reg multipla, 56 reg semplice, 24 Variabile dummy, 87 indicatrice, 87 muta, 87 Visite generalità, 13