Modelli statistici lineari ed altro... Marcello Chiodi 2 aprile 2003 2 Materiale didattico statistica 3 Università degli Studi di Palermo Facoltà di Economia Corso di Laurea in Statistica e Informatica per la Gestione e l’Analisi dei Dati http://dssm.unipa.it/sigad Traccia del Corso di Statistica 3 a.a. 2002-2003; Corso di 36 ore di lezione e 24 di esercitazioni, 6 crediti universitari Valido anche come modulo per il corso di Statistica 3 per il 3◦ anno Corso di Laurea in Scienze Statistiche ed Economiche. Marcello Chiodi Dipartimento di Scienze Statistiche e Matematiche Silvio Vianelli Università degli studi di Palermo Viale delle Scienze, 90128 Palermo-Italy e-mail: [email protected]; http://dssm.unipa.it/chiodi (tel. 39-0916626236; fax. 39-091485726) 2002-3003 versione provvisoria 0.1 3 analisi casi di studio analisi casi di studio, problemi reali, possibilmente con grafici e situazioni varie —— importanza dei contesti applicativi difficoltà della statistica applicata —— 0.2 Articolazione del corso corso di lezioni teoriche e corso di esercitazioni ed esame di casi pratici mediante software statistico. 0.2.1 Software utilizzato Prevalentemente (nell’a.a. 2002-2003) gli studenti faranno uso di Statistica, di R, e di excel (o di latro software free-domain); Il materiale didattico è stato realizzato dal Prof.Chiodi anche con altro software, fra cui Mathematica e Visual Basic (versione 6). 0.2.2 Requisiti di base (consigliati) per la frequenza del corso: Statistica 1; Statistica 2; Analisi Matematica; Algebra Lineare; Calcolo delle Probabilità; è consigliabile anche avere familiarità con un personal computer, possibilmente avendo sostenuto almeno uno dei moduli del laboratorio informatico-statistico (meglio tutti e due). Modalità di svolgimento dell’esame: L’esame è costituito da una prova pratica di un caso di studio e da una prova orale. 0.3 Avvertenza per gli studenti dei miei corsi • Presuppongo che lo studente che legge questi appunti o che comunque segue il corso, abbia le necessarie conoscenze di inferenza statistica, che qui vengono date per scontate (proprietà degli stimatori, stimatori di massima verosimiglianza, costruzione di test, ipotesi semplici, composte, parametri di disturbo, intervalli e regioni di confidenza, etc.). 4 Materiale didattico statistica 3 • Il corso di esercitazioni va considerato a tutti gli effetti parte integrante comunque del presente corso. • In questo corso non viene dato particolare risalto agli aspetti propriamente computazionali, nel senso che quando per esempio si dice di trovare gli stimatori di massima verosimiglianza di certi parametri, sotto particolari ipotesi e assunzioni, si presuppone che questi stimatori siano calcolabili in forma esplicita o che siano comunque valutabili in modo numerico utilizzando convenienti algoritmi, che in questo corso non vengono comunque affrontati. 0.4 Traccia corso • impostazione generale: problemi reali e analisi della dipendenza • relazioni fra variabili e linguaggio vettoriale e matriciale; approfondimento di alcuni strumenti tecnici di calcolo matriciale utili per il resto del corso. • Concetto di relazione di regressione • regressione semplice e parziale • richiamo della normale bivariata. La normale multivariata (cenni) • Il modello lineare: utilità e cenno ai possibili impieghi • Stima dei parametri e proprietà degli stimatori nella regressione multipla. • Analisi dei residui • Multicollinearità e scelta di variabili • Analisi della varianza a una e più vie e della covarianza • Modelli lineari generali • Modelli lineari generalizzati e regressione logistica. 2002-3003 versione provvisoria 0.5 5 Elenco di siti utili Sul sito del Prof. Chiodi http://dssm.unipa.it/chiodi per scaricare il software di simulazione http://dssm.unipa.it/chiodi/downloadsimul2000.htm pagina del materiale didattico http://dssm.unipa.it/chiodi/materialedidattico.htm Altri siti utili: Sito statlib (con numerosissimi indirizzi di siti di software e datasets statistici) http://www.stat.unipg.it/pub/stat/statlib/index.html sito ufficiale di R: http://cran.r-project.org Risorse didattiche di area matematica: http://www.shu.edu/projects/reals/index.html http://www.math.it http://www.integrals.com http://www.nist.gov http://www.univie.ac.at/projects/reals/index.html ... ... 6 Materiale didattico statistica 3 Indice 0.1 analisi casi di studio . . . . . . . . . . . . . . . . . . 0.2 Articolazione del corso . . . . . . . . . . . . . . . . . 0.2.1 Software utilizzato . . . . . . . . . . . . . . . 0.2.2 Requisiti di base (consigliati) per la frequenza del corso: . . . . . . . . . . . . . . . . . . . . 0.3 Avvertenza per gli studenti dei miei corsi . . . . . . . 0.4 Traccia corso . . . . . . . . . . . . . . . . . . . . . . 0.5 Elenco di siti utili . . . . . . . . . . . . . . . . . . . . 3 3 3 3 3 4 5 1 stampa parziale 13 2 Problemi introduttivi 2.1 Casi reali e insiemi di dati . . . . . . . . 2.1.1 Caratteristiche dei dati reali . . . 2.2 Elementi distintivi dei vari problemi . . . 2.2.1 Elementi comuni ai vari problemi: . . . . 15 15 16 25 26 . . . . . . . . . . . . . 27 28 28 28 29 30 33 33 33 34 37 40 40 40 3 Esempi reali e casi di studio 3.1 dati antropometrici . . . . . . . . . . 3.1.1 descrizione del problema . . . 3.1.2 Esempio di matrice dei dati . 3.1.3 Le variabili (solo alcune) . . . 3.1.4 Rappresentazioni grafiche . . 3.1.5 Campione del dataset . . . . . 3.1.6 Problematiche statistiche (solo 3.1.7 spunti teorici . . . . . . . . . 3.2 dati di bilanci aziendali . . . . . . . . 3.3 indici di 8 borse . . . . . . . . . . . . 3.4 dati antropometrici neonati . . . . . 3.4.1 descrizione del problema . . . 3.4.2 variabili rilevate . . . . . . . . 7 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . alcune!) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8 Materiale didattico statistica 3 3.4.3 3.4.4 3.4.5 3.4.6 3.4.7 3.4.8 3.4.9 3.5 Esempio di matrice dei dati . . . . . . . . . . Rappresentazioni grafiche 1 . . . . . . . . . . Rappresentazioni grafiche 2 . . . . . . . . . . Campione del dataset . . . . . . . . . . . . . . Problematiche statistiche (solo alcune!) . . . . Alcuni problemi e spunti . . . . . . . . . . . . Una relazione non lineare: regressione non parametrica . . . . . . . . . . . . . . . . . . . . 3.4.10 spunti teorici . . . . . . . . . . . . . . . . . . Elementi distintivi dei vari problemi . . . . . . . . . . 3.5.1 Elementi comuni ai vari problemi: . . . . . . . 40 40 41 42 42 43 48 50 58 59 4 Variabili Statistiche Multiple 61 4.1 Calcoli statistici in notazione vettoriale . . . . . . . . 61 4.1.1 Definizione della matrice dei dati . . . . . . . 62 4.1.2 significato dei primi due momenti multivariati empirici . . . . . . . . . . . . . . . . . . . . . 74 4.1.3 ACP per variabili statistiche osservate . . . . 75 5 La distribuzione normale multivariata. 5.1 Richiami sulla normale bivariata . . . . . . . . . . . . 5.2 La normale multivariata . . . . . . . . . . . . . . . . 5.3 Distribuzione di variabili normali indipendenti . . . . 5.4 Densità normale multivariata . . . . . . . . . . . . . 5.5 Densità della distribuzione normale multivariata . . . 5.5.1 Distribuzioni marginali e indipendenza . . . . 5.5.2 Combinazioni lineari di variabili normali . . . 5.5.3 Caratterizzazione della distribuzione normale multivariata. . . . . . . . . . . . . . . . . . . . 5.6 Assi principali . . . . . . . . . . . . . . . . . . . . . . 5.7 Distribuzione di forme quadratiche . . . . . . . . . . 5.7.1 Esponente della normale multivariata. . . . . 5.7.2 Indipendenza di forme quadratiche e lineari . 5.7.3 Teorema di Cochran: . . . . . . . . . . . . . . 5.8 Distribuzioni condizionate . . . . . . . . . . . . . . . 5.8.1 Distribuzione condizionata nel caso generale di un gruppo di componenti rispetto ad un altro gruppo di componenti. . . . . . . . . . . 5.8.2 Significato degli elementi dell’inversa della matrice di varianza e covarianza. . . . . . . . . . 79 79 85 85 87 89 91 92 93 94 98 104 106 107 109 110 115 2002-3003 versione provvisoria 5.9 Utilità della distribuzione normale multivariata . . . 5.10 Regressioni per vettori aleatori qualsiasi . . . . . . . 5.10.1 Regressioni lineari approssimate . . . . . . . . 5.11 Informazioni ricavabili dai primi 2 momenti . . . . . 5.12 Stimatori di massima verosimiglianza dei parametri di una normale multivariata . . . . . . . . . . . . . . 5.12.1 Un test di Multinormalità: cenni . . . . . . . 5.13 Inferenza sui parametri della normale multipla . . . . 5.14 Distribuzioni multivariate non normali . . . . . . . . 5.14.1 Beta Multivariata . . . . . . . . . . . . . . . . 9 123 124 127 129 133 138 139 140 140 6 Introduzione ai Modelli Lineari 143 6.1 Il modello lineare di dipendenza per variabili normali. 143 6.2 Funzioni di regressione . . . . . . . . . . . . . . . . . 146 6.3 I modelli statistici. . . . . . . . . . . . . . . . . . . . 147 6.4 Il modello lineare generale. . . . . . . . . . . . . . . . 147 6.4.1 componente sistematica e componente casuale. 150 6.4.2 Caratteristiche essenziali degli elementi del modello lineare . . . . . . . . . . . . . . . . . . . 152 6.4.3 Caratteristiche più dettagliate degli elementi del modello: . . . . . . . . . . . . . . . . . . . 153 6.4.4 Versatilità del modello lineare . . . . . . . . . 157 6.5 Problemi di inferenza . . . . . . . . . . . . . . . . . . 158 6.5.1 Ipotesi sulle ε . . . . . . . . . . . . . . . . . . 159 6.6 La matrice delle X . . . . . . . . . . . . . . . . . . . 160 6.6.1 Osservazioni ripetute. . . . . . . . . . . . . . . 161 6.6.2 Disegni fattoriali . . . . . . . . . . . . . . . . 162 6.6.3 Regressione multipla. . . . . . . . . . . . . . . 167 6.6.4 Regressione polinomiale: . . . . . . . . . . . . 171 6.6.5 Regressori del tipo 0/1 (dummy variables) . . 175 6.6.6 Analisi della varianza ad effetti fissi ed un criterio di classificazione . . . . . . . . . . . . 176 6.6.7 Analisi della varianza ad effetti fissi con due criteri di classificazione . . . . . . . . . . . . . 181 6.6.8 Analisi della covarianza . . . . . . . . . . . . . 182 6.6.9 Rette o piani di regressione con pendenze diverse: termini polinomiali moltiplicativi . . . . 184 6.6.10 Modelli autoregressivi . . . . . . . . . . . . . 187 6.7 Generalizzazioni . . . . . . . . . . . . . . . . . . . . . 189 10 Materiale didattico statistica 3 7 Spunti tratti da casi reali per l’introduzione menti teorici 7.1 La correlazione parziale . . . . . . . . . . . . 7.1.1 Cenno alla regressione multipla . . . 7.1.2 correlazione fra residui . . . . . . . . 7.1.3 derivazione di r12.3 . . . . . . . . . . di argo199 . . . . . 199 . . . . . 202 . . . . . 207 . . . . . 212 8 Stima dei parametri del modello lineare 217 8.0.4 Assunzioni di base nel modello lineare . . . . 218 8.1 verosimiglianza . . . . . . . . . . . . . . . . . . . . . 220 8.1.1 MINIMI QUADRATI ORDINARI . . . . . . 228 8.1.2 Teorema di Gauss-Markov . . . . . . . . . . . 232 8.1.3 Distribuzione campionaria di b (minimi quadrati ordinari) . . . . . . . . . . . . . . . . . . 234 8.2 Distribuzione della devianza residua nei modelli lineari237 8.2.1 Devianza residua in funzione dei valori osservati237 8.3 Scomposizione della devianza . . . . . . . . . . . . . 241 8.3.1 Scomposizione di R(β) . . . . . . . . . . . . . 242 8.3.2 Test F per la verifica di ipotesi nel modello lineare: distribuzione nulla . . . . . . . . . . . 244 8.3.3 Distribuzioni sotto H0 e sotto H1 . . . . . . . 247 8.3.4 Scomposizione della devianza e test nel caso di gruppi di regressori ortogonali . . . . . . . 250 8.4 Configurazioni della matrice X e di XT X . . . . . . 254 8.5 Modello lineare: Verifica di ipotesi generali . . . . . . 256 8.5.1 Prove di ipotesi particolari nel modello lineare 262 8.6 Test e regioni di confidenza nei modelli lineari . . . . 263 9 Regressione Multipla 269 9.1 Introduzione . . . . . . . . . . . . . . . . . . . . . . . 269 9.1.1 Prova dell’ipotesi di coefficienti di regressione nulli nella regressione multipla. . . . . . . . . 273 9.2 La multicollinearità nella regressione multipla. . . . . 279 9.2.1 Esempi (sulla collinearità e simili) . . . . . . . 288 9.3 La scelta delle variabili nella regressione lineare multipla. . . . . . . . . . . . . . . . . . . . . . . . . . . . 288 9.3.1 Esempio di correlazioni osservate fra molte variabili . . . . . . . . . . . . . . . . . . . . . . 292 9.3.2 Esempi sulla regressione . . . . . . . . . . . . 300 2002-3003 versione provvisoria 11 10 Analisi della varianza 301 10.1 Analisi della varianza . . . . . . . . . . . . . . . . . . 301 10.1.1 Analisi della varianza ad una via . . . . . . . 303 10.1.2 Ipotesi di omogeneità delle medie: stimatori e test corrispondenti. . . . . . . . . . . . . . . . 307 10.1.3 Divergenza dalla linearità per fattori quantitativi nell’analisi della varianza. . . . . . . . . 318 10.2 Analisi della varianza a due vie . . . . . . . . . . . . 322 10.2.1 Analisi della varianza a due vie: altre problematiche . . . . . . . . . . . . . . . . . . . . . 330 10.2.2 Analisi della varianza a più vie . . . . . . . . 332 10.2.3 Analisi della varianza con variabili concomitanti: L’analisi della covarianza . . . . . . . . 333 10.3 Il problema dei confronti multipli nell’analisi della varianza . . . . . . . . . . . . . . . . . . . . . . . . . 339 10.3.1 Confronti a priori e a posteriori . . . . . . . . 340 10.3.2 L’ipotesi di omogeneità delle varianze. . . . . 347 10.3.3 Il Potere del test F: distribuzioni non centrali. 347 10.4 Modelli ad effetti casuali . . . . . . . . . . . . . . . . 351 11 Allontanamento dalle assunzioni 357 11.1 Tipi di allontanamenti dalle assunzioni di base . . . . 357 11.1.1 Effetti della non normalità sulla distribuzione di F . . . . . . . . . . . . . . . . . . . . . . . 359 11.1.2 Effetti della non indipendenza . . . . . . . . . 359 11.1.3 Effetti della eteroscedasticità . . . . . . . . . . 359 11.1.4 Trasformazioni . . . . . . . . . . . . . . . . . 359 11.1.5 Finalità delle trasformazioni nel modello lineare359 11.1.6 Tecniche alternative: test non parametrici e semiparametrici nella AOV . . . . . . . . . . . 359 11.1.7 Test non parametrici . . . . . . . . . . . . . . 359 11.1.8 Test di permutazione . . . . . . . . . . . . . . 359 11.1.9 Analisi dei residui: . . . . . . . . . . . . . . . 359 11.2 Minimi quadrati generalizzati . . . . . . . . . . . . . 368 11.2.1 Minimi quadrati con matrice di varianze e covarianze qualsiasi . . . . . . . . . . . . . . . . 370 11.2.2 Minimi quadrati generalizzati: Errori autocorrelati . . . . . . . . . . . . . . . . . . . . . 370 11.2.3 Trasformazioni di variabili nell’analisi della varianza e nella regressione multipla . . . . . . . 374 12 Materiale didattico statistica 3 11.2.4 Effetti delle trasformazioni nei modelli lineari 374 Capitolo 1 stampa parziale 13 14 Materiale didattico statistica 3 Capitolo 2 Problemi introduttivi I problemi e casi di studio che seguono derivano da esperienze reali o da esempi riportati nella letteratura scientifica; sono funzionali all’introduzione al corso, e in parte costituiscono una selezione dei problemi reali che verosimilmente sono affrontabili con le metodologie e le tecniche studiate in questo corso. Alcuni, in una forma anche diversa, di solito semplificata, sono poi ripresi durante le mie lezioni, o comunque utilizzati come spunto per l’introduzione di problematiche specifiche, o sfruttati nel corso di esercitazioni. Complessivamente coprono buona parte degli argomenti del corso di Statistica 3. 2.1 Casi reali e insiemi di dati Alcuni insiemi di dati sono inseriti almeno in modo parziale, in queste pagine per prendere abitudine con dati e situazioni vere Altri problemi, evidenziati nel testo, si riferiscono invece a situazioni e a metodologie diverse (tipicamente per alcune tecniche speciali di analisi multivariata) che verranno solo accennate in questo corso ed affrontate con maggiore dettaglio in altri corsi. 15 16 Materiale didattico statistica 3 Disponibilità di dati per gli studenti Alcuni insiemi di dati saranno a disposizione degli studenti con modalità che saranno chiarite durante le lezioni e le esercitazioni 2.1.1 Caratteristiche dei dati reali ... Molti insiemi di dati con cui si ha che fare nella realtà hanno un difetto fondamentale: sono veri!!!! Gli unici dati che si presentano puliti sono quelli simulati oppure quelli artificiali. I dati veri disgraziatamente hanno tanti inconvenienti: • non sono quasi mai completi (vi sono dati mancanti); • difficilmente costituiscono un campione casuale semplice da una qualsiasi popolazione; • sono spesso eterogenei (ossia provengono da diverse popolazioni); • le osservazioni possono avere un grado di precisione delle misurazioni differente; • qualche volta si guardano bene dal provenire esattamente da famiglie esponenziali o da universi normali; 2002-3003 versione provvisoria 17 In ogni caso non mi occuperò in questo testo dei problemi connessi con la misura delle variabili o con la quantificazione di osservazioni reali o con la costruzione di scale di misura. Presupporrò sempre in tutti gli esempi che le yi e le xij (o altri simboli che userò) siano riferiti a variabili osservate la cui misurazione e quantificazione costituisce un fatto acquisito e da non mettere in discussione. Esempio agrario In molti esperimenti agrari si vogliono mettere a confronto delle varietà di una certa coltura o pianta; oppure si vogliono confrontare dei concimi differenti o comunque confrontare tecniche diverse di produzione. esempio con numeri e con grafici prendere da fonti storiche • Si vuole vedere (mediante un esperimento che conduca all’ottenimento di un campione di osservazioni) se la diversa varietà, o concime o altro fattore distintivo influenza la quantità media di raccolto per unità di area (a parità di altre condizioni) • L’area ove si conduce l’esperimento viene suddivisa in lotti, e le diverse varietà, e/o i concimi, vengono assegnati ai vari lotti. • E’ comunque noto che se nei vari lotti vengono assegnate le stesse varietà nelle stesse condizioni, il raccolto sarà comunque diverso, anche in modo rilevante, da lotto a lotto. • I lotti vicini avranno la tendenza ad avere livelli dei raccolti simili, e potrebbero esserci altri effetti collegati con la posizione fisica dei lotti. • Se l’esperimento fosse condotto in un altro anno, presumibilmente il raccolto medio sarebbe sostanzialmente diverso da quello di quest’anno, anche usando la stessa varietà o concime. Problemi statistici: 18 Materiale didattico statistica 3 • Separare l’effetto imputabile alle differenze fra i fattori controllabili, ossia le varietà (o i concimi) dagli effetti dovuti ai fattori non controllabili, ossia i diversi lotti ed altre fonti di variabilità • Stabilire qual è la varietà migliore; • stimare la produttività media. • Come pianificare l’esperimento se si vogliono effettuare simultaneamente i confronti fra le varietà e quelli fra i concimi? Oppure è meglio fare un esperimento per le varietà ed un altro per i concimi? • Se esiste un concime migliore, è sempre lo stesso per tutte le varietà? Esempio diete suini Si vogliono confrontare tre diete per l’alimentazione di suini. L’efficacia della dieta è misurata semplicemente dall’incremento di peso medio settimanale: interessa trovare la migliore dieta. Gli animali sono suddivisi in 6 recinti; all’interno vi sono 6 animali (uno per ciascuna combinazione dei 2 sessi per le 3 diete)) Il peso iniziale dell’animale è certamente importante. mettere l’esempio da Rao pag.246 (prendere i dati) rao1.htm • Il peso iniziale dell’animale è certamente importante (perchè si suppone che animali più grossi crescano di più) • E’ presumibile che l’incremento di peso di un generico animale sia dovuto a diversi fattori più o meno controllabili, ma comunque in parte misurabili. • che effetto ha il sesso degli animali? • l’allocazione in un determinato recinto è importante? • Quali diete sono migliori? • Quali sono senz’altro da scartare? 2002-3003 versione provvisoria 19 Esempio sull’esame ecografico Nelle diagnosi prenatali è necessario spesso avere una valutazione del peso del nascituro, perchè pesi al di sotto di un certo percentile (il 5◦ o il 10◦ ), in relazione alla settimana di gestazione, sono indizio di possibili patologie. Per valutare il peso prima della nascita, non si può ricorrere a misurazioni dirette: Si può procedere però valutando alcune misure rilevabili attraverso l’esame ecografico; da queste misure viene poi stimato il peso del nascituro mediante una relazione usualmente non lineare. Solo a titolo di esempio ne riporto una (Shepard et al.) fra quelle più utilizzate: Log10 EF W = 1.2508+(0.166xBP D)+(0.046xAC)(0.002646xACxBP D) dove: EFW = estimated fetal weight (g) BPD = biparietal diameter (cm) AC = abdominal circumference (cm) I parametri di tale relazione sono stati stimati sulla base di misurazioni effettuate di EFW, BPD e AC su neonati. L’ equazione serve a stimare il peso quando dall’esame ecografico prenatale sono disponibili le misure BPD e AC. Esempio sulla capacità del cranio E’ noto che la capacità della scatola cranica è essenzialmente funzione di tre lunghezze caratteristiche del cranio; (o meglio la relazione lega i logaritmi di tali variabili) • Sulla base di un campione di soggetti si vogliono determinare i parametri di tale relazione. • L’interesse principale potrebbe essere quello di stabilire una relazione empirica che possa consentire una buona stima della massa cranica, tenuto conto che è possibile ottenere le tre misure lineari attraverso esami quali la TAC o altro. • L’interesse potrebbe essere di confrontare tali relazioni per diversi gruppi di soggetti. 20 Materiale didattico statistica 3 Esempio geosismico In un esperimento geosismico si rilevano i tempi di arrivo delle onde sonore di un segnale a una sequenza di sensori posti ad intervalli uguali sul terreno. 2002-3003 versione provvisoria 21 Figura 2.1: tempi di arrivo delle onde sonore di un segnale a una sequenza di sensori posti ad intervalli uguali sul terreno vai a indice figure • Occorre determinare la relazione che esiste fra i tempi di arrivo e la posizione dei sensori • Si sa che in condizioni ideali e sotto certe ipotesi relative alla natura del terreno sottostante (omogeneità, pendenza costante, etc.) questa relazione dovrebbe essere data da una spezzata costituita da diversi segmenti consecutivi a pendenza decrescente. Quanti sono i segmenti ed in quali punti si hanno i cambi di pendenza? inserire figura Esempio carriere studenti Si consideri un archivio di dati costituito dalle carriere degli studenti. Questo archivio è ricostruibile a partire dai dati caricati dalle 22 Materiale didattico statistica 3 segreterie universitarie e può esser utilizzato per studiare ad esempio la lunghezza media dei periodi di studio, la percentuale di studenti che completano in corso il proprio corso di studi, la percentuale di fuori corso per ogni anno accademico e cosı̀ via. L’analisi delle carriere accademiche e ormai diventata un obbligo di legge e viene impiegata per analizzare e valutare l’efficienza dei diversi atenei; un punto importante della riforma universitaria in fase di attuazione è che le facoltà devono cercare di far laureare gli studenti entro gli anni previsti dal loro corso di studi, diversamente le facoltà sono considerate in qualche modo inefficienti. Evidentemente nello studio delle carriere degli studenti si potrà tener conto di diversi fattori per vedere se e quanto influiscono sull’andamento degli studi o meglio, sulla loro durata; fra i vari fattori si potranno considerare variabili proprie di ciascun individuo ad esempio residenza, sesso, data di nascita, oppure variabili collegate con il profitto ossia numero di esami sostenuti, votazione e cosı̀ via. L’analisi di tali dati risulta spesso molto particolare in quanto ai fini degli studi delle carriere vanno esaminate coorti simili di studenti ossia studenti che si sono immatricolati tutti nello stesso anno; la norma di questi tipi di dati è di contenere molti dati mancanti o comunque di risultare in qualche modo censurati o troncati: per esempio di solito non tutti gli studenti presenti nell’archivio hanno completato gli studi o perché ancora non si sono laureati per che hanno abbandonato gli studi; probabilmente alcuni studenti iniziano la loro carriera dal secondo anno accademico o dal terzo perché provenienti da altri atenei oppure concludono la loro carriera senza un abbandono e senza una laurea perché si trasferiscono in altri atenei. Per analizzare questo tipo di dati spesso si fa ricorso a tecniche implementate in contesti medici per l’analisi dei modelli di sopravvivenza. • Queste carriere differiscono in modo sensibile da Facoltà a Facoltà? (o all’interno dei vari corsi di laurea?) • Le carriere degli studenti (in termini di durata) differiscono in funzione di fattori quali l’età, il sesso, l’essere o meno fuori sede, il tipo e il voto di maturità, etc.? 2002-3003 versione provvisoria 23 altri problemi (da discutere durante il corso) Esempio autoregressione Un ulteriore caso è quello di una serie temporale osservata: • abbiamo una sola variabile rilevata a intervalli di tempo costanti • siamo interessati a vedere se e come le osservazioni dipendono dalle precedenti Esempio sulla rilevazione dei tempi di lavoro Un altro caso reale di studio è costituito dalla rilevazione dei tempi di lavoro; per un periodo di alcune settimane sono stati rilevati i tempi di esecuzione di diverse mansioni in alcune biblioteche dell’ateneo palermitano; questi dati di durata verranno messi in correlazione con la particolare biblioteca col tipo di mansione, col tipo di attività, con la particolare persona che ha operato, etc. per separare le diverse fonti di variabilità. Esempio sull’esposizione a fonti inquinanti (elettrosmog) Effetti dell’elettrosmog (esposizione a fonti inquinanti). Nel grafico 2.2 sono riportate le dislocazioni delle abitazioni di tutti i morti in una città in un certo intervallo di tempo. Nel grafico 2.3 sono riportate le dislocazioni delle abitazioni dei soli morti per una particolare causa (A) nella stessa città (e nello stesso periodo). Il punto di coordinate (0,0) corrisponde alla dislocazione di una fonte di elettrosmog che è sospettata di essere responsabile di una maggiore mortalità per la causa (A). Il problema potrebbe essere riformulato in questo modo: Le disposizioni territoriali dei punti (o la loro densità) nei due grafici sono simili? 24 Materiale didattico statistica 3 Figura 2.2: esempio elettrosmog: controlli vai a indice figure 2002-3003 versione provvisoria 25 Figura 2.3: esempio elettrosmog: casi vai a indice figure 2.2 Elementi distintivi dei vari problemi migliorare questa parte: mettere riferimenti agli esempi • Le variabili esplicative possono essere quantitative, qualitative o miste. • I dati possono provenire da esperimenti pianificati, in cui alcuni fattori sono tenuti sotto controllo, o da studi osservazionali in cui non è possibile tenere sotto controllo i fattori. E’ di fondamentale importanza che lo statistico intervenga comunque nella fase di pianificazione dello studio, prima della rilevazione dei dati. • Può interessare la verifica di una particolare ipotesi (o la costruzione di un intervallo o regione di confidenza) relativamente solo ad un gruppo di parametri, mentre altri parametri del modello giocheranno il ruolo di parametri di disturbo. Svolge 26 Materiale didattico statistica 3 spesso il ruolo di fattore di disturbo la particolare distribuzione di errori accidentali. • La risposta che si vuole ottenere può essere soltanto di tipo comparativo (qual è il migliore fertilizzante fra A, B e C), oppure assoluto (qual è l’effetto medio del farmaco A per pazienti di un certo tipo?) • Come attribuire i vari trattamenti alle singole unità? 2.2.1 Elementi comuni ai vari problemi: Problema generale In generale si vuole studiare (possibilmente sulla base di un campione di osservazioni) la dipendenza di un fenomeno (espresso spesso da una variabile quantitativa) da una molteplicità di fattori o variabili esplicative (quantitative e/o qualitative) Capitolo 3 Esempi reali e casi di studio 27 28 3.1 3.1.1 Materiale didattico statistica 3 dati antropometrici descrizione del problema In un’indagine antropometrica, si esamina un grosso campione di ragazzi a cavallo dell’età puberale, su ciascuno dei quali vengono rilevati diversi caratteri antropometrici. 3.1.2 Esempio di matrice dei dati antropometrici1/esempiodati.htm 2002-3003 versione provvisoria 29 Figura 3.1: vai a indice figure 3.1.3 Le variabili (solo alcune) antropometrici1/descriptive.htm 30 Materiale didattico statistica 3 Figura 3.2: vai a indice figure 3.1.4 Rappresentazioni grafiche Rappresentazione delle sole 7 variabili antropometriche: 2002-3003 versione provvisoria 31 Figura 3.3: grafico a matrice delle coppie di variabili:dati grezzi vai a indice figure Alcune osservazioni, come si vede dal grafico a matrice, presentano valori dubbi per alcune delle variabili, presumibilmente dovuti ad errori di trascrizione; sono stati considerati come dati mancanti ed è stato rappresentato di nuovo il grafico 32 Materiale didattico statistica 3 Figura 3.4: grafico a matrice delle coppie di variabili vai a indice figure antropometrici1/correlations.htm 2002-3003 versione provvisoria 33 Figura 3.5: vai a indice figure 3.1.5 Campione del dataset 3.1.6 Problematiche statistiche (solo alcune!) Non tutte saranno affrontate nel corso! • Come interagiscono le variabili? • Le relazioni fra le variabili antropometriche sono di tipo lineare? • Che relazione c’è fra le variabili antropometriche e l’età dei soggetti? • Un sottoinsieme di esse o loro combinazioni sarebbero sufficienti per dare buone informazioni sintetiche? • le relazioni fra le variabili cambiano per le diverse fasi puberali? • Alcune combinazioni di variabili potrebbero descrivere sufficientemente bene la fase dello sviluppo puberale di ciascun individuo? 3.1.7 spunti teorici 34 Materiale didattico statistica 3 3.2 dati di bilanci aziendali I grafici che seguono sono tratti da archivi di dati reali, riguardanti 2835 aziende siciliane, operanti in Sicilia nel 1992. I dati sono quelli relativi ai bilanci pubblicati per riguardano soltanto le società di capitale. Le variabili presenti sono: • La ragione sociale; • La provincia; • Il fatturato annuo; • Il numero di dipendenti; • L’utile; • I mezzi forniti dai terzi; • Il costo complessivo del lavoro; • La codifica dell’attività svolta. Come è ovvio, questo insieme di dati difficilmente può essere considerato un campione di aziende: in effetti, a meno di qualche errore materiale, si tratta di tutte le aziende siciliane costituite da società di capitale che hanno presentato un bilancio nel 92. Pertanto già per questo solo motivo è impensabile trattare questi dati come un campione casuale semplice da una normale multivariata; inoltre le particolari variabili rilevate sono intrinsecamente non normali: è noto infatti che la distribuzione delle aziende secondo la dimensione o secondo il numero di addetti è tipicamente asimmetrica come pure la distribuzione del fatturato; tuttavia è presumibile che alcune di queste variabili siano legate da correlazioni almeno approssimativamente lineari. aziende1/esempioaziende1.txtlink esterno ad esempioaziende 2002-3003 versione provvisoria 35 RKG PROV FATT92 6 PA 337782 9 PA 224650 20 23 AG PA 41 DIPENDEN UTILE MEZZITER COSTOLAV ISTAT1 -67013 262558 91357 24 91 -88 5574 2693 51 113788 110926 396 211 -2330 -10707 23038 33657 18439 15925 45 61 RG 90297 36 617 22614 1306 51 64 PA 59578 39 56 15869 1609 15 69 73 RG ME 55479 52885 17 273 565 -3926 7436 58978 364 16689 24 35 75 PA 52761 1 -90 16230 5451 51 95 102 PA RG 42722 41364 28 34 893 735 38321 2574 1393 2574 15 50 109 AG 38937 309 7286 1088 51 127 130 PA PA 33333 32823 255 35 827 65 3601 1355 13935 1265 74 63 136 CT 31756 53 160 2262 1914 51 147 ... PA ... 29987 ... 5 ... 9 ... 1234 ... 192 ... 51 ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... 2699 ... RG ... 2124 ... 6 ... 56 ... 347 ... 136 ... 52 2702 CT 2123 2 3 0 221 51 2703 2708 AG PA 2122 2116 6 -246 -14 624 1150 82 250 52 45 2710 PA 2115 34 -564 684 1148 74 2715 2719 CL CL 2108 2101 1 11 -10 -45 0 538 79 310 45 26 2735 PA 2086 3 89 45 52 2739 2748 2766 PA PA 2083 2066 2 1 286 7 3179 0 178 24 74 51 CL 2054 6 37 132 220 52 2798 PA 2026 4 -11 54 198 63 36 Materiale didattico statistica 3 Figura 3.6: grafico a matrice delle coppie di variabili vai a indice figure Come si vede le distribuzioni sono molto asimmetriche e sono poco plausibili probabilmente le ipotesi di normalità delle distribuzioni (come peraltro si può immaginare data la natura delle variabili) e di linearità e omoscedasticità delle relazioni di regressione. SOlo a scopo esplorativo riporto qui anche gli stessi grafici in scala logaritmica: molte relazioni sembrano (ma è da veriverificare) più facilmente approssimabili da rette. 2002-3003 versione provvisoria 37 Figura 3.7: grafico a matrice delle coppie di variabili:scale logaritmiche per tutte le variabili vai a indice figure 3.3 indici di 8 borse Sono rappresentati nelle figure i grafici a matrice dei valori di chiusura giornaliera degli indici di 8 borse nell’arco di circa 20 anni, xtj , t = 1, 2, . . . , 4959; j = 1, 2, . . . , 8 38 Materiale didattico statistica 3 Figura 3.8: grafico a matrice delle coppie di variabili:valori giornalieri di 8 indici di 8 borse vai a indice figure Nel grafico successivo sono rappresentate le trasformate ytj di questi stessi indici, ossia i rendimenti relativi giornalieri: ytj = xt+1,j − xtj xtj t = 1, 2, . . . , 4958; j = 1, 2, . . . , 8 2002-3003 versione provvisoria 39 Figura 3.9: grafico a matrice delle coppie di variabili trasformate:valori giornalieri dei rendimenti relativi degli 8 indici di 8 borse vai a indice figure 40 Materiale didattico statistica 3 3.4 3.4.1 dati antropometrici neonati descrizione del problema Rilevazione in un ospedale palermitano dei dati relativi alle nascite o ai ricoveri in un reparto di neonatologie. Le variabili rilevate sono tutte quelle previste dalla cartella clinica da compilare per ogni parto o per ogni neonato entrato 3.4.2 variabili rilevate • Una rappresentazione con una matrice di grafici è utile per avere un’idea delle relazioni a due a due fra le variabili. • Molti software hanno la possibilità di fare tale rappresentazione direttamente, insieme con la possibilità di marcare alcuni punti particolari in tutti i grafici • Fino ad un numero di variabili non superiori ad una decina, si tratta di una rappresentazione che fa cogliere molto delle relazioni fra le p variabili 3.4.3 Esempio di matrice dei dati 3.4.4 Rappresentazioni grafiche 1 2002-3003 versione provvisoria 41 Figura 3.10: grafico a matrice delle tre variabili antropometriche e dell’età gestazionale: dati grezzi vai a indice figure 3.4.5 Rappresentazioni grafiche 2 42 Materiale didattico statistica 3 Figura 3.11: grafico a matrice delle tre variabili antropometriche e dell’età gestazionale: dati corretti (almeno in parte) vai a indice figure 3.4.6 Campione del dataset 3.4.7 Problematiche statistiche (solo alcune!) • nelle rappresentazioni grafiche si sono riportate solo alcune variabili a titolo di esempio: non si è tenuto conto di molte variabili che influiscono su queste, quali il tipo di parto, l’età della madre, etc. • E’ possibile costruire degli standard di peso, altezza e circonferenza cranica alla nascita in funzione dell’età gestazionale? • la relazione fra peso ed età gestazionale è lineare, o è meglio espressa da un polinomio? e di che grado? • Che incidenza hanno i diversi tipi di parto? • Esistono patologie più frequenti in funzione di alcuni fattori? • Lo status materno (essere fumatrice, tipo di parto, età della madre, etc. influenza le caratteristiche del neonato?) 2002-3003 versione provvisoria • Etc. etc. . . . 3.4.8 Alcuni problemi e spunti Alcune delle relazioni fra variabili sono tipicamente non lineari: 43 44 Materiale didattico statistica 3 Figura 3.12: esempio delle nascite: relazione fra altezza e peso dei nati vai a indice figure 2002-3003 versione provvisoria 45 Figura 3.13: esempio delle nascite: relazione fra peso dei nati e durata della gestazione vai a indice figure 46 Materiale didattico statistica 3 Figura 3.14: esempio delle nascite: relazione fra peso dei nati e durata della gestazione vai a indice figure 2002-3003 versione provvisoria 47 Figura 3.15: esempio delle nascite: relazione fra peso dei nati e durata della gestazione vai a indice figure 48 Materiale didattico statistica 3 Figura 3.16: esempio delle nascite: relazione fra peso dei nati e durata della gestazione vai a indice figure regressione Non si confonda la curva ottenuta dalle medie dei pesi dei nati in funzione della durata della gestazione (che è una curva di regressione )con la curva di crescita (intrauterina) del peso per un singolo neonato in funzione della settimana di gravidanza (che è una curva di crescita individuale) 3.4.9 Una relazione non lineare: regressione non parametrica Nella figura è riportata la relazione (per il dataset delle nascite) fra peso all’ingresso e peso all’uscita (solo a titolo di esempio e trascurando tutte le altre variabili che consentirebbero di selezionare meglio i casi) • E’ evidente che la relazione fra le due variabili non è lineare. • Infatti, come si vede anche dal grafico, si sa che il neonato comunque non esce dal reparto se non ha raggiunto un certo peso (parte sinistra del grafico); (nel grafico sono riportati tutti 2002-3003 versione provvisoria 49 i casi a prescindere dal numero di giorni di permanenza e a prescindere dal numero di settimane di gestazione) • E’ improbabile che sia utile adattare un’unica relazione di regressione: è meglio procedere per via esplorativa 50 Materiale didattico statistica 3 Figura 3.17: esempio delle nascite: relazione fra peso all’ingresso e peso all’uscita vai a indice figure Si può cercare di stimare una relazione di regressione non paregressione non parametri- rametrica come si vede dal grafico (è irrilevante qual’è la tecnica ca particolare usata) da un certo punto in poi, la relazione può essere considerata senz’altro lineare. E’ ovvio che un’unica relazione lineare sarebbe del tutto insoddisfacente 3.4.10 spunti teorici Esempio sui farmaci Si vuole verificare l’efficacia di due o più farmaci per la cura di una certa patologia. • Si tenga presente che presumibilmente individui distinti possono avere reazioni differenti a parità di tipo e di dose del farmaco. • La reazione ad un farmaco potrebbe dipendere in parte da caratteristiche del paziente, quali: sesso, età, ipertensione, presenza di altre patologie, etc. 2002-3003 versione provvisoria 51 Problemi di organizzazione dell’esperimento: Lo stesso soggetto può ricevere somministrazioni differenti? (per molte patologie ciò non sarà senz’altro possibile, lo sarà ad esempio per l’emicrania, ma non per le cardiopatie) • E’ opportuno prevedere un gruppo di controllo cui viene somministrato un placebo? • La consapevolezza dei soggetti di far parte di un gruppo sperimentale in certi casi potrebbe alterare la risposta. • Come misurare l’effetto nel caso della mancata somministrazione di un farmaco? (ossia lo stato del paziente in assenza di cura?) Mediante placebo o mediante dati storici o di altri esperimenti su altri soggetti? • Cambia qualcosa se lo scopo è il confronto fra i due farmaci oppure una valutazione della loro efficacia individuale? Esempio cavie In un esperimento farmacologico su un antidepressivo somministrato a delle cavie, si vuole verificare l’efficacia del farmaco in concomitanza con altri fattori, alcuni dei quali dipendenti dal fatto che la madre della singola cavia avesse assunto o meno un certo altro farmaco durante la gravidanza. esempio dai dati farmacologici numeri e grafici Molti fattori sono costituiti da mutabili dicotomiche (ossia somministrazione o no del farmaco) Viene organizzato un esperimento con diverse combinazioni dei livelli dei fattori. Per ogni soggetto viene predeterminata una attitudine generale all’esperimento in assenza di farmaco. 52 Materiale didattico statistica 3 Esempio dosaggio farmacologico In un esperimento farmacologico di dosaggio biologico, si vuole costruire la curva di risposta in funzione delle dosi di un certo farmaco A. esempio di biostatistica curva sigmoidale con approssimazione lineare problemi statistici • E’ noto che la risposta media individuale per dosi intermedie è approssimativamente lineare, almeno in un range limitato di valori delle dosi somministrate. • Per intervalli più ampi si sa senz’altro che la risposta non è di tipo lineare. • Dosi troppo piccole (al di sotto di un certo valore di soglia) non portano risposte misurabili. • I sovradosaggi (ossia le dosi di farmaco superiori a un certo livello di soglia) non portano benefici ulteriori, o addirittura possono essere dannosi. • Occorre stimare il livello di soglia minima e quello massimo. • Si vuole stimare la forma dell’intera curva di risposta • Si vogliono ottenere dei dosaggi particolari (corrispondenti al 50%, ossia al fatto che siano efficaci per il 50% dei soggetti) Esempio estrazione minerali In un esperimento industriale si vogliono mettere a confronto più procedimenti per l’estrazione di un certo elemento da minerali grezzi. • Interessa selezionare il procedimento complessivamente migliore, ossia che estrae la maggior parte di elemento a parità di costo o di costo inferiore a parità di materiale. • I minerali grezzi hanno caratteristiche differenti come proporzione di elemento presente. 2002-3003 versione provvisoria 53 Alcuni procedimenti potrebbero essere migliori con minerali con un maggior grado di purezza. Esempio lavorazione lastra Si deve eseguire una lavorazione per deformazione plastica su una lastra metallica. • E’ noto che il processo risulta notevolmente influenzato sia da parametri geometrici sia tecnologici. • In fase di progettazione vengono fissati la forma e le dimensioni finali del pezzo, il suo spessore, e il tipo di materiale da utilizzare. • Il problema è quello di determinare il valore degli altri parametri che caratterizzano il processo, quali il raggio del punzone, le condizioni di attrito iniziale, la pressione da esercitare, con l’obiettivo di ottimizzare il processo di lavorazione. Esempio sulla didattica nelle scuole In uno studio sulla qualità didattica delle scuole elementari si vuole vedere se l’apprendimento dei bambini è in qualche modo legato al livello di scolarizzazione dei genitori. mettere un esempio vero • Si deve tenere conto dell’influenza della diversa scuola. • Si deve tenere conto dell’influenza del diverso insegnante. • Si possono tenere presenti altri fattori che possono influenzare tale relazione. Esempio emittente televisiva mettere un esempio vero Viene condotta per conto di un’emittente televisiva un’indagine (multiscopo) mediante questionario per studiare il gradimento delle trasmissioni, misurato sia attraverso una scala prestabilita sia mediante 54 Materiale didattico statistica 3 il numero degli spettatori (che ha seguito tutta la trasmissione o solo una parte) • I gradimenti saranno differenti per le diverse trasmissioni; • Potrebbe esservi un’influenza di fattori quali: sesso, età, posizione geografica, preferenze degli altri componenti del nucleo familiare, etc. • L’orario di trasmissione e il tipo di programmi offerti simultaneamente dalla concorrenza avranno sicuramente un’influenza sul numero medio di spettatori e/o sullo share. Esempio su un indagine clinica Si sta studiando una determinata patologia e si predispone un’indagine clinica in cui si esaminano due gruppi di soggetti, brevemente identificati come malati e sani. Per ciascun soggetto si rileva una molteplicità di fattori collegati con la sintomatologia, la fisiologia e l’anamnesi del singolo paziente. • Quanto differiscono, rispetto ai vari sintomi ed alle caratteristiche fisiologiche ed all’anamnesi, i pazienti malati da quelli sani? • E’ possibile dire se un individuo è sano o malato sulla base dei soli sintomi e delle variabili ausiliarie, prima di effettuare un’analisi specifica? Qual è la probabilità di sbagliare e quali sono i sintomi o le caratteristiche che consentono di prendere le decisioni migliori? • Oppure si vuole stimare qual è la probabilità di contrarre la malattia (in un determinato intervallo di tempo) in funzione dei vari fattori. Esistono alcuni sintomi o caratteristiche individuali che possono fungere da variabili di screening ossia di discriminazione fra i due gruppi? 2002-3003 versione provvisoria 55 Esempio del sito archeologico In un sito archeologico vengono trovati diversi scheletri. Su ciascuno scheletro vengono effettuate diverse misurazioni (larghezza scatola cranica, lunghezza femore, etc, . . . ) Sulla base di queste misurazioni è possibile stabilire se si tratta di un insieme omogeneo? • Oppure l’insieme è eterogeneo e quindi è un sito in cui sono presenti sia uomini, che donne e bambini? • E’ un sito in cui si trovano solo uomini (e quindi forse è un campo di battaglia)? Esempio del magazzino di un ipermercato Si deve ottimizzare l’allocazione delle risorse nel magazzino centrale di una catena di ipermercati: l’ottimalità dell’allocazione coincide con la minimizzazione dei tempi di evasione degli ordini. • In realtà si vuole contemporaneamente tenere conto di altri fattori importanti, quali la fragilità dei colli, o la loro diversa forma, che non consente un perfetto riempimento della pedana, o ancora il grado di affinità tra i prodotti (per esempio al magazziniere può risultare comodo trovare tutti i tipi di pasta in posizioni limitrofe), o una certa correlazione tra i prodotti, dovuta al fatto che questi spesso si trovano presenti contemporaneamente in un ordine, o infine, ma non per questo meno importante, il diverso indice di rotazione della merce. Come tenere conto simultaneamente di tutti questi fattori di cosı̀ diversa natura? Esempio sulle onde sonore Si hanno dei campioni di onde sonore, rappresentate da curve, prodotte da un campione di n soggetti nel pronunciare alcune parole 56 Materiale didattico statistica 3 prestabilite. In base a questa informazione campionaria, se si osservano nuove onde sonore, si è in grado di determinare a quali parole corrispondono? Esempio sulla pesate Si hanno cinque oggetti: se ne vogliono determinare le masse disponendo di una bilancia. • Occorre effettuare una pesata a vuoto per tarare lo strumento? • E’ meglio pesare tutti gli oggetti insieme oppure singolarmente? • E’ opportuno effettuare più pesate in tempi diversi? • Quale precisione nel risultato si vuole ottenere? • Il tipo di strumento è rilevante? (la bilancia di un laboratorio chimico ha caratteristiche diverse da quella del negozio alimentare) E’ rilevante nell’organizzazione dell’esperimento che le masse siano simili oppure fra loro molto differenti, ad esempio se fra i cinque oggetti vi sono un camion ed una rondella? (e per rispondere a questa domanda abbiamo fatto una sommaria valutazione preliminare delle quantità che occorre stimare) Esempio rete ferroviaria Consideriamo la rete dei trasporti ferroviari italiana; in una situazione di completa omogeneità dovremo aspettarci dei tempi di percorrenza da una città all’altra esattamente proporzionali alle distanze che. Euclidee fra le varie città. In effetti, si sa che ciò non si verifica quasi mai e potrebbe quindi essere interessante effettuare la seguente applicazione di scaling multidimensionale. Si considerino n città italiane; si rilevano i tempi di percorrenza ferroviari secondo quanto riportato dagli orari ufficiali delle ferrovie, convenendo di prendere ogni volta il tempo più breve per ogni itinerario. Se i tempi fossero proporzionali alle distanze, una tecnica 2002-3003 versione provvisoria 57 d i scaling multidimensionale che trovi due soli fattori dovrà riprodurre esattamente la disposizione geografica delle n città; a meno di una rotazione ortogonale e trascurando l’effetto della curvatura terrestre. Dal momento che i tempi non sono in realtà proporzionali alle distanze, l’estrazione dalla tabella dei tempi dei primi due fattori mediante una qualsiasi tecnica di scaling multidimensionale ci permette di vedere in quale il grado di distorsione delle distanze indotto dal nostro sistema di misurazione; in altri termini costruiremo una carta geografica immaginaria nella quale le distanze sono proporzionali il più possibile ai tempi di percorrenza osservati. Esempio delle prove dei Gran Premi Come esempio minimo di modello di analisi della varianza gerarchico con effetti misti, ossia effetti fissi e ed effetti casuali, prendiamo un piccolo esempio tratto da avvenimenti sportivi; esaminiamo i tempi di qualifica ottenuti dai vari piloti nei gran premi di formula uno. Consideriamo i tempi di qualifica e non i risultati ottenuti in gara perché questi ultimi sono perturbati da diversi fattori, ed inoltre hanno una notevole percentuale di dati censurati o comunque indeterminati perché molti piloti non concludono la corsa; i dati relativi invece alle qualifiche sono in effetti più regolari anche perché ottenuti in condizioni più controllate. I dati sono classificabili secondo più criteri: un criterio di classificazione è il particolare circuito; questo certamente andrà considerato come un effetto fisso la cui influenza va eliminata; un altro criterio di classificazione la scuderia; un terzo criterio è costituito dai due piloti di ciascuna squadra. Il disegno è gerarchico perché i piloti di ciascuna scuderia sono sempre gli stessi. Potremmo chiederci: • Qual è l’effetto medio di ciascun circuito? • Quanto influente, o significativa, è la differenza fra le varie squadre? • All’interno di ciascuna squadra, le differenze fra i piloti sono significative? • Quale dei precedenti effetti è preponderante? • È più ragionevole studiare i tempi o la velocità? 58 Materiale didattico statistica 3 • L’ipotesi di normalità è ragionevole? Su questo aspetto una analisi dei residui empirici sarà di grande aiuto. • Esiste interazione fra i circuiti e le squadre? È estremamente difficile che i dati relativi alle sessioni di prova possano fornirci tali informazioni, in quanto le repliche sono costituite dai tempi migliori dei due piloti; non sono stati rilevati tempi diversi per ciascun pilota. 3.5 Elementi distintivi dei vari problemi migliorare questa parte: mettere riferimenti agli esempi • Le variabili esplicative possono essere quantitative, qualitative o miste. • I dati possono provenire da esperimenti pianificati, in cui alcuni fattori sono tenuti sotto controllo, o da studi osservazionali in cui non è possibile tenere sotto controllo i fattori. E’ di fondamentale importanza che lo statistico intervenga comunque nella fase di pianificazione dello studio, prima della rilevazione dei dati. • Può interessare la verifica di una particolare ipotesi (o la costruzione di un intervallo o regione di confidenza) relativamente solo ad un gruppo di parametri, mentre altri parametri del modello giocheranno il ruolo di parametri di disturbo. Svolge spesso il ruolo di fattore di disturbo la particolare distribuzione di errori accidentali. • La risposta che si vuole ottenere può essere soltanto di tipo comparativo (qual è il migliore fertilizzante fra A, B e C), oppure assoluto (qual è l’effetto medio del farmaco A per pazienti di un certo tipo?) • Come attribuire i vari trattamenti alle singole unità? 2002-3003 versione provvisoria 3.5.1 Elementi comuni ai vari problemi: Problema generale In generale si vuole studiare (possibilmente sulla base di un campione di osservazioni) la dipendenza di un fenomeno (espresso spesso da una variabile quantitativa) da una molteplicità di fattori o variabili esplicative (quantitative e/o qualitative) 59 60 Materiale didattico statistica 3 Capitolo 4 Variabili Statistiche Multiple In questa breve sezione introduciamo la notazione per insiemi di dati multivariati, le cosiddette matrici di dati; in questo contesto verranno rivisti i concetti di momento primo e secondo di variabili statistiche multiple, per i quali spesso è utile adottare un simbolismo compatto, e se ne vedrà il significato; quindi si darà un’ interpretazione all’analisi delle componenti principali valida quando si hanno variabili statistiche osservate e non variabili casuali. 4.1 Calcoli statistici in notazione vettoriale espressione della varianza di una variabile statistica Se abbiamo un vettore di osservazioni x e il corrispondente vettore degli scarti z : x1 z1 z2 x2 .. .. . . z= x= z x i i . . .. .. xn zn con zi = xi − M (x) i = 1, 2, . . . , n 61 62 Materiale didattico statistica 3 è facile vedere che: nV [x] = n X (xi − M (x))2 = i=1 n X 2 = zi = {z1 , z2 , . . . , zi , . . . , zn } i=1 z1 z2 .. . zi .. . zn = = zT z In modo simile, abbiamo l’espressione della covarianza espressione della media aritmetica inserire esempi con matrice di correlazione in notazione standard e matriciale 4.1.1 Definizione della matrice dei dati Supponiamo di avere l’informazione relativa a n unità su cui sono state rilevate p variabili statistiche. in questa fase di definizione del simbolismo che adotteremo per un insieme di dati multivariato, non ci preoccuperemo del fatto che queste unità costituiscano una popolazione completa o piuttosto un campione (casuale semplice, stratificato, ragionato, etc): supponiamo che si tratti comunque dell’intera informazione disponibile dall’osservazione, comunque essa sia stata effettuata. L’informazione completa è in ogni caso costituita da una matrice di dati X[n×p] : La matrice X (n righe e p colonne), di elemento generico xij è data dai valori osservati di p variabili (che per ora supporremo quantitative), per ciascuna delle n unità statistiche: 2002-3003 versione provvisoria X[n×p] = X1 63 X2 Xj Xp x11 x12 . . . x1j . . . x1p U1 ... ... ... ... ... ... ... ... ... ... ... ... xi1 xi2 . . . xij . . . xip Ui ... ... ... ... ... ... ... ... ... ... ... ... xn1 xn2 . . . xij . . . xnp Un Non si confonda adesso la matrice dei dati X , con un vettore aleatorio X : sebbene abbia usato lo stesso simbolo, sarà sempre chiaro dal contesto a cosa ci si riferisce. Medie = M1 M2 . . . Mj . . . Mp L’informazione relativa ad una unità Ui è dunque costituita dalla riga i-esima delle p osservazioni relative alle p variabili: Ui = {xi1 ; xi2 ; . . . ; xij ; . . . ; xip }T ; i = 1, 2, . . . , n L’ informazione (univariata) relativa alla j-esima variabile Xj è contenuta nella j-esima colonna: Xj = {x1j ; x2j ; . . . ; xij ; . . . ; xnj }T ; j = 1, 2, . . . , p Non verranno prese in considerazione in questo momento le problematiche derivanti da matrici di dati incomplete, ossia in cui alcune delle osservazioni xij relative ad uno o più casi ed ad una o più variabili sono mancanti. Alcune di queste problematiche verranno riprese più avanti, in particolare nel corso di esercitazioni. 64 Materiale didattico statistica 3 I momenti primi e secondi (multivariati) di una variabile statistica multipla Ritornando alle ordinarie matrici di dati a due vie, la media aritmetica di ciascuna variabile è data: n X Mj = xij /nj = 1, 2, . . . , p i=1 Il vettore delle medie è costituito dalle p medie aritmetiche: M1 M2 .. . M (X) = M j . .. Mp Se consideriamo una rappresentazione geometrica delle n unità statistica, la nostra matrice dei dati costituisce l’insieme delle coordinate di n punti in uno spazio p-dimensionale. Il punto di coordinate M (X) è detto centroide dell’insieme multivariato di dati. E’ facile vedere che in notazione matriciale possiamo esprimere M (X) mediante la relazione: M (X) = XT 1n /n Da ora in poi indicheremo con 1k un vettore colonna di k elementi tutti uguali ad 1: 1 ... 1k = 1 , kvolte ... 1 Per i momenti del secondo ordine si ha: la varianza della singola variabile Xj : σj2 = n X i=1 (xij − Mj )2 /nj = 1, 2, . . . , p 2002-3003 versione provvisoria 65 la covarianza fra la variabile Xj e la variabile Xk : σjk = n X (xij − Mj )(xik − Mk )/n i=1 j = 1, 2, . . . , p k = 1, 2, . . . , p E’ noto che tali relazioni riguardanti momenti secondi centrali, sono esprimibili in termini dei momenti primi e secondi con origine lo zero: σj2 = n X x2ij /n − Mj2 j = 1, 2, . . . , p i=1 σjk = n X xij xik /n − Mj Mk j = 1, 2, . . . , p; k = 1, 2, . . . , p; i=1 Matrice di varianze e covarianze σ12 . . . σ1i . . . σ1p ... V [X] = σ1i ... σ1p ... ... ... ... . . . σi2 . . . σip ... ... ... ... . . . σip . . . σp2 Per gli elementi sulla diagonale principale di V [X], ossia per le varianze delle singole componenti, invece della notazione σii si impiega la notazione σi2 per uniformità col simbolismo nel caso univariato. Si può definire la matrice di correlazione di elemento generico: matrice di correlazione rij = {R(X)}ij = σij σi σj che, ovviamente, è simmetrica ed ha elementi diagonali tutti uguali ad uno: 66 Materiale didattico statistica 3 Matrice di correlazione empirica di p variabili statistiche rij = {R(X)}ij = 1 ... R(X) = r1i ... r1p σij σi σj . . . r1i . . . r1p ... ... ... ... . . . 1 . . . rip ... ... ... ... . . . rip . . . 1 Misura le correlazioni lineari fra le coppie di variabili. Vedere esempio E’ essenziale anche come strumento esplorativo. La matrice di correlazione uguale alla matrice di varianze e covarianze delle corrispondenti variabili standardizzate 2002-3003 versione provvisoria 67 Figura 4.1: vai a indice figure 68 Materiale didattico statistica 3 Figura 4.2: Matrice di correlazione delle 4 variabili dell’esempio dei neonati vai a indice figure E’ utile spesso fare riferimento alla matrice degli scarti Z , il cui generico elemento è definito da: zij = xij − Mj i = 1, 2, . . . , n j = 1, 2, . . . , p Evidentemente le nuove variabili Zj risultano a media nulla. Indichiamo ciascuna colonna con zj M (Z) = 0 Adesso possiamo esprimere in modo compatto la generica covarianza σjk (o meglio la codevianza) in funzione delle colonne zj e zk : n n X X nσjk = (xij − Mj )(xik − Mk ) = zij zik = i=1 i=1 z1k . .. = (z1j , . . . , zij , . . . , znj ) zik = . . . znk = zT j zk Con questa posizione di comodo, è facile ora vedere che la matrice di varianze e covarianze p × p delle variabili Xj (o delle variabili Zj ) è esprimibile in forma matriciale compatta da: 2002-3003 versione provvisoria 69 V (X) = V (Z) = ZT Z/n Si può anche vedere che: Z = X − 1n M (X)T = X − 1n 1n T X/n == (I − 1n 1n T /n)X V (X) = V (Z) = [XT − M (X)1n T ][X − 1n M (X)T ]/n = = XT X/n − M (X)M (X)T ricordando, per l’ultimo passaggio, che: [XT −M (X)1n T ][1n M (X)T ]/n = 0eM (X)1n T X/n = M (X)M (X)T . Oppure, dalla relazione prima vista: Z = (In − 1n 1n T /n)X, si ha: T ZT Z = XT (In − 1n 1n T /n/n)T (In − 1n 1n /n)X; e considerando che la matrice (In − 1n 1n T /n) è simmetrica e idempotente, si ha infine: nV (X) = nV (Z) = ZT Z = XT (In − 1n 1n T /n)T (In − 1n 1n T /n)X = = XT (In − 1n 1n T /n)X; Si vedrà a proposito anche l’espressione della devianza residua nell’analisi dei modelli lineari, che è formalmente analoga a questa espressione. Come si vede, si ottengono risultati già noti nel caso a una e due variabili sui momenti primi e secondi; la notazione matriciale permette di ottenere risultati anche mnemonicamente simili a quelli più che noti del caso univariato. E’ appena il caso di osservare che mentre la notazione matriciale fornisce espressioni compatte ed è inoltre implementabile facilmente negli ambienti di programmazione che supportano operazioni matriciali, difficilmente fornisce gli algoritmi più efficienti per il calcolo dei momenti multivariati. I momenti di combinazioni lineari di variabili statistiche multipla Per i momenti di combinazioni lineari di una variabile multipla 70 Materiale didattico statistica 3 valgono ovviamente relazioni del tutto analoghe a quelle viste per combinazioni lineari di vettori di variabili aleatorie: costruiamo una nuova variabile statistica a k componenti, mediante una qualsiasi trasformazione lineare delle variabili Xj , colonne della matrice dei dati X : Y = XAT + 1n cT La matrice A[k×p] ha k righe e p colonne e per il resto è qualsiasi, nel senso che il suo rango può anche essere inferiore a min(k, p). Il vettore c[k×1] ha k elementi. La nuova matrice di dati Y ha n righe e k colonne Con semplici passaggi si vede come data la matrice A e il vettore c è possibile ottenere tutti i momenti di Y in funzione di quelli di X : T M (Y) = M (X)A + c T V (Y) = V (XA + 1n cT ) = AV (X)AT MOMENTI DI UNA TRASFORMATA LINEARE y DI UNA VARIBILE STATISTICA MULTIPLA Y = XAT + 1Tn T T M (XA + 1n cT ) = M (X)A + c Speranza matematica T V (XA + 1n cT ) = AV (X)AT Matrice di varianze e covarianze In particolare se k = 1 allora A è un vettore riga bT , c è uno scalare e Y è una v.c. semplice (ossia scalare) e si ha: y = Xb + c e quindi: M (y) = bT M (X) + c = b1 µ1 + b2 µ2 + . . . + bp µp + c V (y) = bT V [(X)] b = b21 σ12 +b22 σ22 +. . .+b2i σi2 +. . .++b2p σp2 +2b1 b2 σ12 +. . .+2bi bj σij ++ . . . 2002-3003 versione provvisoria 71 ... Una forma quadratica con matrice di coefficienti data da una matrice di varianze e covarianze V [X] esprime sempre la varianza di una combinazione lineare delle X : bT V [(X)] b = V [X] ... Una matrice di varianze e covarianze è sempre semidefinita positiva. essendo V [Y] ≥ 0 , in quanto una varianza è sempre non negativa, allora: tT V [X] t ≥ 0, ∀t, t 6= 0 Rango della matrice di varianza e covarianza • Se una variabile statistica è combinazione lineare delle altre p − 1, allora il rango della matrice di varianza e covarianza di X risulta uguale a p − 1 ; • in generale il rango di V [X] risulta uguale a p − k se k componenti sono ottenute attraverso combinazioni lineari (indipendenti) degli elementi di X. • il rango di V [X] risulta uguale esattamente a p (ossia a rango pieno) se e solo se le componenti di X sono linearmente indipendenti. 72 Materiale didattico statistica 3 ... La sola conoscenza del rango di una matrice di varianza e covarianza ci dice poco sul tipo di interrelazioni (eventualmente lineari) esistenti fra le p componenti: ci dice solo se esistono uno o più legami lineari esatti Esempio su una coppia di variabili standardizzate con ! 1 r V [X] = r 1 Le due variabili sono esattamente collineari solo se |r| = 1 Richiamo su autovalori e autovettori (in particolare per matrici simmetriche, e per matrici di varianze e covarianze) Cenno alle componenti principali se γ j è un autovettore di V [X], (normalizzato, ossia con γ T j γj = 1 allora si ha: T V [X] = γ T j λγ j = = V Xγ j Zj = Xγ j j = 1, 2, . . . , p prima componente principale Si può dimostrare che la variabile Z1 è la combinazione lineare delle X (a coefficienti normalizzati) di maggior varianza, e va sotto il nome di prima componente principale Sezione avanzata Formule più complesse valgono per i momenti multivariati di ordine superiore al secondo, ma è possibile ricavare tutti i momenti (multivariati) di grado k di Y , sia centrali che non centrali, a partire dalla conoscenza della matrice di trasformazione A e dei momenti multivariati di grado 1, 2, . . . , kdiX. Come per le variabili aleatorie semplici i momenti di ordine 3 e 4 forniscono degli indici di forma, i momenti multivariati di ordine superiore al secondo forniscono degli indici di forma multivariati, 2002-3003 versione provvisoria 73 degli indicatori di allontanamento dalla multinormalità, indici di non linearità delle regressioni e di eteroscedasticità. Esempio n = 20, p = 4 X[20,4] 36 1930 435 304 = 36 2100 440 40 2920 470 36 2900 480 40 3000 480 34 2770 460 40 3400 495 40 3500 500 41 3430 500 40 3200 490 41 3530 500 40 3310 500 39 3650 505 40 2920 505 39 3120 510 36 3500 510 39 3540 515 41 3640 525 41 4160 550 40 4140 535 315 321 332 335 330 330 333 325 314 350 340 345 327 340 335 342 346 370 363 779 38.95 64660 3233.00 M (X) = X 120 /20 = /20 = 9905 495.25 6697 334.85 T V(X) = XT X/n− = 74 Materiale didattico statistica 3 30427 2532510 386525 261120 2532510 215035800 32309200 21794920 T 386525 32309200 4921075 3323975 /20−M (X)M (X) = 261120 21794920 3323975 2247269 4.471053 737.000 38.17105 14.30789 737.000000 315264.211 15070.26316 7553.63158 = cov(X) = 38.171053 15070.263 822.30263 383.46053 14.307895 7553.632 383.46053 251.50263 1.0000000 0.6207622 0.6295256 0.4266773 0.6207622 1.0000000 0.9359824 0.8482956 Cor(X) = 0.6295256 0.9359824 1.0000000 0.8432057 0.4266773 0.8482956 0.8432057 1.0000000 Sezione avanzata E’ invalso di recente l’uso di indicare una matrice dei dati X come matrice a due vie (unità × variabili) per distinguerla dalle cosiddette matrice a tre vie (unità × variabili × occasioni) in cui per esempio l’elemento xijk rappresenta l’osservazione della j-esima variabile nell’i-esimo individuo nell’occasione k, se per esempio lo stesso insieme multivariato è stato osservato in diverse occasioni, o in diverse località; evidentemente in questo caso potremo fare diverse sezioni a due vie dei dati, ma non è un argomento che trattiamo adesso. 4.1.2 significato dei primi due momenti multivariati empirici Resta inteso che il significato da attribuire ai momenti primi e secondi multivariati empirici è diverso secondo che si supponga: 1. di avere un campione proveniente da una distribuzione normale multivariata 2. oppure solo un insieme di dati da una popolazione non specificata Nel primo caso i momenti primi e secondi empirici sono proprio gli stimatori di massima verosimiglianza dei parametri di una normale multivariata (gli unici parametri di tale distribuzione); 2002-3003 versione provvisoria 75 Nel secondo caso i momenti avranno soltanto un valore sintetico o descrittivo e non è detto che siano le migliori misure di media e dispersione multivariata per i dati in esame. 4.1.3 ACP per variabili statistiche osservate Vale la pena di ricordare che l’analisi delle componenti principali può essere ancora vista come un problema di determinazione delle combinazioni lineare (non correlate) di massima varianza di variabili statistiche effettivamente osservate, piuttosto che di variabili aleatorie multiple (oppure come problema di determinazione della combinazione lineare,vincolata, di varianza minima!); oppure come problema di determinazione di un nuovo spazio di riferimento ortogonale. Si ottengono comunque, se si prendono tutti gli autovettori, le componenti per la rotazione della matrice dei dati che determinano un nuovo insieme di variabili non correlate. Nel caso di variabili statistiche multiple esiste un’altra possibilità di interpretazione, più vicina alla logica della regressione lineare. Si supponga di avere una matrice n × p di dati Z relativa a p variabili centrate (ossia a medie nulle): 1Tn Z = 0p ; possibilmente le variabili sono standardizzate (diversamente l’analisi sarebbe influenzata dalle diverse scale e unità di misura delle variabili). Problema: Trovare una retta r1 (nello spazio p-dimensionale definito dalle variabili originali) di coseni direttori y1 , che minimizzi la somma delle distanze dei punti originali Pi dalle rispettive proiezioni ortogonali Qi1 su r1 gli n punti proiettati avranno coordinate qi1 (i = 1, 2, . . . , n); il vettore di tali coordinate, ossia il vettore dei valori assunti dalla nuova variabile si ottiene ovviamente mediante la proiezione q1 = Zy1 . il vincolo di normalizzazione: y1T y1 = 1 , è ovvio dato che y1 è un vettore dei coseni direttori. 76 Materiale didattico statistica 3 Figura 4.3: Retta di minima distanza (ortogonale!) ti:regressione principale dai punti osserva- vai a indice figure Si noti dalla figura che il quadrato della distanza euclidea di ogni singolo punto Pi dall’origine O (baricentro, o centroide, è coincide con il vettore delle medie delle p variabili), può essere espresso come: 2 2 OPi = OQi + Pi Qi 2 e si ha anche palesemente: 2 2 OPi = OH + Pi H 2 Uguagliando i secondi membri di tali relazioni pitagoriche, ed esprimendo in termini di coordinate centrate, (ossia a media nulla) 2002-3003 versione provvisoria 77 nel caso generale di p coordinate si ha: p X 2 zij = qi2 + Pi Qi 2 j=1 essendo: p n X X 2 zij = i=1 j=1 p X n X 2 zij n X n X i=1 = Dev(q) + j=1 i=1 p X qi2 + 2 Pi Qi ; i=1 n X 2 Pi Qi ; i=1 Dev(Zj ) = Dev(q) + j=1 n X 2 Pi Qi . i=1 In questa relazione la somma delle devianze delle variabili originarie (che è anche uguale alla somma delle distanze dei punti dal centroide) è ovviamente invariante rispetto a qualsiasi scelta della retta e pertanto è una costante. Se indichiamo con q la nuova variabile, massimizzare Dev(q) , funzione obiettivo dell’ACP, corrisponde P a minimizzare ni=1 Pi Qi Quindi r1 è la retta che minimizza la somma delle distanze dei punti dalle loro proiezioni ortogonali sulla retta stessa. Chiaramente la soluzione del problema di determinazione di combinazioni lineari di massima varianza (e non correlate) è sempre fornita dagli autovettori della matrice di varianze e covarianze delle variabili originarie: ZT Z n (che è anche la matrice di correlazione, se le variabili sono standardizzate). r1 va anche sotto il nome di retta di regressione principale. E’ intuitiva la spiegazione geometrica delle componenti successive, come rette, ortogonali alle precedenti. S= è possibile anche un’interpretazione in funzione delle distanze euclidee fra coppie di punti, che per brevità e compattezza di impostazione, ometto 78 Materiale didattico statistica 3 Capitolo 5 La distribuzione normale multivariata. 5.1 Richiami sulla normale bivariata 79 80 Materiale didattico statistica 3 Figura 5.1: densità di normali bivariate 1 vai a indice figure 2002-3003 versione provvisoria 81 Figura 5.2: densità di normali bivariate 2 vai a indice figure images/multinormani1.gifDensità della normale bivariata al variare di ρ images/multinormani2.gifDensità della normale bivariata al variare di ρ images/multinormani3.gifDensità della normale bivariata al variare di ρ images/multinormani4.gifDensità della normale bivariata al variare di ρ ARGOMENTO DA COMPLETARE La densità di una variabile aleatoria X = (X1 , X2 ) con distribuzione normale bivariata è data da: f (x1 , x2 ) = 1 p (5.1) 2πσ1 σ2 1 − ρ2 ( " 2 2 #) 1 x 1 − µ1 (x1 − µ1 )(x2 − µ2 ) x 2 − µ2 exp − −2ρ 2(1 − ρ2 ) σ1 σ1 σ2 σ2 Ho riportato la coppia di variabili (X1 , X2 ), (e non (X,Y) perchè questo renderà più semplice poi il passaggio alla normale multivariata; tuttavia ho mantenuto la parametrizzazione con la correlazione ρ piuttosto che con la covarianza σ12 . 82 Materiale didattico statistica 3 I primi due momenti identificano completamente la distribuzione, in quanto si ha: E [X1 ] = µ1 E [X2 ] = µ2 V [X1 ] = σ12 V [X2 ] = σ22 CovX1 , X2 = ρσ1 σ2 in termini matriciali: E [X] = µ1 ! V [X] = µ2 σ12 ρσ1 σ2 ρσ1 σ2 σ22 ! per cui la correlazione lineare è data da ρ, infatti: corr(X1 , X2 ) = covX1 , X2 =ρ σ1 σ2 Si ha l’importantissima proprietà: Correlazione ⇐⇒ indipendenza nella normale bivariata In una normale bivariata: X1 ⊥ X2 ⇐⇒ ρ = 0 ossia l’assenza di correlazione lineare implica l’indipendenza, per due variabili con distribuzione normale bivariata. 2002-3003 versione provvisoria Figura 5.3: intersezioni con la normale bivariata vai a indice figure 83 84 Materiale didattico statistica 3 Figura 5.4: intersezioni con la normale bivariata vai a indice figure 2002-3003 versione provvisoria 85 Figura 5.5: intersezioni con la normale bivariata vai a indice figure 5.2 La normale multivariata La distribuzione normale multipla può essere introdotta in numerosi modi, ed espressa con diverse caratterizzazioni. Qui viene introdotta come la distribuzione congiunta di combinazioni lineari di variabili normali. 5.3 Distribuzione di variabili normali indipendenti Sia X un vettore di variabili casuali a p componenti indipendenti: X = {X1 , X2 , . . . , Xi , . . . , Xp }T ciascuna distribuita secondo una normale standardizzata. La densità di tale distribuzione, data l’indipendenza, è data da: 86 Materiale didattico statistica 3 ... Densità congiunta di p variabili normali standardizzate e indipendenti. fX (x) = p Y f (xi ) = i=1 −p/2 = (2π) exp[− p X x2i /2] = i=1 = (2π)−p/2 exp[−xT x/2] La funzione caratteristica è: 1 T φX (t) = exp − t t 2 Ovviamente i primi due momenti di X , per le ipotesi fatte, sono: E [X] = 0p , V (X) = Ip E’ noto, ed è facile comunque vederlo attraverso la funzione caratteristica, che una singola combinazione lineare Z del vettore aleatorio X si distribuisce secondo una normale univariata, con media e varianza ricavabili dalle relazioni già viste per i momenti di combinazioni lineari di vettori aleatori qualsiasi. Infatti se: Z = bT X + c, allora i primi due momenti di Z sono dati da: E(Z) = bT E(X) + c = c V (Z) = bT Σ(X)b = bT b = b21 + b22 + . . . + b2i + . . . + b2p e si ha anche: 2002-3003 versione provvisoria 87 Z ∼ N (E(Z), V (Z)). funzione caratteristica della combinazione lineare ... Adesso occorre però studiare la distribuzione congiunta di p combinazioni lineari di variabili normali indipendenti. 5.4 Densità della distribuzione congiunta di p combinazioni lineari di p variabili normali indipendenti Consideriamo allora il vettore aleatorio Y, trasformazione lineare del vettore aleatorio X, definito dalla relazione: Y = AT X + µ essendo: A una matrice quadrata di dimensione p e rango pieno; µ un vettore di p elementi; Per ora abbiamo posto la condizione che A sia a rango pieno p, sarà poi possibile generalizzare a trasformazioni X ⇒ Y anche singolari, ossia a rango non pieno; (rispetto alla notazione ordinaria si è indicata la trasformazione mediante una matrice trasposta, perché di solito si dà un significato geometrico alle colonne di A , ed ogni componente di Y corrisponde ad una colonna di A ; inoltre è irrilevante ai fini del risultato partire da p variabili standardizzate Xi oppure a varianza qualsiasi: l’importante è che siano indipendenti) Per le proprietà sui momenti di trasformate lineari di v.a. i momenti di Y sono dati da: 88 Materiale didattico statistica 3 E(Y) = AT E(X) + µ = µ V (Y) = AT V (X)A = AT A Per ricavare la densità di Y è conveniente esplicitare la trasformazione inversa. Dalla relazione diretta: Y = AT X + µ, si ottiene subito la relazione inversa: X = BT [Y − µ], avendo posto: B = A−1 Pertanto, applicando la regola per le densità di trasformazioni di variabili aleatorie, la densità di Y è data da: fY (y) = fX (BT [y − µ])J = 1 −p/2 T T = J(2π) exp − [y − µ] BB [y − µ] 2 essendo J lo Jacobiano della trasformazione da Y a X , ossia la matrice ∂Y ∂X , che ovviamente è dato da J = mod|B|, per cui si ha: −p/2 fy (y) = mod|B|(2π) 1 exp − [y − µ]T BBT [y − µ] 2 (5.2) Questa è la densità richiesta, tuttavia è meglio parametrizzare questa distribuzione in modo che sia esplicito, se possibile, il legame con i momenti di Y . Indichiamo con Σ la matrice di varianza e covarianza di Y, ossia V (Y), che abbiamo già visto essere uguale a AT A. Se vogliamo esprimere V (X) in funzione di V (Y) si ha: V (X) = BT V (Y)B = BT ΣB. Per ipotesi abbiamo però che V (X) = Ip , per cui: BT ΣB = Ip chiarire citazione e quindi la matrice B diagonalizza Σ, per cui ha colonne proporzionali agli autovettori di Σ 2002-3003 versione provvisoria 89 divisi per le radici dei rispettivi autovalori (si rivedano eventualmente i teoremi relativi alla diagonalizzazione di matrici, agli autovalori ed agli autovettori). Inoltre, prendendo in esame la relazione BT ΣB = I, premoltiplicando ambo i membri per B e postmoltiplicando per BT , si ottiene: BBT ΣBBT = BBT Postmoltiplicando (o premoltiplicando) ora ambo i membri per (BBT )−1 (che esiste sempre essendo B, e quindi anche BBT , a rango pieno p) si ha: BBT ΣBBT (BBT )−1 = BBT (BBT )−1 e quindi: BBT Σ = I. Per cui in definitiva si ha: BBT = Σ−1 e quindi nella forma quadratica ad esponente nell’espressione (5.2) di fY (y) potremo sostituire BBT con Σ−1 . Per potere ottenere il determinante di B che compare in fY (y), basta applicare le note regole sui determinanti delle trasposte, dei prodotti e delle inverse, per vedere che: 1 1 1 kBk = kBT k = kBBT k 2 = kΣ−1 k 2 = kΣk− 2 Inoltre essendo Σ definita positiva, il suo determinante è certamente positivo. 5.5 Densità della distribuzione normale multivariata In conclusione, sostituendo nella densità di y: 1 fY (y) = kB|(2π)−p/2 exp[− [y − µ]T BBT [y − µ]] 2 abbiamo: 90 Materiale didattico statistica 3 ... Densità della distribuzione normale non singolare multivariata di parametri µ e Σ : 1 1 fY (y) = kΣk− 2 (2π)−p/2 exp[− [y − µ]T Σ−1 [y − µ]] 2 o anche: 1 1 fY (y) = − [y − µ]T Σ−1 [y − µ] p exp 1 2 |Σ| 2 (2π) 2 oppure 1 −1 − 12 [y−µ]T Σ [y−µ] e |Σ| (2π)p fY (y) = p I primi due momenti multivariati sono (come già visto prima senza alcun bisogno di effettuare integrazioni p-dimensionali): E [Y] = µ V (Y) = Σ e la funzione caratteristica (applicando la regola per le trasformazioni lineari di variabili aleatorie) è data da: 1 φY (t) = exp[itT µ − tT Σt] 2 Ricordo che i momenti possono essere eventualmente ricavati dalle opportune derivate di φY (t), valutate in t = 0. Dalle espressioni della densità riportate sopra, è evidente l’analogia con l’espressione della densità della distribuzione normale univariata. Si vede quindi, in analogia al caso univariato, che la distribuzione normale multivariata dipende soltanto dai primi due momenti (multivariati) di Y. Inoltre è possibile far vedere, rifacendo a ritroso i passaggi pre- 2002-3003 versione provvisoria 91 cedenti, che qualsiasi vettore aleatorio Y la cui densità è data da: 1 2 −p/2 fY (y) = kC| (2π) 1 exp − 2 [y − µ]C (5.3) (con C definita positiva di rango p ) è distribuito secondo una normale multivariata di parametri µ e Σ = C−1 . Esiste inoltre una trasformazione lineare di Y che conduce ad un vettore aleatorio X a componenti standardizzate e indipendenti: X = BT [Y − µ], in cuiBè tale che : BT ΣB = I 5.5.1 Distribuzioni marginali e indipendenza Inoltre è evidente che l’indipendenza fra tutte le componenti di Y si può avere solo quando la fY (y) è fattorizzabile nelle rispettive densità marginali, il che può avvenire se (e solo se) Σ è diagonale, ossia con covarianze nulle, e quindi correlazioni lineari semplici nulle, il che porta un’altra fondamentale proprietà della normale multivariata: Un vettore aleatorio Y con distribuzione normale multivariata, è a componenti indipendenti se (e solo se) le correlazioni lineari fra le sue componenti prese a due a due sono nulle, ossia se la matrice di varianza e covarianza è diagonale. Quindi, se due variabili sono congiuntamente normali, l’assenza di correlazione implica l’indipendenza. La distribuzione marginale di un qualsiasi sottoinsieme di componenti di un vettore aleatorio distribuito secondo una normale multivariata è ancora distribuito secondo una normale multivariata con parametri uguali ai corrispondenti sottoinsiemi di µ e Σ: il risultato si dimostra facilmente, ad esempio prendendo la funzione caratteristica. Infatti se il vettore Y è suddiviso in due sottovettori [Y1 , Y2 ] , corrispondentemente suddividiamo il vettore delle medie e la matrice di varianza e covarianza: µ= µ1 µ2 ! 92 Materiale didattico statistica 3 Σ= Σ11 Σ12 ! ΣT12 Σ22 Posta ora, corrispondentemente alla partizione di Y , una partizione t = {t1 , t2}, come si sa la funzione caratteristica di Y1 si ottiene da quella di Y ponendo t2 = 0: 1 T φY1 (t1 ) = φY (t1 , 0) = exp[itT 1 µ1 − t1 Σ11 t1 ] 2 che è la funzione caratteristica di una normale di parametri µ1 e Σ11 . In particolare tutte le distribuzioni marginali delle singole componenti sono normali univariate. Come corollario è facile vedere che Y1 e Y2 (vettori aleatori normali) sono indipendenti se e solo se Σ12 = 0. 5.5.2 Distribuzione di combinazioni lineari di variabili normali qualsiasi. Mediante la funzione caratteristica è possibile vedere ora che qualsiasi combinazione lineare di un vettore aleatorio distribuito secondo una qualsiasi normale multivariata si distribuisce ancora secondo una distribuzione normale multivariata: Infatti dal momento che se Y = AZ , si ha: φY (t) = φZ (AT t), se Z(Np (µZ , ΣZ ) allora: 1 T T φZ (t) = exp it µZ − t ΣZ t 2 e quindi : 1 T T T φY (t) = φZ (A t) = exp iA µZ − t AΣZ A t 2 T per cui è immediato vedere che questa è ancora la funzione caratteristica di una normale multivariata di parametri AµZ e AΣZ AT . 2002-3003 versione provvisoria 5.5.3 93 Caratterizzazione della distribuzione normale multivariata. Le proprietà viste prima sulla distribuzione congiunta di combinazioni lineari di variabili normali costituiscono addirittura una caratterizzazione della distribuzione normale multivariata. Infatti si ricorda una importante proprietà che caratterizza la distribuzione normale multivariata (di cui non si fornisce la dimostrazione) (Mardia, 1970): citazione ... X , vettore aleatorio a p componenti, è distribuito secondo una normale multivariata se e solo se bT X è distribuito secondo una normale (univariata) per qualsiasi vettore b di p componenti. E’ appena il caso di dire che il calcolo delle probabilità integrali su domini rettangolari della normale multivariata è estremamente complesso, e comunque non riconducibile a trasformazioni semplici di integrali unidimensionali, se le variabili sono correlate. citare software Ancora va chiarito, sulla genesi della normale multivariata utilizzata in queste righe, che questa è una impostazione utile per ricavare la distribuzione di combinazioni lineari di variabili normali indipendenti: nell’analisi di fenomeni reali ovviamente non è quasi mai ragionevole pensare che delle variabili osservate correlate siano state effettivamente ottenute come combinazione di fattori o variabili non correlate, anche se ovviamente è possibile, come si vede nell’analisi delle componenti principali, operare una rotazione per ricavare variabili non correlte, che non necessariamente corrispondono però a variabili osservabili o dotate di significato 94 Materiale didattico statistica 3 5.6 Assi principali degli ellissoidi di equiprobabilità E’ immediato vedere che le curve con densità f (y) costante per la normale multivariata di parametri µ e Σ sono, in uno spazio p -dimensionale, degli ellissoidi di centro in µ , e di equazione: 1 kΣk− 2 (2π)−p/2 exp(−[y − µ]T Σ−1 [y − µ]/2) = k0 e quindi: [y − µ]T Σ−1 [y − µ] = k1 essendo k1 e k2 due costanti positive qualsiasi. • E’ facile vedere quindi che al variare del livello costante k , cambia solo il volume dell’ellissoide, ma le proporzioni fra gli assi restano inalterate; • le equazioni degli assi principali di tali ellissoidi sono date dagli autovettori di Σ ; • i quadrati delle lunghezze degli assi principali di tali ellissoidi sono proporzionali agli autovalori di Σ. • Se Σ è diagonale, gli ellissoidi hanno assi paralleli agli assi coordinati e lunghezza proporzionale agli scarti quadratici medi delle singole componenti. • Si può fare vedere che gli autovettori danno le direzioni degli assi principali impostando ancora un problema di massimo, ossia cercando i due punti sulla superficie dell’ellisse che hanno distanza massima. ... Fissato un qualsiasi valore di k1 , esiste una corrispondenza biunivoca fra ellissoidi in <p e distribuzioni normali multivariate non singolari. 2002-3003 versione provvisoria Figura 5.6: densità di normali bivariate 1 vai a indice figure 95 96 Materiale didattico statistica 3 Figura 5.7: densità di normali bivariate 2 vai a indice figure Esempi e grafici sulla normale trivariata Normale trivariata a media nulla con Matrice di varianze e covarianze: \begin{fig} {parametric_ellissoide1_gr_3.gif} Con autovalori: parametric_ellissoide1_gr_5.gif \end{fig} Ellissoidi di equidensità (sono due sezioni tridimensionali della densità (a 4D) Scalato in modo tale che la probabilità che un punto risulti interno all’ellissoide risulti del 90%. 2002-3003 versione provvisoria 97 \begin{fig} parametric_ellissoide1_gr_11.gif \end{fig} Scalato in modo tale che la probabilità che un punto risulti interno all’ellissoide è del 50% \begin{fig} parametric_ellissoide1_gr_14.gif \end{fig} Normale trivariata a media nulla con Matrice di varianze e covarianze: \begin{fig} parametric_ellissoide1_gr_17.gif Con autovalori: parametric_ellissoide1_gr_19.gif \end{fig} Ellissoidi di equidensità (sono due sezioni tridimensionali della densità (a 4D) Scalato in modo tale che la probabilità che un punto risulti interno all’ellissoide sia del 90%. \begin{fig} parametric_ellissoide1_gr_25.gif \end{fig} Scalato in modo tale che la probabilità che un punto risulti interno all’ellissoide sia del 50%. \begin{fig} parametric_ellissoide1_gr_27.gif \end{fig} \begin{fig} parametric_ellissoide1_gr_34.gif \end{fig} 98 Materiale didattico statistica 3 Dalla figura a fianco si vedono le caratteristiche della distribuzioni condizionate. Normale trivariata a media nulla con Matrice di varianze e covarianze: \begin{fig} parametric_ellissoide1_gr_41.gif Ellissoide di equidensità (è una sezione tridimensionale della densità (a 4D) Scalato in modo tale che la probabilità che un punto risulti interno all’ellissoide è del 50% parametric_ellissoide1_gr_49.gif \end{fig} 5.7 Distribuzione di forme quadratiche in variabili normali standardizzate e indipendenti. In questa sezione affrontiamo il problema della distribuzione di particolari forme quadratiche in variabili normali, indipendenti e non: la finalità sarà chiara quando si studieranno le proprietà degli stimatori e dei test nei modelli lineari (modelli di regressione di analisi della varianza etc.); si tratta molto semplicemente di generalizzare alcuni risultati noti sulla v.c. χ2 : è ragionevole aspettarsi che forme quadratiche in variabili normali multivariate siano talora riconducibili a variabili χ2 . Sia X un vettore di variabili casuali a p componenti indipendenti, ciascuna distribuita secondo una normale standardizzata, ossia X(Np (0p , Ip ). E’ noto che: p X X2i ∼ χ2p, (oppureXT X(χ2p ). i=1 In effetti questa è proprio la definizione di una variabile casuale di tipo chi-quadrato con p gradi di libertà, che risulta avere una 2002-3003 versione provvisoria 99 distribuzione gamma di parametro di forma c = p/2 e parametro di scala λ . Più in generale ci si potrebbe chiedere se si può ricavare la distribuzione di una forma quadratica qualsiasi in variabili normali standardizzate, ossia Q = XT AX, e per quali matrici A questa forma quadratica risulta ancora distribuita come una chi-quadrato. E’ facile vedere che la forma quadratica Q = XT AX P si distribuisce come pi=1 λi χ21 , ove i λi sono gli autovalori di A ; Q = XT AX ∼ p X λi χ21 i=1 Questo risultato si ricava facilmente dalla decomposizione spettrale della matrice A , in quanto si può scrivere: A = ΓΛΓT , per cui: Q = XT ΓΛΓT X, e il vettore aleatorio W = ΓT X è ovviamente normale a componenti standardizzate e indipendenti, data l’ortogonalità di Γ (una rotazione ortogonale di una iper-sfera conduce sempre ad una ipersfera!). Quindi segue facilmente in modo naturale il risultato scritto prima. Esprimendo in modo più formale si ha: posto W = ΓT X , essendo le colonne di Γ gli autovettori (ortogonali: ΓT Γ = I ) di A , si ha per i momenti di W : E(W) = ΓT E(X) = 0 V (W) = ΓT V (X)Γ = ΓT Ip Γ = Ip Il vettore aleatorio W è dunque composto da p variabili normali, standardizzate e indipendenti. Tornando ora alla forma quadratica Q si ha: T T T T Q = X AX = X ΓΛΓ X = W ΛW = p X λi Wi2 i=1 Le componenti Wi2 sono chiaramente distribuite come delle chiquadrato (indipendenti) con un grado di libertà. 100 Materiale didattico statistica 3 Pertanto Q è distribuita come una combinazione lineare di p variabili casuali chi-quadrato indipendenti con un grado di libertà, con coefficienti dati dagli autovalori di A. In ogni caso è possibile calcolare i momenti di Q in quanto combinazione lineare di v.c. χ21 indipendenti: E(Q) = p X λi E(χ21 ) V (Q) = λi i=1 i=1 p X = p X λ2i V (χ21 ) =2 p X λ2i i=1 i=1 Se (e solo se) gli autovalori di A sono tutti uguali a 0 o a 1, ossia se (e solo se) A è idempotente, Q = XT AX si distribuisce come una variabile casuale χ2r per la proprietà additiva delle v.c. χ2 , essendo r il rango di A, ossia il numero degli autovalori λi uguali ad uno Infatti si vede immediatamente che, se A è idempotente di rango r , si ha: λ1 = λ2 = . . . = λr = 1; λr+1 = λr+2 = . . . = λp = 0; per cui: p X λi χ21 = i=1 r X 1 (χ21 i=1 + p X 0 (χ21 = i=r+1 r X χ21 ∼ χ2r i=1 Per dimostrare che l’idempotenza di A è condizione necessaria e sufficiente perhcè Q sia distribuita come una chi-quadrato (prima abbiano visto che l’idempotenza di A è condizione sufficiente), conviene ricorrere alla funzione caratteristica di Q , che è data da: T φQ (t) = Eexp(itX AX) = Eexp(it p X λi X2i ) = i=1 = p Y i=1 Eexp(itλi X2i ) p Y 1 = (1 − 2itλi )− 2 i=1 2002-3003 versione provvisoria 101 (dato che X2i è distribuito come una chi-quadrato con un grado di libertà, l’ultimo passaggio deriva dalla funzione caratteristica della v.c. chi-quadrato). Ancora si può osservare che 1−2itλi è un autovalore della matrice: I − 2itA e quindi la produttoria di tali autovalori (1 − 2itλi ) è uguale al determinante della suddetta matrice: p Y 1 1 φ(t) = (1 − 2itλi )− 2 = kI − 2itA|− 2 i=1 Perché Q sia distribuita come una chi-quadrato, occorre che la sua funzione caratteristica φQ (t) sia identicamente uguale a quella di una v.c. χ2 per qualsiasi valore dell’argomento t . È la funzione caratteristica di una v.c. χ2 con ν gradi di libertà è data da: φχ2 (t) = (1 − 2it)−ν/2 , mentre per la funzione caratteristica di Q si è visto che: p Y 1 φQ (t) = (1 − 2itλi )− 2 . i=1 Per avere φχ2 (t) = φQ (t) per qualsiasi t , occorre che i coefficienti λi siano o zero o uno, di modo che i corrispondenti termini della produttoria in φQ (t) siano uguali ad uno (se λi = 0 ) oppure a 1 (1 − 2it)− 2 (se λi = 1 ); se sono r (rango di A ) quelli uguali ad uno, si avrà in definitiva: φQ (t) = (1 − 2it)−r/2 , che è la funzione caratteristica di una chi-quadrato con r gradi di libertà. Esempio Ad esempio si consideri la matrice seguente: ! 16/25 12/25 A= 12/25 9/25 Tale matrice simmetrica risulta idempotente di rango 1, come è facile verificare effettuando il prodotto AA , oppure verificando che λ 1 = 1 e λ2 = 0 . 102 Materiale didattico statistica 3 Supponendo di avere un vettore aleatorio X costituito da due variabili casuali normali standardizzate e indipendenti, X1 e X2 la forma quadratica Q = XT AX risulta data da: Q = a11 X12 + a22 X22 + 2a12 X1 X2 = (16X12 + 9X22 + 24X1 X2 )/25, e infine: Q = [(4/5)X1 + (3/5)X2 ]2 E’ immediato verificare che Q si distribuisce secondo una chiquadrato con un grado di libertà, senza bisogno di applicare il teorema generale sulla distribuzione delle forme quadratiche. Infatti la variabile: Z = (4/5)X1 + (3/5)X2 è distribuita normalmente (in quanto combinazione lineare di variabili normali) con media zero e varianza unitaria. Infatti: E[Z] = (4/5)E[X1 ] + (3/5)E[X2 ] = 0 V ar[Z] = (4/5)2 V ar[X1 ] + (3/5)2 V ar[X2 ] = 16/25 + 9/25 = 1 (Cov[X1 , X2 ] = 0 per l’indipendenza). Quindi Q è uguale al quadrato di una normale standardizzata, e quindi segue una distribuzione chi-quadrato con un grado di libertà. Forme quadratiche idempotenti: somma dei quadrati degli scarti dalla media. Prendiamo ora in esame una forma quadratiche già nota, ossia la somma dei quadrati degli scarti dalla propria media aritmetica di n variabili casuali normali indipendenti Xi . Tipicamente le variabili saranno quelle corrispondenti ad un campione a n componenti i.i.d.(e quindi il vettore aleatorio è al solito X = {X1 , X2 , . . . , Xi , . . . , Xn }T ). Interessa dunque la distribuzione della quantità: Q= n X i=1 (Xi − M )2 2002-3003 versione provvisoria 103 avendo indicato con M la variabile casuale media aritmetica delle n componenti Xi : M= n X Xi /n i=1 che si può anche scrivere: M= 1n T X , n essendo 1n un vettore di n elementi uguali ad uno. Allora la somma dei quadrati degli scarti si può scrivere in notazione vettoriale con semplici passaggi: Q= n X (Xi − M )2 = [X − 1n M ]T [X − 1n M ] = i=1 = [X − 1n 1n T X 1n 1n T X T ] [X − ]= n n XT [I − 1n 1n T T 1n 1n T ] [I − ]X n n T Posto ora U = 1n 1nn , è facile vedere che U è idempotente e simmetrica di rango 1: è composta da n × n elementi tutti uguali a n1 ; quindi sono idempotenti (ma di rangon − 1 ) anche I − U , e [I − U]T [I − U] , per cui possiamo scrivere: Q= n X (Xi − M )2 = XT [I − U]X i=1 e Q è distribuita secondo una χ2n−1 . Esempio numerico Con n = 5 si supponga di avere le 5 osservazioni xi : 3, 5, 8, 9, 10, con media aritmetica M = 7. La somma dei quadrati degli scarti (osservati!) è data da: Q= n X i=1 (xi − M )2 = 16 + 4 + 1 + 4 + 9 = 34. 104 Materiale didattico statistica 3 E’ facile vedere che la matrice 0, 2 0, 2 0, 2 0, 2 U= 0, 2 0, 2 0, 2 0, 2 U è data da: 0, 2 0, 2 0, 2 0, 2 0, 2 0, 2 0, 2 0, 2 0, 2 0, 2 0, 2 0, 2 0, 2 0, 2 0, 2 0, 2 0, 2 Indicato quindi con x il vettore delle 5 osservazioni, si verifichi il risultato fornito dal prodotto xT [I − U]x : xT [I − U]x = = 0, 8 −0, 2 −0, 2 −0, 2 −0, 2 3 −0, 2 0, 8 −0, 2 −0, 2 −0, 2 5 3 5 8 9 10 −0, 2 −0, 2 0, 8 −0, 2 −0, 2 8 −0, 2 −0, 2 −0, 2 0, 8 −0, 2 9 −0, 2 −0, 2 −0, 2 −0, 2 0, 8 10 = 32 × 0, 8 + 52 × 0, 8 + . . . + 102 × 0, 8 − 2 × 0, 2 × 3 × 5 − . . . = 34 5.7.1 La distribuzione dell’esponente della distribuzione normale multivariata. Sappiamo già che il doppio dell’esponente della distribuzione norma2 le univariata, (X−E[X]) V (X) , si distribuisce secondo una variabile casuale χ2 . Vediamo come si generalizza questo risultato nel caso normale multivariato. Sia Y un vettore di variabili casuali a p componenti, distribuito secondo una normale multivariata qualsiasi, ossia Y ∼ (Np (µ, Σ) Si può dimostrare che la variabile casuale corrispondente alla forma quadratica che figura al numeratore dell’esponente della funzione di densità, ossia: Q = (Y − µ)T Σ−1 (Y − µ), segue una distribuzione chi-quadrato con p gradi di libertà. = 2002-3003 versione provvisoria 105 Infatti il risultato si mostra facilmente ricorrendo ad una opportuna trasformazione lineare (già impiegata in questo capitolo) X = BT [Y − µ], in cui B è tale che: BT ΣB = I, eΣ−1 = BBT . e quindi: V (X) = BT V (Y − µ)B = BT ΣB = I Pertanto: Q = (Y − µ)T Σ−1 (Y − µ) = (Y − µ)T BBT (Y − µ) = = [(Y − µ)T B][BT (Y − µ)] = XT X ∼ χ2p Per cui Q si distribuisce come la somma dei quadrati di p variabili normali standardizzate e indipendenti, ossia come una chi-quadrato con p gradi di libertà. In definitiva: se Y ∼ (Np (µ, Σ) , allora (Y − µ)T Σ−1 (Y − µ) ∼ χ2p Esempio numerico Y ∼ (N2 (0, Σ), ! 2 1 conΣ = 1 1 e matrice di correlazione:R = 1 √1 2 √1 2 1 ! e quindi Σ−1 = 1 −1 −1 2 ! ; pertanto la forma quadratica: ! 1 −1 Q = YT Y = y12 + 2y22 − 2y12 y22 ∼ χ22 −1 2 106 Materiale didattico statistica 3 segue una distribuzione chi-quadro con due gradi di libertà. eventualmente dimostrarlo per via diretta nell’esempio 5.7.2 Indipendenza di forme quadratiche e combinazioni lineari di variabili normali. Sia X un vettore di variabili casuali a p componenti indipendenti, ciascuna distribuita secondo una normale standardizzata, ossia X ∼ Np (0p , Ip ). Valgono alcuni teoremi sull’indipendenza fra forme quadratiche in X e combinazioni lineari in X , che si basano sulle proprietà dei vettori dei coefficienti che determinano le forme quadratiche e le combinazioni lineari. eventualmente mettere in forma di schema Si abbiano due forme quadratiche in variabili normali indipendenti X : Q1 = XT A1 XeQ2 = XT A2 X Le due forme quadratiche Q1 e Q2 sono indipendenti se e solo se A1 A2 = 0(pxp) (essendo ovviamente A1 e A2 matrici quadrate simmetriche, ed essendo 0(p×p) una matrice quadrata composta di zeri); Si abbia la forma quadratica Q = XT AT X, e la combinazione lineare Z = bT X La forma quadratica Q e la combinazione lineare Z sono indipendenti se e solo se Ab = 0p (essendo b un vettore di p elementi e 0p il vettore nullo di p componenti) 2002-3003 versione provvisoria 5.7.3 107 Teorema di Cochran: Supponiamo di avere una somma di quadrati di p variabili normali standardizzate e indipendenti, ossia: Q = XT X o, più in generale, una forma quadratica Q = XT AX, con A idempotente di rango p . In questo caso il numero delle componenti di X potrà essere in generale maggiore di p; il punto essenziale è che Q abbia una distribuzione chi-quadrato con p gradi di libertà. Supponiamo di saper scomporre algebricamente Q nella somma di k forme quadratiche: Q = XT X = k X XT Ai X = i=1 k X Qi , i=1 avendo posto : Qi = XT Ai X , ed essendo per ipotesi: Q(χ2p Il teorema di Cochran stabilisce delle relazioni di importanza fondamentale in merito alle caratteristiche delle distribuzioni delle singole componenti Qi . ... TEOREMA DI COCHRAN Una qualsiasi delle seguenti tre condizioni implica le altre due: 1. la somma dei gradi di libertà delle forme quadratiche deve eguaglire p: k X ρ(Ai ) = p = ρ(A) i=1 (in generale la somma dei ranghi delle singole componenti deve eguagliare il rango di A ) 108 Materiale didattico statistica 3 2. tutte le k forme quadratiche Qi = XT Ai X hanno una distribuzione χ2 che corrisponde a : tutte le Ai devono essere idempotenti; 3. tutte le k forme quadratiche Qi = XT Ai X sono a due a due indipendenti, che corrisponde a: Ai Aj = 0 per qualsiasi coppiai 6= j . ... L’importanza di tale teorema nell’ambito della teoria normale sui modelli lineari è cruciale; in generale a ciascuna delle k componenti si farà corrispondere una particolare fonte di variabilità o un gruppo di parametri. Ai fini pratici se per esempio se si vuole applicare ad una particolare scomposizione la proprietà 2, per poi dedurne la 1 e la 3, non è necessario esplicitare le singole matrici Ai , ma è sufficiente sapere che si è scomposta Q in forme quadratiche nelle variabili aleatorie Xi . Sezione avanzata In effetti esiste una formulazione ancora più generale del teorema, che prende in considerazione distribuzioni χ2 non centrali, ossia forme quadratiche in variabili normali con speranza matematica diversa da zero, utile per la generalizzazione alla distribuzione di determinate quantità test non solo sotto H0 ma anche sotto H1 . Per non appesantire questi appunti non riporto questa generalizzazione: ne farò cenno più avanti soltanto quando sarà necessario. Esempio. Come esempio si rifletta sulla nota scomposizione per la somma dei quadrati di n variabili normali standardizzate indipendenti: n n X X 2 Xi = (Xi − M )2 + nM 2 i=1 i=1 Per applicare il teorema di Cochran è sufficiente far vedere che i due addendi sulla destra sono forme quadratiche in variabili normali di rango n − 1 e 1: è immediato verificarlo senza bisogno di espliPn citare le matrici, perché i=1 (Xi P − M )2 è palesemente una forma quadratica con un vincolo lineare ( ni=1 (Xi − M ) = 0 ), mentre M 2 2002-3003 versione provvisoria 109 ha ovviamente un solo grado di libertà, quindi i due termini sono indipendenti e distribuiti come delle v.c. χ2 con i rispettivi gradi di libertà. 5.8 Distribuzioni condizionate nella normale multivariata Una proprietà fondamentale della normale, che oltretutto la caratterizza, riguarda le distribuzioni di un gruppo di componenti condizionatamente ai valori di un altro gruppo di componenti. Questo argomento viene trattato adesso, senza limitarci ad esporre i risultati fondamentali, ma anzi entrando con un certo dettaglio, per tre ordini di ragioni: 1. La peculiarità delle caratteristiche delle distribuzioni condizionate nella normale multivariata, che ne rappresenta un aspetto fondamentale; 2. La possibilità di dare un significato statistico autonomo agli elementi dell’inversa della matrice di correlazione di una variabile multipla normale; 3. Come premessa indispensabile ai modelli lineari che tratteremo ampiamente in questo corso; Come si vedrà nelle pagine successive, la distribuzione di un gruppo di variabili YA condizionata ad un particolare valore yB assunto da un altro gruppo di YB è: 1. ancora normale ed inoltre: 2. La funzione di regressione di una componente yA rispetto alle altre componenti è lineare 3. La distribuzione ha una matrice di varianze e covarianze che non dipende dai valori della componente condizionante (omoscedasticità). I risultati esposti in queste pagine generalizzano le proprietà note per distribuzioni normali bivariate, in cui le due funzioni di regressione di ciascuna delle due variabili rispetto all’altra sono lineari, ed inoltre le distribuzioni condizionate sono normali e omoschedastiche. In effetti ci porremo il problema nella forma più generale della distribuzione di un gruppo di variabili normali condizionatamente 110 Materiale didattico statistica 3 ad un altro gruppo di variabili normali, nota la loro distribuzione congiunta. Significato degli elementi dell’inversa della matrice di varianza e covarianza . Sarà anche possibile dare un significato agli elementi dell’inversa di Σ in termini di distribuzioni condizionate. Infatti si dimostrerà che se C = Σ−1 , allora: teorema 5.8.1 In una normale multivariata, cij = 0 è condizione necessaria e sufficiente perché le variabili Yi e Yj siano indipendenti condizionatamente alle altre p − 2 variabili. 5.8.1 Distribuzione condizionata nel caso generale di un gruppo di componenti rispetto ad un altro gruppo di componenti. Nella versione breve del corso studiare solo i risultati finali Supponiamo di avere un vettore Y di p componenti, con distribuzione normale multivariata, suddiviso nel caso più generale in due sottovettori [YA , YB ] , con corrispondente suddivisione del vettore delle medie e della matrice di varianze e covarianze: ! YA Y= YB ! µA µ= µB ! ΣAA ΣAB Σ= ΣT AB ΣBB I due insiemi di indici A e B costuituiscono una partizione dell’insieme di indici I = 1, 2, . . . , p cosı̀ che: A∪B =I A∩B =∅ A 6= ∅B 6= 0∅ per il resto A e B sono costituiti da sottoinsiemi di indici qualsiasi (con la restrizione che esistano le inverse delle matrici di varianze e covarianze che si richiederanno nel seguito). 2002-3003 versione provvisoria 111 In effetti i casi più rilevanti, che tratteremo specificatamente, sono quelli in cui A = i, per lo studio della distribuzione di una variabile condizionatamente alle altre e A = i, j, per lo studio della distribuzione condizionata di due variabili, in particolare per lo studio della dipendenza condizionata. Ci chiediamo qual è la funzione di regressione di YA su YB , ossia la speranza matematica di YA condizionata ad un particolare valore yB di YB : E[YA kYB = yB ] =?? In generale ci chiediamo direttamente qual è la distribuzione di YA condizionata ad un particolare valore yB di YB . Per trovare la funzione di regressione nel caso generale, ricaviamo prima la densità della distribuzione di YA condizionata ad un particolare valore yB assunto da YB . Per comodità lavoriamo con variabili XA , XB con speranze matematiche nulle, ponendo: XA = YA − µA XB = YB − µB Ovviamente la matrice di varianze e covarianze di X è uguale a quella di Y: V (X) = V (Y) E’ opportuno richiamare le formule per la semplificazione degli elementi dell’inversa della matrice partizionata delle varianze e covarianze di y : Σ−1 = Σ−1 AA.B −1 −Σ−1 AA.B ΣAB ΣBB ! −1 −1 T −1 −1 −Σ−1 AA.B ΣAB ΣBB ΣBB [ΣAB ΣAA.B ΣAB ΣBB + I] avendo posto: T ΣAA.B = ΣAA − ΣAB Σ−1 BB ΣAB . Indichiamo con ΣIJ il blocco corrispondente al posto di ΣIJ (I = A, B; J = A, B) nell’inversa Σ−1 , cosı̀ che l’inversa sia data da: ! ΣAA ΣAB Σ= T ΣAB ΣBB 112 Materiale didattico statistica 3 ΣAA = Σ−1 AA.B ; −1 ΣAB = −Σ−1 AA.B ΣAB ΣBB ; T ΣBA = −Σ−1 BB ΣAB Σ−1AA.B ; BB Σ = Σ−1 BB h −1 ΣTAB Σ−1 AA.B ΣAB ΣBB i +I . Non si confonda ad esempio ΣAA (blocco dell’inversa Σ−1 corrispondente agli indici AA ) con Σ−1 AA (inversa del blocco di Σ corrispondente agli indici AA) (coincidono solo se ΣAB = 0 ) Ricaviamo dai noti teoremi del calcolo delle probabilità la densità della distribuzione condizionata di XA : fXA |XB =xB (xA kXB = xB ) = fXA XB (xA , xB ) fXB (xB ) E’ più comodo lavorare sui logaritmi ed in particolare su −2 log f (in modo da trasformare solo le forme quadratiche a numeratore dell’esponente nella densità normale), indicando per brevità con K la costante di normalizzazione, che si può determinare dopo: −2 log[f (xA , xB )/f (xB )] = −1 = K + xT Σ−1 x − xT B ΣBB xB = −1 AA = K + xT xA + 2xTA ΣAB xB + xTB ΣBB xB − xT AΣ B ΣBB xB = (sostituendo gli opportuni blocchi di Σ−1 ) −1 −1 T −1 = K + xT A ΣAA.B xA − 2xA ΣAA.B ΣAB ΣBB xB + h i T T −1 T −1 −1 +xTB Σ−1 Σ Σ Σ Σ + I xB − xT AB B ΣBB xB = BB AA.B AB BB −1 −1 T −1 = K + xT A ΣAA.B xA − 2xA ΣAA.B [ΣAB ΣBB xB ]+ 2002-3003 versione provvisoria 113 T −1 −1 +[xTB Σ−1 BB ΣAB ]ΣAA.B [ΣAB ΣBB xB ] = = K + xA − ΣAB Σ−1 BB xB T −1 Σ−1 AA.B xA − ΣAB ΣBB xB Per cui è chiaro dall’ultima forma quadratica, che si tratta del numeratore dell’esponente di una distribuzione normale di parametri: µXA kXB =xB = ΣAB Σ−1 BB xB T AA −1 ΣXA kXB =xB = ΣAA.B = ΣAA − ΣAB Σ−1 ) BB ΣAB = (Σ (La costante K è ricavabile dalla condizione di normalizzazione, ma si può comunque verificare effettuando il rapporto fra i termini costanti delle due densità, tenendo presente che per matrici partizionate si ha: T kΣk = kΣAA − ΣAB Σ−1 BB ΣAB kkΣBB k = kΣAA.B kkΣBB k Per cui la distribuzione condizionata è: XA|xB ∼ N ΣAB Σ−1 x ; Σ B AA.B BB 114 Materiale didattico statistica 3 e quindi si ha: Distribuzioni condizionate nel caso generale di vettori aleatori normali: YA kYB = yB ∼ N µA + ΣAB Σ−1 BB (yB − µB ); ΣAA.B La distribuzione condizionata è normale multivariata con parametri: E YA kYB = yB ) = µA + ΣAB Σ−1 BB (yB − µB la funzione di regressione (speranza matematica condizionata) è lineare in yB T AA −1 V (YA kYB = yB ) = ΣAA.B = ΣAA −ΣAB Σ−1 ) BB ΣAB = (Σ la matrice di varianze e covarianze condizionate non dipende da yB (omoscedasticità) i vettori casuali: YA − (µA + ΣAB Σ−1 BB [YB − µB ])eYB (oppure YA − ΣAB Σ−1 BB YB e YB ) T ) risultano indipendenti (si verifica subito calcolndo E(YA YB link o riferimento (vedere anche → )(figure varie) Esempio numerico: Si consideri la matrice 3×3 di varianza e covarianza relativa ad una distribuzione normale multivariata a tre componenti: Esempio 2 1 1 Σ= 1 2 1 1 1 1 Consideriamo la distribuzione della variabile 1 condizionatamente alla 2 e alla 3. La matrice di varianze e covarianze va quindi partizionata seguente modo: 2002-3003 versione provvisoria 115 2 1 1 Σ= 1 2 1 1 1 1 Mentre ΣBB = 2 1 ! 1 1 controllare inserire lucidi manuali ed esercizio completare 5.8.2 Significato degli elementi dell’inversa della matrice di varianza e covarianza. E’ possibile dare anche un significato agli elementi dell’inversa di Σ , in termini di distribuzioni condizionate, nel caso in cui Σ sia la matrice di varianza e covarianza di variabili aleatorie normali; si vedrà come tali concetti possano essere estesi al caso di variabili aleatorie non normali o, meglio, nell’analisi di dati multivariati, al caso di variabili statistiche osservate. Gli elementi non diagonali dell’inversa: la correlazione parziale Intanto, con riferimento ad una distribuzione normale multivariata con matrice di varianze e covarianze Σ , si può dimostrare che se C = Σ−1 , allora: teorema 5.8.2 cij = 0 è condizione necessaria e sufficiente perché le variabili Yi e Yj siano indipendenti condizionatamente alle altre p − 2 variabili YB . Si può giungere al risultato in due modi: Dalla densità normale multivariata si vede direttamente che: se e solo se cij = 0 si ha la fattorizzazione: f (y) = f (yi , yB )f (yj , yB ) che è una condizione necessaria e sufficiente per l’indipendenza condizionata di due variabili aleatorie qualsiasi dotate di densità. Infatti, ponendo YA = (yi , yj )T e indicando con YB tutte le altre componenti, avendo indicato con C l’inversa della matrice di varianza e covarianza opportunamente partizionata: 116 Materiale didattico statistica 3 cii cij cTiB C = cij cjj cTjB ciB cjB CBB si ha: f (y) = f (yi , yj , yB ) = K × exp[−(yT Cy)/2] = T K×exp[−(cii yi2 +cjj yj2 +2cij yi yj +2yi cTiB yB +2yj cTjB yB +yB CBB yB )/2] Se ora cij = 0 allora si può facilmente operare su f (y) : T CBB yB )/2] = f (y) = K×exp[−(cii yi2 +cjj yj2 +2yi cTiB yB +2yj cTjB yB +yB T = K×exp[−(cii yi2 +2yi cTiB yB +yB CBB yB )/2]×exp[−(cjj yj2 +2yj cTjB yB )/2] z }| { g(yi , yB ) × g(yj , yB ) in modo da ottenere la fattorizzazione desiderata in due funzioni, in cui non compaiono simultaneamente termini in yi e yj Per una interpretazione in generale del significato dei termini dell’inversa, e non solo per il caso estremo cij = 0 , conviene riferirsi alle distribuzioni condizionate. Dalla distribuzione di YA condizionata a YB = yB , ponendo YA = (yi , yj )T (e quindi nella notazione della sezione precedente A è uguale alla coppia di indici i, j e B all’insieme degli altri p − 2 indici) si ricava che essendo la distribuzione condizionata di YA ancora normale, l’indipendenza condizionata si ha se e solo se yi , yj risultano non correlati, condizionatamente a YB = yB . Si è visto che: −1 T AA −1 V (YA kyB ) = Σ−1 ) AA.B = ΣAA − ΣAB ΣBB ΣAB = (Σ cioè la varianza condizionata di YA è uguale all’inversa del blocco di elementi corrispondenti ad YA nell’inversa di Σ . Nel caso di due variabili i e j , occorre invertire la matrice 2 × 2 di elementi: 2002-3003 versione provvisoria 117 AA Σ = ! cii cij cij cjj e quindi: (ΣAA )−1 = cjj −cij −cij cii ! /(cii cjj − c2ij ) pertanto yi e yj sono non correlati condizionatamente alle altre p − 2 variabili, e quindi indipendenti data la normalità della distribuzione condizionata, se e solo se cij = 0 . Dagli elementi di (ΣAA )−1 è possibile calcolare l’indice di correlazione lineare fra yi e yj condizionatamente a YB : −cij −σ ij =√ corr(yi , yj kYB = yB ) = √ cii cjj σ ii σ jj (essendo σ ij il cofattore di σij in Σ ) indice di correlazione lineare parziale ossia correlazione fra due variabili eliminata l’influenza delle altre p − 2 variabili Esempi sulla differenza fra l’indipendenza condizionata e l’indipendenza marginale L’indipendenza condizionata e l’indipendenza marginale sono due concetti diversi, e nessuno dei due implica l’altro. Per chiarire la differenza fra indipendenza marginale e indipendenza condizionata, ricorro qui ad un esempio relativo alla distribuzione congiunta di tre variabili dicotomiche A,B e C. Si ha una tavola 2 × 2 × 2 di tre mutabili A,B, e C. Le due tavole A × B condizionate ai valori di C sono: Esempio C = c1 b1 b2 tot. C = c2 b1 b2 tot. a1 0, 24 0, 06 0, 30 a1 0, 12 0, 28 0, 4 a2 0, 56 0, 14 0, 70 a2 0, 18 0, 42 0, 6 tot. 0, 80 0, 20 1, 00 tot. 0, 30 0, 70 1, 00 In queste distribuzioni condizionate A e B sono indipendenti; 118 Materiale didattico statistica 3 se P(C=c1 )= P(C=c2 )= 12 la tavola marginale A × B è: Ctot. citazione b1 b2 tot. a1 0, 18 0, 17 0, 35 a2 0, 37 0, 28 0, 65 tot. 0, 55 0, 45 1, 00 Nella distribuzione marginale A e B non sono indipendenti. Si può presentare il caso opposto, di caratteri indipendenti marginalmente e associati condizionatamente (paradosso di Simpson). Si ha un’altra tavola 2×2×2 di tre mutabili A,B, e C. Le due tavole A × B condizionate ai valori di C sono ora: C = c1 b1 b2 tot. C = c2 b1 b2 tot. a1 0, 5 0 0, 5 a1 0 0, 5 0, 5 a2 0 0, 5 0, 5 a2 0, 5 0 0, 5 1 tot. 0, 5 0, 5 tot. 0, 5 0, 5 1 In queste distribuzioni condizionate A e B sono associati (addirittura sono massimamente associati) Infatti se P(C = c1 )= P(C=c2 )= 12 la tavola marginale A × B è: Ctot. b1 b2 tot. a1 0, 25 0, 25 0, 5 a2 0, 25 0, 25 0, 5 tot. 0, 5 0, 5 1 Nella distribuzione marginale A e B sono indipendenti (addirittura equidistribuite) Gli elementi diagonali dell’inversa: la correlazione multipla Anche gli elementi sulla diagonale principale di Σ−1 sono interpretabili tenendo conto delle distribuzioni condizionate, ma in termini di variabilità di una variabile spiegata da tutte le altre, concetto che rivedremo poi nel caso di modelli lineari generali. Infatti se ora consideriamo l’insieme YA costituito da una sola variabile yi (e quindi nella notazione adottata finora A è uguale all’indice i e B all’insieme degli altri p−1 indici), si ha per la varianza di yi condizionata ai valori delle altre p − 1 variabili: 2002-3003 versione provvisoria 119 Tenendo conto che ΣAA = cii si ha: V (yi kyB ) = (ΣAA )−1 = 1/cii = kΣ|/σ ii Quindi l’inverso di un elemento diagonale dell’inversa della matrice di varianze e covarianze esprime la varianza della variabile di posto corrispondente condizionatamente alle altre p − 1 variabili. max( 1 ) = σi2 cii min(cii ) = 1 σi2 Il massimo di questa quantità è proprio la varianza della componente i -esima, ossia σi2 Se Σ è una matrice Z di correlazione, allora 1/cii indica la variabilità di yi non spiegata dalle altre p − 1 variabili, per cui si può costruire il coefficiente di determinazione multipla: 2 Ri.B = 1 − kZ|/z ii = 1 − 1/cii = 1 − V (yi kkYB ) V (yi ) Misura quanta parte della variabilità di Yi è spiegata dalle altre p-1 variabili del vettore aleatorio yB In generale l’indice di correlazione lineare multipla è dato da: s Ri.B = 1− |Σ| = σi2 σ ii q 1 − 1/(σi2 cii ) \begin{fig} Esempio Date le rilevazioni di $p=7 $ misure antropometriche su un insieme di $n=1432 $ bambini, si è calcolata la matrice di correlazione $\mZ $ che segue: \mZ= \end{fig} 120 Materiale didattico statistica 3 Ad esempio la correlazione lineare (marginale, ossia senza tenere conto della presenza delle altre variabili) fra le prime due variabili è di 0,719. Figura da inserire Da questa matrice di correlazione si è calcolata l’inversa C: C = e quindi si è calcolata la matrice A che ha come elemento generico: −cij rij.B = √ cii cjj correlazione parziale fra due variabili, Xi e Xj , tenute costanti le altre 5: Figura da inserire P= (ovviamente in questa matrice gli elementi diagonali non vanno considerati Si vede che la correlazione lineare (parziale, o meglio condizionata, ossia tenute costanti le altre variabili) fra le prime due variabili è di 0,245. Buona parte quindi della correlazione marginale è indotta dall’influenza delle altre 5 variabili, ossia la covariazione delle prime due variabili insieme alle altre 5. Se invece trasformiamo gli elementi diagonali di C , mediante la relazione: kZ| 1 2 Ri.B = 1 − ii = 1 − z cii otteniamo i 7 indici di determinazione multipla, di ciascuna variabile condizionatamente alle altre 6: 0.827137, 0.896544, 0.848327, 0.297231, 0.722443, 0.756753, 0.82098 Si noti che la matrice di correlazione ha 7 autovalori dati da: λT = 5.06451, 0.674288, 0.635871, 0.245914, 0.207684, 0.105888, 0.06584 La successione di tali valori indica chiaramente la presenza di correlazioni lineari fra combinazioni lineari di variabili molto forti. Impiego delle informazioni dell’inversa C nell’analisi di dati multivariati. Come si è visto, l’analisi degli elementi dell’inversa della matrice di correlazione può fornire degli elementi utili per indagare sulla dipendenza fra variabili sia in termini marginali che in termini condizionati. 2002-3003 versione provvisoria Esempio di variabili condizionatamente non correlate 121 122 Materiale didattico statistica 3 Figura 5.8: distribuzioni condizionate in una normale multivariata vai a indice figure 2002-3003 versione provvisoria 123 Figura 5.9: distribuzioni condizionate in una normale multivariatamatrice di varianze e covarianze e inversa vai a indice figure 5.9 Utilità della distribuzione normale multivariata In effetti quanto visto finora riguarda solo il modello teorico della normale multivariata, ossia le caratteristiche delle distribuzioni di vettori aleatori normali multivariati, che riassumo brevemente (e solo per le proprietà più rilevanti) • dipende solo dai primi due momenti multivariati; • ha contorni iper-ellissoidali; • ha distribuzioni marginali normali multivariate; • ha distribuzioni condizionate (o parziali) normali multivariate omoschedastiche e con funzioni di regressione lineari; • combinazioni lineari di sue componenti sono ancora normali multivariate; 124 Materiale didattico statistica 3 • è unimodale; xxxxxxxxxxxxxxxxxxxxxxxxxxxx \item si ottiene come distribuzione limite di processi multivariati come teorema limite centrale multivariato Non ci stiamo per ora ponendo il problema di adattare una tale distribuzione a dati osservati. In effetti in questo corso questo problema non verrà affrontato, se non marginalmente: l’importanza del modello normale multivariato per questo corso sta nel fatto che è un modello utile per la definizione di relazioni di dipendenza in media esattamente lineari ed omoschedastiche, che xxxxxxxxxxxxxxxxxxxxxxxxxxxxx 5.10 Regressioni approssimate per vettori aleatori qualsiasi In generale se abbiamo un vettore aleatorio Z a p componenti con distribuzione qualsiasi, Z1 Z2 .. . Z= Z i . .. Zp possiamo essere interessati a misurare in qualche modo la dipendenza di una componente dalle altre, diciamo per semplicità per ora la dipendenza di Z1 da tutte le altre componenti, Z2 , . . . , Zp ; in altre parole vogliamo vedere se e come si modifica la distribuzione di Z1 , condizionata a particolari valori z2 , . . . , zp assunti dalle altre p − 1 variabili, al variare dei valori condizionanti z2 , . . . , zp . 2002-3003 versione provvisoria 125 Per semplicità supponiamo che la distribuzione condizionata di Z1 esista sempre e sia dotata di densità per qualsiasi insieme di valori z2 , . . . , zp . Siamo quindi interessati allo studio della distribuzione condizionata di Z1 di densità: fZ1 (z1 |Z2 = z2 , . . . , Zp = zp ) al variare dei valori z2 , . . . , zp . Tale densità (univariata) è ovviamente data da: fZ1 (z1 |Z2 = z2 , . . . , Zp = zp ) = fZ (z1 , z2 , . . . , zp ) fZ2 ,...,Zp (z2 , . . . , zp ) Come esprimere adesso la dipendenza di Z1 dai valori z2 , . . . , zp in modo sintetico, possibilmente senza considerare l’intera distribuzione condizionata? Una soluzione del tutto naturale è quella di considerare una funzione g(·) (matematica, non aleatoria), dei valori z2 , . . . , zp che sintetizzi al meglio la distribuzione di densità fZ1 (z1 |Z2 = z2 , . . . , Zp = zp ). Vogliamo quindi sostituire alla variabile aleatoria Z1 |Z2 = z2 , . . . , Zp = zp , una funzione g(z2 , . . . , zp ) in modo tale che sia minimo la perdita di informazione . Se adottiamo un criterio di perdita quadratico, dobbiamo minimizzare quindi il valore atteso: E ((Z1 |Z2 = z2 , . . . , Zp = zp ) − g(z2 , . . . , zp ))2 (5.4) in corrispondenza di ciascuna combinazione di valori z2 , . . . , zp . Con questa impostazione, ossia una funzione di perdita quadratica, è evidente che il valore che minimizza la (5.4) è il valore atteso della distribuzione condizionata di Z1 ossia: g(z2 , . . . , zp ) = E [(Z1 |Z2 = z2 , . . . , Zp = zp )] Tale funzione va sotto il nome di funzione di regressione di Z1 su Z2 , . . . , Z p La bontà di tale funzione di regressione nel sintetizzare la distribuzione condizionata di Z1 è valutabile attraverso la funzione di varianza condizionata: V [Z1 |Z2 = z2 , . . . , Zp = zp ] = E ((Z1 |Z2 = z2 , . . . , Zp = zp ) − g(z2 , . . . , zp ))2 126 Materiale didattico statistica 3 L’analisi di questa funzione mostra se le varianze sono costanti o meno e come variano in funzione dei valori z2 , . . . , zp . La funzione di regressione ovviamente, tranne che in casi particolari, è una funzione qualsiasi: può essere lineare, polinomiale, esponenziale o altro. Ci possiamo porre ancora un altro problema: invece della funzione di regressione esatta, usiamo una funzione parametrica h(z2 , . . . , zp ; β), che dipenda da un numero ridotto di parametri β . Anche stavolta vorremo minimizzare la perdita quadratica: E ((Z1 |Z2 = z2 , . . . , Zp = zp ) − h(z2 , . . . , zp ; β))2 (5.5) Vediamo subito che relazione c’è fra questa perdita e quella minima realizzata con la funzione di regressione: non v’è dubbio che il minimo della quantità in (5.5) sarà superiore al valore ottimo (5.4), perchè nella (5.5) si minimizza rispetto ad una particolare funzione parametrica. Si può poi vedere che: E ((Z1 |Z2 = z2 , . . . , Zp = zp ) − h(z2 , . . . , zp ; β))2 = = E [({(Z1 |Z2 = z2 , . . . , Zp = zp ) − E [Z1 |Z2 = z2 , . . . , Zp = zp ]}]+ E [Z1 |Z2 = z2 , . . . , Z = E ({(Z1 |Z2 = z2 , . . . , Zp = zp ) − E [Z1 |Z2 = z2 , . . . , Zp = zp ]})2 + E [Z1 |Z2 = z2 , . . . - 2E [{(Z1 |Z2 = z2 , . . . , Zp = zp ) − E [Z1 |Z2 = z2 , . . . , Zp = zp ]}] {E [Z1 |Z2 = z2 , . . . , Zp = E’ facile vedere che il doppio prodotto è nullo, dato che: 2E [{(Z1 |Z2 = z2 , . . . , Zp = zp ) − E [Z1 |Z2 = z2 , . . . , Zp = zp ]}] {E [Z1 |Z2 = z2 , . . . , Zp = = 2 {E [Z1 |Z2 = z2 , . . . , Zp = zp ] − h(z2 , . . . , zp ; β)} E [{(Z1 |Z2 = z2 , . . . , Zp = zp ) − E [Z perchèE [{(Z1 |Z2 = z2 , . . . , Zp = zp ) − E [Z1 |Z2 = z2 , . . . , Zp = zp ]}] = 0. In definitiva abbiamo, utilizzando una notazione più sintetica ma altrettanto chiara: 2002-3003 versione provvisoria 127 E ((Z1 |z2 , . . . , zp ) − h(z2 , . . . , zp ; β))2 = = E ({(Z1 |z2 , . . . , zp ) − E [Z1 |Z1 |z2 , . . . , zp ]})2 + E [Z1 |Z1 |z2 , . . . , zp ] − h(z2 , . . . , zp ; β)2 Questa relazione è molto importante per due motivi: 1. La funzione di perdita E ((Z1 |z2 , . . . , zp ) − h(z2 , . . . , zp ; β))2 relativa alla funzione h(z2 , . . . , zp ; β) può essere scomposta in due componenti: • la funzione di varianza condizionata: E [(] {(Z1 |z2 , . . . , zp ) − E [Z1 |Z1 |z2 , . . . , zp ]})2 • e la cosiddetta divergenza dalla funzione h(): E [(] {(h(z2 , . . . , zp ; β) − E [Z1 |Z1 |z2 , . . . , zp ]})2 2. dal momento che la varianza condizionata non dipende dalla funzione h(z2 , . . . , zp ; β), per ottenere il valore ottimo di β , invece di minimizzare la (5.4) possiamo minimizzare rispetto a β la quantità: E [(] {(h(z2 , . . . , zp ; β) − E [Z1 |Z1 |z2 , . . . , zp ]})2 trovare esempi semplici di regressioni teoriche non lineari. e mettere dei grafici 5.10.1 Regressioni lineari approssimate per vettori aleatori qualsiasi Come visto prima, vettori aleatori con distribuzioni qualsiasi, o variabili statistiche osservate,avranno funzioni di regressione di forma qualsiasi (anche non lineare) e con varianze diverse (eteroscedasticità). Accenniamo adesso al caso della distribuzione condizionata di un numero qualsiasi di componenti: In generale se Z è un vettore aleatorio con distribuzione qualsiasi, e ZA e ZB sono due vettori ottenuti dalle componenti di Z , allora: 128 Materiale didattico statistica 3 la funzione di regressione di ZA su ZB è la speranza matematica di ZA condizionatamente a particolari valori di ZB : funzione di regressione • E(ZA kZB = zB ) (se esiste) è una funzione di zB di forma qualsiasi (in generale non lineare). • la distribuzione (condizionata) di ZA , con densità fZA (zA kZB = zB ) è in generale non normale. • tale distribuzione dipende in generale dai particolari valori fissati di zB . In particolare quindi può essere con varianze V (ZA kZB = zB ) non costanti. Tuttavia se si considerano le regressioni parziali lineari approssimate (ossia le relazioni lineari che approssimano, secondo i minimi quadrati, le curve di regressione) si ritrovano le stesse espressioni (come funzioni della matrice di varianza e covarianza) che abbiamo trovato per la normale multivariata. Nel caso normale però queste relazioni sono esatte. Le relazioni di regressione lineare approssimate in generale si trovano minimizzando rispetto alla matrice W la quantità: tr[V (ZA − WZB )] (equivalente a E(ZA − WZB )2 se si lavora con vettori aleatori a media nulla). Si ottiene comunque: W = ΣAB Σ−1 BB Le regressioni però saranno esattamente lineari e omoscedastiche solo nel caso normale multivariato. Figura da inserire (figure varie) link o riferimento (vedere anche rightarrowregressione parziale e condizionata ) Analisi delle correlazioni lineari presenti in data set osservati forse è il caso di metterlo dopo Sezione avanzata 2002-3003 versione provvisoria 129 E’ il caso di fare comunque delle considerazioni sui momenti del secondo ordine quando si opera con variabili che non seguono una normale multivariata, o quando si ha a disposizione un insieme di dati per il quale non si può ipotizzare che si tratti di un campione proveniente da una distribuzione normale multivariata. Per esempio quando si utilizzano delle relazioni lineari approssimate secondo quanto visto in precedenza, si sta implicitamente ipotizzando, oltre la linearità, l’uguaglianza fra le varianze delle distribuzioni parziali e l’uguaglianza fra le correlazioni e le covarianze delle distribuzioni parziali, indipendentemente dai particolari valori fissati per le variabili indipendenti (o condizionanti). Si stanno cioè ipotizzando relazioni parziali che non cambiano forma al variare delle condizioni. Supponiamo per esempio di avere in un insieme di dati (n unità ×p variabili) relativo a p variabili Xi , in cui le n unità sono suddivise in kZ gruppi secondo le modalità zh (h = 1, 2, . . . , kZ ) di una ulteriore variabile Z , supponendo quindi di avere delle osservazioni ripetute in corrispondenza di ciascuna delle kZ modalità di Z . Possiamo allora calcolare le varianze delle p variabili Xi e le loro correlazioni in coppia per ciascuno dei kZ gruppi. Se per esempio osserviamo che le varianze di una o più variabili cambiano in modo sostanziale da un gruppo ad un altro oppure se le correlazioni fra alcune variabili cambiano in modo marcato in corrispondenza delle varie modalità di Z, questo può essere un indizio del fatto che l’approssimazione dei minimi quadrati delle vere regressioni non sarà appropriata e che quindi i dati presentano caratteristiche diverse da quelle di una normale multivariata, per cui questo può essere indizio di assenza di multinormalità. In questi casi occorrerà ricorre ad altre approssimazioni, non lineari, o eteroscedastiche, che tengano eventualmente in conto momenti diversi dai primi due. 5.11 Sintesi delle informazioni sui vari tipi di correlazione e dipendenza lineare ricavabile dai primi 2 momenti multivariati I momenti multivariati primo e secondo, ossia il vettore delle speranze matematiche e la matrice di varianze e covarianze contengono tutte (e sole) le informazioni che servono per la quantificazione e l’analisi di tutti i tipi di dipendenza e correlazioni lineari relative a coppie o gruppi di variabili, sia nelle distribuzioni marginali che in quelle condizionate (si veda a proposito anche la sezione 5.8). Riassumo nella tavola che segue le relazioni lineari e loro connessione con i momenti primi e secondi, secondo quanto fin qui studiato, per variabili multiple X a p componenti e con momenti primi nulli (quindi si tratta di variabili centrate): X = {X1 , X2 , . . . , Xi , . . . , Xp }T E [X] = 0 Ho indicato con Σ la matrice di varianze e covarianze e matrice di correlazione R , i cui elementi sono al solito dati da: chiarire 130 Materiale didattico statistica 3 rij = σij σi σj con σi2 si è indicata la varianza della i -esima componente, ossia l’elemento i -esimo della diagonale di Σ , di modo che σi è lo scostamento quadratico medio della i -esima variabile. In effetti se con D indichiamo una matrice diagonale i cui elementi sono le varianze delle singole componenti, per cui dij = 0 se i 6= j e dii = σi2 , si può esprime la matrice di correlazione in termini matriciali: 1 1 R = D− 2 ΣD− 2 , Secondo il simbolismo già adottato, con C , di elemento generico cij , si è indicata l’inversa di Σ , esprimibile al solito in termini dei cofattori σ ij degli elementi di posto i, j della matrice Σ : cij = σ ij /kΣ| ... relazioni lineari e loro connessione con i momenti primi e secondi di una variabile X Significato statistico-probabilistico espressione in termini di elementi di Σ varianza di una componente Xi σi2 varianze e covarianze di una combinazione lineare Y = A X AΣAT varianza di tutte le componenti tr(Σ) 2002-3003 versione provvisoria Significato statistico-probabilistico 131 espressione in termini di elementi di Σ varianza generalizzata (di Wilks) kΣ| correlazione lineare semplice fra due variabili Xi , Xj coefficiente di regressione lineare semplice di una variabile Xi rispetto ad un’altra, Xj correlazione multipla: correlazione fra una variabile Xj ed una combinazione lineare (la migliore, nel senso dei minimi quadrati!) delle altre p − 1 variabili, che sono le componenti vettore aleatorio XB , con B = 1, 2, . . . , j − 1, j + 1, . . . , p dipendenza lineare di una variabile dalle altre p−1 variabili (combinate linearmente nel miglior modo possibile). frazione della varianza di Xi spiegata dalle altre p-1 variabili. frazione della varianza della distribuzione di Xi condizionatamente a XB rij = bi,j = σij σj2 Ri.B = = q σij σi σj q 1 − kΣ|/[σi2 σ ii ] 1 − 1/(σi2 cii ) = 1− V (Xi kXB ) V (Xi ) V (Xi kXB ) V (Xi ) 132 Significato statistico-probabilistico matrice di varianze e covarianze della regressione lineare di un gruppo di variabili XA in dipendenza di una latro gruppo di variabili XB (per il simbolismo sulle matrici partizionate si veda la sezione sulla normale multivariata) correlazione parziale fra due variabili, Xi e Xj , tenute costanti le altre p-2 combinazioni lineari a coefficienti normalizzati di massima varianza (e retta di minima distanza dall’insieme di dati multivariato) Materiale didattico statistica 3 espressione in termini di elementi di Σ T AA −1 ΣAA −ΣAB Σ−1 ) BB ΣAB == (Σ −cij rij.B = √ cii cjj Si ricavano dagli autovettori di Σ varianza massima di una combinazione lineare delle Xi (a coefficienti normalizzati) λ1 varianza minima di una combinazione lineare delle Xi (a coefficienti normalizzati) λp varianze delle componenti principali (combinazioni lineari delle Xi (a coefficienti normalizzati) λ : vettore degli autovalori di Σ combinazioni lineari di gruppi di variabili con correlazione massima. Analisi delle correlazioni canoniche solo accennata Per l’analisi di relazioni di tipo non lineare (o di regressioni lineari per esempio eteroscedastiche), occorre far ricorso ad altri momenti multivariati oltre il secondo. Si faranno degli esempi nell’ambito dell’ analisi dei residui nella regressione multipla lineare. In effetti si vedrà che anche nel modello lineare generale, l’analisi 2002-3003 versione provvisoria 133 della dipendenza lineare e delle proprietà degli stimatori, sotto certe ipotesi semplificatrici è legata solo alla struttura delle varianze e delle covarianze fra variabili dipendenti e indipendenti. 5.12 Stimatori di massima verosimiglianza dei parametri di una normale multivariata Supponiamo di avere un campione(multivariato) casuale di ampiezza n estratto da una normale multivariata a p componenti, ossia una matrice Xn × p di dati, le cui righe sono delle determinazioni di una variabile normale multipla: x11 x12 x21 x22 . . . . . . X = xi1 xi2 . . . . . . xn1 xn2 . . . x1j . . . x1p . . . x2j . . . x2p ... ... ... ... . . . xij . . . xip ... ... ... ... . . . xnj . . . xnp In analogia al caso univariato, i momenti primi e secondi calcolati sul campione multivariato sono le stime di massima verosimiglianza dei corrispondenti parametri della distribuzione di provenienza; in 134 Materiale didattico statistica 3 sintesi: Lo stimatore di massima verosimiglianza del vettore delle speranze matematiche µ di una variabile normale multipla è dato dal vettore M (X) delle medie aritmetiche di un campione multivariato x di n osservazioni i.i.d. estratto dalla corrispondente distribuzione. Tale stimatore, come nel caso univariato, è corretto, ossia non distorto. Lo stimatore di massima verosimiglianza della matrice di varianze e covarianze Σ di tale variabile è dato dalla matrice delle varianze e covarianze empiriche calcolata su un campione multivariato di n osservazioni i.i.d. estratto dalla corrispondente distribuzione. Tale stimatore, come nel caso univariato, è invece distorto. E’ possibile costruire uno stimatore corretto moltiplicando sia le n varianze che le covarianze empiriche per il fattore correttivo n−1 , ottenendo quindi lo stimatore: Σ̂ = V [X] = V [Z] = ZT Z n In effetti, dal momento che gli unici parametri della distribuzione normale multivariata sono il vettore delle medie e la matrice di varianza e covarianza, per ottenere gli stimatori di massima verosimiglianza (puntuali!) di tutte le quantità necessarie per calcolare le distribuzioni congiunte, marginali, condizionate e per le componenti principali da un campione proveniente da una normale multivariata, si impiegheranno le stesse formule già viste per la distribuzione teorica, sostituendo ai momenti primi e secondi teorici quelli empirici stimati dal campione, dal momento che lo stimatore di massima verosimiglianza di una funzione dei parametri g(θ) è dato dalla stessa funzione dello stimatore di Massima verosimiglianza, g(θ̂) 2002-3003 versione provvisoria 135 Dimostrazione È opportuno a questo punto richiamare e rivedere le proprietà viste precedentemente sulla derivazione di forme quadratiche di determinanti e di matrici inverse. Sezione avanzata Per ricavare gli stimatori di massima verosimiglianza dei parametri di una normale multivariata costruiamo come sempre la verosimiglianza, o meglio il suo logaritmo, supponendo di avere n osservazioni indipendenti ciascuna con p componenti. Per comodità e perché questo facilita i passaggi successivi, consideriamo come parametri gli elementi cij di C , l’inversa della matrice Σ di varianze e covarianze, oltre ovviamente al vettore delle speranze matematiche µ. Sappiamo dalle proprietà degli stimatori di massima verosimiglianza che la parametrizzazione è irrilevante ai fini della determinazione degli stimatori puntuali. Costruiamo la quantità: −2 log L(µ; C) (essendo L(µeC) la verosimiglianza campionaria (rispetto a µ e C), sulla base di un campione di n osservazioni indipendenti (si riveda la parte iniziale sulla normale multivariata, per questa parametrizzazione, in particolare l’equazione 5.3): l(µ, C; X) = −2logL(µ, C; X) = k − nlog|C| + n X T (xi − µ) C(xi − µ) i=1 essendo xi il vettore ( p -variato) osservato relativo all’i-esima osservazione. Procedendo a derivare prima rispetto al vettore µ si ha: n n X X ∂l(µ, C; X) = −2 C(xi − µ) = −2C (xi − µ) ∂µ i=1 i=1 E’ immediato vedere che ∂l(µ,C;X) ∂µ si annulla se: 2C n X (xi − µ̂) = 0 i=1 ossia (dato che C è di rango pieno!) solo quando: n X (xi − µ̂) = 0, i=1 ed infine: M1 ... xi = nµ̂µ̂ = xi /n(= M (X) = Mj i=1 i=1 ... Mp n X n X Per quanto riguarda invece le derivate rispetto agli elementi di C conviene distinguere gli elementi diagonali cjj da quelli fuori dalla diagonale cjk (k 6= j) : ∂ n ∂|C| ∂l(µ, C; X) =− + ∂cjj |C| ∂cjj Pn i=1 (xi − µ)T C(xi − µ) j = 1, 2, . . . , p ∂cjj Per il primo addendo a secondo membro ricordiamo il risultato generale per i determinanti di matrici simmetriche: ∂|C| = Cii ∂cjj essendo Crs il cofattore di crs in C , 136 Materiale didattico statistica 3 mentre per il secondo addendo ovviamente si tratta di termini lineari in C , per cui basterà nella sommatoria selezionare solo le componenti opportune dei vettori (xi − µ) , ossia solo quelle che moltiplicano cjj : n X ∂l(µ, C; X) Cjj 2 = −n + (xij − µj ) . ∂cjj |C| i=1 Si vede subito che: Cjj 2 = σj |C| dal momento che C = Σ−1 e quindi Σ = C−1 e gli elementi di un’inversa sono proprio dati dai rapporti fra cofattori e determinante. Per trovare le espressioni degli stimatori σ̂j2 occorre annullare le precedenti derivate, avendo sostituito alle speranza matematiche µj gli stimatori di massima verosimiglianza Mj . Pertanto: n X ∂l(µ, C; X) Cjj 2 = 0 → −n + (xij − Mj ) = 0; ∂cjj |C| i=1 e quindi: Pn 2 i=1 (xij σ̂J = − Mj )2 n Deriviamo adesso rispetto agli elementi non diagonali cjk (k 6= j ): ∂ ∂l(µC; X) n ∂|C| =− + ∂cjk |C| ∂cjk Pn i=1 (xi − µ)T C(xi − µ) j, k = 1, 2, . . . , p; k 6= j ∂cjk Procediamo come prima, e per il primo addendo a secondo membro ricordiamo il risultato generale per i determinanti di matrici simmetriche: ∂|C| = 2Cjk ∂cjk cofattore di cjk in C, k 6= j. Mentre per il secondo addendo selezioniamo le componenti dei vettori (xi − µ) che moltiplicano cjk : n X Cjk ∂l(µ, C; X) = −2n +2 (xij − µj )(xik − µk ) ∂cjk |C| i=1 Ancora si ha: Cjk = σjk |C| e per trovare le espressioni degli stimatori σ̂jk occorre annullare le precedenti derivate, avendo sostituito alle speranze matematiche µj gli stimatori di massima verosimiglianza Mj . Pertanto: n X ∂l(µ, C; X) Cjk = 0 ⇒ −2n +2 (xij − Mj )(xik − Mk ) = 0; ∂cjk |C| i=1 e quindi: Pn σ̂jk = i=1 (xij − Mj )(xik − Mk ) n e quindi in definitiva il risultato prima anticipato: T Σ̂ = V (X) = V (Z) = Z Z/n essendo X il campione multivariato originario e Z la matrice degli scarti 2002-3003 versione provvisoria 137 Inferenza nel caso normale sugli autovalori: Sebbene solitamente si impieghino le tecniche di analisi delle componenti principali a scopo esplorativo, è interessante accennare al caso in cui si abbia a disposizione un campione multivariato estratto da una distribuzione normale; abbiamo infatti già visto come per una distribuzione normale multivariata gli autovalori e gli autovettori assumano dei significati ben precisi. Evidentemente gli stimatori di massima verosimiglianza degli autovalori e degli autovettori sono forniti dagli autovalori e dagli autovettori della matrice di varianza e covarianza campionaria (che è lo stimatore di massima verosimiglianza della matrice di varianza e covarianza teorica); dal momento che per gli stimatori delle varianze e delle covarianze per campioni provenienti da una normale valgono della proprietà di regolarità e dei teoremi che forniscono le distribuzioni campionarie e che garantiscono la consistenza degli stimatori insieme con loro correttezza asintotica, dobbiamo aspettarci che anche per gli autovalori e gli autovettori ricavati da tali matrici campionarie valgano delle proprietà di consistenza e di correttezza asintotica. In effetti qui mi limito a riportare un risultato asintotico che riguarda la distribuzione degli autovalori per campioni provenienti da una distribuzione normale multivariata. Asintoticamente gli lj , stime campionarie dei veri autovalori λj , ottenute da un campione di n osservazioni estratto da una normale multivariata, si distribuiscono secondo una normale multivariata a componenti indipendenti: con valore atteso: E[lj ] = λj e varianza campionaria : V ar[lj ] = 2λ2j n−1 (si ricordi il caso particolare di matrici di varianze e covarianze diagonali: questi risultati coincidono con quelli classici della distribuzione di una varianza campionaria!) Casi interessanti: H0 : λj = 1, j = 1, 2, . . . , p che corrisponde al caso di indipendenza fra le variabili (standardizzate). 138 Materiale didattico statistica 3 È da intendersi che questi risultati sono semplicemente delle approssimazioni ma danno delle indicazioni sull’ordine di grandezza dell’errore campionario. 5.12.1 Un test di Multinormalità: cenni Quando si ha a disposizione un campione di dati multivariato, molto spesso è necessario verificare se è plausibile l’ipotesi di provenienza da un universo normale multivariato. Un modo semplice per verificare la normalità di un campione di osservazioni multivariate, consiste ovviamente nell’effettuare dei test di normalità su ciascuna delle distribuzioni univariate. Ricordo che la normalità delle distribuzioni marginali è una condizione necessaria ma non sufficiente per la normalità multivariata: pertanto i test sulla normalità delle distribuzioni marginali costituiscono uno sbarramento preliminare, nel senso che se danno esito negativo possiamo senz’altro scartare l’ipotesi di multinormalità, altrimenti occorrerà procedere col saggiare l’ipotesi di normalità multivariata con test basati sulla distribuzione congiunta. Se l’insieme in esame è costituito da molte variabili non sarà possibile utilizzare i normali test di bontà dell’adattamento; tuttavia è possibile ottenere delle informazioni eventualmente anche grafiche trasformando opportunamente l’insieme di dati multivariato. Come si è visto infatti nel capitolo sulla distribuzione normale multivariata, la forma quadratica ad esponente della densità normale ha una distribuzione proporzionale a quella di una χ2 con p gradi di libertà. Infatti se: Y(Np (µ, Σ), si è già visto prima che la variabile casuale Q = (Y − µ)T Σ−1 (Y − µ)(χ2p Pertanto se trasformiamo ognuno degli n vettori osservati xi a p componenti secondo la stessa relazione, dovremo aspettarci che questi n valori trasformati qi seguano ciascuno una distribuzione χ2 con p gradi di libertà: qi = (xi − µ)T Σ−1 (xi − µ) ∼ χ2p (le n trasformate qi risultano indipendenti per l’indipendenza ipotizzata dei vettori osservati xi ) 2002-3003 versione provvisoria 139 Quindi, se è valida l’ ipotesi di multinormalità, il vettore delle n trasformate qi costituisce un campione casuale semplice estratto da una distribuzione χ2 con p gradi di libertà. In effetti le quantità che si usano effettivamente per il calcolo delle qi sono gli stimatori di µ e Σ , M e S , e non i parametri veri (usualmente incogniti); questo fa sı̀ che le quantità: q̂i = (xi − M )T S−1 (xi − M ) seguono una distribuzione χ2p solo approssimativamente; l’approssimazione è soddisfacente per campioni grandi. In effetti, un’informazione utile si ricava dalla rappresentazione grafica di tali valori trasformati in corrispondenza dei percentili teorici di una variabile χ2 ; un altro elemento di cui si potrebbe tenere conto nella costruzione di un test di normalità è dato dagli angoli che i vettori osservati formano con il centroide del campione; tuttavia adesso per semplicità non vedremo quest’ulteriore possibilità. Esempio: Questo esempio è tratto dall’insieme di dati antropometrici di cui si è fatto cenno in capitoli precedenti (1432 casi x 7 variabili). \begin{fig} in ese2000_correlaz1.nb \end{fig} Inserire grafici sulle distribuzioni normali condizionate 5.13 Inferenza sui parametri della normale multipla Mi dispiace! capitolo ancora da fare 140 Materiale didattico statistica 3 5.14 Esempi di distribuzioni multivariate non normali Sezione avanzata Saltare nella versione breve del corso. L’estensione al caso multivariato di distribuzioni non-normali a componenti non indipendenti è sempre ardua, perché le possibilità di estensione di sistemi di curve univariate non normali al caso multivariato possono essere di diversa natura, mentre dalla distribuzione normale univariata si può arrivare alla sua estensione multivariata con diverse impostazioni giungendo sempre alla stessa forma multivariata; ad esempio: • dalla densità o dalla funzione caratteristica, sostituendo ad un quadrato una forma quadratica; • se xT a è normale per qualsiasi a , allora x è normale multivariato. • come distribuzione di x = µ + Ay(con y a componenti indipendenti) • da distribuzioni condizionate normali e omoscedastiche con funzioni di regressione lineari. 5.14.1 Una particolare distribuzione beta multivariata (distribuzione di Dirichlet) La distribuzione di Dirichlet a k componenti, che costituisce una particolare generalizzazione multivariata della distribuzione Beta, è definita come segue: • si considerino k + 1 v.a. indipendenti Xi (i = 0, 1, 2, . . . , k) , ciascuna con distribuzione Gamma con lo stesso parametro di scala λ e di parametri di forma ci ; Pk • indicata con S la loro somma, S = i=0 Xi , la distribuzione di Dirichlet è la distribuzione congiunta delle k nuove variabili definite dalle relazioni: yi = Xi /Si = 1, 2, . . . , k. La densità di tale distribuzione è data da: f (y1 , y2 , . . . , yk ) = k Y ci−1 yi i=1 [1 − k X yi ] c0−1 i=1 Γ( k X ci )/ i=0 k Y Γ(ci ), i=0 ed è definita sul simplesso: yi (0, i = 1, 2, . . . , k; k X yi ≤ 1. i=1 Questa distribuzione è importante ad esempio per la descrizione della distribuzione simultanea di rapporti di composizione; si vedano nelle figure che seguono, per il caso bivariato, alcuni esempi di densità per diverse combinazioni dei parametri c0 , c1 e c2 .(indicati nel seguito con a, b, c nel caso bivariato) Se ci (1(i = 0, 1, . . . ., k) , la densità ha sempre un massimo unico in corrispondenza di: ∗ yi = (ci − 1)/ k X (ci − 1), (i = 1, 2, . . . , k). i=0 • Tutte le distribuzioni marginali univariate sono delle distribuzioni Beta. • Le distribuzioni condizionate sono ancora delle Beta • Nella distribuzione bivariata (indicando le due componenti con X ,y , e i parametri con a,b,c)) la distribuzione di y condizionata a X =x è proporzionale ad una variabile con distribuzione Beta univariata. In particolare si dimostra che: • y/(1 − x)kX = x si distribuisce come una Beta[b, c] • per cui E [y] varia linearmente con x, ma anche V [y] varia con x 2002-3003 versione provvisoria 141 Esempi di densità di distribuzioni di Dirichlet: Figura da inserire in bivar1.nb c0 = 1, 2 c0 = 1, 2 c0 = 3 c1 = 0, 9 c1 = 1, 3 c1 = 4 c2 = 0, 9 c2 = 1, 8 c2 = 5. \begin{fig} FIG2000REGR_ETERO1.STG \end{fig} Altri esempi di distribuzioni multivariate non normali Distribuzione Logistica Doppia di densità: F (x, y) = 1/(1 + Exp[−x] + Exp[−y]) \begin{fig} in bivar1.nb \end{fig} Distribuzione Esponenziale Bivariata $(a=0,7)$ $$ F(\vecx,\vecy)= (1-Exp[-\vecx])(1-Exp[-\vecy])( (1+a Exp[-\vecx-\vecy]) $$ \begin{fig} in bivar1.nb \end{fig} Distribuzione Bivariata Dirichlet (\mBeta-bivariata) $a=1,5; \vecb=1,6; c=2,1$ \begin{fig} in bivar1.nb \end{fig} Distribuzione Bivariata Dirichlet (\mBeta-bivariata) $a=4; \vecb=4; c=3$ \begin{fig} 142 Materiale didattico statistica 3 in bivar1.nb \end{fig} Distribuzione Bivariata Dirichlet (\mBeta-bivariata) $a=1,1; \vecb=1,1; c=0,9$ \begin{fig} in bivar1.nb \end{fig} Sezione avanzata costruzione di variabili correlate Uno schema generale di costruzione di variabili aleatorie correlate da p+1 variabili aleatorie indipendenti Xj (j=0,1, . . . ,p), è quello di considerare p variabili aleatorie sommando a tutte la componente X0 . In dettaglio otteniamo ora un nuovo vettore aleatorio Y a p componenti, ponendo: y1 = X0 + X1 ... yj = X0 + Xj ... yp = X0 + Xp In pratica la componente X0 è quella che determina la covarianza fra le componenti di Y . E’ facile calcolare i momenti di Y da quelli di X , mentre può essere in generale arduo calcolare la distribuzione di Y (è spesso è complicato integrare rispetto a X0 nella densità congiunta di X0 , X1 , . . . , Xp , ). Come esercizio si calcoli la correlazione e la covarianza fra due generiche componenti di Y o, direttamente, la matrice di varianze e covarianze e la matrice di correlazione di Y . V (yj ) = V (X0 ) + V (Xj ); Cov(yj , yk ) = V (X0 ) costruzione di variabili correlate Uno schema generale di costruzione di variabili aleatorie correlate da p+1 variabili aleatorie indipendenti Xj (j=0,1, . . . ,p), è quello di considerare p variabili aleatorie sommando a tutte la componente X0 . In dettaglio otteniamo ora un nuovo vettore aleatorio Y a p componenti, ponendo: In pratica la componente X0 è quella che determina la covarianza fra le componenti di Y . E’ facile calcolare i momenti di Y da quelli di X , mentre può essere in generale arduo calcolare la distribuzione di Y (è spesso è complicato integrare rispetto a X0 nella densità congiunta di X0 , X1 , . . . , Xp , ). Come esercizio si calcoli la correlazione e la covarianza fra due generiche componenti di Y o, direttamente, la matrice di varianze e covarianze e la matrice di correlazione di Y . V (yj ) = V (X0 ) + V (Xj ); Cov(yj , yk ) = V (X0 ) Capitolo 6 Introduzione ai Modelli Lineari Figura da inserire FIG2000REGR1.STG FIG2000REGR2.STG FIG2000REGR3.STG 6.1 Il modello lineare di dipendenza per variabili normali. 143 144 Materiale didattico statistica 3 Figura 6.1: relazione fra due variabili in funzione del valore di una terza variabile vai a indice figure Per quanto visto nelle lezioni sulla normale multivariata, la distribuzione di un numero qualsiasi di componenti condizionatamente a valori qualsiasi Z2 di altre componenti del vettore aleatorio normale è normale, con valore atteso che è funzione lineare di Z2 , e matrice di varianze e covarianze indipendente dai particolari valori condizionanti; quindi le regressioni sono tutte lineari e omoscedastiche. Pertanto se si ha a disposizione un campione casuale semplice da una normale multivariata, non esiste alcun problema di identificazione del modello, né di scelta della funzione, perché tutte le distribuzioni condizionate sono note. 2002-3003 versione provvisoria 145 Tuttavia sono rari i casi in cui nello studio della dipendenza di uno o più fenomeni, si può ragionevolmente ipotizzare di avere un campione casuale semplice da una distribuzione normale multipla, perché spesso ci si trova in altre situazioni, fra cui essenzialmente si hanno le seguenti: • I dati costituiscono un campione casuale semplice proveniente da una distribuzione multivariata non normale. • I dati non costituiscono un campione casuale semplice ma, per esempio, i valori delle variabili indipendenti sono stati opportunamente selezionati o predisposti • oppure si ha un campione non probabilistico o comunque un archivio di dati che non costituisce un campione. • Il modello da cui si possono selezionare i dati è effettivamente una distribuzione normale multivariata (almeno approssimativamente normale), e si può estrarre un campione casuale semplice, tuttavia l’interesse dell’analisi è limitato allo studio della distribuzione di una delle componenti y condizionatamente a valori particolari o estremi delle altre componenti X : è noto anche nell’analisi della regressione semplice, che l’inferenza è migliore (ossia le bande di confidenza della relazione di regressione sono più strette) se si selezionano unità con valori estremi delle componenti condizionanti X più vicine a quelle di interesse. spostare questo paragrafo Ovviamente restano rinviati (ma solo per poche pagine!) i problemi relativi alla stima dei parametri sulla base di un campione di osservazioni p-variate, che verranno affrontati estendendo opportunamente le tecniche impiegate quando si studia la dipendenza di una variabile y da una variabile indipendente x . In effetti anche nel caso di campioni casuali semplici da distribuzioni non normali multivariate, si possono cercare le migliori (nel senso dei minimi quadrati) relazioni lineari fra le speranze matematiche di y e particolari valori di X . In ogni caso, come si apprestiamo a discutere diffusamente, i valori delle x possono anche non essere 146 Materiale didattico statistica 3 delle determinazioni di variabili casuali, ma valori anche scelti in modo non casuale. Nei paragrafi che seguono verranno affrontati diversi aspetti reversatilità del modello li- lativi alla versatilità del modello lineare ed alle diverse possibilità neare interpretative del modello e dei suoi parametri: alcuni dei concetti fondamentali relativi a particolari modelli lineari vengono introdotti fra breve, prima che vengano affrontati gli aspetti inferenziali. 6.2 Funzioni di regressione questo pezzo va agganciato con il pezzo sulla regressione per vettori aleatori. Supponiamo di avere un vettore aleatorio di p + 1 componenti: (Y, Z1 , Z2 , . . . , Zp ) l’approccio alla misura della dipendenza di una componente Y di un vettore aleatorio dalle altre componenti, può essere affrontato in termini di funzione di regressione, ossia della funzione di dipendenza della speranza matematica di Y da particolari configurazioni di Z : E [Y ] = f (z) Ovviamente questo concetto può essere esteso al caso in cui abbiamo n osservazioni relative a p + 1 variabili statistiche, e si vuole studiare come varia una (o meglio le sue medie) in funzione delle altre. L’approccio tecnico scelto in questo corso ci consentirà di affrontare in modo simile gli aspetti inferenziali relativi alla regressione multipla, all’analisi della varianza, della covarianza; inoltre costituirà una buona base per alcuni tipi di GLM (Generalized linear models) sia per l’interpretazione dei parametri che per l’inferenza. 2002-3003 versione provvisoria 6.3 147 I modelli statistici. Prima di iniziare lo studio del modello lineare, che ci accompagnerà per tutto (o quasi) il corso) vale la pena di fare una citazione: Utilità dei modelli statistici All models are wrong, but some are useful (G.E.P. Box) (Tutti i modelli (statistici) sono sbagliati, ma alcuni sono utili) 6.4 Il modello lineare generale. Per modello lineare in generale si intende un modello nel quale una variabile di risposta osservabile Y è spiegata da una combinazione lineare di k variabili esplicative Xj , secondo dei parametri incogniti βj , più una componente accidentale ε (non osservabile) , secondo la generica relazione lineare: ... y = X1 β1 + X2 β2 + . . . + Xk βk + ε 148 Materiale didattico statistica 3 ... In generale si può avere: y = g(X1 , . . . , Xk , β, ε) In particolare comunque ci occuperemo di modelli lineari di dipendenza nei quali le Xj non sono variabili casuali, ma costanti note, che assumono n valori in <k (tutti distinti oppure con ripetizioni, questo si vedrà meglio in seguito). A differenza di quanto visto nelle lezioni precedenti, non ci stiamo occupando della distribuzione simultanea di k + 1 variabili aleatorie, perché le Xj sono variabili i cui valori possono addirittura essere prefissati ed assegnati. La generica osservazione i -esima è quindi caratterizzata da un particolare vettore di valori delle k variabili Xj , indicato con: xi1 ... xi = x ij ... xik Eventualmente le x potranno essere dei valori particolari (fissati!) di variabili casuali, nel caso in cui studiamo le distribuzioni condizionate della variabile aleatoria Y , condizionatamente agli n valori di k variabili aleatorie Xj , e ipotizzeremmo in quel caso l’esistenza di k+1 variabili aleatorie osservabili. Anche in questa situazione però non ci occuperemmo della distribuzione congiunta delle Xj , ma solo di f (Y|Xnxk ) , ossia la distribuzione di Y condizionatamente a particolari valori delle x. 2002-3003 versione provvisoria 149 E’ più opportuno allora fornire l’equazione per la variabile casuale yi corrispondente alla generica i-esima osservazione: ... Yi = xi1 β1 + xi2 β2 + . . . + xik βk + εi = xTi β + εi Il vettore delle n osservazioni può essere quindi cosı̀ espresso formalmente: MODELLO LINEARE GENERALE Y[n×1] = X[n×k] β [k×1] + ε[n×1] L’ equazione deve essere lineare nei parametri β . Rappresentando i dati in blocchi si ha: Figura da inserire BLOCCHI Y[n×1] = X[n×k] β [k×1] + ε[n×1] y1 ... ... ... ... ... ... yi = xi1 β1 + xi2 β2 + ... ... ... ... ... ... yn xn1 β1 + xn2 β2 + ε1 +xik βk + ... ... +xnk βk ... ... x11 β1 + x12 β2 + . . . +x1k βk ... ... ... ... ... ... ... ... εi ... ... εn 150 Materiale didattico statistica 3 ... L’utilità e la versatilità di tale modello per la descrizione di fenomeni reali risiede nella possibilità di dare un significato agli elementi di X e di β . Il nome lineare presuppone in generale che il modello sia lineare nei parametri βj 6.4.1 componente sistematica e componente casuale. Possiamo interpretare le due componenti fondamentali del modello che forniscono la risposta Y come: Xβ la componente sistematica del modello; ε la componente accidentale, che qui sto supponendo additiva, per semplicità, e per comodità interpretativa. Se: E [ε] = 0n (come è ovvio assumere se ε è effettivamente una componente accidentale additiva) allora: E [Y] = Xβ, e quindi il modello è schematizzabile come: Y = E [Y] + ε In questo caso quindi possiamo vedere la variabile Y come una variabile casuale, di cui abbiamo un campione di n osservazioni, la cui speranza matematica è funzione lineare di k variabili Xj secondo la relazione: E [yi ] = k X xij βj i = 1, 2, . . . , n j=1 questa proprietà è in stretta relazione con l’ipotesi di additività della componente accidentale. L’assunzione E [ε] = 0n presuppone la validità del modello per le speranze matematiche e quindi implicitamente si ipotizza: 2002-3003 versione provvisoria 151 • che la componente accidentale (che ha un effetto additivo) sia a media nulla: questo in effetti è quasi scontato quando parliamo di errori accidentali additivi; • che le k variabili siano le uniche rilevanti ai fini della spiegazione della speranza matematica di Y , o meglio della spiegazione di sue variazioni. • Il modello per la parte sistematica non è distorto, perchè: E [Y] = Xβ . In ogni caso non si sta implicitamente assumendo l’esistenza di relazioni di causa effetto fra le X e la Y , ma semplicemente che la conoscenza delle X può spiegare meglio la variabilità del fenomeno Y (nel senso che ne diminuisce la variabilità). Ricordo inoltre che non è necessario ipotizzare modelli distributivi per le Xj , perché, almeno per ora, si sta supponendo che siano dei termini fissati, secondo differenti possibili schemi che vengono adesso esaminati Ad esempio nella regressione lineare semplice si ipotizza: Yi = β0 + xi β1 + εi con E [Yi ] = β0 + xi β1 Sezione avanzata Adesso occorre citare e studiare opportunamente gli esempi della lezione introduttiva, che in buona parte sono tutti suscettibili di essere posti in questa forma. 152 6.4.2 Materiale didattico statistica 3 Caratteristiche essenziali degli elementi del modello lineare Elemento e Dimensioni Caratteristiche Y vettore elementi Vettore aleatorio osservabile; è la variabile di risposta di interesse, ossia quella di cui si cerca di studiare (e di spiegare) la variabilità; n X matrice n × k elementi Matrice di costanti note. Le k componenti (vettori di n elementi) sono variabili non aleatorie osservate senza errori Sono le k variabili esplicative che si pensa influenzino la risposta Y . Si vedranno dopo alcune delle numerose configurazioni che può assumere la matrice X. β vettore elementi k Vettore di parametri incogniti; β andrà stimato dai dati del campione. In generale sono dei parametri fissi; in certi modelli, che tratteremo in questo corso solo marginalmente, alcuni dei coefficienti sono considerati come effetti casuali, e quindi come variabili aleatorie. ε vettore elementi n Vettore aleatorio non osservabile direttamente; In funzione delle diverse ipotesi fatte sulla natura della distribuzione di ε (che può dipendere in generale da un insieme di parametri θ ) si possono avere differenti stime dei parametri incogniti del modello. 2002-3003 versione provvisoria 6.4.3 153 Caratteristiche più dettagliate degli elementi del modello: ElementoCaratteristiche Y Vettore aleatorio osservabile; vettore n elementi • è la variabile di risposta di interesse, ossia quella di cui si cerca di studiare (e di spiegare) la variabilità; • è una variabile quantitativa; • solo in casi speciali si considerano Y qualitative (ad esempio presenza/assenza; oppure successo/insuccesso). In questo corso non affronteremo, almeno non queste tecniche, casi di risposte y qualitative non dicotomiche. • Ci stiamo occupando essenzialmente di modelli nei quali la risposta yi è univariata; diversamente, con risposte multiple, abbiamo modelli multivariati. • Si considera la distribuzione di Y come vettore aleatorio, perché si pensa che questa distribuzione possa per qualche aspetto (media, varianza, etc.) variare in funzione delle Xj . • Il modello è multiplo se si hanno diverse colonne nella matrice X • con y indichiamo il vettore dei valori osservati • Di solito è utile vedere (preliminarmente) se la variabilità osservata della Y è dovuta solo alla variabilità naturale o anche a fattori sistematici (ossia la dipendenza dalle X ). • Le n unità dovrebbero essere gli elementi di un campione casuale; tuttavia questo modello viene utilizzato anche per analisi esplorative su dati osservazionali o comunque non provenienti da un campione (leggere discussione di Cox su int.stat.rev.) 154 Materiale didattico statistica 3 ElementoCaratteristiche e Dimensioni X Matrice di costanti note. matrice n × k elementi • Le k componenti (vettori di n elementi) sono variabili non aleatorie osservate senza errori • o comunque con un eventuale errore di ordine di grandezza molto inferiore rispetto a quello di Y . • I valori delle x potrebbero essere n valori particolari assunti da un vettore aleatorio p-dimensionale. In questo caso studiamo la distribuzione condizionata di y per quei particolari valori di X. • Le Xj sono le k variabili esplicative che si pensa influenzino la risposta Y . Le configurazioni di X possono essere numerose: • quantitative • variabili indicatrici (0/1 o -1/1) • variabili miste 2002-3003 versione provvisoria 155 La matrice delle X (o meglio l’intero insieme dei dati) può provenire da: • studi osservazionali: in cui si scelgono le k variabili, ma gli n valori di ciascuna variabile sono quelli osservati negli n individui scelti, per cui non è possibile in generale pianificare particolari combinazioni degli n × k valori. • esperimenti pianificati: in cui si scelgono non solo le k variabili, ma anche tutto lo schema degli n × k valori, per cui è possibile stabilire in anticipo quali valori verranno utilizzati per ciascuna delle k variabili ed inoltre quali combinazioni di valori dei fattori (o delle variabili) verranno impiegate insieme. • dati ricavati da statistiche ufficiali o archivi e/o databases o dati prelevati da archivi remoti in rete: possibilmente si tratta di dati raccolti non per finalità statistiche e pertanto potrebbero essere poco affidabili, di qualità non nota e molto probabilmente non costituiscono nè un campione casuale nè una popolazione completa. 1 1 Ovviamente questa considerazione riguarda l’intero dataset osservato, compresa la y . 156 Materiale didattico statistica 3 ElementoCaratteristiche β Vettore di parametri incogniti ; vettore di k elementi: β = {β1 , β2 , . . . , βj , . . . , βk }T β andrà stimato dai dati del campione • Ciascun parametro esprime la dipendenza (lineare) dalla corrispondente variabile esplicativa. • In generale gli elementi di β sono dei parametri fissi, se non precisato diversamente; • in certi modelli alcuni dei coefficienti sono considerati come effetti casuali, e quindi come variabili aleatorie. • Ciascun parametro esprime la dipendenza (lineare) dalla corrispondente variabile esplicativa. • Pertanto βj misura l’incremento medio della risposta Y in corrispondenza di un incremento unitario della j-esima variabile Xj . • Se Xj è una variabile indicatrice (0/1) della presenza di una certa caratteristica (non quantitativa), allora βj misura l’effetto medio della presenza di tale caratteristica sulla risposta Y . In generale: βj = ∂E [Yi ] ∂xij se il modello è lineare però vale anche: xij = ∂E [Yi ] ∂βj 2002-3003 versione provvisoria 157 Elemento Caratteristiche ε Vettore aleatorio non osservabile direttamente; vettore di n elementi I n funzione delle diverse ipotesi fatte sulla natura della distribuzione di ε (che può dipendere in generale da un insieme di parametri θ ) si hanno differenti stimatori dei parametri incogniti del modello. • Rappresenta la componente accidentale, che viene supposta additiva, in modo tale che se è anche con speranza matematica nulla (come spesso si può ipotizzare) si ha: E [Y] = Xβ • In effetti ε a rigore dovrebbe essere una variabile aleatoria non dipendente da variabili esterne, che esprime semplicemente l’errore sperimentale, o l’errore di misurazione • nel caso in cui il modello non sia correttamente specificato, ε finirà per inglobare le variabili ed i fattori non esplicitati nella parte sistematica, e quindi perderà la sua natura di componente accidentale. 6.4.4 Versatilità del modello lineare La formulazione di tale modello per la speranza matematica di una v.a., sebbene molto semplice, permette di trattare diversi tipi di situazioni e di risolvere differenti problemi di inferenza. In funzione di particolari configurazioni che può assumere la matrice X, si può adattare questa impostazione a situazioni particolari. Ad esempio: • per l’analisi della regressione lineare multipla, se le colonne della matrice x sono n osservazioni di k variabili quantitative, • per l’analisi della regressione polinomiale, se le colonne della matrice X sono le potenze di una o più variabili quantitative, • oppure per l’analisi della varianza se le k colonne di x so- 158 Materiale didattico statistica 3 no delle variabili dicotomiche indicatrici (dummy variables) di appartenenza ad un gruppo; • per l’analisi della covarianza; • per particolari analisi di disegni sperimentali a più vie con interazioni fino ad un ordine massimo fissato. • Analisi di superfici di risposta • Analisi discriminante • Analisi dei modelli di crescita soltanto alcune di queste problematiche verranno trattate in questi appunti; si rivedano comunque gli esempi tratti dalla sezione di problemi introduttivi 6.5 Problemi di inferenza In generale in un modello lineare possiamo avere diversi problemi di inferenza, in particolare di stima e di prova delle ipotesi, in funzione della natura dei dati e del tipo di problema. Ad esempio: • stimare il vettore dei parametri β nel caso generale; • stimare il vettore dei parametri β nel caso in cui vengono imposti dei vincoli su alcune delle sue componenti (alcune componenti nulle o uguali, per esempio) • Il valore del vettore dei parametri β è uguale ad un certo valore β0 ? • Costruzione di una regione di confidenza per il vettore dei parametri β ; • Costruzione di un intervallo di confidenza per una delle componenti di β ; (o per una combinazione lineare delle componenti di β , ad esempio β1 − (β2 + β3 )/2 ). 2002-3003 versione provvisoria 159 • Inferenza su r componenti di β ; le altre k − r componenti di β non interessano e svolgono però il ruolo di parametri di disturbo. • Gli effetti di alcune variabili Xj sono uguali? Ossia alcuni dei parametri sono uguali? • Alcuni dei parametri sono uguali subordinatamente al valore di altre variabili Xj ? • Qual è la combinazione di fattori che fornisce la risposta media Y più elevata? • Subordinatamente al fatto che alcuni effetti siano significativamente diversi da zero, quali hanno condotto alla significatività? • Una o più fra le variabili Xj può essere eliminata, senza che questo riduca in modo sostanziale la spiegazione della variabile di risposta? Eliminare una variabile esplicativa Xj dal modello corrisponde ad ipotizzare βj = 0. • Anche se βj è significativamente diverso da zero, può comunque convenire lavorare con un modello ridotto anche se distorto? 6.5.1 Ipotesi sulle ε Per potere dare una risposta, anche approssimativa, ad alcune di queste domande, e quindi per la costruzione di stimatori e test, e per fare in generale inferenza (almeno muovendosi in un contesto parametrico), occorrerà fare ovviamente delle ipotesi, più o meno restrittive, sulla distribuzione di ε . Questa distribuzione dipenderà in generale da un vettore di parametri θ : ε ∼ φ(θ). E’ ovvio che, anche ammettendo di conoscere la forma funzionale φ , occorrerà stimare il vettore di parametri θ . 160 Materiale didattico statistica 3 ... Va tenuto presente che ε non è direttamente osservabile, come accade invece, ad esempio, quando si osserva un campione proveniente da una normale univariata di parametri incogniti µ (costante) e σ 2 . θ svolge in generale il ruolo di parametro di disturbo. Ovviamente il numero dei parametri incogniti θs non dovrà essere elevato, diversamente non sarà possibile stimarli. ESEMPIO: se si suppone ε ∼ N (0, Σ) non possono essere incogniti emphtutti gli elementi della matrice di varianza e covarianza Σ (perchè sarebbero n(n + 1)/2 parametri) Quanto interagiscono la stima di θ e quella di β ? E’ possibile in qualche modo verificare a posteriori la validità delle ipotesi fatte sulla distribuzione delle ε ? Le possibili scelte verranno analizzate successivamente alla discussione sul significato della parte sistematica. 6.6 La matrice delle X La struttura ed il metodo di scelta delle Xj , insieme con la parametrizzazione scelta determina in parte il tipo di analisi. Sostanzialmente le Xj (tutte o alcune) possono provenire da: studi osservazionali Questo caso si presenta quando non è possibile in generale stabilire a priori la matrice X : si sceglieranno solo le k particolari variabili da analizzare e le n unità che costituiscono il campione. Eventualmente potremo, entro certi limiti, operare alcune trasformazioni sulle x in modo da ricondurci a schemi particolari. esperimenti pianificati con: variabili controllabili in cui alcune variabili ( h ), e tutto lo schema degli n × h valori corrispondenti della matrice X , vengono pianificati in anticipo, per cui si stabilisce in partenza il range di valori di ciascuna variabile esplicativa e le combinazioni di valori delle 2002-3003 versione provvisoria 161 variabili esplicative che si vogliono osservare, in funzione delle risposte che si vogliono ottenere dall’esperimento. Con un esperimento mal pianificato, in cui ad esempio non sono previste alcune combinazioni di livelli di variabili, non si potranno per esempio condurre tutti i test che si possono effettuare con dati provenienti da un esperimento ben pianificato. variabili note ma il cui valore non è pianificabile Ad esempio vengono selezionati alcuni soggetti in base al sesso ed alla condizione lavorativa, per cui si stabilisce in anticipo quante osservazioni fare per tutte le combinazioni sesso x condizione lavorativa mentre per le altre variabili non è possibile pianificare dei valori particolari. Figura da inserire ESEMPI VARI 6.6.1 Osservazioni ripetute. Alcune delle righe della matrice X potrebbero essere (volutamente o per caso) replicate. Nel caso di presenza di osservazioni ripetute per ciascuna combinazione di fattori, l’analisi potrà anche dire qualcosa di più: • sulla bontà delle assunzioni fatte sulla distribuzione degli errori • sulla forma funzionale della relazione (se lineare o meno). • Sulla variabilità della componente accidentale per ciascuna combinazione di fattori. Figura da inserire AMPLIARE 162 Materiale didattico statistica 3 citazione Figura da inserire fig2000regr5.stg INSERIRE ESEMPIO E GRAFICO a 2D e 3D 6.6.2 Disegni fattoriali Un disegno si dice fattoriale se vengono pianificate le osservazioni di tutte le possibili combinazioni dei livelli dei k fattori. Pertanto se ogni fattore Xj può assumere mj livelli (j = 1, 2, . . . , k), si avranno: Q C = kj=1 mj distinte combinazioni, ciascuna delle quali può essere replicata, per ottenere la matrice X. Esempio: In un esperimento farmacologico si vuole stimare l’effetto di un farmaco (tre dosi: una nulla, una media, una alta) su pazienti con una particolare patologia. Si vuole verificare anche l’effetto su pazienti sani, e vedere se il sesso del paziente influenza il tipo di risposta. Complessivamente si hanno i seguenti fattori e corrispondenti livelli: Fattore livelli (o modalità qualitative) dosi di un farmaco 3 livelli quantitativi di dose Sesso 2 livelli Condizione sperimentale 2 livelli: malati e sani Totale: 12 combinazioni Le 12 possibili combinazioni sono dunque: 2002-3003 versione provvisoria 163 DOSE SESSO CONDIZIONE 1 Alta F Sano 2 Alta F Malato 3 Alta M Sano 4 Alta M Malato 5 Media F Sano 6 Media F Malato 7 Media M Sano 8 Media M Malato 9 Bassa F Sano 10 Bassa F Malato 11 Bassa M Sano 12 Bassa M Malato Se si conviene di assegnare i seguenti valori numerici: DOSE Valore Alta +1 Media 0 Bassa -1 SESSO Valore CONDIZIONE Valore M +1 Sano +1 F -1 Malato -1 Si ottiene la seguente matrice X dei regressori: 164 Materiale didattico statistica 3 DOSE SESSO CONDIZIO 1 +1 +1 +1 2 +1 +1 -1 3 +1 -1 +1 4 +1 -1 -1 5 0 +1 +1 6 0 +1 -1 7 0 -1 +1 8 0 -1 -1 9 -1 +1 +1 10 -1 +1 -1 11 -1 -1 +1 12 -1 -1 -1 Se i livelli sono quantitativi ed equispaziati (come in questo esempio), l’analisi risulta ortogonale Anche nell’esempio che segue si ha un disegno bilanciato: LIVELLI; X2 e X3 con 3 livelli X1: 5 2002-3003 versione provvisoria LIVELLI ORIGINALI X1 X2 X3 1 0 0 2 0 0 3 0 0 4 0 0 5 0 0 1 1 0 2 1 0 3 1 0 4 1 0 5 1 0 1 2 0 2 2 0 3 2 0 4 2 0 5 2 0 1 0 1 2 0 1 3 0 1 4 0 1 5 0 1 1 1 1 2 1 1 3 1 1 4 1 1 5 1 1 1 2 1 2 2 1 3 2 1 4 2 1 5 2 1 1 0 2 2 0 2 3 0 2 4 0 2 5 0 2 1 1 2 2 1 2 3 1 2 4 1 2 5 1 2 1 2 2 2 2 2 3 2 2 4 2 2 5 2 2 165 SCARTI DALLE MEDIE Z1 Z2 Z3 -2 -1 -1 -1 -1 -1 0 -1 -1 1 -1 -1 2 -1 -1 -2 0 -1 -1 0 -1 0 0 -1 1 0 -1 2 0 -1 -2 1 -1 -1 1 -1 0 1 -1 1 1 -1 2 1 -1 -2 -1 0 -1 -1 0 0 -1 0 1 -1 0 2 -1 0 -2 0 0 -1 0 0 0 0 0 1 0 0 2 0 0 -2 1 0 -1 1 0 0 1 0 1 1 0 2 1 0 -2 -1 1 -1 -1 1 0 -1 1 1 -1 1 2 -1 1 -2 0 1 -1 0 1 0 0 1 1 0 1 2 0 1 -2 1 1 -1 1 1 0 1 1 1 1 1 2 1 1 90 ZT Z = 0 0 0 0 30 0 0 30 166 Materiale didattico statistica 3 link o riferimento (vedere anche più avanti) • Anche se non si riesce a costruire un disegno fattoriale, perché troppo oneroso, sarà opportuno di solito ricorrere a disegni ortogonali , ossia schemi di disegni sperimentali con variabili indipendenti non correlate. • L’opportunità di avere l’ortogonalità dei fattori (ossia variabili non correlate) è pienamente giustificata solo nell’ambito della teoria normale completa sui minimi quadrati. • Comunque è ragionevole fare in modo che i fattori non siano correlati (se possibile). • In un esperimento a molti fattori sarà opportuno che siano bilanciate in corrispondenza a ciascuna coppia di fattori, le possibili combinazioni di coppie di livelli. ESEMPIO di DISEGNO FATTORIALE completo E INCOMPLETO Figura da inserire FATTORIALI12.bmp FATTOR2.STG link o riferimento (vedere anche → esempi e grafici qualitativi e quantitativi) Disegni 2k Un caso particolare di disegno fattoriale si ha nel caso di k fattori qualitativi dicotomici, per cui le variabili assumeranno il valore 1 o 0 secondo che la caratteristica è presente o assente; è conveniente anche utilizzare i valori 1 e -1, in modo che in un piano fattoriale completo le variabili risulteranno centrate (ossia con media nulla) e con varianza unitaria. Per esaminare tutte le combinazioni (senza repliche) occorre prevedere 2k osservazioni. Disegno fattoriale completo 4 fattori a due livelli -1,1. farmaco si/no; sesso M/F; malato si/no; ospedalizzato si/no; Esempio 2002-3003 versione provvisoria 24 167 Si ottiene una matrice (centrata, ossia con medie nulle) con 16 = righe: Z1 Z2 Z3 Z4 1 1 1 1 1 2 1 1 1 -1 3 1 1 -1 1 4 1 1 -1 -1 5 1 -1 1 1 6 1 -1 1 -1 7 1 -1 -1 1 8 1 -1 -1 -1 9 -1 1 1 1 10 -1 1 1 -1 11 -1 1 -1 1 12 -1 1 -1 -1 13 -1 -1 1 1 14 -1 -1 1 -1 15 -1 -1 -1 1 16 -1 -1 -1 -1 16 0 0 0 0 16 0 0 ZT Z = 0 0 16 0 0 0 0 16 6.6.3 Regressione multipla. L’informazione campionaria, relativa a n unità, è costituita da: • Un vettore di n valori osservati y della variabile di risposta quantitativa Y . 168 Materiale didattico statistica 3 • La matrice X ( n righe e k colonne) è data dai valori di k regressori quantitativi, noti, per ciascuna delle n osservazioni Figura da inserire blocchi y[n×1] , X[n×k] Le n unità osservate sono quindi costituite da k + 1 variabili e sono schematizzabili nelle n righe: y1 x11 x12 . . . x1k (y|X) = ... ... ... ... ... ... ... ... yi xi1 xi2 . . . ... ... ... ... ... ... ... ... yn xn1 xn2 . . . ... ... xik ... ... xnk La dipendenza (del valore atteso) di y dalle Xj è espressa quindi dalla relazione: k X E [yi ] = α + xij βj j=1 abbiamo quindi k coefficienti di regressione incogniti βj che esprimono la dipendenza media (parziale) della risposta da ciascun regressore. In generale nel modello si considera anche un termine noto incognito α , che esprime la risposta media corrispondente a valori nulli dei regressori; α di solito non è oggetto di particolare interesse ed usualmente svolge il ruolo di parametro di disturbo. La relazione è analoga, almeno formalmente, alla relazione di regressione lineare che studia la dipendenza della speranza matematica di una variabile aleatoria rispetto ai valori (fissati!) di altre k variabili aleatorie. Non si confonda la regressione multipla (una variabile di risposta e molti regressori) con la regressione multivariata (molte variabili di risposta e uno o più regressori). 2002-3003 versione provvisoria 169 Relazione di regressione in termini di scarti Per comodità interpretativa, e per motivi più tecnici che si vedranno al momento di affrontare i problemi di stima, convenzionalmente si può porre: la prima colonna (j = 0) composta tutta da 1 (in modo da prevedere la presenza di un termine noto); le altre colonne costituite dagli scarti semplici rispetto alla media di ciascuna variabile. Con la posizione: zij = xij − M (Xj ) i = 1, 2, . . . , n; j = 1, 2, . . . , k la matrice X può essere messa 1 z11 ... ... X= 1 zi1 ... ... nella forma più conveniente: . . . z1j . . . z1k ... ... ... ... . . . zij . . . zik ... ... ... ... 1 zn1 . . . znj . . . znk Media variabile: 1 0 . . . 0 . . . 0 Per i parametri si ha: β T = {β0 , β1 , . . . , βj , . . . , βk } β= β0 Termine noto β1 Coefficiente di regressione parziale variabile 1 ... ...... βj variabile j ... ...... ... ...... βk variabile k Quindi la matrice dei regressori e il vettore dei coefficienti risultano partizionati in: X = [1n |Z] β T = [β0 |β1,k ] 170 Materiale didattico statistica 3 Il legame lineare è ora dato da: E(yi ) = k X zij βj j=0 Per cui la risposta viene vista come somma di: • un effetto generale, β0 , corrispondente a livelli nulli degli scarti zij , e quindi a livelli medi dei regressori originari xij • k singoli effetti proporzionali agli scarti dei singoli regressori dalla propria media. Dal punto di vista interpretativo, la riscrittura in termini di scarti consente di dare un significato logico, ed utile per i confronti, al termine noto. Rispetto alla parametrizzazione originaria si ha: E(yi ) = k X j=0 zij βj = β0 + k X zij βj = β0 − j=1 k X M (Xj )βj + j=1 k X xij βj j=1 Quindi: i coefficienti di regressione sono sempre uguali (si sono solo effettuate delle traslazioni di assi!) Per il termine noto: α = β0 − k X M (Xj )βj j=1 L’utilità teorica e pratica di queste posizioni sarà chiarita nella parte relativa all’inferenza nella regressione lineare. In ogni caso continuerò ad indicare la matrice del disegno o dei regressori con X , precisando eventualmente se si tratta di scarti o di variabili originarie. L’ ipotesi nulla che più spesso si vuole verificare (almeno preliminarmente) è: H0 : β1 = β2 = . . . = βk = 0; conβ0 qualsiasi. Ossia che il valore atteso della variabile dipendente sia costante ed indipendente dai regressori. Figura da inserire ESEMPIO 2002-3003 versione provvisoria 6.6.4 171 Regressione polinomiale: Dal momento che la linearità va intesa rispetto ai parametri, e non rispetto alle Xj , il modello lineare comprende anche la regressione polinomiale in una o più variabili: Regressione polinomiale di grado k in un regressore Z se E [yi ] = k X βj zij ; i = 1, 2, . . . , n j=0 Ci si riporta al caso generale del modello lineare ponendo: xij = zij βj ; i = 1, 2, . . . , n; j = 0, 1, . . . , k. Anche in questo caso si continua a parlare di modelli lineari, pochè il termine lineare si riferisce sempre ai parametri e non ai regressori. Si noti come però i regressori risultino in generale correlati, a meno che non si faccia ricorso a particolari trasformazioni del modello polinomiale basate sui polinomi ortogonali. Figura da inserire esempio Polinomi in più variabili e superfici di risposta E’ immediata la generalizzazione alle superfici polinomiali di grado k in p regressori. Regressione polinomiale di grado k in p regressori Zh E(yi ) = k X j=0 ··· k X j=0 βj1,j2,...,jp Y P (zih )jh ; i = 1, 2, . . . , n jh =j In particolare se k = 2 e se i coefficienti dei termini di secondo grado in ciascun regressore sono nulli, si possono convenientemente quantificare ed inserire nel modello degli effetti di interazione moltiplicativi del tipo βhr zih zir (interazione del primo ordine fra il regressore r-esimo ed h-esimo; Termini moltiplicativi che coinvolgono k regressori sono relativi ad effetti di interazione di grado k − 1 link o riferimento (vedere anche più avanti ) 172 Figura da inserire FIG2000REGPOLIN1.STG Materiale didattico statistica 3 2002-3003 versione provvisoria 173 Figura da inserire FIG2000REGSPLINE1.STG Regressione parametrica e non parametrica In questo corso ci occuperemo prevalentemente di regressione parametrica, ossia modelli di dipendenza nei quali è specificata la forma di dipendenza funzionale della variabile di risposta o meglio della sua speranza matematica, dalle variabili esplicative. In effetti, di solito supponiamo anche che sia nota la forma distribuzionale della componente accidentale, a meno di qualche parametro di disturbo (per esempio nella regressione lineare semplice supponiamo usualmente che gli errori siano distribuiti normalmente con varianza uguale ma incognita). Nella regressione non parametrica invece, si evita il più possibile di fare delle ipotesi in merito alla forma funzionale della dipendenza; queste tecniche, che non affronteremo in modo particolare nel nostro corso, sono tipiche di una fase esplorativa dell’analisi dei dati quando non si sa, almeno con buona approssimazione, qual è la forma della relazione che lega la variabile dipendente al regressore. Sostanzialmente si cerca direttamente di approssimare la funzione di regressione localmente, per ciascun valore di x: ŷ(x) ≈ E [y|x] evidentemente nel caso in cui si ha una sola variabile esplicativa il modo più conveniente di ottenere informazioni sul tipo di relazione è quello di effettuare una analisi grafica; chiaramente questo strumento è disponibile anche nel caso di due variabili esplicative. Un caso molto comodo si ha per esempio quando sono disponibili nj osservazioni ripetute in corrispondenza dello stesso valore di xj : in questo caso, infatti, la linea spezzata che congiunge le medie aritmetiche della variabile di risposta in corrispondenza dei diversi valori della xj , costituisce una base per la stima della vera relazione funzionale fra la speranza matematica della variabile risposta e la variabile esplicativa (o le variabili esplicative). Pnj yij ŷ(xj ) = i=1 nj Nel caso in cui non si abbiano osservazioni ripetute per la stessa variabile esplicativa, sarà necessario ricorrere ad approssimazioni 174 Materiale didattico statistica 3 analitiche: alcune delle tecniche si basano su opportune generalizzazioni di tipi di medie mobili o su adattamenti mediante particolari funzioni kernel; un metodo molto generale, senza bisogno di entrare in grande dettaglio, è dato da una media ponderata delle yi : Pn w(xi − x)yi ŷ(x) = i=1 w(xi − x) ove i pesi w(xi − x) sono delle funzioni decrescenti di xi − x; ad esempio: w(xi − x) = e− (xi −x)2 2h2 essendo h un parametro di lisciamento. Se si cercano approssimazioni sufficientemente regolari uno strumento tecnico molto utile è costituito dalle funzioni splines, particolarmente utili sia nel caso univariato sia nel caso bivariato. Le funzioni splines sono delle particolari funzioni ottenute dalla composizione di r segmenti di polinomi fj (x), j = 1, 2, . . . , r in modo tale che la curva risulti sufficientemente liscia e regolare senza punti di discontinuità in corrispondenza dei cambi di segmento. Uno degli approcci per trovare i parametri dei segmenti di polinomio (se r = n) consiste nell’imporre alcuni vincoli alle funzioni e ad alcune loro derivate in corrispondenza ai punti d’incontro dei segmenti (nodi), zj , j = 1, 2, . . . , r: fj (zj ) = fj+1 (zj ); fj (zj ) = fj+1 (zj ); fj (zj ) = fj+1 (zj ); j = 1, 2, . . . , r Sufficienti requisiti di regolarità si ottengono operando con segmenti di polinomi di 3◦ grado. Un altro approccio consiste nel cercare una curva composta da segmenti polinomiali che risulti adattarsi abbastanza bene ai dati (con r < n) mantenendo comunque una regolarità della curvatura della curva complessiva. In ogni caso queste tecniche di regressione non parametrica sono suscettibili di applicazione: -nella fase esplorativa della ricerca di una relazione di dipendenza fra variabili -oppure a scopo interpolatorio, quando un’approssimazione polinomiale localmente regolare è preferibile ad una relazione lineare o comunque ad una relazione che sia della stessa forma e con gli stessi parametri in tutto il campo di variazione della X . 2002-3003 versione provvisoria 6.6.5 175 Regressori del tipo 0/1 (dummy variables) Esiste un modo formale di esplicitare la matrice X in modo da trattare anche variabili esplicative di tipo qualitativo. Vediamo come prima con un esempio relativo ad una situazione nota. Si supponga la situazione classica del confronto delle medie µ1 e µ2 di due popolazioni normali con uguale varianza sulla base delle informazioni di due campioni casuali semplici indipendenti. Per la speranza matematica della variabile casuale associata alla generica osservazione abbiamo: E(Yi ) = µj perj = 1, 2, secondo se l’unità i-esima appartiene al primo o al secondo campione. Possiamo indicare sinteticamente: E(Yi ) = xi1 µ1 + xi2 µ2 introducendo due regressori con la convenzione che per le unità del primo campione si ha: xi1 = 1 e xi2 = 0 , per le unità del secondo campione si ha invece: xi1 = 0 e xi2 = 1 . Oppure si può parametrizzare con: E(Yi ) = µ1 + xi2 (µ2 − µ1 ) e l’ipotesi da verificare sarà: H0 : δ = (µ2 − µ1 ) = 0 con µ1 qualsiasi. (oppure si vorranno costruire intervalli di confidenza per δ ) L’aspetto essenziale di questo esempio è che anche questa situazione standard è riconducibile ad un modello lineare. Esempio: Si hanno due campioni indipendenti di 14 osservazioni relative ad una variabile quantitativa, suddivise in due gruppi A e B, rispettivamente di numerosità 6 e 8. A 2; 3; 3,1; 4; 5; 5,3. B 3; 4,1; 4,3; 4,8; 6, 6,5; 7; 7,2. 176 Materiale didattico statistica 3 Potremmo pensare di avere rilevato 3 variabili su 14 individui nel modo che segue: y xA xB 2 1 0 3 1 0 3,1 1 0 4 1 0 5 1 0 5,3 1 0 3 0 1 4,1 0 1 4,3 0 1 4,8 0 1 6 0 1 6,5 0 1 7 0 1 7,2 0 1 Sarà bene che da ora in poi lo studente si abitui a questa impostazione, in particolare per problemi con più variabili, perché riuslta estremamente comoda in particolare per le situazioni complesse; (per la situazione dell’esempio, ossia test t a due campioni, non v’è alcun motivo pratico di ricorrere a tale formulazione, perché l’impostazione standard è quella più uitile) 6.6.6 Analisi della varianza ad effetti fissi ed un criterio di classificazione La versatilità del modello lineare, almeno da un punto di vista formale, si coglie per situazioni apparentemente lontane da quelle della 2002-3003 versione provvisoria 177 regressione multipla, ossia per lo studio della dipendenza in media di una variabile quantitativa da una qualitativa (o più variabili qualitative). Si supponga di avere n osservazioni suddivise in k gruppi indipendenti secondo le k modalità di un criterio di classificazione semplice (o mutabile sconnessa). Si suppone che i gruppi siano internamente omogenei, ma che le medie dei gruppi possano essere in generale diverse: E(Yi ) = µj La matrice X è ora composta da k colonne costituite dagli n indicatori dell’appartenenza delle unità ai gruppi: (MATRICE del disegno sperimentale) i 1 ... n1 n1 + n2 X= n + n + ... + n 2 j 1 n1 + n2 + . . . + nk Gr.1 Gr.2 . . . Gr.J . . . Gr.K 1 0 0 0 ... 0 ... ... ... 0 1 0 ... ... ... 0 0 1 ... ... ... 0 0 ... ... ... ... 0 0 1 ... ... ... 0 ... ... ... ... ... ... 0 0 ... 1 ... 0 ... ... ... ... ... ... 0 0 ... 0 ... 1 0 0 ... 0 ... ... 0 0 ... 0 ... 1 178 Materiale didattico statistica 3 1 0 ... 0 ... 1 0 ... 0 1 ... 0 ... ... 0 1 ... X= ... ... ... 0 0 ... ... ... ... 0 0 ... 0 0 ... 0 0 ... 0 ... ... ... ... ... ... ... 1 ... 0 0 0 0 0 1 ... ... 0 n1 ... 0 ... 0 ... 0 n1 + n2 ... ... ... 0 . . . . . . n1 + n 2 + . . . + n j ... 1 ... ... . . . 1 n1 + n2 + . . . + nk µ1 ... β= µj ... µk 2002-3003 versione provvisoria 179 Si ha: nj osservazioni per ogni trattamento o gruppo: nj = n X xij ; j = 1, 2, . . . k. i=1 ogni unità Ui appartiene ad un solo trattamento: k X xij = 1; i = 1, 2, . . . , n j=1 xij = 1 se e solo se l’unità Ui appartiene al j -esimo trattamento β T = µ1 , . . . , µ j , . . . , µ k L’ ipotesi nulla di interesse è di solito quella di omogeneità: H0 : β1 = β2 = . . . = βk oppure H0 : β1 − βk = β2 − βk = . . . = βk−1 − βk = 0 Con questa parametrizzazione X ha rango pieno k , ma l’ipotesi nulla di omegenità far le medie impone k − 1 vincoli Altro modo di impostare l’ analisi della varianza a una via: βj = µj − µ βk+1 = µ effetto del trattamento (o del gruppo) j; j = 1, 2, . . . k. media generale; e stavolta la matrice del disegno è: 180 Materiale didattico statistica 3 i eff. gr.1 eff. gr.2 1 1 0 ... ... ... n1 1 0 0 1 0 ... n1 + n2 0 1 X= ... ... 0 0 n + n + ... + n ... ... 2 j 1 0 0 0 0 n1 + n2 + . . . + nk 0 0 X= . . . eff. gr.j . . . eff. gr.k effetto g 0 0 ... ... 0 ... 1 0 ... 0 0 1 ... 0 1 ... ... ... ... 1 ... ... ... 0 1 ... ... ... 0 1 ... ... ... 0 .. ... ... ... 0 1 ... ... ... ... .. ... 1 ... 0 1 ... ... ... ... .. ... 0 ... 1 1 ... 0 ... ... .. ... 0 ... 1 1 eff. gr.1 eff. gr.2 . . . eff. gr.j . . . eff. gr.k effetto generale 1 ... 0 ... 0 ... 1 1 ... ... 0 1 ... ... ... ... ... ... 0 0 1 ... 1 ... ... ... 0 1 ... 0 ... 0 ... ... ... 1 ... ... ... 0 ... 1 ... ... ... ... ... ... ... 0 0 0 0 ... ... 0 0 ... ... 1 ... 1 ... 0 0 ... 0 ... 1 1 2002-3003 versione provvisoria 181 µ1 − µ ... µ −µ= j β= ... µ −µ k µ H0 : β1 = β2 = . . . = βk = 0 e µ qualsiasi ( k vincoli) In questo caso però x ha una colonna linearmente dipendente dalle altre, per cui ha rango k invece di k + 1 . 6.6.7 Analisi della varianza ad effetti fissi con due criteri di classificazione E’ possibile estendere il disegno precedente all’analisi della varianza a due vie, per la quale si può impostare un modello lineare con rs colonne, con: Xijm = 1 se Ui appartiene al j -esimo trattamento di riga e all’ m -esimo trattamento di colonna. Oppure si può partire da una matrice del disegno sperimentale semplificata con r + s + 1 colonne x e Z , tali che: xi0 = 1 effetto generale; xij = 1 se Ui appartiene al j -esimo trattamento di riga zim = 1 se Ui appartiene all’ m -esimo trattamento di colonna e introdurre nel modello di descrizione dei dati dei termini moltiplicativi (che saranno 1 solo se Ui appartiene ad una riga e ad una colonna) per considerare l’effetto di interazione: yijk = β0 + r X j=1 αj xij + s X m=1 ηm zimj + r X s X γjm xij zim + εijk j=1 m=1 In pratica si considerano le due matrici di appartenza ai gruppi per i due criteri di classificazione separatamente; se nel modello occorre tener conto dell’appartenza simultanea (termini di interazione) si farà riferimento ai termini moltiplicativi xij zim , che sono uguali ad 1 solo per le unità che appartengono alla modalità j -esima del primo criterio di classificazione ed alla modalità m -esima del secondo criterio di classificazione. Le ipotesi da verificare sono quelle usuali (si vedranno in dettaglio nella parte inferenziali relativa all’analisi della varianza a due 182 Materiale didattico statistica 3 vie); con questa parametrizzazione però, peraltro molto comoda e naturale, il modello ha parametri ridondanti (rango = rs ; parametri 1 + r + s + rs ). In modo analogo si possono impostare modelli a più vie. Figura da inserire ESEMPIO 6.6.8 Analisi della covarianza (L’utilità dell’analisi della covarianza verrà esaminata più avanti) Supponendo di avere n osservazioni suddivise in k gruppi secondo un criterio di classificazione semplice e relative ad una variabile di risposta y e ad una singola variabile concomitante x ci si può ricondurre al modello lineare generale ponendo: zij = xij − Mj (x)j = 1, 2, . . . , k ove Mj (x) è la media di x per le sole osservazioni del gruppo j . La matrice X sarà composta da 2k colonne, di cui le prime k sono date da: z1,1 ... 0... ... X1 = ... ... ... ... zn1,1 . . . 0 . . . . . . ... ... ... ... 0 ... zij ... ... 0 ... ... ... 0 ... ... ... ... ... ... 0 ... 0 ... 0 ... 0 ... 0 ... zn1,k ... znk,k mentre le altre k colonne sono costituite dalla matrice di appar- 2002-3003 versione provvisoria 183 tenenza ai gruppi: X2 = 1 0 ... ... ... 0 ... 1 0 0 ... ... ... ... ... ... 0 0 ... ... ... ... ... ... 0 0 ... 1 ... 0 ... ... ... ... ... ... 0 0 ... 0 ... 1 0 0 0 0 ... ... 0 0 ... ... ... 1 per cui la matrice X è costituita dalle colonne di X1 e X2 affiancate ossia: X = X1 |X2 , e i 2k parametri sono: β T = β1 , . . . , βj , . . . , βk , α1 , . . . , αj , . . . , αk Ipotesi di interesse: H0 : β1 = . . . = βj = . . . = βk ; α1 = . . . = α = . . . = αk con β1 , α1 qualsiasi ( 2k − 2 vincoli) rette di regressione uguali nei k gruppi. In generale si possono costruire disegni più complessi, con più variabili concomitanti e con più regressori, considerando un modello lineare del tipo: Y = X1 β1 + X2 β2 + ε in cui: X1 è una matrice a più regressori, X2 è una matrice di indicatori per più criteri di classificazione, β1 è il vettore dei parametri che esprimono la dipendenza della variabile di risposta dalle variabili concomitanti β2 è il vettore dei parametri che esprimono la dipendenza della variabile di risposta dai fattori di classificazione. 184 6.6.9 Materiale didattico statistica 3 Rette o piani di regressione con pendenze diverse: termini polinomiali moltiplicativi Una relazione polinomiale con termini lineari e termini misti di 2◦ grado può esprimere la presenza di effetti di interazione in un modello lineare: Esempio 1: Si supponga una dipendenza in media della risposta y da due fattori quantitativi secondo la relazione: E(yi ) = xi1 β1 + xi2 β2 + xi1 xi2 β12 Se il parametro β12 fosse uguale a zero avremmo un classico piano di regressione: E(yi ) = xi1 β1 + xi2 β2 , in cui parametri sarebbero interpretabili nel modo già visto (modello additivo). Se invece tale parametro è diverso da zero, è presente un effetto di interazione fra i regressori X1 e X2 : infatti per esempio la dipendenza di y dal regressore X1 , per ciascuno dei possibili livelli di X2 , è sempre lineare, ma l’inclinazione, e quindi la forza della dipendenza di y da X1 , dipendono dal particolare livello assunto da X2 . Il parametro β1 non misura più la dipendenza parziale di y da X1 , per qualsiasi livello di X2 , ma solo la dipendenza media rispetto a tutti i livelli di X2 . Esempio di polinomio di secondo grado per effetto interazione: Supponiamo per esempio β1 = 1, β2 = 3, β12 = 2, per cui: E [yi ] = xi1 1 + xi2 3 + xi1 xi2 2 2002-3003 versione provvisoria 185 L’effetto interazione fra X1 e X2 è tale da modificare anche il disegni ortogonali tipo di dipendenza di y da X1 (da negativa a positiva) Si vedano nel grafico seguente le tre rette di regressione ottenute per tre diversi valori di X2 (-1;0;+1) 186 Materiale didattico statistica 3 Esempio 2: (confronto fra due rette) Pendenza diversa come effetto interazione fra un fattore (o regressore) quantitativo e un fattore qualitativo: Si supponga che la relazione di una risposta y da un regressore X1 dipenda anche da una variabile dicotomica: In questo caso la differenza di pendenza può essere inserita nel modello lineare mediante l’introduzione di un termine moltiplicativo, che non altera la linearità delle relazioni parziali, ma consente l’interpretazione dell’interazione fra i due fattori. ( X1 può essere formato da un gruppo di regressori: l’esempio resta sostanzialmente inalterato) Per semplicità possiamo considerare la variabile dicotomica X2 con due livelli:-1 e +1, per cui ci riportiamo formalmente al caso precedente: E(yi ) = β0 + xi1 β1 + xi2 β2 + xi1 xi2 β12 = = (β0 + xi2 β2 ) + xi1 (β1 + xi2 β12 ) e quindi: ( E [yi ] = (β0 − β2 ) + xi1 (β1 − β12 ) sexi2 = −1 (β0 + β2 ) + xi1 (β1 + β12 ) sexi2 = +1 Da cui risulta evidente, ed utile da un punto di vista interpretativo, che β2 rappresenta un effetto (medio) del fattore X2 sul livello medio di yi , mentre β12 rappresenta l’effetto (medio) del fattore X2 sulla relazione fra y e X1, per cui rappresenta un effetto di interazione (di primo ordine). Risulta quindi irrilevante o comunque poco interessante dal punto di vista pratico, con questa interpretazione dei parametri, un test costruito per la verifica dell’ipotesi: H0 : β1 = 0 , perché questo misurerebbe l’effetto marginale del primo regressore, senza tenere conto del livello dell’altro regressore (o meglio per un livello nullo, o medio, del secondo fattore). Se per esempio il fattore dicotomico X2 fosse il sesso (M=-1;F=+1), tale effetto marginale sarebbe di nessun interesse, perché ogni soggetto sarà o M o F, e quindi anche se risultasse β1 = 0, in effetti la dipendenza della risposta dal regressore X1 sarebbe −β12 per i maschi e +β12 per le femmine. Eventualmente occorrerebbe prima saggiare l’ipotesi: H0 : β12 = 0 Termini moltiplicativi con più termini possono servire per quantificare effetti di interazione di ordine superiore al primo. 2002-3003 versione provvisoria 187 Abbiamo già fatto cenno a questo argomento quando abbiamo parlato di distribuzioni condizionate nella normale multivariata; ricordo infatti che in una distribuzione normale multivariata la correlazione fra due variabili condizionata ai valori singoli di un’altra variabile o di più variabili è sempre la stessa, indipendentemente dai livelli assunti dalla III variabile. In altri termini nella distribuzione normale multivariata si è già visto che la dipendenza di y da x non varia in funzione dei livelli di una terza variabile z : questo è analogo al concetto di assenza di interazione, con l’avvertenza che in effetti il concetto di interazione può essere introdotto senza la necessità di riferirsi ad un modello probabilistico multivariato. Esempio di piano fattoriale 2k Supponendo di avere quattro fattori dicotomici X1 , X2 , X3 e X4 con livelli standardizzati -1 e 1, (vedere paragrafo sui disegni fattoriali), il modello seguente: E [yi ] = β0 + xi1 β1 + xi2 β2 + xi3 β3 + xi4 β4 + +xi1 xi2 β12 + xi1 xi3 β13 + xi2 xi3 β23 + +xi1 xi2 xi3 β123 . esprime una dipendenza della risposta dai livelli dei quattro regressori; mentre il fattore X4 non interagisce con nessun altro fattore, gli altri 3 fattori interagiscono sia presi a due a due (interazioni di primo ordine) che tutti e tre insieme (interazione di secondo ordine). Dal punto di vista interpretativo: l’effetto del 4◦ fattore è separabile rispetto a tutti gli altri; l’effetto degli altri 3 invece non è separabile neanche a coppie. 6.6.10 Modelli autoregressivi Un caso speciale è costituito dall’osservazione di una serie temporale, cioè si dispone di n osservazioni eseguite ad intervalli di tempo uguali. Si può pensare, in assenza di informazioni esterne o comunque di altre variabili, di volere studiare la dipendenza della serie dalla stessa serie spostata di uno o più unità temporali; in pratica si ipotizza che Yt , osservazione al tempo t, o meglio, la sua speranza matematica E [Yt ], dipenda linearmente dall’osservazione precedente yt−1 . 188 Materiale didattico statistica 3 Supponiamo quindi di volere spiegare la variabilità di una serie mediante i soli valori della serie stessa in tempi precedenti; sarà in realtà opportuno fare delle ipotesi sul processo stocastico che ha generato la serie (ossia che sia stazionario), per cui la serie non ha certamente componenti di trend. Possiamo, prima di ipotizzare particolari processi stocastici che possono avere generato la serie, adottare un approccio analogo alla regressione lineare, cercando la relazione di regressione che fa dipendere Yt da Yt−1 . In pratica impostiamo un modello di regressione (detto modello autoregressivo ) nel quale la serie originaria svolge il ruolo della variabile di risposta, mentre la Yt−1 svolge il ruolo di regressore o variabile esplicativa. serie originaria serie arretrata di una unità temporale y2 y3 .. . yt yt+1 .. . yn y1 y2 .. . yt−1 yt .. . yn−1 Evidentemente questo approccio presuppone serie equiintervallate Ovviamente la dipendenza da valori precedenti può essere estesa anche a valori distanziati di più di un intervallo temporale: Si può proseguire il ragionamento pensando che yt sia influenzato non solo dalla precedente determinazione yt−1 ma anche da yt−2 e dalle precedenti osservazioni fino a yt−k . 2002-3003 versione provvisoria serie originaria yk+1 yk+2 .. . yt yt+1 .. . yn 6.7 189 serie yt−1 serie yt−2 yk yk+1 .. . yt−1 yt .. . yn−1 yk−1 yk .. . yt−2 yt−1 .. . yn−2 ... ... serie yt−k y1 y2 .. . yt−k yt−k+1 .. . yn−k Generalizzazioni e modelli non lineari (cenni) Possiamo pensare che la speranza matematica della risposta sia una funzione qualsiasi dei parametri e delle variabili indipendenti Xj : Modello non lineare con errori additivi. Y = f (X, β) + ε con: E [ε] = 0 f (·) vettore di funzioni non lineari. Modello non lineare con legame qualsiasi fra componente accidentale e sistematica. Y = g(X, β, ε) Modello non lineare con errori moltiplicativi. Yi = fi (X; β) × εi GLM: Generalized Linear Models E [Y] = h(Xβ) Modelli Lineari Generalizzati: η(E [Y]) = Xβ controllare e fare anche su dispensa2003d1.tex 190 Materiale didattico statistica 3 La speranza matematica della variabile di risposta è funzione (h(.) non lineare) del predittore lineare X β . Si tratta ancora di modelli non lineari, ma con la particolarità che la dipendenza dalle Xj è scomposta in due parti: • la funzione di legame (unica) • un predittore lineare xT i β Questa impostazione consente di attribuire alla matrice X e al vettore di parametri β significati simili a quelli assunti nei modelli lineari. Una sottoclasse di GLM molto impiegata nelle applicazioni è quella in cui la distribuzione della componente accidentale appartiene alla famiglia di distribuzioni esponenziale. Si avrà in sostanza: $$ f(\vecy_i)= $$ Regressione logistica La probabilità del verificarsi di un evento (variabile di risposta) dipende dalle variabili Xj . Regressione piecewise Una relazione di regressione può essere individuata da una spezzata, ossia da una retta che cambia inclinazione in corrispondenza dei livelli delle variabili esplicative. Nel caso in cui i punti di cambio dell’inclinazione non siano noti, il problema è configurabile nell’ambito dei modelli non lineari (non lineari rispetto ai parametri !) Approssimazione di modelli non lineari Eventualmente un modello lineare può essere visto come approssimazione del primo ordine di un modello non lineare Regressione non parametrica La forma funzionale f (X, β) non è precisata:viene stimata direttamente E [Yi |xi ] (in modo non parametrico), ed eventualmente dopo si cerca di valutare f (.) . Nel caso k = 1, 2 questo può servire come 2002-3003 versione provvisoria 191 indizio per la scelta del tipo di funzione, o per la scelta del tipo di polinomio, etc. 192 modello autoregressivo Materiale didattico statistica 3 2002-3003 versione provvisoria Figura 6.2: FIG2000REGR3.STG vai a indice figure 193 194 Materiale didattico statistica 3 Figura 6.3: distribuzioni condizionate normali vai a indice figure Figura 6.4: campione da una normale bivariata vai a indice figure 2002-3003 versione provvisoria 195 Figura 6.5: distribuzioni condizionate normali in corrispondenza di valori fissati vai a indice figure 196 Materiale didattico statistica 3 Figura 6.6: box-plot con retta di regressione e spezzata di regressione vai a indice figure 2002-3003 versione provvisoria Figura 6.7: interaz1.stg vai a indice figure 197 198 Materiale didattico statistica 3 Figura 6.8: interaz2.stg vai a indice figure Capitolo 7 Spunti tratti da casi reali per l’introduzione di argomenti teorici 7.1 La correlazione parziale Si prenda in considerazione il caso relativo a dati antropometrici esposto nel grafico 3.3. Restringiamo per semplicità per ora la nostra attenzione a tre variabili: TORACE ALTEZZA PESO e riguardiamo il grafico a matrici delle sole tre variabili che usiamo per questo esempio. 199 200 Materiale didattico statistica 3 Figura 7.1: grafico a matrice delle tre variabili antropometriche vai a indice figure ... Vogliamo vedere se e come si modifica la relazione (lineare) fra due variabili, quando si vuole tenere conto dell’influenza che una terza variabile ha su di loro. Come eliminare quest’influenza e come misurare poi la relazione? Esaminiamo la relazione fra torace e altezza (senza considerare altre variabili). E’ una relazione crescente (prescindendo dal fatto che sia lineare o no: assumiamo per semplicità per ora di approssimare le relazioni di regressione con funzioni lineari, che nel nostro caso danno comunque una buona idea generale della relazione di regressione) TORACECM = 7.7185+0.4475*ALTEZZA: retta di regressione lineare 2002-3003 versione provvisoria r=0.58 indice di correlazione lineare semplice 201 202 Materiale didattico statistica 3 Figura 7.2: relazione fra Circonferenza toracica e altezza su 1519 ragazzi vai a indice figure Questa relazione non tiene conto della presenza di altre variabili. Dal momento che si sa che esistono altre variabili che influenzano sia x che y, ci poniamo adesso una domanda un po’ diversa: che relazione esiste fra la circonferenza toracica e l’altezza a parità di altre condizioni, per ora diciamo semplicemente a parità di peso? Oppure, che relazione esiste fra la circonferenza toracica e l’altezza dei soggetti con lo stesso peso? Ci chiediamo: cosa succede considerando esplicitamente una terza variabile? 7.1.1 Cenno alla regressione multipla Adesso i punti vanno rappresentati in uno spazio a tre dimensioni. Dobbiamo adattare un piano di regressione z=Torace y=peso x=altezza Il piano di regressione z = a + bx + cy minimizza la somma dei quadrati degli scarti dei punti osservati 2002-3003 versione provvisoria 203 dal piano (misurati in verticale, ortogonalmente rispetto al piano xy e parallelamente a z) (è irrilevante in questo contesto come venga calcolato) 204 Materiale didattico statistica 3 Figura 7.3: relazione fra Circonferenza toracica, altezza e peso su 1519 ragazzi vai a indice figure Sono riportate altre due punti di vista della nuvola di punti tridimensionale: 2002-3003 versione provvisoria 205 Figura 7.4: relazione fra Circonferenza toracica, altezza e peso su 1519 ragazzi vai a indice figure 206 Materiale didattico statistica 3 Figura 7.5: relazione fra Circonferenza toracica, altezza e peso su 1519 ragazzi vai a indice figure 2002-3003 versione provvisoria 207 ... • Avendo utilizzato una relazione lineare (ossia l’equazione di un piano) per approssimare la relazione di regressione che fa dipendere z da x e y, piani paralleli intersecheranno il piano di regressione formando rette con la stessa pendenza • In particolare un qualsiasi piano con y costante (ossia y = k e quindi parallelo al piano X-Z) interseca il piano di regressione z = a + bx + cy formando una retta di regressione di equazione: z = a + ck + bx il coefficiente b è quindi un coefficiente di regressione parziale • L’ipotesi di linearità della regressione multipla, implica quindi regressioni parziali con la stessa pendenza: non è detto che questa sia un’ipotesi sempre realistica, ma costituisce un’approssimazione comoda. • Si osservi ora che nel nostro caso l’intersezione del piano di regressione col piano torace- altezza (ossia a parità di peso) è una retta con pendenza negativa. 7.1.2 Correlazione parziale come correlazione fra residui Proviamo comunque ad eliminare l’influenza della variabile peso ricorrendo solo agli strumenti tecnici della regressione lineare semplice. 208 Materiale didattico statistica 3 ... Come eliminare l’infuenza della terza variabile sulle prime due? Esiste un modo molto semplice per operare, che conduce agli stesi risultati che otterremo in altroi capitoli anche per altra via: calcoliamo le regressioni lineari della variabile altezza, X1 , e della variabile torace , X2 , sulla variabile peso, X3 . Su ciascuna relazione calcoliamo i residui: wi1 = xi1 −(a13 +b13 xi3 ) e wi2 = xi2 −(a23 +b23 xi3 ) i = 1, 2, . . . , n ovviamente la nuova variabile W1 (residui Altezza) non è correlata con X3 (peso); anche la variabile W2 (residui Torace ) non è correlata con X3 (peso). 2002-3003 versione provvisoria 209 coefficiente di regressione parziale 210 Materiale didattico statistica 3 Figura 7.6: regressione dell’Altezza rispetto al peso: relazione fra i residui e la variabile esplicativa peso vai a indice figure ... Le due variabili W1 e W2 sono state depurate dalla dipendenza dalla variabile X3 Questa eliminazione dell’influenza di X3 è rappresentabile graficamente rappresentando nel piano le n coppie di punti (wi1 , wi2 ), i = 1, 2, . . . , n insieme con la retta di regressione lineare. 2002-3003 versione provvisoria 211 Figura 7.7: regressione della Circonferenza toracica rispetto al peso: relazione fra i residui e la variabile esplicativa peso vai a indice figure La retta di regressione fra il torace e l’altezza, eliminata l’influenza della variabile peso, ha cambiato inclinazione ed è ora a pendenza negativa! Possiamo esprimere questo risultato dicendo che, per soggetti con lo stesso peso, la circonferenza toracica in media diminuisce all’aumentare dell’altezza. Possiamo adesso direttamente misurare la correlazione fra le cinque variabili fin qui usate: X1=ALTEZZA X2=TORACE X3=PESO W1=resa ltp eso(residuidell0 altezzarispettoalpeso)W2=rest oracep eso(residuidelT oracerispetto 212 Materiale didattico statistica 3 Figura 7.8: relazione fra i residui W1 della variabile torace e i residui W2 della variabile altezza vai a indice figure La correlazione fra le due variabili residue W1 e W2 è: rW 1,W 2 = −0.25 Correlazione fra torace e altezza a parità di peso Questo indice va sotto il nome di indice di correlazione lineare parziale fra le variabili X1 e X2, tenuta costante X3 e si indi con r12.3 . Nella sezione seguente ricaviamo analiticamente r12.3 ()se non è già noto al lettore), in funzione delle correlazioni lineari semplici. Faccio notare soltanto che l’approccio seguito adesso per definire la correlazione parziale tenendo costante l’influenza di una variabile, è perfettamente estendibile alla correlazione parziale fra due variabili tenuta costante l’influenza di altre k variabili. Occorrerà soltanto calcolare i residui dalle regressioni multiple di X1 e X2 rispetto alle altre k variabili e poi considerarne la correlazione. 7.1.3 derivazione di r12.3 Per derivare r12.3 con questa impostazione, occorre richiamare soltanto alcuni risultati della regressione lineare semplice. Intanto ricaviamo i valori dei residui wi1 , wi2 in funzione dei valori originali xi1 , xi2 , xi3 . 2002-3003 versione provvisoria 213 Sappiamo dalla regressione lineare semplice che: Pn j=1 xj1 xj3 xi3 wi1 = xi1 − (a13 + b13 xi3 ) = xi1 − Pn 2 j=1 xj3 (con x indico lo scarto da M, media aritmetica di X) E’ più comodo adesso passare alla notazione vettoriale, per cui con xr (r = 1, 2, 3) indico il vettore (colonna) degli scarti relativi alla r−esima variabile: x1r − Mr x2r − Mr .. . xr = , (r = 1, 2, 3) x −M jr r .. . xnr − Mr Tornando all’espressione dei residui abbiamo: Pn j=1 xj1 xj3 xi3 2 j=1 xj3 wi1 = xi1 − (a13 + b13 xi3 ) = xi1 − Pn = xT 3 x1 x3 T x3 Adesso riesprimiamo l’intero vettore dei residui w1 , ottenendo: = xi1 − xi3 w1 = x1 − (a13 + b13 x3 ) == x1 − x3 xT 3 x1 = x3 T x3 (mettendo in evidenza a destra il vettore x1 ) x3 xT 3 = I− T x1 x3 x3 T (si noti che x3 xT 3 è una matrice (n × n), mentre x3 x3 è uno scalare) i h x3 xT 3 E’ utile notare anche che la matrice I − xT x è idempotente 3 3 link da creare A questo punto applichiamo questa formula anche alla colonna dei residui dell’altra variabile w2 (residui della relazione di dipendenza lineare di X2 da X3 ): 214 Materiale didattico statistica 3 x3 xT 3 x2 w2 = I − T x3 x3 Adesso finalmente costruiamo l’indice di correlazione lineare parziale: w2T w1 q = T T w1 w1 w2 w2 r12.3 = correlazione lineare (W1 , W2 ) = q ih i h x3 xT x3 xT 3 3 I − x1 xT I − 2 xT xT 3 x3 3 x3 r =r h ih i h ih x3 xT x3 xT x3 xT T 3 3 3 I− x x I − I − xT I − 1 2 1 xT x xT x xT x 3 3 3 3 3 3 x3 xT 3 xT 3 x3 i x2 (ricordando tutte le proprietà h viste in i questa sezione ed applicando T l’idempotenza della matrice I − xx3Txx3 ) 3 3 h i x3 xT 3 xT I − x1 2 xT 3 x3 r =r h i h x3 xT T T 3 x1 I − xT x x1 x2 I − 3 3 x3 xT 3 xT 3 x3 i x2 Per farla breve, si vede che le quantità a denominatore sono le radici quadrate delle devianze residue (cosa che si sapeva già dalla costruzione dell’indice di correlazione), per cui sono proporzionali a q 2 j = 1, 2. 1 − rj3 A numeratore esplicitiamo il prodotto: T r12.3 T x3 x3 xT x1 2 x1 − x2 xT 3 x3 = ... = √ = √ 2√ 2√ 1 − r13 1 − r23 DevX1 DevX2 √ √ √ √ √ √ 3 r23 DevX2 DevX3 r12 DevX1 DevX2 − r13 DevX1 DevX DevX3 q q = = √ √ 2 2 1 − r13 1 − r23 DevX1 DevX2 (semplificando tutte le devianze) r12 − r13 r23 q 2 2 1 − r13 1 − r23 q 2002-3003 versione provvisoria inserire poi discorso su correlazione multipla in funzione della correlazione parziale 215 216 Materiale didattico statistica 3 Figura 7.9: correlazioni fra le 3 variabili e i due residui vai a indice figure Capitolo 8 Stima dei parametri del modello lineare (modelli a rango pieno) Adesso, dopo avere visto alcuni dei più importanti impieghi del modello lineare per la descrizione di relazioni statistiche di natura varia, e le diverse interpretazioni dei parametri e delle variabili del modello, passiamo ad affrontare i problemi di stima. L’approccio che seguiremo, di tipo parametrico, è fondato interamente sulla verosimiglianza e viene esposto prima con riferimento ad un modello generico a rango pieno; una volta esposte le caratteristiche fondamentali dell’inferenza per il caso generico, si passerà ad esaminare problemi relativi a modelli particolari, principalmente per l’analisi della regressione multipla e per l’analisi della varianza. 217 218 Materiale didattico statistica 3 Si supponga che: y[n×1] = X[n×k] β[k×1] + ε[n×1] essendo : y[n×1] il vettore dei valori osservati X[n×k] una matrice nota (i valori osservati dei regressori) β[k×1] il vettore di parametri da stimare in generale completamente incognito. ε[n×1] un vettore di variabili casuali non osservabili, la cui distribuzione dipende in genere da un vettore θ incognito di parametri di disturbo. Ovviamente per potere stimare i parametri β e θ mediante il metodo della massima verosimiglianza occorre fare delle ipotesi sulla distribuzione congiunta delle componenti di ε . In ogni caso sarà necessario fare tale ipotesi se si vuole calcolare la verosimiglianza rispetto ai parametri per problemi di stima, di test e di costruzione di intervalli di confidenza di vario tipo. In questa prima parte considereremo esclusivamente approcci di tipo parametrico. 8.0.4 Assunzioni di base nel modello lineare Le ipotesi semplificatrici che classicamente vengono fatte nell’approccio parametrico sono: 2002-3003 versione provvisoria 219 a E [ε] = 0n , momento primo per cui E[Y] = Xβ X β è la componente sistematica ed ε è la componente accidentale additiva. b V [ε] = σ 2 In momento secondo La matrice di varianza e covarianza della componente accidentale è diagonale con elementi uguali, ossia b1) gli errori sono non correlati; b2) gli errori hanno la stessa varianza (ipotesi di omoscedasticità); c ε ∼ Nn (0; σ 2 In ) distribuzione Nel caso di normalità degli errori, le assunzioni a) e b) che specificano i primi due momenti multivariati, identificano in modo univoco la distribuzione della componente accidentale ε . Con queste ipotesi si vedrà che il metodo della massima verosimiglianza conduce al metodo dei minimi quadrati. Altre implicazioni delle ipotesi di base: • Data l’assunzione di normalità, la non correlazione fra le componenti di ε implica l’indipendenza delle componenti. 220 Materiale didattico statistica 3 • In caso di validità della b1) e della b2) non solo si ha l’indipendenza, ma la distribuzione di ciascuna yi dipende solo dalla corrispondente componente accidentale εi . • Sono quindi esclusi, con questa restrizione, i modelli autoregressivi e in generale i modelli ARMA sia per l’analisi di dati temporali che di dati spaziali o territoriali. • Le assunzioni a,b e c implicano che le εi abbiano la stessa distribuzione, che quindi non dipende in alcun modo né dai particolari valori xij , né dai valori dei parametri βj. • L’ additività fra componente accidentale e sistematica implica che non vi sia collegamento fra l’assegnazione delle varie unità e gli errori accidentali. 8.1 La funzione di verosimiglianza nel modello lineare. In un primo momento costruiamo la verosimiglianza del modello lineare in funzione dei parametri beta ed in funzione della varianza (o dei parametri da cui dipende la matrice di varianze e covarianze). È inutile per ora precisare se questa verosimiglianza ci servirà per costruire degli stimatori puntuali, o degli stimatori per intervallo, o per costruire dei test. In ogni caso per fare inferenza in senso lato, l’analisi della verosimiglianza è essenziale, perché ci permette di costruire un criterio per la plausibilità di determinati valori parametrici alla luce dell’evidenza campionaria. Con le assunzioni a), b) e c) fatte prima siamo in grado di costruire la verosimiglianza campionaria, dal momento che abbiamo un campione y di n osservazioni estratto da una distribuzione normale di parametri (o comunque una osservazione da una normale multivariata a n componenti): E [Y] = (Xβ); V [Y] = σ 2 In ; quindi in definitiva: Y ∼ N (Xβ, σ 2 In ) per cui la verosimiglianza campionaria è data da: 2002-3003 versione provvisoria 221 Verosimiglianza del modello lineare n L(β, σ 2 ; y) = (2π)− 2 |V [Y] |−1/2 × 1 T −1 × exp − (y − Xβ) [V [Y]] (y − Xβ) 2 (y − Xβ)T (y − Xβ) 2 − n2 = (2πσ ) exp − 2σ 2 Funzione di verosimiglianza campionaria per il modello lineare con le ipotesi semplificatrici. Rispetto alla notazione precedente il vettore θ di parametri della componente accidentale è composto dal solo σ 2 , in quanto chiaramente la distribuzione di ε dipende solo da σ 2 . Il logaritmo della verosimiglianza campionaria per i k + 1 parametri del modello, ossia le k componenti di β e σ 2 è quindi dato, trascurando la costante −( n2 )Log(2π) , da: logL(β, σ 2 ; y) = −nlog(σ 2 )/2 − (y − Xβ)T (y − Xβ) 2σ 2 Log Verosimiglianza per un modello lineare con l’assunzione di normalità, indipendenza e omoscedasticità (anche uguale a: Pn 2 −nlog(σ )/2 − i=1 (yi Pk 2 j=1 xij βj ) ) 2σ 2 − Con altre ipotesi su V [Y] si giunge a differenti funzioni di verosimiglianza e differenti stimatori. Derivando nella rispetto a σ 2 otteniamo: ∂logL[β, σ 2 |y]) n (y − Xβ)T (y − Xβ) = − + ∂σ 2 2σ 2 2(σ 2 )2 222 Materiale didattico statistica 3 Uguagliando a zero e risolvendo rispetto a σ̂ 2 si ottiene facilmente il valore σ̂ 2 (β) che massimizza la verosimiglianza: (y − Xβ)T (y − Xβ) n Stima di Max. ver. di σ 2 in funzione degli altri parametri β per un modello con errori indipendenti e omoscedastici. (anche uguale a: Pn Pk 2 i=1 [yi − j=1 xij βj ] 2 σ̂ (β) = n σ̂ 2 (β) = Si vede dunque che con queste ipotesi la verosimiglianza campionaria dipende dalle osservazioni campionarie solo attraverso la somma dei quadrati degli scarti fra valori osservati e valori previsti. Si vedrà più avanti il caso di osservazioni ancora distribuite normalmente ma con matrice di varianze e covarianze qualsiasi: sotto queste ipotesi più generali la verosimiglianza sarà funzione dei dati ancora attraverso una forma quadratica, ma difficilmente, o perlomeno solo in alcuni casi particolari, sarà possibile ottenere delle soluzioni esplicite per gli stimatori di massima verosimiglianza. Tornando al nostro caso semplificato, con errori non correlati e con varianze uguali, è immediato trovare lo stimatore di massima verosimiglianza della varianza. Si vedranno poi le caratteristiche di questo stimatore, distorsione, efficienza, etc., anche in funzione del fatto che β sia noto o sia da stimare. Verosimiglianza profilo rispetto a β Sostituendo ora nella verosimiglianza campionaria tale valore di σ̂ 2 β al valore incognito del parametro di disturbo σ 2 , otteniamo una quantità che è funzione solo del vettore β dei parametri di interesse 2002-3003 versione provvisoria 223 (ossia la verosimiglianza profilo di β ) L(β, σ̂ 2 (β); y) = 2π 2 σ̂ (β) − n2 (y − Xβ)T (y − Xβ) 2σ̂ 2 (β) (y − Xβ)T (y − Xβ) exp − (y−Xβ )T (y−Xβ ) 2 exp[− − n2 (y − Xβ)T (y − Xβ) = cost.× n n In definitiva si ha: n n L(β, σ̂ 2 (β); y) = costante × exp(− ) × σ̂ 2 (β)− 2 = 2 − n2 n (y − Xβ)T (y − Xβ) = costante × exp(− ) 2 n verosimiglianza profilo rispetto a β. E’ evidente che questa espressione è massima quando: y − Xβ T y − Xβè un minimo. Analogamente per il logaritmo di tale verosimiglianza profilo si ha: n n − ( )Logσ̂ 2 (β) = 2 2 n (y − Xβ)T (y − Xβ) = kost − ( ) log 2 n log L(β, σ̂ 2 (β); y) = log(costante) − (avendo posto kost = log(costante) − n2 ) Log-verosimiglianza profilo rispetto a β verosimiglianza profilo normalizzata=rapporto delle verosimiglianze La verosimiglianza profilo è uno strumento tecnico utile per fare inferenza nel caso generale di presenza di parametri di disturbo; nel nostro caso l’interesse preminente dell’inferenza è per i parametri β : il parametro σ 2 è soltanto un parametro di disturbo, nel senso che non è necessariamente oggetto dell’inferenza ma comunque è necessario stimarlo dai dati per fare inferenza sul parametro di interesse (multiplo) β . Ancora vediamo che la verosimiglianza profilo è funzione dei dati solo attraverso la forma quadratica già vista: è evidente che la possibilità di ricavare la verosimiglianza profilo in modo cosı̀ semplice rispetto a β , è stata determinata dal fatto che esiste lo stimatore 224 Materiale didattico statistica 3 di massima verosimiglianza della varianza in forma esplicita, con le assunzioni semplificatrici fatte in questo caso. È evidente il collegamento fra verosimiglianza profilo e test basati sul rapporto delle verosimiglianze, come si vedrà fra poco; se si ricorda il metodo di costruzione del rapporto verosimiglianza si noterà come sia a numeratore sia a denominatore i parametri di disturbo vengono sostituiti dai valori massimizzano la verosimiglianza ossia dai valori più plausibili alla luce dei dati osservati. La figura 8.1 riportata qui sotto chiarisce il significato e l’utilità dei vari tipi di verosimiglianza: 2002-3003 versione provvisoria 225 Figura 8.1: verosimiglianza rispetto a µ e σ 2 per un campione proveniente da una normale e verosimiglianza profilo su µ vai a indice figure La superficie rappresenta la verosimiglianza normalizzata per un campione estratto da una distribuzione normale standardizzate; tale verosimiglianza è rappresentata sull’ asse z mentre sugli assi x e y sono rappresentati i due parametri di posizione di scala o meglio di posizione e di varianza di una distribuzione normale. Il punto di massimo è raggiunto ovviamente in corrispondenza della media campionaria e della varianza campionaria. La curva rappresentata nel piano xy, per comodità rappresentata sopra la superficie, rappresenta la relazione fra lo stimatore di massima verosimiglianza di sigma quadro e il parametro di posizione. La curva in grassetto rappresentata sulla superficie è data dai valori della verosimiglianza standardizzata in corrispondenza dello stimatore ottimale della varianza. Questa è la verosimiglianza profilo rispetto al parametro medio; la curva rappresentata sul piano xz vera proiezione della verosimiglianza profilo che è funzione soltanto del parametro medio. E’ da considerare che nel caso di un modello lineare generale non 226 Materiale didattico statistica 3 sarà possibile una tale rappresentazione grafica poiché abbiamo k parametri da stimare, ossia le componenti di; tuttavia la relazione che lega la varianza stimata ai parametri della parte sistematica è sempre la stessa, ossia di tipo quadratico. Verosimiglianza di un campione da una normale, insieme con la verosimiglianza profilo Costruzione del test LR E’ facile già da queste espressioni della verosimiglianza e in particolare della verosimiglianza profilo, costruire i rapporti di verosimiglianza per la verifica di particolari ipotesi sugli elementi di β , in quanto la verosimiglianza profilo è funzione soltanto di σ̂ 2 (β) e quindi solo di (y − Xβ)T (y − Xβ) . Infatti vogliamo verificare ad esempio l’ipotesi H0 : β = β0 contro l’alternativa generica: H1 : β 6= β0 Indichiamo con β̂ la stima di massima verosimiglianza di β sotto H1 , costruiremo il test LR (Likelihood Ratio) rapportando la verosimiglianza massima sotto H0 e quella massima sotto H1 . Sotto H0 non vi sono parametri di disturbo da stimare (tranne σ 2 la cui influenza è stata eliminata in quanto stiamo lavorando con la verosimiglianza profilo su β ); sotto H1 a parte σ 2 va stimato il vettore β Per cui otteniamo la relazione: LR = = max L(β, σ 2 ; y|H0 ) max L(β, σ 2 ; y|H1 ) L(β0 , σ̂ 2 (β0 ); y) L(β̂, σ̂ 2 (β̂); y) = σ̂ 2 (β0 ) ! n2 σ̂ 2 (β̂) ! n2 (y − Xβ̂)T (y − Xβ̂) (y − Xβ0 )T (y − Xβ0 ) = Come è noto valori alti di LR (vicini ad uno) indicheranno la plausibilità dell’ipotesi nulla; ci preoccuperemo dopo della costruzione effettiva dei test e della loro distribuzione campionaria. 2002-3003 versione provvisoria 227 In generale comunque se vogliamo saggiare una generica ipotesi nulla H0 contro una più generale H1 , essendo H0 un caso particolare di H1 , possiamo pensare ciascuna ipotesi Hi (i = 1, 2) come un sistema di vincoli gi (β) imposti sugli elementi di β . Ad esempio g0 (β) potrebbe consistere del fatto che una superficie sia di primo grado, mentre g1 (β) potrebbe essere l’alternativa che la superficie sia di secondo grado (ma non un polinomio di grado superiore). Indicando ora con β̂ i la stima di massima verosimiglianza di β sotto Hi , possiamo nel caso generale costruire il test: LR = max L(β, σ 2 ; y|g0 (β)) max L(β, σ 2 ; y|g1 (β)) L(β̂ 0 , σ̂ 2 (β̂ 0 ); y) L(β̂ 1 , σ̂ 2 (β̂ 1 ); y) = ( y y σ̂ 2 (β̂ 0 ) σ̂ 2 (β̂ 1 ) T − Xβ̂ 1 y T − Xβ̂ 0 y − n2 = − Xβ̂ 1 ) n2 − Xβ̂ 0 Il criterio del rapporto della verosimiglianza conduce ad un test sensibile e ad uno strumento generalmente molto utile per l’inferenza statistica sebbene non possegga almeno per piccoli campioni le proprietà ottimali che un test dovrebbe avere secondo la teoria di Neyman-Pearson. Il problema della verifica di ipotesi, ossia della costruzione di un test di significatività, si può riassumere come segue: sulla base dei dati osservati la famiglia di distribuzioni dell’ipotesi alternativa H1 si adatta significativamente meglio ai dati della famiglia parametrica rappresentata dall’ipotesi nulla H0 ? Rifiutiamo H0 a favore di H1 se questo miglioramento è significativo. Sebbene questo test non possegga tutte le proprietà ottimali richieste, risponde comunque ai requisiti fissati da Fisher per la verifica di ipotesi nell’indagine scientifica: lo scopo dei test è di attestare l’evidenza che i dati forniscono in merito a certe ipotesi più o meno definite; criteri di ottimalità quali potenza, ampiezza, non distorsione, sono importanti ma non sono necessariamente la cosa più importante nelle applicazioni. 228 Materiale didattico statistica 3 Dalla costruzione del test del rapporto delle verosimiglianze per i parametri di un modello lineare con l’ipotesi di normalità, eteroscedasticità, non correlazione, si vede che tale rapporto dipende esclusivamente dai rapporti fra le varianze stimate sotto le diverse ipotesi; • una varianza è quella relativa all’ipotesi più generale cioè quella che impone meno vincoli sui parametri che sarà più piccola nell’ambito della famiglia parametrica considerate; • la varianza relativa alla verosimiglianza del numeratore è quella calcolata sotto l’ipotesi di esistenza di qualche vincolo sui parametri. È quindi evidente che l’ipotesi di normalità implica che le quantità sufficienti per fare inferenza sono le varianze stimate. 8.1.1 MINIMI QUADRATI ORDINARI Per trovare dunque il massimo incondizionato della verosimiglianza occorre trovare β̂ che da ora in poi indico per comodità di notazione con b . Minimi quadrati Va trovato il minimo di (y − Xb)T (y − Xb) ossia il minimo della somma dei quadrati degli scarti fra: valori osservati y e valori calcolati Xb . (indicati con yi∗ ) Minimi Quadrati Ordinari. (Ordinary Least Squares: OLS) In forma matriciale: min R(b), b con: R(b) = n X i=1 (yi − k X j=1 2 xij βj ) = n X (yi − yi∗ )2 i=1 = (y[n×1] − X[n×k] bT [k×1] )(y[n×1] − X[n×k] b[k×1] ) = 2002-3003 versione provvisoria 229 = yT y − 2bT XT y + bT (XT X)b essendo yi∗ l’ i -esimo valore stimato. Derivando R(b) ( = yT y − 2bT XT y + bT (XT X)b ) rispetto al vettore b si ottiene: ∂R(b) = −2XT y + 2(XT X)b ∂b Uguagliandole a 0 (vettore nullo): −2XT y + 2(XT X)b = 0; Occorre risolvere, in b , il sistema: (XT X)b = XT y Sistema di equazioni normali Temporaneamente imponiamo la restrizione che X sia di rango k , e quindi esiste, ed è unica, l’inversa di XT X . Diversamente potremmo ricorrere ad una riparametrizzazione oppure all’uso dell’inversa generalizzata SOLUZIONE GENERALE DEI MINIMI QUADRATI NEI MODELLI LINEARI A RANGO PIENO (Sono stimatori di massima verosimiglianza con le ipotesi semplificatrici) b = (XT X)−1 XT y la soluzione esiste unica avendo supposto X di rango k e fornisce certamente il minimo di (y − Xb)T (y − Xb) 230 Materiale didattico statistica 3 Si tratta certamente di un minimo, in quanto le condizioni del secondo ordine, riguardanti l’Hessiano, sono sempre soddisfatte, è: ∂R(b) = −2XT y + 2(XT X)be ∂b ∂ 2 R(b) = 2(XT X) T ∂b∂b che è sempre definita positiva e quindi il punto di stazionarietà fornisce il minimo assoluto della funzione. inserire dimostrazione senza derivate ispirata a Rao Minimizzazione di R(β)senzausodiderivate Possiamo ricavare il valore b che minimizza R(β) anche senza fare uso di derivate (e addirittura senza neppure la necessità di ipotizzare che X sia di rango pieno). Procediamo come segue, analogamente alla dimostrazione della seconda proprietà della media aritmetica n X 2 (yi − My ) leq i=1 n X (yi − a)2 ∀yi , a i=1 Sia b tale che: XT Xb = XT y Trasformiamo ora la quantità da minimzzare (devianza teorica) R(β) = εT ε R(β) = (y − Xβ)T (y − Xβ) = ( anche uguale a: (Y − E [Y])T (Y − E [Y]) )= (Aggiungendo e sottraendo Xb ) = [(y − Xb) + (Xb − Xβ)]T [(y − Xb) + (Xb − Xβ)] = sviluppiamo il prodotto in cui compare il binomio formato dai due termini: (y − Xb)e(Xb − X) = [y − Xb]T [y − Xb]+ +[Xb − Xβ]T [Xb − Xβ]+ +2[Xb − Xβ]T [y − Xb] 2002-3003 versione provvisoria 231 Nell’ultimo termine in [Xb − Xβ] si mette in evidenza X ottenendo 2[b − β]T XT [y − Xb] = = 2[b − β]T [XT y − XT Xb] = 0 l’ultimo termine è nullo per l’ipotesi fatta su b . In definitiva si ha (indicando qq[y − Xb] con R(b)): R(β) = (y − Xβ)T (y − Xβ) = = [y − Xb]T [y − Xb] + [Xb − Xβ]T [Xb − Xβ] = = R(b) + [Xb − Xβ]T [Xb − Xβ] ≥ R(b) dal momento che [Xb − Xβ]T [Xb − Xβ] ≥ 0. Pertanto è dimostrato che b minimizza R(β) = (y − Xβ)T (y − Xβ) Abbiamo ipotizzato all’inizio: XT Xb = XT y A questo punto se supponiamo X a rango pieno possiamo esplicitare la soluzione (perchè esiste allora l’inversa di XT X): SOLUZIONE GENERALE DEI MINIMI QUADRATI NEI MODELLI LINEARI A RANGO PIENO (Sono stimatori di massima verosimiglianza con le ipotesi semplificatrici) b = (XT X)−1 XT y la soluzione esiste unica avendo supposto X di rango k e dà il minimo di (y − Xb)T (y − Xb) 232 Materiale didattico statistica 3 Il metodo dei minimi quadrati ordinari (OLS: Ordinary Least Squares) COINCIDE con il metodo della massima verosimiglianza se e solo se: la distribuzione di ε è una normale a n variabili a componenti indipendenti e con uguale varianza σ 2 (altrimenti occorre impiegare metodi diversi da quello dei minimi quadrati) Pertanto gli stimatori dei minimi quadrati godranno delle proprietà asintotiche ottimali degli stimatori M.V. soltanto nel caso gaussiano, diversamente saranno soltanto i migliori stimatori lineari non distorti. 8.1.2 Teorema di Gauss-Markov Date le assunzioni a) e b), ossia errori a media nulla, non correlati ed a varianze uguali, gli stimatori dei minimi quadrati hanno comunque una proprietà ottimale: In un modello lineare, con le assunzioni ricordate sopra, gli stimatori dei minimi quadrati di un qualsiasi insieme di funzioni lineari dei parametri βj sono a varianza minima nella classe degli stimatori non distorti e lineari nelle yi In effetti si può anche dimostrare che sono gli stimatori con la minima varianza generalizzata. In effetti questo teorema non dimostra affatto la superiorità assoluta degli stimatori dei minimi quadrati, è può considerarsi una proprietà sufficiente per rendere inutile l’assunzione di normalità: infatti il teorema asserisce solo che sono i migliori fra gli stimatori lineari nelle osservazioni non distorti. Intanto non è detto che la non distorsione sia una proprietà in assoluto necessaria, ma fondamentalmente nulla obbliga a restringersi agli stimatori lineari. Assumere la linearità nelle osservazioni equivale ad assumere la normalità. Ad esempio nella derivazione della normale: imponendo la condizione che dato un campione di n osservazioni 2002-3003 versione provvisoria 233 indipendenti il miglior stimatore di E(X ) sia la media aritmetica delle osservazioni, Gauss dimostrò che la distribuzione degli errori è normale. MINIMA VARIANZA E MINIMA VARIANZA GENERALIZZATA. 234 Materiale didattico statistica 3 Variabili a media zero (regressione in termini di scarti) Se X è posta nella forma conveniente vista prima, ossia prima colonna tutta uguale ad 1, e k colonne di scarti dei regressori dalle rispettive medie, X avrà un totale di k + 1 colonne, supposte linearmente indipendenti (dal momento che il rango di X è in questo caso k + 1 ). Questa forma della matrice dei regressori viene utilizzata quando si vuole esplicitamente inserire un’ordinata all’origine β0 fra i parametri del modello e per semplificare alcune scomposizioni successive: Si vede facilmente che in questo caso: ! T n 0 k XT X = 0k nSX (XT X)−1 = XT y = 1/n 0T k 0k (SX )−1 /n ! nMy ! ncov(X, y) avendo indicato: con SX matrice delle varianze e covarianze dei k regressori e cov(X, y) vettore delle covarianze fra la y e le x . In questo modo è possibile separare la stima del termine noto da quella dei coefficienti di regressione: ! b0 = M y b= bk = S1X cov(X, y) 8.1.3 Distribuzione campionaria di b (minimi quadrati ordinari) In ogni caso, qualunque sia la scelta della X , comunque di rango k (e k colonne), lo stimatore b è dato in generale da: b = (XT X)−1 XT y; Per ipotesi Y = Xβ + ε; e quindi b è una combinazione lineare delle y per cui potremmo direttamente applicare le regole per il calcolo dei momenti di combinazioni lineari di variabili casuali. 2002-3003 versione provvisoria 235 Per la speranza matematica di b si ha: E(b) = E[(XT X)−1 XT Y] = = E[(XT X)−1 XT (Xβ + ε)] = = E[(XT X)−1 XT Xβ] + E[(XT X)−1 XT ε] = = E(β) + (XT X)−1 XT E(ε) = =β Momento primo di b E [b] = β (b è uno stimatore corretto di β ) Per ottenere il risultato è stato sufficiente assumere soltanto: E(ε) = 0n . Quindi perché b sia corretto per β è sufficiente che il modello lineare sia non distorto. Per la matrice di varianze e covarianze campionarie di b si ha V [b] = (XT X)−1 XT V [Y] X(XT X)−1 = = (XT X)−1 XT σ 2 In X(XT X)−1 = = σ 2 (XT X)−1 XT X(XT X)−1 = = σ 2 (XT X)−1 236 Materiale didattico statistica 3 Momento secondo di b V (b) = σ 2 (XT X)−1 avendo assunto oltre a E(ε) = 0n : V(ε) = σ 2 In (omoscedasticità e non correlazione) qualunque sia la forma della distribuzione delle εi Quindi la struttura della matrice di varianze e covarianze di b dipende dalla struttura della matrice (XT X)−1 e quindi dalla struttura delle matrici (XT X) e X . Se la matrice X è una matrice di scarti dalle medie aritmetiche (e le variabili indipendenti sono numeriche in senso stretto), allora XT X è la matrice di devianze e codevianze dei k regressori; pertanto la struttura dei primi due momenti multivariati della distribuzione di b non dipende solo dalle assunzioni su ε ma anche dalla struttura della matrice X. Questo è uno degli aspetti di cui occorre tenere maggiormente conto tutte le volte che è possibile scegliere, in tutto o in parte, come costruire la matrice delle x. Se (e solo se) le Xj sono tutte non correlate i bj saranno tutti non correlati; Se la matrice (XT X ) risulta a blocchi (ossia gruppi di variabili internamente correlate ma non fra gruppi diversi), allora è a blocchi anche V (b), ossia i corrispondenti gruppi di stimatori dei coefficienti saranno internamente correlati ma fra gruppi diversi vi sarà assenza di correlazione. Si rivedranno in contesti particolari alcuni di questi aspetti 2002-3003 versione provvisoria 237 Distribuzione di b Se, inoltre, vale l’assunzione di normalità, allora: b segue una distribuzione normale multivariata (in quanto combinazione lineare delle y ) b è lo stimatore di massima verosimiglianza (come peraltro abbiamo già ottenuto) b(N (β; σ 2 (XT X)−1 ) Si possono quindi costruire eventualmente delle regioni di confidenza per i parametri (se σ 2 è noto) che risulteranno in questo caso ellissoidali. Occorrerà distinguere il caso in cui σ 2 sia noto (poco plausibile) dal caso in cui venga stimato. In effetti anche senza assumere la normalità della componente accidentale, sotto condizioni non troppo restrittive sulla matrice delle x la distribuzione dello stimatore dei minimi quadrati tende alla normale al divergere di n . Si rivedrà questa proprietà quando si parlerà dell’allontanamento dalle ipotesi di normalità. Introdurre qui discussione sull’assunzione di normalità (verrà poi ripresa nella parte relativa all’analisi dei residui ed agli allontanamenti dalle assunzioni di base) 8.2 8.2.1 Distribuzione della devianza residua nei modelli lineari Devianza residua in funzione dei valori osservati Indichiamo ancora con b = (XT X)−1 XT y lo stimatore di massima verosimiglianza di β in un modello lineare (di rango pieno), supponendo la validità delle ipotesi semplificatrici sulla componente accidentale: ε ∼ Nn (0; σ 2 I) Trasformiamo la devianza residua R(b), ossia la somma dei quadrati degli scarti fra valori della variabile di risposta osservati e stimati (che è la quantità minimizzata mediante il metodo dei minimi 238 Materiale didattico statistica 3 quadrati); l’importanza di tale quantità (e della sua distribuzione campionaria!) è evidente alla luce di quanto abbiamo visto sui test basati sui rapporti di verosimiglianze. Il vettore y − Xb è detto vettore dei residui (empirici). R(b) è quindi la devianza dei residui empirici Esprimiamo la devianza residua in funzione delle osservazioni: R(b) = Pn i=1 (yi − yi∗ )2 = (y Pn i=1 (yi − Xb)T (y − Pk 2 j=1 xij bj ) = − Xb) = (sostituendo a b il valore trovato XT X)−1 XT y) = (y − X(XT X)−1 XT y)T (y − X(XT X)−1 XT y) = = [(In − X(XT X)−1 XT )y]T [(In − X(XT X)−1 XT )y] mettendo in evidenza y = yT (In − X(XT X)−1 XT )T (In − X(XT X)−1 XT )y ed infine: R(b) = yT (In − X(XT X)−1 XT )y devianza residua (In −X(XT X)−1 XT ) è simmetrica ed idempotente di rango n−k (infatti una qualsiasi matrice X(XT X)−1 XT è idempotente di rango k, come si è visto nella parte iniziale) R(b) è una forma quadratica nelle y Inoltre: (In − X(XT X)−1 XT )X = 0n×k e quindi i residui empirici risultano non correlati con le X è: Cov(y − Xb, X) = [y − Xb]T X = 0 si ricava direttamente dalle equazioni normali. ( y − Xb ha media nulla). Devianza residua in funzione della componente accidentale ε : Esprimiamo ora R(b) in funzione della componente accidentale ε : 2002-3003 versione provvisoria 239 Dall’espressione precedente: R(b) = yT (In − X(XT X)−1 XT )y = (operando sul terzo fattore, esprimendo y come Xβ + ε, secondo quanto ipotizzato) = yT (In − X(XT X)−1 XT )(Xβ + ε) = aprendo la parentesi a destra = yT (In − X(XT X)−1 XT )Xβ + yT (In − X(XT X)−1 XT )ε = e dato che (In − X(XT X)−1 XT )X = 0 , ed effettuando le stesse operazioni sul termine yT , si ha: = yT 0n×k β + (Xβ + ε)T (In − X(XT X)−1 XT )ε = aprendo la parentesi a sinistra = 0 + β T XT (In − X(XT X)−1 XT )ε + εT (In − X(XT X)−1 XT )ε = = 0 + 0 + εT (In − X(XT X)−1 XT )ε. 240 Materiale didattico statistica 3 In definitiva si ha l’ulteriore espressione per la devianza residua: R(b) = εT (In − X(XT X)−1 XT )ε La devianza residua R(b) è quindi una forma quadratica nelle ε Quindi si può vedere facilmente che, essendo E(εi εj ) = 0(i 6= j) , sviluppando i termini della forma quadratica si ha: E(R(b)) = tr(In − X(XT X)−1 XT )σ 2 edinf ine : E[R(b)] = (n − k)σ 2 avendo ipotizzato soltanto: E(ε) = 0eV (ε) = σ 2 In (anche senza l’assunzione di normalità); quindi: 2 s = R(b)/(n − k) = n X (yi − yi∗ )2 /(n − k) i=1 è sempre una stima corretta della varianza. Distribiuzione della devianza residua Se vale l’ assunzione di normalità, R(b) = (y − Xb)T (y − Xb) = εT (In − X(XT X)−1 XT )ε si distribuisce come σ 2 χ2n−k , 2002-3003 versione provvisoria 241 perché è una forma quadratica in variabili normali indipendenti a media zero e varianze uguali (ε) , con matrice dei coefficienti (In − X(XT X)−1 XT ) idempotente di rango n − k . 8.3 Scomposizione della devianza nel modello lineare e verifica di ipotesi. Effettuiamo alcune scomposizioni delle diverse somme di quadrati (e forme quadratiche in generale) che abbiamo incontrato (fra cui ad esempio: R(b), R(β) , yT y ). La scomposizione della somma dei quadrati yT y Operiamo sulla devianza di y , (o più precisamente sulla somma dei quadrati yT y ) partendo ancora da una delle relazioni trovate per R(b): R(b) = n X (yi − yi∗ )2 = (y − Xb)T (y − Xb) = i=1 = yT (In − X(XT X)−1 XT )y = aprendo la parentesi = yT y − yT X(XT X)−1 XT y = sostituendo b alla espressione (XT X)−1 XT y = yT y − (yT X)b = Ricordiamo che, trasponendo il sistema di equazioni normali si ha: yT X = bT XT X = yT y − bT XT Xb; 242 Materiale didattico statistica 3 ed infine (risolvendo rispetto a yT y ): T avola Di Scomposizione Della Devianza Empirica (Somme Dei Quadrati) FORMA QUADRATICA FONTE DI VARIABILITA’ yT y = Somma dei quadrati di y (devianze se y è a media nulla) (y − Xb)T (y − Xb)+ bT XT Xb 8.3.1 devianza residua Somma dei quadrati spiegata dalla regressione Scomposizione di R(β) Per potere costruire dei test, trasformiamo ora la devianza teorica R(β) = εT ε R(β) = (y − Xβ)T (y − Xβ) = ( anche uguale a: (Y − E [Y])T (Y − E [Y] )= (Aggiungendo e sottraendo Xb ) = [(y − Xb) + (Xb − Xβ)]T [(y − Xb) + (Xb − Xβ)] = sviluppiamo il prodotto in cui compare il binomio formato dai due termini: (y−Xb)e(Xb− X) 2002-3003 versione provvisoria = (y − Xb)T (y − Xb) 243 =R(b) + (Xb − Xβ)T (Xb − Xβ) si mette in evidenza X sia a sinistra che a destra e si ottiene (b − β)T XT X(b − β) + (y − Xb)T (Xb − Xβ) = 0 perché (y − Xb)T X = 0 dalle equazioni dei minimi quadrati = R(b) + (b − β)T XT X(b − β) Si può interpretare tale scomposizione in modo leggermente diverso, ponendo l’enfasi non su b , stimatore di β , bensı̀ su Xb , stimatore lineare ottimale del valore atteso E [Y] . Pertanto 244 Materiale didattico statistica 3 In definitiva quindi si ha: R(β) = R(b) + (b − β)T XT X(b − β) Oppure : (y−Xβ)T (y−Xβ) = (y−Xb)T (y−Xb)+(b−β)T XT X(b−β) Possiamo rivedere questa relazione in termini di contributi alla devianza teorica di ε : (y − Xβ)T (y − Xβ) = (y − Xb)T (y − Xb)+ (b − β)T XT X(b − β) devianza teorica complessiva di ε (rispetto al modello vero) devianza residua devianza delle stime Questa scomposizione è basilare anche perché possiamo vedere che il rapporto delle verosimiglianze costruito in precedenza per saggiare l’ipotesi nulla H0 : β = β0 , contro l’alternativa generica H1 : β 6= β0 , è funzione di queste quantità. Infatti: n max[L(β, σ 2 ; y)|H0 ] [y − Xb)T (y − Xb)] 2 LR = == = max[L(β, σ 2 ; y)|H1 ] [y − Xβ0 )T (y − Xβ0 )] n R(b) 2 = R(β0 ) avendo ora indicato con b lo stimatore di massima verosimiglianza prima indicato con β̂ . 8.3.2 Test F per la verifica di ipotesi nel modello lineare: distribuzione nulla Per esaminare la distribuzione nulla del rapporto delle verosimiglianze, o di una sua trasformazione monotona, riprendiamo in esame la 2002-3003 versione provvisoria 245 scomposizione di base di R(β) , e dividiamo tutti i termini per σ 2 : R(β) R(b) (b − β)T XT X(b − β = + σ2 σ2 σ2 con le ipotesi che abbiamo fatto, compresa ovviamente quella di normalità, possiamo vedere che i tre termini si distribuiscono come delle χ2 , per cui si può applicare il teorema di Cochran; infatti: R(β) : σ2 (A) si distribuisce come una χ2 con n gradi di libertà in quanto somma dei quadrati di n v.c. normali standardizzate: Pn 2 R(β) εT ε i=1 εi = = σ2 σ2 σ2 R(b) : σ2 (B) si distribuisce come una χ2 con n-k gradi di libertà (come si è visto) in quanto: R(b) = (y − Xb)T (y − Xb) = = εT (In − X(XT X)−1 XT )ε si distribuisce come σ 2 χ2n−k essendo (In − X(XT X)−1 XT ) idempotente di rango n − k [b − β]T XT X[b − β] σ2 (C) si distribuisce come una χ2 con k gradi di libertà in quanto è il numeratore dell’esponente della densità di una normale multivariata: b ∼ N (β; σ 2 (XT X)−1 ) Quindi si può applicare il teorema di Cochran ed i termini (B) e (C) risultano indipendenti. In definitiva la quantità: F = [b−β ]T XT X[b−β ] k [y−Xb]T [y−Xb] n−k = [b − β]T XT X[b − β] ks2 246 Materiale didattico statistica 3 essendo il rapporto fra due variabili casuali χ2 indipendenti divise per i rispettivi gradi di libertà, si distribuisce secondo una F di Snedecor con k ed n − k gradi di libertà, essendo β il vero valore del vettore dei parametri. Pertanto, per saggiare l’ipotesi nulla: H0 : β = β0 , contro l’alternativa generica H1 : β 6= β0 , possiamo impiegare la quantità: F = [b−β0 ]T XT X[b−β0 ] k [y−Xb]T [y−Xb] n−k che sotto H0 si distribuisce secondo una variabile aleatoria F di Snedecor con k ed n − k gradi di libertà. La regione di rifiuto sarà costituita dai valori elevati di F, superiori ad Fα,k,n−k . (ossia situati sulla coda destra della corrispondente variabile F di Snedecor) Infatti valori osservati di F elevati danno evidenza contraria ad H0 . F è funzione monotona del rapporto delle verosimiglianze LR costruito in precedenza. Infatti: F = [b−β0 ]T XT X[b−β0 ] k [y−Xb]T [y−Xb] n−k F = R(β0 )−R(b) k R(b) n−k = = R(β0 ) n−k F = −1 = R(b) k 1 n−k F = −1 LR k Statistiche sufficienti nel modello lineare. b e s2 costituiscono un set di stimatori congiuntamente sufficienti per β e σ 2 . 2002-3003 versione provvisoria 247 Infatti partendo dalla verosimiglianza del modello lineare, introdotta prima, con le ipotesi semplificatrici fatte, e con le scomposizioni ora viste si può giungere ad una fattorizzazione: L(β, σ 2 ; y) = (y − Xβ)T (y − Xβ) 2σ 2 n R(β) = (2πσ 2 )− 2 exp[− 2σ 2 n = (2πσ 2 )− 2 exp[− n = (2πσ 2 )− 2 exp[− R(b) [b − β]T XT X[b − β] − ]= 2σ 2 2σ 2 (n − k)s2 [b − β]T XT X[b − β] ] exp[− ]. 2σ 2 2σ 2 Quindi la verosimiglianza campionaria rispetto a β e σ 2 dipende dalle osservazioni solo attraverso le statistiche b e s2 . n = (2πσ 2 )− 2 exp[− Matrice di informazione Dalla verosimiglianza è anche immediato vedere che l’informazione di Fisher su β è ancora funzione della matrice X . Infatti: 2 XT X ∂ log L(β, σ 2 ; y) = − I(β) = E σ2 ∂β∂β T - (La matrice delle derivate seconde comunque è costante) Vinf (b) = −I −1 (β). Per cui il valore asintotico della matrice di varianze e covarianze di b coincide con il valore già trovato per via diretta per n qualsiasi. 8.3.3 Distribuzioni sotto H0 e sotto H1 . Va sottolineato che nella scomposizione vista prima la quantità(B) ossia: R(b) (y − Xb)T (y − Xb) = σ2 si distribuisce sempre come una v.a. χ2 con n − k gradi di libertà, sia sotto H0 che sotto H1 ; (fatta ovviamente l’assunzione di normalità) 248 Materiale didattico statistica 3 e quindi la stima della varianza: 2 s = R(b)/(n − k) = n X (yi − yi∗ )2 /(n − k) i=1 ha sempre una distribuzione proporzionale a quella di una χ2 con n− Quindi: k gradi di libertà s2 (n − k)/σ 2 ∼ χ2k qualunque sia l’ipotesi vera Infatti R(b) dipende solo dai valori osservati e non dipende dai particolari valori delle componenti del vettore dei parametri β . Si noti inoltre che la distribuzione di s2 non dipende dalla particolare configurazione (scelta a priori o osservata) della matrice X , se non attraverso le sue dimensioni, n e k . Diversamente la forma quadratica definita dalla quantità (C) ossia: (b − β)T XT X(b − β)/σ 2 si distribuisce come una χ2 con k gradi di libertà solo se β è il vero valore del parametro; Pertanto la forma quadratica a numeratore del test F divisa per i gradi di libertà k s21 = (b − β0 )T XT X(b − β0 )/k è uno stimatore corretto di σ 2 solo sotto H0 perché: (b − β0 )T XT X(b − β0 ) si distribuisce come σ 2 χ2k soltanto se è vera H0 Infatti la distribuzione di s21 dipende dal vero valore assunto dai parametri componenti del vettore β . Inoltre, come si vede nelle pagine successive e come si intuisce dalle formule di queste pagine, la distribuzione di s21 nel caso generale (ossia sotto H1 !) dipende anche dalla configurazione della matrice X (scelta a priori o osservata) attraverso il prodotto XT X . Pertanto è intuibile, sebbene non tratteremo tale argomento in dettaglio, che la scelta del particolare disegno della matrice X , quando possibile, potrebbe influenzare la distribuzione di s21 sotto H1 , e quindi il potere del test. 2002-3003 versione provvisoria 249 In altre parole se per la costruzione di test in particolari contesti sperimentali è necessario operare con certi valori del potere del test, questo obiettivo può essere raggiunto agendo anche sugli elementi della matrice X , ossia sulla configurazione del disegno sperimentale. In generale se β0 è il valore specificato dall’ipotesi nulla e se β è il vero valore, allora possiamo calcolare il valore atteso della quantità (b − β0 )T XT X(b − β0 ) , effettuando alcune manipolazioni della forma quadratica: E(b − β0 )T XT X(b − β0 )= Aggiungendo e sottraendo β = E[(b − β) − (β0 − β)]T XT X[(b − β) − (β0 − β)] = sviluppiamo il prodotto in cui compare il binomio formato dai due termini: (b − β) e (β0 − β) = E(b − β)T XT X(b − β) = kσ 2 perché la forma quadratica si distribuisce come σ 2 χ2k essendo β il vero valore + E(β0 − β)T XT X(β0 − β) é la speranza matematica di una costante 2(β0 − β)T XT X(b − β) = =0 perché é una combinazione lineare del vettore aleatorio b−β , che é a media nulla perché: E(b) = β = kσ 2 + (β0 − β)T XT X(β0 − β) Il grafico qui sotto riporta un esempio di distribuzione nulla con due alternative: si tratta di tre densità di F non centrali con 3 e 10 gradi di libertà: la distribuzione nulla è quella corrispondente ad un parametro di non centralità nullo. La linea verticale corrisponde al valore critico per α =0,05 Distribuzione nulla e due alternative per il test F(3,10); α = 0, 05; λ = 2, 5 250 Materiale didattico statistica 3 \begin{fig} noncentral1_lucidi.nb \end{fig} Riassumendo in una tavola questi ultimi risultati: Quantità Espressioni esplicite (y Interpretazione Speranza matematica Distribuzione R(β0 ) − R(b) R(b) − Xb)T (y − Xb) Devianza residua Scostamento nulla dall H0 : β = β0 (n − k)σ 2 kσ 2 H1 : β 6= β0 (n − k)σ 2 kσ 2 + (β0 − β)T XT β) H0 : β = β0 σ 2 χ2n−k σ 2 χ2k H1 : β 6= β0 σ 2 χ2n−k σ 2 χ2 (k, λ) centrale;λ:parametr di non ce T T λ = (β0 −β) X X( Risulta evidente che E(F (H1 ) > E(F (H0 ) e la regione di rifiuto del test va fissata sulla coda destra della distribuzione di F. 8.3.4 (b − β0 )T XT X(b − Scomposizione della devianza e test nel caso di gruppi di regressori ortogonali Se r gruppi di variabili indipendenti sono ortogonali (ossia risultano non correlati linearmente se si tratta di regressori scartati dalla media) la matrice XT X risulta composta da r blocchi disposti lungo la diagonale (r ≥ 2) : ciascun blocco è composto da un numero qualsiasi kj di variabili, P in modo tale che: rj=1 kj = k ; 2002-3003 versione provvisoria 251 Per esempio, termine noto e regressori, r = 2, k1 = 1 ; In particolare se tutti i kj sono uguali ad uno, vuol dire che tutte le variabili risultano ortogonali eventualmente gli indici delle variabili sono permutati in modo che le variabili di uno stesso gruppo siano consecutive XT1 X1 0 0 0 0 0 TX 0 X 0 0 0 0 2 2 0 0 . . . 0 0 0 T X X= T 0 0 0 X X 0 0 j j 0 0 0 0 ... 0 T 0 0 0 0 0 Xr Xr Ad esempio tutte le variabili del 1◦ blocco sono ortogonali a tutte quelle del j -esimo gruppo; all’interno di ciascun gruppo le variabili non sono ortogonali (o comunque non tutte). In corrispondenza a questi r blocchi suddividiamo il vettore dei parametri β e quello delle stime b . T T T β T = (β T 1 , β2 , . . . , βj , . . . , βr ) T T T bT = (bT 1 , b2 , . . . , bj , . . . , br ) Il vantaggio per l’inferenza è che i gruppi di stimatori dei corrispondenti parametri saranno a blocchi non correlati (indipendenti data l’assunzione di normalità): Cov(bj , bl ) = 0(j 6= l) Dal punto di vista numerico, ciascun gruppo di stime è ricavabile da un sottoinsieme di equazioni normali: (XTj Xj )bj = XTj yequindi : bj = (XTj Xj )−1 XTj y è la matrice (XT X)−1 risulta ora diagonale a blocchi: 0 0 0 (XT1 X1 )−1 0 (XT2 X2 )−1 0 0 0 0 ... 0 (XT X)−1 = 0 0 0 (XTj Xj )−1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 ... 0 0 (XTr Xr )−1 252 Materiale didattico statistica 3 La matrice di varianze e covarianze di b è data da: V (b) = σ 2 (XT X)−1 , Per cui possiamo scrivere, moltiplicando (XT X)−1 per lo scalare σ 2 : V (b1 ) 0 0 0 0 0 0 V (b2 ) 0 0 0 0 0 0 ... 0 0 0 V (b) = 0 0 0 V (bj ) 0 0 0 0 0 0 ... 0 0 0 0 0 0 V (br ) In generale è possibile scomporre semplicemente la forma quadratica (b−β)T XT X(b−β) in r forme quadratiche (due o più) mutuamente indipendenti, se e solo se la matrice X può essere partizionata in r gruppi di regressori non correlati nel modo visto. Possiamo in questo caso esprimere la forma quadratica: Q(b − β) = (b − β)T XT X(b − β) = = r X (bj − β j )T XT j Xj (bj − β j ) = j=1 r X Q(bj − βj ); j=1 Evidentemente le singole forme quadratiche si distribuiscono come delle variabili aleatorie χ2 con kj gradi di libertà moltiplicate per σ 2 e sono indipendenti; Ovviamente sono anche indipendenti rispetto a R(b) per cui le scomposizioni viste prima in questo caso si estendono ulteriormente, scomponendo ciascun termine in r termini. Si possono quindi costruire dei test Fj con numeratori indipendenti, mettendo a denominatore sempre s2 (stima corretta della varianza) ed a numeratore l’opportuna forma quadratica Q(bj − βj ) divisa per i rispettivi gradi di libertà kj : Fj = [bj −βj ]T XTj Xj [bj −βj ] kj [y−Xb]T [y−Xb] n−k = Q(bj −βj ) kj s2 I rapporti Fj si distribuiscono secondo una F di Snedecor con kj ed n − k gradi di libertà Pertanto, per saggiare un’ipotesi nulla: H0 : β = β0 , 2002-3003 versione provvisoria 253 contro l’alternativa generica H1 : β 6= β0 , nel caso di r blocchi ortogonali, si può considerare anche per il vettore β0 la stessa suddivisione in blocchi: T T T T T β0 = β10 β20 . . . βj0 . . . βr0 Per cui l’ipotesi nulla può essere suddivisa in r ipotesi, Hj0 : βj = βj0 j = 1, 2, . . . , r per saggiare ciascuna delle quali possiamo impiegare i test: Fj = [bj −βj0 ]T XTj Xj [bj −βj0 ] kj ,j (y−Xb)T (y−Xb) n−k = 1, 2, . . . , r; ognuno dei quali sotto H0 si distribuisce secondo una variabile aleatoria F di Snedecor con kj ed n − k gradi di libertà. Questi test sono indipendenti. E’ possibile che l’ipotesi nulla specifichi solo alcuni gruppi di parametri, e non tutti. Es. H0 : βs = βs0 ; βj qualsiasi per j 6= s In particolare può interessare: H0 : βs = 0 Rispetto al test che si condurrebbe in presenza di un solo gruppo di regressori, cambia solo a denominatore la stima della varianza, che ha n − k gradi di libertà invece che n − ks . In ogni caso è meglio procedere con la stima con n − k gradi di libertà che è certamente 254 Materiale didattico statistica 3 corretta Se a ciascun gruppo di parametri e di regressori si può fare corrispondere una diversa fonte di variabilità, questo implica che per fare inferenza riguardo a ciascuna componente, indipendentemente dalle altre, è necessario che il gruppo di regressori corrispondente a ciascuna sorgente di variazione risulti ortogonale rispetto ai regressori corrispondenti alle altre sorgenti di variabilità. Questi aspetti sottolineano l’importanza di operare, quando possibile, con regressori ortogonali, almeno a gruppi, perché questo implicherà essenzialmente: L’indipendenza fra i corrispondenti gruppi di stimatori; L’indipendenza approssimata fra i test relativi ai vari gruppi di parametri, ossia alle differenti sorgenti di variabilità \begin{fig} Esempio di fattori ortogonali da STATISTICA Esempi ripresi dai problemi introduttivi \end{fig} 8.4 Configurazioni della matrice X e di XT X 2002-3003 versione provvisoria 255 XT X Significato e conseguenze per l’interpretazione del modello e per l’inferenza Tutte le Xj sono ortogonali Diagonale È il caso migliore: si possono saggiare ipotesi e fare inferenza in generale sui singoli parametri in modo indipendente (anche i valori degli stimatori si trovano in modo indipendente) Tutte le combinazioni di valori dei fattori Fattoriale Meglio ancora! Fra l’altro migliorano le proprietà delle regioni di confidenza costruite su E(yi ) Gruppi di Xj sono ortogonali Diagonale a blocchi È un caso importante: si possono saggiare ipotesi (e fare inferenza in generale) su gruppi di parametri separatamente Correlazioni lineari generiche fra le X A rango pieno ma non diagonale È il caso generale della regressione multipla, in particolare per studi osservazionali. Qualcuna delle Xj è fortemente dipendente linearmente dalle altre Xj A rango pieno ma con qualche autovalore vicino a zero MULTICOLLINEARITA’ Alcune Xj indicano la presenza/assenza di livelli di un fattore A rango non pieno Per costruzione: Alcuni casi di Analisi della varianza etc. Alcune variabili sono esattamente proporzionali A rango non pieno Per errore di rilevazione (si tolgono le variabili ridondanti) X 256 8.5 Materiale didattico statistica 3 Modello lineare: Verifica di ipotesi generali Comunque sia configurata la matrice X e quindi XT X , non sempre l’ipotesi d’interesse riguarda tutti i parametri. In generale siamo interessati a verificare ipotesi relativi a sottoinsiemi di valori dei parametri, come ad esempio: H0 : β1 = β2 = 0; βj qualsiasi per j > 2 comunque H0 : β s = β s 0 ; βj qualsiasi per j 6= s relativa ad un gruppo di parametri βs Può però interessarci un’ipotesi che implichi un confronto fra i valori di alcuni parametri; ad esempio: H0 : β1 = β2 = β3 (= µ; con µ non specificato) e βj qualsiasi per j > 3 . quest’ultima ipotesi equivale ad imporre i due vincoli: β1 − β3 = 0 β2 − β3 = 0 In effetti queste ipotesi nulle possono essere considerate come delle ipotesi che impongono dei vincoli lineari (anche molto generali) sui valori dei k parametri, secondo la relazione generale: Cβ = θ 0 In dettaglio, dato il modello: y[n×1] = X[n×k] β[k×1] + ε[n×1] (supponiamo sempre X di rango k ) in generale siamo interessati a verificare l’ipotesi: H0 : C[q×k] β[k×1] = Cβ0 = a[q×1]. Con q < k e q rango di C Esempio: Analisi della varianza ad una via . Si riveda l’impostazione della matrice X nella parte introduttiva sui modelli lineari; La matrice X è composta da k colonne indicatrici dell’appartenenza delle n unità a k gruppi disgiunti. La parametrizzazione più naturale è quella in cui ogni parametro corrisponde al valor medio di Y in ciascun gruppo: 2002-3003 versione provvisoria 257 β T = µ1 , . . . , µ j , . . . , µ k L’ipotesi che può interessare non è però che tutti i coefficienti siano nulli, ma che siano uguali fra loro: H0 : β1 = β2 = . . . = βk Queste k − 1 uguaglianze corrispondono ad una scelta di C di k − 1 righe e k colonne: vincolo Gr.1 Gr.2 . . . Gr.J . . . Gr.K 1 1 0 ... 0 ... −1 2 ... 1 ... ... ... −1 0 0 ... 0 0 −1 j 0 0 ... 1 0 −1 controllare ... ... ... ... ... −1 k−1 0 0 0 0 ... −1 controllare C[k−1×k] = C[k−1×k] = 1 0 ... 0 . . . . . . −1 . . . . . . . . . . . . −1 0 0 . . . 0 . . . 0 −1 0 0 . . . 1 . . . 0 −1 . . . . . . . . . . . . . . . . . . −1 0 0 . . . 0 . . . 1 −1 ... 1 con a = 0k−1 Scrivere ora Cβ = a è come scrivere: µ1 − µk = µ2 − µk = . . . = µj − µk = . . . = µk−1 − µk = 0. Riprendiamo l’esempio sull’ipotesi nulla: H0 : β1 = β2 = β3 (= µ; con µ non specificato) e βj qualsiasi per j > 3 . La matrice dei vincoli è costituita da due sole righe: 258 Materiale didattico statistica 3 vincolo 1 2 C[2×k] = Gr. 1 Gr. 2 Gr. 3 Gr. J ... Gr. K 1 0 -1 0 ... 0 0 1 -1 0 ... 0 C[2×k] = 1 0 −1 0 . . . 0 0 1 −1 0 . . . 0 ! con a = (0, 0)T Altro esempio: Se l’ipotesi di interesse è: H0 : β1 = β2 = . . . = βk = 0 questo corrisponde a scegliere: C = Ik ; a = 0k . Esempio. In un modello di regressione multipla si può avere un problema di scelta di variabili (vedere dopo). L’ ipotesi: H0 : β1 = β2 = . . . = βq = 0, q < k; e βq+1 , βq+2 , . . . , βk qualsiasi corrisponde a q vincoli definiti da: C = Iq : 0k−q ; a = 0k ossia i vincoli non coinvolgono i k − q regressori oltre βq . Ovviamente q = 1 nel caso di ipotesi concernenti un singolo parametro. La stima dei parametri del modello lineare con vincoli lineari sui parametri In questo caso per costruire il rapporto di verosimiglianza per la verifica dell’ipotesi generale: H0 : C[q×k] β[k×1] = a[q×1]. Cdirangoq 2002-3003 versione provvisoria 259 (con H1 : ipotesi alternativa che non fissa alcun vincolo sui parametri) si ha: max L[β, σ 2 , y|H0 ] LR = = max L[β, σ 2 , y|H1 ] max L[β, σ 2 , y|Cβ = a] = maxL[β, σ 2 , y|β<k ] − n2 R(b0 ) = R(b) essendo b lo stimatore di massima verosimiglianza non vincolato, e b0 lo stimatore di massima verosimiglianza sotto i vincoli lineari imposti da H0 . Minimi quadrati vincolati Per trovare b0 occorre risolvere un problema di minimi quadrati vincolati: minb0 R(b0 ) = (y − Xb0 )T (y − Xb0 ) = yT y − 2bT0 XT y + bT0 (XT X)b0 soggetto a q vincoli lineari: Cb0 = a; Cdi rangoq Occorre introdurre q moltiplicatori di Lagrange 2vecdh ed uguagliare a 0 le derivate di Q(b0 ) rispetto al vettore b0 e al vettore d[q×1] : Q =− Q(b0, d) = R(b0 ) + 2(Cb0 − a)T d b0 2XT y + 2(XT X)b0 + 2CT d Q = (Cb0 − a d Uguagliandole a 0 (vettore nullo): −2XT y + 2(XT X)b0 + 2CT d = 0; (Cb0 − a = 0; dal primo gruppo di equazioni: (XT X)b0 = XT y − CT d; 260 Materiale didattico statistica 3 b0 = (XT X)−1 XT y − (XT X)−1 CT d = (sostituendo b = (XT X)−1 XT y , stimatore dei minimi quadrati non vincolato) = b − (XT X)−1 CT d Dal secondo gruppo di equazioni: Cb0 = a = Cb − C(XT X)−1 CT d; Sono q equazioni indipendenti in k incognite d , Cb = −C(XT X)−1 CT d; con soluzione data da: −d = [C(XT X)−1 CT ]−1 (a − Cb) risostituendo nel sistema che fornisce b0 si ha: b0 = b − (XT X)−1 CT d = = b + (XT X)−1 CT [C(XT X)−1 CT ]−1 (a − Cb) Si può facilmente vedere che questa soluzione fornisce il minimo e rispetta i vincoli (premoltiplicando per C ) Tutte le inverse citate esistono, per le ipotesi fatte sui ranghi di XeC. In realtà di solito conviene risolvere il sistema dei minimi quadrati secondo la parametrizzazione fornita da H0 , se questa è esplicitabile rispetto ai parametri. La tecnica ora esposta per trovare b0 è utile prevalentemente a scopo teorico per vedere la relazione fra b0 e b ; Inoltre è utile per i casi nei quali Cβ = a non sia semplicemente esplicitabile. Nell’ espressione di b0 esplicitiamo, in modo che sia evidente la relazione lineare fra b0 e b : Ponendo, per semplicità: F = (XT X)−1 CT [C(XT X)−1 CT ]−1 si ottiene b0 = b+(XT X)−1 CT [C(XT X)−1 CT ]−1 (a−Cb) == F.a+(Ik −F.C)b b0 risulta corretto solo sotto H0 Infatti E(b0 ) = β + (XT X)−1 CT [C(XT X)−1 CT ]−1 (a − Cβ) = β 2002-3003 versione provvisoria 261 perchè sotto H0 : a − Cβ = 0 Inoltre per la matrice di varianze e covarianze si ha in generale: V (b0 ) = (Ik −F.C)V (b)(Ik −F.C)T == σ 2 [(XT X)−1 −F.C(XT X)−1 −(XT X)−1 CT F T +F.C(XT X Questi tre termini risultano uguali in valore assoluto. Infine, dopo qualche semplificazione: V (b0 ) = σ 2 (XT X)−1 −σ 2 [(XT X)−1 CT [C(XT X)−1 CT ]−1 C(XT X)−1 ] = = V (b) − σ 2 [(XT X)−1 CT [C(XT X)−1 CT ]−1 C(XT X)−1 ]. • Le varianze di ciascun elemento di b0 risultano inferiori a quelle dei corrispondenti elementi di b ; • Si ricordi però che in generale b0 è distorto. Modello lineare: Scomposizione della devianza per il problema soggetto a vincoli: Anche in questo caso la devianza residua può essere scomposta in una forma conveniente Alcune scomposizioni: R(b0 ) = (y − Xb0 )T (y − Xb0 ) = Sommando e sottraendo Xb e poi aprendo il quadrato del binomio = [(y − Xb) + (Xb − Xb0 )]T [(y − Xb) + (Xb − Xb0 )] = = (y − Xb)T (y − Xb) =R(b ) + (Xb − Xb0 )T (Xb − Xb0 ) si mette in evidenza X sia a sinistra che a destra e si ottiene (b − b0 )T XT X(b − β) + (y − Xb)T (Xb − Xb0 ) = R(b) + (b − b0 )T XT X(b − b0 ) In definitiva: R(b0 ) = R(b) + (b − b0 )T XT X(b − b0 ) =0 perché:(y−Xb)T X = 0 dalle equazioni dei minimi quadrati 262 Materiale didattico statistica 3 ... (b − b0 )T XT X(b − b0 ): Devianza residua supplementare dovuta ad H0 . Misura anche la distanza fra i due stimatori. E inoltre, sostituendo l’ espressione di (b − b0 ): R(b0 ) − R(b) = (a − Cb)T [C(XT X)−1 CT ]−1 (a − Cb) Si distribuisce (sotto H0 ) come una χ2 con q gradi di libertà, indipendentemente da R(b). Pertanto è possibile costruire test per la verifica di una ipotesi qualsiasi semplicemente mettendo a numeratore del test F l’incremento di devianza dovuto ad H0 (e modificando i gradi di libertà) 8.5.1 Prove di ipotesi particolari nel modello lineare Se la matrice C è costituita da: C = Iq ; 0q×k (ossia specifica solo i valori di q parametri) la matrice (C(XT X)−1 CT )−1 ora risulta costituita dall’inversa del blocco q×qdella matrice (XT X)−1 corrispondente ai q parametri specificati da H0 ,ossia [(XT X)−1 q ]−1 il vettore di q elementi (a − Cb) è semplicemente costruito dalla differenza fra valori ipotizzati e valori stimati sotto H0 . T −1 ] [b0 ]T q indica il vettore di q elementi coinvolto dall’ipotesi nulla particolare.[(X X) q indica il bloccoq × q nella matrice (XT X)−1 F = [b−β0 ]Tq [(XT X)−1 q ]−1 [b−β0 ]q q [y−Xb]T [y−Xb] n−k = In ogni caso il rapporto: F = R(b0 )−R(b) q R(b) n−k si distribuisce (sotto H0 ) come una F con q ed n − k gradi di libertá , se è valida l’ ipotesi nulla:H0 : β = β0 . (con q numero di gradi di libertá del numeratore) 2002-3003 versione provvisoria 263 Ovviamente si vede facilmente che questo rapporto è funzione del rapporto delle verosimiglianze. Va precisato che questo approccio va bene per saggiare ipotesi singole, anche concernenti q parametri, ma non gruppi di ipotesi, perché i test relativi a sottoinsiemi differenti di parametri (o di loro combinazioni lineari) non sono indipendenti, se non nel caso visto prima di matrice XT X a blocchi diagonali. Condurre in parallelo test separati sugli elementi di β in assenza dei necessari requisiti di ortogonalità è in generale una procedura errata, nel senso che non vengono certamente rispettati i livelli di significatività nominali. Può essere utile, in analisi esplorative, a titolo comparativo, per confrontare verosimiglianze relative a modelli concorrenti, ma non per effettuare test nel vero senso del termine. 8.6 Test e regioni di confidenza nei modelli lineari L’approccio visto prima, sui test LR per ipotesi che impongono q vincoli lineari sui parametri, a rigore va impiegato solo per saggiare un’ipotesi concernente un unico set di parametri; oppure occorre avere set di ipotesi ortogonali In generale se k > 1 non esiste un test UMPU. Regioni di confidenza simultanee per i parametri La regione di confidenza migliore, ad un livello 1 − α, è determinata dai valori β per i quali i valori osservati del test F non risultano superiori al valore teorico Fα,k,n−k . Pertanto, dato un campione nel quale b è la stima di massima verosimiglianza, tale regione è delimitata dai valori β per i quali: [(b − β)T XT X(b − β)](ks2 Fα,k,n−k Nel caso di regressori non ortogonali, tali regioni risulteranno date da ellissoidi con assi obliqui, per cui l’interpretazione delle regioni stesse potrà essere ardua. Anche la relazione con i singoli intervalli sarà di difficile interpretazione, infatti per ciascun valore di uno dei parametri, l’intervallo ottimo dell’altro varia, sia per posizione che per estensione. 264 Materiale didattico statistica 3 Intervalli di confidenza e regioni di confidenza Come si è visto la struttura di correlazione fra gli estimatori dei parametri è strettamente dipendente dalla struttura di correlazione dei regressori o comunque dalla struttura della matrice X . Le regioni di confidenza che costruiremo per i parametri β saranno ovviamente quelli ellisoidali, data la normalità, ma con una inclinazione degli assi principali che dipenderà dalla correlazione fra le diverse componenti dello stimatore di β . È il caso adesso di riflettere sulle differenze concettuali e interpretative che esistono fra regioni di confidenza e intervalli di confidenza, l’intersezione, infatti, fra intervalli di confidenza costruiti singolarmente o per ciascun parametro anche nel caso di assenza di correlazione, conduce a risultati e ad interpretazioni diverse da quelle ottenute mediante regioni di confidenza simultanee. Si consideri, infatti, la figura seguente: dai dati dell’esempio si sono costruiti gli intervalli di confidenza per β1 e β2 ad un livello fiduciario di α; inoltre si è costruita la regione di confidenza simultanea per i due parametri ricavata dalla relazione vista nel paragrafo precedente, fondata sui percentili della distribuzione F. Occorre intanto riportare le due situazioni a parità di livello di copertura ossia fare in modo che la probabilità fiduciaria complessiva dei due intervalli sia uguale alla probabilità fiduciaria della regione ellissoidale; le due situazioni o meglio i due approcci conducono a conclusioni leggermente differenti ma non contrastanti in modo stridente; il punto fondamentale consiste nell’avere in un caso un’intersezione fra segmenti che conduce ad un rettangolo e nell’altro caso una circonferenza o in generale un’ellisse con assi paralleli agli assi coordinati la differenza di area coperta è, in effetti, molto bassa. Nell’esempio si può calcolare come riportato nella figura. Si consideri invece un esempio nel quale gli stimatori dei due parametri β1 e sono molto correlati; in questo caso la regione di confidenza simultanea sarà costituita da un ellissoide su delle con assi non paralleli a quelli coordinati; la discrepanza fra la superficie coperta da quest’ellisse e quella coperta dall’intersezione tra i due segmenti è ora più forte; Inoltre esiste un problema d’interpretazione molto grosso: secondo del valore assunto dal parametro β1 , l’intervallo di confidenza ottimo per il parametro β2 è differente, non solo per ampiezza ma anche per posizione; d’altra parte il fatto che due stimatori risultino 2002-3003 versione provvisoria 265 correlati significa proprio che non è possibile fare inferenze separatamente sulle due singole componenti. La relazione con i singoli intervalli sarà di difficile interpretazione, infatti per ciascun valore di uno dei parametri, l’intervallo ottimo dell’altro varia, sia per posizione che per estensione. VEDERE GRAFICI AGGIUNTIVI NEL FILE: \begin{fig} DISPENSA2000_FIGURE2.DOC \end{fig} regioni di confidenza per funzioni lineari dei parametri In effetti se siamo interessati a particolari combinazioni di parametri a =C β , possiamo direttamente costruire regioni di confidenza per tali funzioni lineari dei parametri a partire dalla quantità: R(b0 ) − R(b) = (a − Cb)T [C(XT X)−1 CT ]−1 (a − Cb); Prendendo in considerazione il corrispondente test F si può direttamente costruire la regione (q-dimensionale) costituita da tutti i valori a per i quali: (a − Cb)T [C(XT X)−1 CT ]−1 (a − Cb)(qs2 Fα,q,n−k regioni di confidenza relative a sottoinsiemi di parametri Se la matrice C è definita da: C = Iq ; 0q×k (ossia specifica solo i valori di q parametri), allora: la matrice(C(XT X)−1 CT )−1 risulta costituita dall’inversa del blocco q × q della matrice (XT X)−1 corrispondente ai q parametri specificati da H0 ,ossia[(XT X)−1 q ]−1 il vettore di q elementi (a − Cb) è semplicemente costruito dalla differenza fra valori dei parametri e valori degli stimatori per soli q dei k parametri. La regione (q-dimensionale) è quindi costituita dai valori di βq per i quali: [b − β]Tq [(XT X)−1 q ]−1 [b − β]q (qs2 Fα,q,n−k 266 Materiale didattico statistica 3 [(XT X)−1 q ] indica il blocco q × qnella matrice (XT X)−1 . [b − β]q indica l’opportuno sottovettore di q elementi Intervalli di confidenza per E(yi ) Per quanto visto prima, è evidente che lo stimatore migliore di E(yi ) è yi ∗ = xT i b, essendo x(i) il vettore di osservazioni dei regressori corrispondente all’unità i-esima, e quindi rientriamo nel caso i combinazioni lineari degli stimatori b . Pertanto, e comunque se il modello è completo e corretto: T E(yi ∗) = E(xT i b) = xi β = E(yi ) T 2 T T −1 V (yi ∗) = V (xT i b) = xi V (b)x(i) = σ xi (X X) x(i) essendo al solito xT i l’i-esima riga della matrice X . Applicando quindi le formule dei paragrafi precedenti, otteniamo l’intervallo di confidenza per E(yi ) ad un livello di probabilità fiduciaria 1 − α, dato da: q T T −1 xi b(stα,n−k xT i (X X) x(i) . Risulta dunque evidente che il luogo dei punti x(i) per i quali tali intervalli risultano di uguale ampiezza, a parità di altre condizioni, è costituito dai punti per i quali T −1 xT i (X X) x(i) = Costante, ossia dai punti che hanno uguale distanze di MahalaNobis dal centroide dei regressori. \begin{fig} esempi nel notebook mathematica \end{fig} Nelle figure allegate sono mostrati gli effetti dovuti a configurazioni diverse delle X . \begin{fig} DISPENSA2000_FIGURE3.DOC \end{fig} 2002-3003 versione provvisoria 267 errori di previsione Varianza degli errori di previsione e distorsione degli stimatori variano in senso opposto \begin{fig} INSERIRE LUCIDO FATTO A MANO (che si trova nel blocco dopo la regressione) esempio da rivedere e ripetere in aula \end{fig} \begin{fig} regr1.ppt \end{fig} 268 Materiale didattico statistica 3 Capitolo 9 Regressione Multipla 9.1 Introduzione Nei capitoli precedenti si è vista la teoria generale sull’inferenza nei modelli lineari, sia nel caso di modelli con vincoli che senza vincoli. Precedentemente avevamo visto come in realtà i modelli lineari siano utilizzabili per diversi problemi statistici, in funzione della particolare costruzione e configurazione della matrice X ; in questo capitolo affrontiamo il caso specifico dei modelli di regressione, e le peculiarità dell’inferenza in questo caso, insieme con una selezione dei problemi inferenziali più comunemente affrontati nelle applicazioni reali. Ricordo che nella pratica dello statistico le tecniche di regressione lineare multipla costituiscono una costante che capita di affrontare in numerosi problemi, almeno come tecnica preliminare di esplorazione dei dati. Scomposizione della devianza empirica col termine noto e k regressori a media nulla: Se la matrice X prevede una colonna di costanti uguali ad uno e altre k colonne a media nulla, abbiamo un modello con termine noto e con matrice XT Xpartizionata a due blocchi diagonali: ! n 0T T k X X == 0k nSX (= ZT Z) Quindi tutte le forme quadratiche che hanno come matrice dei coefficienti questa matrice con (k + 1) × (k + 1) elementi, saranno scomponibili in una forma quadratica con matrice di k × k elementi, ed un termine singolo. 269 270 Materiale didattico statistica 3 (Indichiamo ora il termine noto con α, ed il corrispondente stimatore con a, invece che con β0 per evitare confusione con i valori β0 dell’ipotesi nulla; con β indico il vettore dei parametri relativo alle k variabili e con b il corrispondente stimatore dei minimi quadrati); Chiaramente risulta: a = My Per quanto riguarda la scomposizione della devianza empirica di y nel modello di regressione multipla, possiamo partire dalla relazione trovata fra R(b) e la somma dei quadrati yT y . (in effetti adesso dovremmo indicarlo con R(a, b)) R(b) = n X (yi − yi∗ )2 = (y − a.1 − Zb)T (y − a.1 − Zb) = i=1 = yT y − nMy2 − bT ZT Zb =; dato che a = M y . -------------------------controllare Zb e M_{\vecy} -------------------------- Possiamo anche scrivere: R(b) = (y − My )T (y − My ) − bT ZT Zb. Quindi nei modelli di regressione multipla, per eliminare l’influenza del termine noto, che svolge il ruolo di parametro di disturbo, si può direttamente lavorare in termini di scarti, sia per le x che per y . In ogni caso sarà possibile fare inferenza indipendente su questo termine. 2002-3003 versione provvisoria 271 T AVOLA DI SCOMPOSIZIONE DELLA DEVIANZA EMPIRICA NELLA REGRESSIONE Z è la matrice degli scarti dalle medie TOTALE RESIDUA SPIEGATA (y − My )T (y − My ) bT ZT Zb − My )2 (y − My − Zb)T (y − My − Zb) Pn ∗ 2 i=1 (yi − yi ) Devianza totale osservata di y devianza residua (deviazioni dal valore stimato) Devianza spiegata dalla regressione lineare sui k regressori (presi globalmente) n−k−1 k Pn i=1 (yi Pn ∗ i=1 (yi gradi di libertà: n−1 Il coefficiente di determinazione lineare multipla R2 E’ utile almeno da un punto di vista descrittivo, generalizzare l’indice già visto per quanto riguarda le distribuzioni condizionate di vettori aleatori normali. La bontà della regressione lineare sulle x per spiegare la variabilità della y può essere misurata dall’indice (compreso fra 0 e 1): R2y.12...k = DEVIANZA SPIEGATA DEVIANZA TOTALE 2 = r2 Se k = 1 è ovvio che Ry.1 Si può eventualmente calcolare R2 mediante la formula vista per le distribuzioni condizionate di vettori aleatori normali. Evidentemente possiamo anche utilizzare il complemento ad 1 per misurare l’incidenza del residuo sul totale: DEVIANZA RESIDUA DEVIANZA TOTALE Il valore di questa quantità fornisce la porzione di variabilità di y che non è spiegata dalla regressione sulle k variabili. 1 − R2y.12...k = − My )2 272 Materiale didattico statistica 3 Scomposizione della devianza teorica nella regressione multipla Scomponiamo ora la devianza teorica: Si riveda eventualmente la parte relativa alla stima dei parametri con questa particolare matrice X εT ε/σ 2 = = R(b)/σ 2 + (a − α)n(a − α)/σ 2 + (b − β)T ZT Z(b − β)/σ 2 = = R(b)/σ 2 + (My − α)2 /(σ 2 /n) + (b − β)T ZT Z(b − β)/σ 2 . Palesemente vale ancora il teorema di Cochran, per la scomposizione in tre parti della devianza complessiva: il nuovo termine α)2 /(σ 2 /n) si distribuisce come una χ21 , e per il teorema di Cochran risulta indipendente dalle altre due forme quadratiche. Si ha, considerando quindi il termine noto: R(α, β) = R(a, b) + (b − β)T (ZT Z)(b − β) + n(My − α)2 oppure n X [yi − E(yi )]2 = (y − α.1 − Zβ)T (y − α.1 − Zβ) = i=1 (y−My −Zb)T (y−My −Zb)+(b−β)T (ZT Z)(b−β)+n(My −α)2 + (rispetto al simbolismo adottato precedentemente si consideri che adesso il valore atteso è: E [Y] = α.1 + Zβ ) ? Possiamo rivedere questa relazione in termini di contributi alla devianza teorica di ε : 2002-3003 versione provvisoria 273 Forma Quadratica fonte gradi di libertà (y − α.1 + Zβ)T (y − α.1 − devianza teorica complessiva di ε. (rispetto al modello vero) n (y − My − Zb)T (y − My − Zb) devianza residua n−k−1 (b − β)T (ZT Z)(b − β) devianza delle stime dei coefficienti di regressione k n(My − α)2 devianza dovuta alla stima del termine noto 1 Zβ) 9.1.1 Prova dell’ipotesi di coefficienti di regressione nulli nella regressione multipla. Dai risultati visti in precedenza e che scaturiscono sostanzialmente dall’ortogonalità fra termine noto e regressori, risulta immediato il test per saggiare l’ipotesi nulla: H0 : β = 0k , con α qualsiasi contro l’alternativa generica: H1 : β 6= 0k. TEST NELLA REGRESSIONE LINEARE MULTIPLA Si può infatti impiegare la quantità test: b0 ZT Zb ks2 che sotto H0 si distribuisce secondo una variabile aleatoria F di Snedecor con k ed n − k − 1 gradi di libertà. Avendo indicato al solito con s2 la stima corretta della varianza, con n − k − 1 gradi di libertà, data da: F = s2 = (y − My − Zb)T (y − My − Zb)/(n − k − 1) = = n X i=1 (yi − yi∗ )2 /(n − k − 1) 274 Materiale didattico statistica 3 E’ facile vedere che, dal momento che in fondo il test è dato da: F = Devianzaspiegata k Devianzaresidua n−k−1 si può esprimere questo test in funzione di R2 : F = R2y.12...k k 1−R2y.12...k n−k−1 Per saggiare ipotesi particolari, rare nelle applicazioni della regressione multipla, del tipo: H0 : β = β0 , con α qualsiasi si impiegherà ovviamente il test: [b − β0 ]T ZT Z[b − β0 ] ks2 LA REGIONE DI RIFIUTO La regione di rifiuto sarà costituita dai valori elevati di F , superiori ad Fα,k,n−k−1 (ossia situati sulla coda destra della corrispondente variabile F di Snedecor). Valori osservati di F elevati danno evidenza contraria ad H0 . Infatti sotto H1 il valore atteso di bT ZT Zb nel numeratore del test F per saggiare l’ipotesi β = 0k , è dato, dalle formule precedenti, da: F = E(bT ZT Zb|H1 ) = kσ 2 + β T ZT Zβ. mentre E(bT ZT Zb|H0 ) = kσ 2 Risulta sempre (al solito): E(bT ZT Zb|H1 ) > E(bT ZT Zb|H0 ) è nella forma quadratica β T ZT Zβ , ZT Z è definita positiva; in ogni caso si vede subito che β T ZT Zβ = (Zβ)T Zβ che è palesemente una somma di quadrati. 2002-3003 versione provvisoria 275 Prova di ipotesi particolari nella regressione multipla. Si può essere interessati ad una particolare ipotesi, quale un vincolo lineare sui coefficienti di regressione, oppure il fatto che, semplicemente: alcuni dei coefficienti di regressione siano nulli e quindi, che i corrispondenti regressori Xj siano ininfluenti ai fini della spiegazione di y . Si può seguire la metodologia generale vista precedentemente: si badi però che quella tecnica è soddisfacente solo se applicata: per una ipotesi soltanto oppure per più ipotesi relative a regressori ortogonali a gruppi. L’ ipotesi: H0 : β1 = β2 = . . . = βq = 0conq < k; e βq+1 , βq+2 , . . . , βk qualsiasi (che corrisponde a q vincoli definiti da C = Iq : 0k−q ; a = 0q ) stabilisce che q coefficienti di regressione siano nulli e quindi stabilisce che i corrispondenti q regressori siano eliminabili dal modello generale di spiegazione della variabile di risposta. Possiamo effettuare il test generale: F = [R(b0 )−R(b)] q R(b) n−k−1 = [b−β0 ]Tq [(ZT Z)−1 q ]−1 [b−β0 ]q q [y−Xb]T [y−Xb] n−k−1 in cui b0 è lo stimatore di massima verosimiglianza di β sotto H0 (quindi ha q elementi uguali a zero se H0 : [β0 ]q = 0 ). In effetti si vede facilmente che il test è ora dato da: F = [b]Tq [(ZT Z)−1 q ]−1 [b]q qs2 T −1 indica il blocco [b]T q indica il vettore di q elementi coinvolto dall’ipotesi nulla .(Z Z) q qxq di (ZT Z)−1 276 Materiale didattico statistica 3 in cui è esplicito il fatto che la quantità a numeratore misura la distanza da zero di un particolare sottoinsieme di stimatori di coefficienti di regressione. Ovviamente si distribuisce come una F con q e n − k − 1 gradi di libertà. Test per un singolo coefficiente (uno solo!) Nel caso particolare in cui q = 1 , evidentemente stiamo saggiando l’ipotesi che un singolo coefficiente di regressione sia nullo: H0 : βj = 0 e gli altri β qualsiasi Il test in questo caso diventa: F = bj [(ZT Z)−1 jj ]−1 bj s2 = b2j cjj s2 essendo cjj il j -esimo elemento sulla diagonale di (ZT Z)−1 ; essendo q = 1 possiamo prendere la radice quadrata di questa quantità, che si distribuisce come una t di Student con n − k − 1 gradi di libertà, per ottenere il test: t= bj (tn−k−1 s(cjj Si può eventualmente considerare in questo caso un’alternativa unidirezionale che conduce a regioni di rifiuto sulla coda destra o sulla sinistra. Si noti anche che cjj è la varianza campionaria di bj Con questo test possiamo saggiare una ipotesi su un coefficiente (uno e uno solo!!!); Utilizzare questo test per più di un regressore è una procedura distorta. Test per l’eliminazione di q regressori in termini di perdita in R2 Riscriviamo il test per saggiare l’ipotesi che q regressori siano nulli: 2002-3003 versione provvisoria 277 F = [R(b0 )−R(b)] q R(b) n−k−1 Devianza spiegata da k regressori-Devianza spiegata da k − q regressori F = q Devianza residua [nel modello completo] n−k−1 Dividendo ora ambo i termini della frazione per Dev(y) si può esprimere questo test in funzione di due diversi indici R2 : F = R2y.12...k −R2y.q+1...k q 1−R2y.12...k n−k−1 in cui: • R2y.q+1...k è la frazione di varianza di y spiegata dai k − q regressori Xq+1 , Xq+2 , . . . , Xk ; • R2y.12...k è la frazione di varianza di y spiegata da tutti i regressori; Quindi il test corrisponde a saggiare l’ipotesi che il decremento in R2y.12...k dovuto all’eliminazione dei q regressori X1 , X2 , . . . , Xq non si discosti significativamente da 0. Evidentemente il numeratore del test F è sempre positivo (si tratta sempre, come si era visto prima) di una frazione di varianza. Il test è relativo ad una ipotesi relativa ad un insieme fissato di q regressori. Successivamente si utilizzeranno queste scomposizioni per arrivare ad un criterio di scelta di k-q particolari regressori Possiamo impostare una tavola di analisi della varianza per la riduzione di variabili: 278 Materiale didattico statistica 3 TOTALE= RESIDUA SPIEGATA da k − q regressori SPIEGATA gressori (al n altri k − q ) 1 − R2y.12...k R2y.q+1...k R2y.12...k − R n−k−1 k−q q frazioni di varianza 1 gradi di libertà: n−1 Rappresentazione grafica della suddivisione delle frazioni di devianza. 0R2y.12...k 1 devianza spiegata da tutti i k regressori 0R2y.q+1...k 1 devianza spiegata dagli ultimi k − q regressori 0R2y.12...k − R2y.q+1...k 1 devianza in più spiegata dai primi q regressori 01 − R2y.q+1...k 1 devianza non spiegata dagli ultimi k − q regressori Un indice normalizzato è dato da: R2y.12...k − R2y.q+1...k 1 − R2y.q+1...k coefficiente di determinazione parziale di Y sui primi q regressori, al netto degli altri k-q regressori L’indice che è ancora palesemente compreso fra 0 e 1; misura la frazione ulteriore di varianza spiegata dai q regressori, tenuto conto della regressione sugli altri k-q. incremento di R2 in funzione dell’indice di correlazione parziale; trovare (forse sul kendall o Rao) 2002-3003 versione provvisoria 9.2 279 La multicollinearità nella regressione multipla. In questa sezione affrontiamo un problema cruciale nell’analisi della regressione, in particolare per dati economici o comunque provenienti da indagini osservazionali che si può riassumere nella domanda: Avere regressori linearmente correlati ha qualche influenza negativa sull’analisi della regressione? Banalmente si potrebbe pensare che l’unica cosa importante è la correlazione (multipla) della Y con le X. Vedremo in questa sezione che è anche importantissimo analizzare la struttura di correlazione interna delle X Supponiamo una caso molto semplice con due soli regressori. Consideriamo per semplificare le cose, e focalizzare l’attenzione solo sulle correlazioni, che le variabili (y e X) siano tutte standardizzate. Sappiamo che V [b] = (XT X)−1 σ 2 . Se quindi k = 2 si ha: Caso di due soli regressori V [b] = σ 2 1 r12 r12 1 !−1 1 = σ2 2 1 − r12 1 −r12 −r12 1 ! per cui la varianza di uno dei due stimatori è data da: V [b1 ] = V [b2 ] = σ 2 1 2 1 − r12 Collinearità nella regressione a due regressori La varianza degli stimatori dei coefficienti di regressione è funzione crescente della correlazione fra i regressori r12 ed è funzione crescente della varianza σ 2 della componente accidentale 280 Materiale didattico statistica 3 Studiare anche come varia la dipendenza di y dalle x passando da due a un regressore Passando alla situazione generale, se i k regressori non sono ortogonali, possono avere una struttura di interdipendenza di vario tipo. Si sono già viste alcune delle conseguenze della non ortogonalità dei regressori o fattori sulla distribuzione degli stimatori di massima verosimiglianza e di altre quantità collegate: • Lo stimatore b è a componenti correlate (dal momento che ha varianza proporzionale a (XT X)−1 ); • I contributi alla spiegazione di Y di ciascuna variabile non sono separabili. • Non si possono condurre test indipendenti su tutti i singoli coefficienti. • Le regioni di confidenza dei parametri β costruite sulla base del valore critico di F risultano ellissoidali e non sferiche. • Il luogo dei punti xi nello spazio dei regressori che conduce ad intervalli di confidenza di eguale ampiezza per E(ψ̂i ) è il contorno di un ellissoide di equazione: σ 2 x(i)T (XT X)−1 x(i) = Cost. Il caso estremo è quello in cui il rango di X (e quindi di XT X) è inferiore a k: supponiamo di non trovarci comunque in questa situazione, perché l’eventuale variabile combinazione lineare esatta delle altre è stata individuata ed eliminata. Supporremo di trovarci invece, nell’ambito delle situazioni con dei regressori correlati, vicino a questa situazione estrema. Nei casi non estremi occorrerà misurare il grado di collinearità fra le variabili indipendenti ossia quanto complessivamente incidono le correlazioni fra le Xj sulla distribuzione di b ed in generale sull’inferenza nella regressione multipla Consideriamo una matrice delle x a media nulla (quindi è una matrice di scarti) ed a varianza unitaria (quindi è una matrice di variabili standardizzate); evidentemente ciò corrisponde ad effettuare una traslazione ed un cambiamento di scala sugli assi che non 2002-3003 versione provvisoria 281 alterano in alcun modo lo studio della dipendenza lineare di y dalle Xj . (Anzi in questo modo si possono fare valutazioni comparative fra i coefficienti di regressione, in quanto non influenzati dalle diverse unità di misura). Lo studio della multicollinearità riguarda la struttura di correlazione fra le X e successivamente l’influenza di questa struttura sullo studio della dipendenza di Y dalle X , sulle proprietà degli stimatori, delle regioni di confidenza, etc. In questa lezione sulla multicollinearità, sto esaminando solo le implicazioni di tipo statistico: lascio volutamente da parte le implicazioni di tipo computazionale. È noto, infatti, che dal punto di vista numerico la risoluzione di sistemi di equazioni lineari, in presenza di collinearità, comporta dei problemi di stabilità numerica delle soluzioni. Con determinante della matrice dei coefficienti prossimo a zero gli errori di troncamento potrebbero svolgere un ruolo determinante sul calcolo delle soluzioni del sistema di equazioni normali. Se le x sono standardizzate la matrice di varianze e covarianze S è anche la matrice di correlazione, ed è data da: S = XT X/n. Quindi è lo stesso studiare la struttura di XT X o quella di S . Dal momento che le x sono a media nulla e a varianza unitaria, si avrà che combinazioni lineari delle x sono a media nulla, e inoltre: dal momento che la somma degli autovalori di S è uguale alla sua traccia (ossia alla somma delle varianze), è quindi uguale a k se si lavora con variabili standardizzate Occorre che le x siano standardizzate per poter valutare la grandezza di ciascun autovalore. Infatti: λi > 0i = 1, 2, . . . k; (S è definita positiva e di rango pieno) 282 Materiale didattico statistica 3 Inoltre: k X λi = k i=1 Per cui gli autovalori sono limitati fra 0 e k: k > λi > 0i = 1, 2, . . . k; e M (λi ) = k X λi /k = 1 i=1 Nella situazione ideale di assenza di correlazioni fra le x si ha: λ1 = λ 2 = . . . = λ k = 1 perché S = I La situazione è ideale perché le stime dei regressori risultano non correlate e le inferenze sui regressori sono indipendenti. Si parla di multicollinearità quando, pur essendo la matrice S a rango pieno, alcuni dei suoi autovalori sono molto vicini a zero, avvicinandosi alla situazione estrema di collinearità esatta. Questo si verifica quando qualcuna delle variabili x è quasi uguale 2002-3003 versione provvisoria 283 ad una combinazione lineare di alcune delle altre variabili X . la situazione limite λk = 0 corrisponde al caso di rango inferiore a k, ossia una variabile è esattamente combinazione lineare delle altre (oppure q variabili sono combinazioni lineari delle altre se λk−q+1 = λk−q+2 = . . . = λk = 0) Nella regressione multipla ci interessa che la Y sia molto correlata con le X , ma è preferibile che le X siano poco correlate internamente Si riveda per analogia la parte relativa all’analisi delle componenti principali per vettori aleatori. Si riveda anche l’interpretazione dell’analisi in componenti principali per variabili statistiche osservate. Si riveda anche lo schema riportato in un capitolo precedente sull’influenza delle possibili configurazioni di matrice x sull’inferenza nei modelli lineari. Legami lineari fra regressori Adesso esamineremo con dettaglio l’influenza delle correlazioni fra i regressori nel caso generale: esistono infatti delle situazioni nelle quali la presenza di correlazioni potrebbe essere importante anche se non si è in una situazione di multicollinearità vera e propria; si vedrà più avanti a proposito la relazione che lega la varianza delle previsioni con la varianza degli stimatori. Dall’equazione che definisce gli autovettori e gli autovalori della matrice delle varianze e covarianze S (gli autovalori son proporzionali a quelli della matrice delle devianze e codevianze XT X, essendo X una matrice di variabili scartate dalle rispettive medie e possibilmente standardizzate) si ha: 284 Materiale didattico statistica 3 Sγ j = (XT X/n)γ j = λj γ j ≈ 0seλj ≈ 0 (dato che tutti gli elementi di γ j , i-esimo autovettore sono compresi fra 0 e 1, per la condizione di normalizzazione γ Tj γ j = 1) Allora premoltiplicando per γ Tj si ha: (γ Tj XT Xγ j )/n = γ Tj λj γ j = λj ≈ 0 Poniamo: √ uj = Xγ j / n cosı̀ che uj è una combinazione lineare nelle X , e quindi: (γ Tj XT Xγ j )/n = uTj uj = λj ≈ 0(per l’ipotesi fatta) Allora se λj è piccolo si ha: il vettore uj è una combinazione lineare delle X , con media zero e varianza molto piccola, per cui si ha anche: uj ≈ 0 ossia ⇒ Xγ j ≈ 0 Quindi esiste una combinazione lineare delle variabili quasi nulla Le variabili maggiormente coinvolte corrispondono ai più alti coefficienti di γ j ossia le variabili Xr corrispondenti ai più alti elementi γ rj ; avendo inteso le colonne della matrice Γ di elemento γ rj costituite dagli autovettori di S 2002-3003 versione provvisoria 285 Si può giungere a questo tipo di risultato (ossia esistenza di combinazioni lineari quasi esatte fra i regressori), anche considerando che in questo caso una o più variabili risulta combinazione lineare quasi esatta delle altre, ossia avrà una dipendenza lineare elevata dalle altre variabili, in termini di regressione multipla . In effetti, ricordando le relazioni fra R2 e gli elementi dell’inversa di S (si rivedano nella parte relativa alle distribuzioni condizionate di v.a. normali), si può arrivare a: Ri2 = 1/cii Ri2 è il coefficiente di determinazione multipla di Xi rispetto alle altre k − 1 variabili, ossia quanta variabilità di Xj è spiegata dalle altre k − 1 variabili Xj (j 6= i) cii è l’elemento diagonale di C , l’inversa di S Ricordando anche che: λj (C) = λj (S −1 ) = 1/λj (S); si ha: Ri2 = 1 − 1/cii ; 1/(1 − Ri2 ) = cii quindi sommando queste ultime relazioni per tutte le variabili si ha: k X i=1 1/(1 − Ri2 ) = k X cii = tr[C] = i=1 k X 1/λi i=1 Quindi se qualche autovalore è molto piccolo, la traccia di C è molto grande e questo è direttamente collegato al fatto che qualche correlazione multipla delle x è elevata. CITARE OUTPUT DI STATISTICA (ridondanza, etc.) Conseguenze sulla distribuzione campionaria di b V (b) = σ 2 (XT X)−1 = σ 2 (nS)−1 = S−1 (σ 2 /n) = C(σ 2 /n) Quindi a parte il fattore (σ 2 /n) la struttura delle correlazioni interne fra gli elementi di b è funzione della struttura delle correlazioni interne fra le X , e non dipende in alcun modo dalla variabile di risposta y : dipende solo dallo schema di valori assunti dai regressori (siano essi osservati o prestabiliti prima di un esperimento). 286 Materiale didattico statistica 3 Si noti inoltre che invece le varianze dipendono al solito dai valori osservati, attraverso il fattore (σ 2 /n) k X V (bi ) = tr(V (b)) = tr(S−1 )(σ 2 /n) = (σ 2 /n)tr[C] == (σ 2 /n) i=1 k X i=1 Quindi se vi è multicollinearità (ossia qualche λi molto piccolo) la traccia di C sarà elevata e quindi sarà elevata la somma delle varianze campionarie degli stimatori dei coefficienti di regressione. Sarà conseguentemente elevata anche la varianza di yi∗ Indici di multicollinearitá: Pp Ip = Pi=1 k λj i=1 λj = varianza delle prime p componenti somma di tutte le varianze Pp Ip = i=1 λj k nel caso di variabili standardizzate. Più che regole automatiche, l’analisi grafica dell’andamento di Ip al variare di p può guidare nell’analisi della multicollinearità in insiemi di dati reali. ESEMPI VARI Collinearità: confronto fra k e k-1 regressori attraverso i λ Costruzione di un stimatore distorto di β Per esaminare meglio gli effetti della multicollinearità sulla varianza campionaria dello stimatore b , si può sfruttare la decomposizione spettrale o canonica della matrice S−1 , introdotta a proposito delle proprietà degli autovalori e degli autovettori di matrici simmetriche: S −1 −1 T = ΓΛ Γ = k X i=1 γ i γ Ti /λi 1/λi 2002-3003 versione provvisoria 287 mentre per la matrice originaria S abbiamo la decomposizione di base: T S = ΓΛΓ = k X λi γ i γ Ti i=1 Se invece di prendere tutti i k termini di questa decomposizione, ci limitiamo a prendere i primi q termini, otteniamo un’approssimazione della matrice S tanto migliore, quanto più sono piccoli gli autovalori corrispondenti aai termini scartati: T S = ΓΛΓ = k X λi γ i γ Ti ≈ i=1 q X λi γ i γ Ti = S(q) i=1 in corrispondenza di questa approssimazione costruiamo una inversa modificata: S −1 = k X γ i γ Ti /λi i=1 → q X −1 , γ i γ Ti /λi = S(q) i=1 in cui stavolta mancano i termini più elevati in valore assoluto. (evidentemente le stesse scomposizioni, a meno del fattore n, si possono fare sulla matrice XT X) Pertanto, se invece di b si definisse: b0 = S−1 XT y/n (q) si otterrebbe uno stimatore distorto ma con minore varianza! Infatti: controllare bene il seguito E(b0 ) = S−1 XT (Xβ) = (q) S−1 (XT X)β = (S−1 /n)(nS(q) + R(q))β = (q) (q) q X i=1 γ i γ Ti /λi (λi γ i γ Ti ) + k X λi γ i γ Ti i=q+1 A parte l’eventuale impiego effettivo di questo stimatore, l’utilità della sua introduzione sta nell’esplicitazione del legame fra distorsione e varianza campionaria degli stimatori di β . 288 9.2.1 Materiale didattico statistica 3 Esempi (sulla collinearità e simili) Figura da inserire ESECOLL2.RTF esecollinear2.STA esecoll2.stg dove sono??? 9.3 La scelta delle variabili nella regressione lineare multipla. Motivazioni Si è detto prima di sottoinsiemi di variabili predittive stabiliti a priori e quindi senza riferimento ai particolari dati osservati. Spesso però, date k variabili esplicative, si vuole scegliere un sottoinsieme di q di tali variabili con diverse finalità: per effettuare stime o previsioni statistiche a costo inferiore, riducendo il numero di variabili che occorrerà rilevare in futuri studi. Per migliorare l’accuratezza delle previsioni eliminando variabili poco informative o comunque poco rilevanti ai fini della previsione di E [y] per descrivere un data-set multivariato, o comunque una relazione multipla in modo parsimonioso e con pochi parametri. per stimare coefficienti di regressione con errori standard piccoli, in particolare se alcuni dei regressori sono molto correlati. Stime carenti dei coefficienti possono portare buone stime predittive (ossia al solo scopo di stimare valori di y o di E [y]). Strategie di scelta La strategia complessiva della scelta di variabili si può articolare in alcune fasi generali: • decidere quali sono le variabili che costituiscono l’insieme più ampio dei k regressori (e quindi procedere alla rilevazione) • trovare uno o più sottoinsiemi di variabili che spiegano bene la variabile di risposta; • applicare una regola di arresto per decidere quante variabili esplicative (regressori) usare; • stimare i coefficienti di regressione • saggiare la bontà del modello ottenuto (analisi dei residui, aggiunta di nuove variabili, aggiunta di termini polinomiali, etc.). 2002-3003 versione provvisoria 289 Per quanto riguarda il punto b), possiamo esplicitarlo in questo modo: fissato un numero di regressori ridotto, diciamo p, quale dei k Cq sottoinsiemi dei k regressori originari scegliere? Sembra logico, e comunque più semplice, almeno in prima istanza, scegliere quello che fornisce la maggior quota di varianza spiegata, ossia il maggiore fra gli R2 ; In aggiunta a questo criterio di massimizzazione globale, avendo fissato q, si può comunque pensare a scopo esplorativo di prendere in esame alcuni sottoinsiemi che forniscono le soluzioni migliori. Occorrerà possibilmente un qualche algoritmo per ridurre il numero di R2 da calcolare. Fonti di distorsioni Le distorsioni nella stima dei coefficienti sono dovute a due diverse fonti: una distorsione dovuta all’avere omesso variabili, di ui è possibile fornire una valutazione (in termini di deviazione dal modello completo) una distorsione dovuta al procedimento di selezione, che non viene in generale fatto indipendentemente dai dati; in altri termini i dati mediante i quali si stimano i coefficienti sono gli stessi che hanno portato alla selezione di un particolare sottoinsieme. quest’ultima distorsione, dovuta alla selezione, può essere distinta in due ulteriori componenti: una dovuta alla scelta fra sottoinsiemi delle stesse dimensioni l’altra dovuta alla regola di arresto impiegata per scegliere il numero q migliore di regressori. Queste ultime fonti di distorsione in generale non sono valutabili con precisione. Criteri di scelta Che criterio usare per scegliere il numero p più opportuno di variabili da includere nel modello? Si tenga presente che se Ap è l’insieme ottimo di p variabili e Ap+1 è l’insieme ottimo con p + 1 variabili, si ha sempre: Ry2 (Ap )(Ry2 (Ap+1 ) (l’uguaglianza in effetti vale solo in caso di collinearità esatta, che a rigore abbiamo escluso se S è di rango pieno). Inoltre se Iq+1 è un insieme con p+1 variabili e se IpT è un suo sottoinsieme, ossia un insieme di p variabili ottenuto da Iq+1 eliminando 290 Materiale didattico statistica 3 una variabile, si ha ancora: Ry2 (IpT )(Ry2 (Ip+1 ). Eventuali test F condotti sugli R2 saranno comunque distorti, almeno in termini di livelli di significatività. Infatti la devianza che si mette a numeratore non è calcolata su un set dato a priori, ma in base al fatto che il residuo sia il più basso possibile. Algoritmi di scelta delle variabili. Si possono comunque avere diversi algoritmi di scelta di variabili, a prescindere dal problema della scelta di q. Tutte le regressioni possibili Selezione in avanti (forward selection) Selezione all’indietro, o eliminazione (backward selection); Regressione passo (stepwise regression) (algoritmi di sostituzione). Il metodo di tutte le regressioni possibili prevede l’esame di tutti k i 2 − 1 possibili sottoinsiemi di variabili; k (2 − 1 = k X k Cp ) p=1 Computazionalmente oneroso, sebbene esistano ora degli algoritmi di ricerca che consentono di limitare il numero dei confronti, pur trovando l’ottimo assoluto per ciascun numero di regressori q. Un problema interpretativo si ha quando si ottengono soluzioni non nidificate: alcuni software (S-Plus, per esempio) possono fornire oltre l’ottimo assoluto per ciascun valore di p, anche un certo numero di soluzioni sub-ottimali, ossia gli r migliori sottoinsiemi. Metodi che conducono ad ottimi locali Il metodo della selezione in avanti prevede di partire da un modello senza regressori, e di introdurli uno alla volta secondo che producano il valore più elevato fra i test F. Evidentemente si trovano soluzioni sub-ottimali, e si rischia di non prendere mai in esame simultaneamente determinati sottoinsiemi di regressori. 2002-3003 versione provvisoria 291 Il metodo della selezione all’indietro, consiste nel partire dal modello completo, e ad ogni passo si elimina la variabile cui corrisponde il valore di F più basso. Anche questo fornisce soluzioni sub-ottimali; tuttavia è molto usato e abbastanza ben interpretabile, in quanto prende comunque in esame una volta tutte le variabili simultaneamente; inoltre fornisce una graduatoria delle variabili in ordine decrescente di importanza secondo l’ordine di eliminazione; Il metodo stepwise unisce le due tecniche prima menzionate: si parte da un modello senza regressori e si segue la tecnica della selezione in avanti; ad ogni passo con una nuova variabile introdotta, si riesamina l’insieme delle variabili introdotte, per vedere se si può eliminarne qualcuna (con procedura backward); successivamente i continua con la selezione in avanti fino a che non si effettuano più modifiche dell’insieme di repressori: test di ingresso: F > Fin test di uscita: F < Fout Questa tecnica, che risale al 1960, essenzialmente rispondeva all’esigenza pratica di non prendere in esame simultaneamente grossi insiemi di regressori; inoltre nella versione originaria considerava la possibilità di valutare le varie inverse e determinanti di ogni passo a partire da quelli trovati al passo precedente. Distorsione degli stimatori con modelli ridotti Come si è visto: E(yi ∗) = E(x(i)T b) = x(i)T β = E(yi ) V (yi ∗) = V (x(i)T b) = x(i)T V (b)x(i) = σ 2 x(i)T (XT X)−1 x(i) Ovviamente questa relazione presuppone la correttezza del modello; se adesso prendiamo in considerazione la possibilità di lavorare con modelli distorti, vediamo cosa succede all’errore quadratico medio della singola previsione: E.q.m(yi ∗) = E(x(i)T (b−β))2 = Ex(i)T [(b − E(b)) + (E(b) − β)]2 = Ex(i)T V (b)x(i) + x(i)T x(i) (E(b) − β)2 . 292 Materiale didattico statistica 3 Vediamo ora cosa accade per la media di tutti gli e.q.m. di previsione, almeno per i valori effettivamente osservati: n X ???xi i=1 errore quadratico medio degli stimatori Figura da inserire LUCIDI SCRITTI A MANO cenni al Cp di Mallows 9.3.1 Esempio di correlazioni osservate fra molte variabili Quando si rilevano molte variabili su n soggetti, in particolare in studi osservazionali, è possibile rilevare nella fase esplorativa delle correlazioni, sia semplici che multiple, anche molto consistenti, semplicemente per effetto di fluttuazioni campionarie dovute al cercare correlazioni empiriche alte in una matrice di correlazione con molti elementi. Infatti si supponga per semplicità che la matrice n×p delle osservazioni costituisca un campione (multivariato) di ampiezza n proveniente da una distribuzione normale multivariata a p componenti indipendenti, e quindi con correlazioni lineari teoriche ρij = 0 ; semplicemente per il fatto che nella matrice di correlazione stimata p × p si avranno p(p − 1)/2 indici rij empirici di correlazione lineare, stime di massima verosimiglianza delle corrispondenti correlazioni lineari ρij della popolazione multinormale di provenienza (sebbene tali p(p−1)/2 non siano indipendenti perché calcolate su p variabili): Il più grande di tali indici chiaramente ha una distribuzione campionaria che non ha come valore atteso il valore teorico ρij = 0 . Per un rij qualsiasi vale l’usuale trasformazione: s rij n−2 2 1 − rij che si distribuisce come una t di student, con n − 2 gradi di libertà, quando ρij = 0 , tuttavia in questo caso stiamo scegliendo dalla matrice di correlazione l’elemento (o gli elementi) più grande, per cui non valgono i normali risultati sulla distribuzione di rij . Esempio: 2002-3003 versione provvisoria 293 Da una distribuzione normale multivariata con 30 componenti indipendenti e standardizzate è stato estratto un campione di 100 osservazioni (la matrice dei dati è stata costruita per simulazione, ossia mediante generazione di numeri pseudo-casuali). Dal campione di osservazioni, con n = 100 e p = 30 è stata calcolata la matrice delle stime delle correlazioni lineari: X1 X2 X3 X4 X5 X6 X7 X8 X9 X10 X11 X12 X13 X14 X15 X16 X17 X18 X19 X20 X21 X22 X23 X24 X25 X26 X27 X28 X29 X30 X1 1.00 -.07 -.03 -.13 .08 -.10 -.04 .06 .15 -.08 -.00 -.02 -.03 .00 -.03 .08 .20 -.02 .22 .19 .03 -.18 .04 -.05 .02 -.08 .00 -.02 .09 .10 X2 -.07 1.00 -.00 .03 .07 .07 .02 .04 -.00 .01 -.25 .05 -.14 .01 -.02 .00 -.04 -.06 -.04 -.04 .06 -.03 -.13 .10 -.01 .16 .07 -.03 -.02 -.01 X3 -.03 -.00 1.00 .14 -.09 -.02 -.01 .08 .16 -.04 -.08 -.02 -.08 .04 -.05 -.19 .05 .05 -.08 .08 -.11 .14 .04 -.06 -.08 -.12 -.08 .03 -.07 .13 X4 -.13 .03 .14 1.00 -.13 .07 .18 -.14 .18 -.12 -.05 -.03 -.09 .10 .15 -.13 .06 .03 .02 -.13 -.09 .01 .05 -.03 -.05 -.01 -.09 -.03 -.04 -.17 X5 .08 .07 -.09 -.13 1.00 .02 .02 -.10 .06 .03 -.08 .01 -.02 -.17 .12 .05 -.08 -.03 .01 .01 .10 .12 .04 -.05 -.00 .12 -.12 .12 -.13 .08 X6 -.10 .07 -.02 .07 .02 1.00 -.01 -.17 -.01 .00 .03 .13 .04 .02 .03 .04 -.13 -.13 .19 -.06 .06 -.05 -.18 -.11 -.14 .13 -.10 -.22 .06 -.14 X7 -.04 .02 -.01 .18 .02 -.01 1.00 -.05 -.05 .09 -.04 -.04 .02 -.09 .02 -.09 .14 -.09 -.05 -.03 .12 .02 .14 .13 .08 -.10 -.01 .03 -.03 -.05 X8 .06 .04 .08 -.14 -.10 -.17 -.05 1.00 .05 -.02 -.04 -.01 -.18 -.03 .03 .03 -.05 .26 .02 .23 -.23 .12 .10 .00 -.09 -.16 .05 -.05 -.06 -.06 X9 .15 -.00 .16 .18 .06 -.01 -.05 .05 1.00 .08 .09 -.20 -.05 -.01 .00 -.18 .01 .10 -.09 .01 -.27 -.13 .05 -.13 -.08 -.06 .01 -.09 -.14 .16 X10 -.08 .01 -.04 -.12 .03 .00 .09 -.02 .08 1.00 .16 -.18 -.01 .04 .14 -.03 -.01 -.07 -.13 -.07 -.08 .02 .08 .06 -.14 .00 -.01 -.00 -.17 .03 X11 -.00 -.25 -.08 -.05 -.08 .03 -.04 -.04 .09 .16 1.00 -.23 .04 -.08 -.20 -.03 -.03 .10 .04 -.10 .04 -.13 .17 -.01 -.11 .13 .00 -.20 .00 -.11 X12 -.02 .05 -.02 -.03 .01 .13 -.04 -.01 -.20 -.18 -.23 1.00 .25 .09 .05 .09 .00 .08 .21 -.11 .20 -.06 .19 .07 .15 -.07 .08 -.07 -.01 .00 X13 -.03 -.14 -.08 -.09 -.02 .04 .02 -.18 -.05 -.01 .04 .25 1.00 -.10 -.17 .25 .02 -.00 .23 -.09 .09 -.15 -.11 -.11 .06 .01 .11 -.03 -.07 .03 X14 .00 .01 .04 .10 -.17 .02 -.09 -.03 -.01 .04 -.08 .09 -.10 1.00 -.02 -.01 .02 .10 .00 .15 -.02 .17 -.11 .01 .17 -.07 .09 .02 -.08 .16 X15 -.03 -.02 -.05 .15 .12 .03 .02 .03 .00 .14 -.20 .05 -.17 -.02 1.00 .12 .00 .01 .04 .03 -.17 .07 .03 .13 .01 .02 -.03 .02 .04 -.02 294 X1 X2 X3 X4 X5 X6 X7 X8 X9 X10 X11 X12 X13 X14 X15 X16 X17 X18 X19 X20 X21 X22 X23 X24 X25 X26 X27 X28 X29 X30 Materiale didattico statistica 3 X16 .08 .00 -.19 -.13 .05 .04 -.09 .03 -.18 -.03 -.03 .09 .25 -.01 .12 1.00 -.05 .02 .26 -.02 .20 -.12 -.01 .11 -.02 -.14 .06 -.12 .14 .08 X17 .20 -.04 .05 .06 -.08 -.13 .14 -.05 .01 -.01 -.03 .00 .02 .02 .00 -.05 1.00 .01 .10 .02 .20 -.20 -.08 .10 .16 -.15 -.05 -.02 -.11 .11 X18 -.02 -.06 .05 .03 -.03 -.13 -.09 .26 .10 -.07 .10 .08 -.00 .10 .01 .02 .01 1.00 -.01 -.11 -.16 .02 .01 .01 -.06 -.10 .14 .08 -.18 -.00 X19 .22 -.04 -.08 .02 .01 .19 -.05 .02 -.09 -.13 .04 .21 .23 .00 .04 .26 .10 -.01 1.00 -.03 .05 -.13 -.06 .10 .13 -.26 -.11 -.02 .00 -.05 X20 .19 -.04 .08 -.13 .01 -.06 -.03 .23 .01 -.07 -.10 -.11 -.09 .15 .03 -.02 .02 -.11 -.03 1.00 -.13 .07 .02 .03 -.10 .05 -.10 .10 .12 .07 X21 .03 .06 -.11 -.09 .10 .06 .12 -.23 -.27 -.08 .04 .20 .09 -.02 -.17 .20 .20 -.16 .05 -.13 1.00 .14 .01 -.00 .23 .11 .11 -.06 -.08 -.06 X22 -.18 -.03 .14 .01 .12 -.05 .02 .12 -.13 .02 -.13 -.06 -.15 .17 .07 -.12 -.20 .02 -.13 .07 .14 1.00 .04 -.01 .12 .11 -.06 .22 -.18 .02 X23 .04 -.13 .04 .05 .04 -.18 .14 .10 .05 .08 .17 .19 -.11 -.11 .03 -.01 -.08 .01 -.06 .02 .01 .04 1.00 .20 .05 -.20 -.16 .19 -.06 -.08 X24 -.05 .10 -.06 -.03 -.05 -.11 .13 .00 -.13 .06 -.01 .07 -.11 .01 .13 .11 .10 .01 .10 .03 -.00 -.01 .20 1.00 .08 -.12 .12 .04 -.15 .02 X25 .02 -.01 -.08 -.05 -.00 -.14 .08 -.09 -.08 -.14 -.11 .15 .06 .17 .01 -.02 .16 -.06 .13 -.10 .23 .12 .05 .08 1.00 -.08 .01 .13 -.24 -.04 X26 -.08 .16 -.12 -.01 .12 .13 -.10 -.16 -.06 .00 .13 -.07 .01 -.07 .02 -.14 -.15 -.10 -.26 .05 .11 .11 -.20 -.12 -.08 1.00 -.05 .04 .05 -.04 X27 .00 .07 -.08 -.09 -.12 -.10 -.01 .05 .01 -.01 .00 .08 .11 .09 -.03 .06 -.05 .14 -.11 -.10 .11 -.06 -.16 .12 .01 -.05 1.00 -.21 -.01 .07 X28 -.02 -.03 .03 -.03 .12 -.22 .03 -.05 -.09 -.00 -.20 -.07 -.03 .02 .02 -.12 -.02 .08 -.02 .10 -.06 .22 .19 .04 .13 .04 -.21 1.00 .02 -.13 X29 .09 -.02 -.07 -.04 -.13 .06 -.03 -.06 -.14 -.17 .00 -.01 -.07 -.08 .04 .14 -.11 -.18 .00 .12 -.08 -.18 -.06 -.15 -.24 .05 -.01 .02 1.00 .02 X30 .10 -.01 .13 -.17 .08 -.14 -.05 -.06 .16 .03 -.11 .00 .03 .16 -.02 .08 .11 -.00 -.05 .07 -.06 .02 -.08 .02 -.04 -.04 .07 -.13 .02 1.00 2002-3003 versione provvisoria X1 X2 X3 X4 X5 X6 X7 X8 X9 X10 X11 X12 X13 X14 X15 X16 X17 X18 X19 X20 X21 X22 X23 X24 X25 X26 X27 X28 X29 X30 X1 1.00 -.07 -.03 -.13 .08 -.10 -.04 .06 .15 -.08 -.00 -.02 -.03 .00 -.03 .08 .20 -.02 .22 .19 .03 -.18 .04 -.05 .02 -.08 .00 -.02 .09 .10 X2 -.07 1.00 -.00 .03 .07 .07 .02 .04 -.00 .01 -.25 .05 -.14 .01 -.02 .00 -.04 -.06 -.04 -.04 .06 -.03 -.13 .10 -.01 .16 .07 -.03 -.02 -.01 X3 -.03 -.00 1.00 .14 -.09 -.02 -.01 .08 .16 -.04 -.08 -.02 -.08 .04 -.05 -.19 .05 .05 -.08 .08 -.11 .14 .04 -.06 -.08 -.12 -.08 .03 -.07 .13 X4 -.13 .03 .14 1.00 -.13 .07 .18 -.14 .18 -.12 -.05 -.03 -.09 .10 .15 -.13 .06 .03 .02 -.13 -.09 .01 .05 -.03 -.05 -.01 -.09 -.03 -.04 -.17 295 X5 .08 .07 -.09 -.13 1.00 .02 .02 -.10 .06 .03 -.08 .01 -.02 -.17 .12 .05 -.08 -.03 .01 .01 .10 .12 .04 -.05 -.00 .12 -.12 .12 -.13 .08 X6 -.10 .07 -.02 .07 .02 1.00 -.01 -.17 -.01 .00 .03 .13 .04 .02 .03 .04 -.13 -.13 .19 -.06 .06 -.05 -.18 -.11 -.14 .13 -.10 -.22 .06 -.14 X7 -.04 .02 -.01 .18 .02 -.01 1.00 -.05 -.05 .09 -.04 -.04 .02 -.09 .02 -.09 .14 -.09 -.05 -.03 .12 .02 .14 .13 .08 -.10 -.01 .03 -.03 -.05 X8 .06 .04 .08 -.14 -.10 -.17 -.05 1.00 .05 -.02 -.04 -.01 -.18 -.03 .03 .03 -.05 .26 .02 .23 -.23 .12 .10 .00 -.09 -.16 .05 -.05 -.06 -.06 X9 .15 -.00 .16 .18 .06 -.01 -.05 .05 1.00 .08 .09 -.20 -.05 -.01 .00 -.18 .01 .10 -.09 .01 -.27 -.13 .05 -.13 -.08 -.06 .01 -.09 -.14 .16 X10 -.08 .01 -.04 -.12 .03 .00 .09 -.02 .08 1.00 .16 -.18 -.01 .04 .14 -.03 -.01 -.07 -.13 -.07 -.08 .02 .08 .06 -.14 .00 -.01 -.00 -.17 .03 X11 -.00 -.25 -.08 -.05 -.08 .03 -.04 -.04 .09 .16 1.00 -.23 .04 -.08 -.20 -.03 -.03 .10 .04 -.10 .04 -.13 .17 -.01 -.11 .13 .00 -.20 .00 -.11 X12 -.02 .05 -.02 -.03 .01 .13 -.04 -.01 -.20 -.18 -.23 1.00 .25 .09 .05 .09 .00 .08 .21 -.11 .20 -.06 .19 .07 .15 -.07 .08 -.07 -.01 .00 X13 -.03 -.14 -.08 -.09 -.02 .04 .02 -.18 -.05 -.01 .04 .25 1.00 -.10 -.17 .25 .02 -.00 .23 -.09 .09 -.15 -.11 -.11 .06 .01 .11 -.03 -.07 .03 X14 .00 .01 .04 .10 -.17 .02 -.09 -.03 -.01 .04 -.08 .09 -.10 1.00 -.02 -.01 .02 .10 .00 .15 -.02 .17 -.11 .01 .17 -.07 .09 .02 -.08 .16 X15 -.03 -.02 -.05 .15 .12 .03 .02 .03 .00 .14 -.20 .05 -.17 -.02 1.00 .12 .00 .01 .04 .03 -.17 .07 .03 .13 .01 .02 -.03 .02 .04 -.02 296 X1 X2 X3 X4 X5 X6 X7 X8 X9 X10 X11 X12 X13 X14 X15 X16 X17 X18 X19 X20 X21 X22 X23 X24 X25 X26 X27 X28 X29 X30 Materiale didattico statistica 3 X16 .08 .00 -.19 -.13 .05 .04 -.09 .03 -.18 -.03 -.03 .09 .25 -.01 .12 1.00 -.05 .02 .26 -.02 .20 -.12 -.01 .11 -.02 -.14 .06 -.12 .14 .08 X17 .20 -.04 .05 .06 -.08 -.13 .14 -.05 .01 -.01 -.03 .00 .02 .02 .00 -.05 1.00 .01 .10 .02 .20 -.20 -.08 .10 .16 -.15 -.05 -.02 -.11 .11 X18 -.02 -.06 .05 .03 -.03 -.13 -.09 .26 .10 -.07 .10 .08 -.00 .10 .01 .02 .01 1.00 -.01 -.11 -.16 .02 .01 .01 -.06 -.10 .14 .08 -.18 -.00 X19 .22 -.04 -.08 .02 .01 .19 -.05 .02 -.09 -.13 .04 .21 .23 .00 .04 .26 .10 -.01 1.00 -.03 .05 -.13 -.06 .10 .13 -.26 -.11 -.02 .00 -.05 X20 .19 -.04 .08 -.13 .01 -.06 -.03 .23 .01 -.07 -.10 -.11 -.09 .15 .03 -.02 .02 -.11 -.03 1.00 -.13 .07 .02 .03 -.10 .05 -.10 .10 .12 .07 X21 .03 .06 -.11 -.09 .10 .06 .12 -.23 -.27 -.08 .04 .20 .09 -.02 -.17 .20 .20 -.16 .05 -.13 1.00 .14 .01 -.00 .23 .11 .11 -.06 -.08 -.06 X22 -.18 -.03 .14 .01 .12 -.05 .02 .12 -.13 .02 -.13 -.06 -.15 .17 .07 -.12 -.20 .02 -.13 .07 .14 1.00 .04 -.01 .12 .11 -.06 .22 -.18 .02 X23 .04 -.13 .04 .05 .04 -.18 .14 .10 .05 .08 .17 .19 -.11 -.11 .03 -.01 -.08 .01 -.06 .02 .01 .04 1.00 .20 .05 -.20 -.16 .19 -.06 -.08 X24 -.05 .10 -.06 -.03 -.05 -.11 .13 .00 -.13 .06 -.01 .07 -.11 .01 .13 .11 .10 .01 .10 .03 -.00 -.01 .20 1.00 .08 -.12 .12 .04 -.15 .02 X25 .02 -.01 -.08 -.05 -.00 -.14 .08 -.09 -.08 -.14 -.11 .15 .06 .17 .01 -.02 .16 -.06 .13 -.10 .23 .12 .05 .08 1.00 -.08 .01 .13 -.24 -.04 X26 -.08 .16 -.12 -.01 .12 .13 -.10 -.16 -.06 .00 .13 -.07 .01 -.07 .02 -.14 -.15 -.10 -.26 .05 .11 .11 -.20 -.12 -.08 1.00 -.05 .04 .05 -.04 X27 .00 .07 -.08 -.09 -.12 -.10 -.01 .05 .01 -.01 .00 .08 .11 .09 -.03 .06 -.05 .14 -.11 -.10 .11 -.06 -.16 .12 .01 -.05 1.00 -.21 -.01 .07 Inoltre nella tavola che segue sono riportati nella parte sinistra, per ciascuna variabile, la minima e la massima correlazione lineare rij ; nella parte destra si riporta per ciascuna variabile, il coefficiente di determinazione multipla R2 che esprime la porzione di variabilità spiegata dalla regressione multipla (lineare) su tutte le altre 29 variabili: X28 -.02 -.03 .03 -.03 .12 -.22 .03 -.05 -.09 -.00 -.20 -.07 -.03 .02 .02 -.12 -.02 .08 -.02 .10 -.06 .22 .19 .04 .13 .04 -.21 1.00 .02 -.13 X29 .09 -.02 -.07 -.04 -.13 .06 -.03 -.06 -.14 -.17 .00 -.01 -.07 -.08 .04 .14 -.11 -.18 .00 .12 -.08 -.18 -.06 -.15 -.24 .05 -.01 .02 1.00 .02 X30 .10 -.01 .13 -.17 .08 -.14 -.05 -.06 .16 .03 -.11 .00 .03 .16 -.02 .08 .11 -.00 -.05 .07 -.06 .02 -.08 .02 -.04 -.04 .07 -.13 .02 1.00 2002-3003 versione provvisoria 297 R2 (Var. Xi con tutte le altre) Min. rij Max rij X1 -.18 .22 X1 .249 X2 -.25 .16 X2 .211 X3 -.19 .16 X3 .164 X4 -.17 .18 X4 .336 X5 -.17 .12 X5 .222 X6 -.22 .19 X6 .288 X7 -.10 .18 X7 .183 X8 -.23 .26 X8 .364 X9 -.27 .18 X9 .306 X10 -.18 .16 X10 .259 X11 -.25 .17 X11 .427 X12 -.23 .25 X12 .434 X13 -.18 .25 X13 .380 X14 -.17 .17 X14 .303 X15 -.20 .15 X15 .280 X16 -.19 .26 X16 .367 X17 -.20 .20 X17 .301 X18 -.18 .26 X18 .271 X19 -.26 .26 X19 .384 X20 -.13 .23 X20 .265 X 21 -.27 .23 X 21 .442 X22 -.20 .22 X22 .355 X23 -.20 .20 X23 .419 X24 -.15 .20 X24 .253 X25 -.24 .23 X25 .296 X26 -.26 .16 X26 .352 X27 -.21 .14 X27 .252 X28 -.22 .22 X28 .344 X29 -.24 .14 X29 .320 X30 -.17 .16 X30 .261 298 Materiale didattico statistica 3 Ricordo che i valori critici di r ad un livello di significatività α per un test bilaterale sono: s rα = t2α t2α + n − 2 essendo tα il valore critico ad un livello α per una t con n − 2 gradi di libertà. Nel nostro caso, lavorando al 5 r rα = 1.98452 = 0.197 1.98452 + 98 Per quanto riguarda R2 analogamente ricaviamo (dalla distribuzione F): Rα2 = kFα kFα + n − k − 1 essendo k il numero dei regressori e Fα il valore critico ad un livello α per una F di Snedecor con k ed n − k − 1 gradi di libertà. Nel nostro caso: Rα2 = 29x1.6294 = 0, 403 29x1.6294 + 70 Di seguito sono riportati anche gli autovalori ricavati dalle 30 variabili standardizzate: 2002-3003 versione provvisoria 299 C omponenti principali i Autovalore varianza varianza cumulata 1 2.300 7.668 7.67 2 1.999 6.662 14.33 3 1.925 6.417 20.75 4 1.690 5.634 26.38 5 1.621 5.402 31.78 6 1.560 5.200 36.98 7 1.529 5.098 42.08 8 1.429 4.764 46.85 9 1.332 4.440 51.29 10 1.206 4.021 55.31 11 1.135 3.784 59.09 12 1.105 3.682 62.77 13 1.009 3.363 66.14 14 .968 3.227 69.36 15 .899 2.996 72.36 16 .885 2.949 75.31 17 .854 2.845 78.15 18 .824 2.745 80.90 19 .760 2.532 83.43 20 .740 2.466 85.90 21 .656 2.187 88.08 22 .583 1.945 90.03 23 .542 1.808 91.84 24 .527 1.756 93.59 25 .391 1.305 94.90 26 .380 1.267 96.16 27 .360 1.201 97.36 28 .323 1.078 98.44 29 .243 .811 99.25 30 .224 .747 100.00 300 9.3.2 Materiale didattico statistica 3 Esempi sulla regressione \begin{fig} dati_reali\PUBTRAS_totale.STA mostrare eventuali correlazioni spurie o insensate (nomi, cognomi, etc.) dati_reali\correlazione_pubtras1.HTM dati_reali\regmult_pubtras1.HTM dati_reali\regmult_pubtras2.HTM dati_reali\ese_regmul_pubtras1.RTF dati_reali\REP_0011.STA dati cirpiet: usare per non normalità provare anche a simulare l’estrazione di campioni per far vedere la diversa influenza degli outlier. \end{fig} Capitolo 10 Stima dei parametri del modello lineare (modelli a rango non pieno):Analisi della varianza Per degli esempi di modelli lineari a rango non pieno è opportuno rivedere la parte introduttiva sui modelli lineari, in particolare per quanto riguarda le particolari configurazioni della matrice X . 10.1 Analisi della varianza Se nel modello lineare la matrice X risulta a rango non pieno (perché è stata volutamente strutturata in questo modo), per ottenere le stime dei parametri non si può procedere nel modo ordinario. Possibili soluzioni: Riparametrizzazione link o riferimento (vedere anche l’esempio che segue) Aggiunta di altre equazioni (vincoli) sui parametri: ad esempio in un modello di analisi della varianza ad una via in cui si è usata, per comodità interpretativa, la parametrizzazione: µj = µ + ηj , 301 302 Materiale didattico statistica 3 si potrebbe aggiungere il vincolo: µ= k X µj nj /n j=1 P (che equivale a: kj=1 ηj nj = 0 ); Modifica della matrice X in modo da eliminare la singolarità Uso dell’inversa generalizzata. Inversa generalizzata Questo approccio è utile da un punto di vista teorico per stabilire, se possibile, il limite eventuale dell’analisi nel caso di rango non pieno della matrice X . Per far questo, indichiamo una delle soluzione dei minimi quadrati in modo generale, facendo ricorso all’inversa generalizzata: b = (XT X)− XT y tenendo presente che stavolta questa soluzione non è unica. • In effetti dal punto di vista del calcolo non conviene ricorrere all’inversa generalizzata, piuttosto conviene aggiungere delle altre equazioni, o lasciare non specificati alcuni parametri incogniti. • tuttavia è una notazione qualche volta comoda, perché consente di esaminare alcune proprietà degli stimatori. • In questo corso di norma non verrà impiegato questo approccio, importante tuttavia da segnalare. Cenno alle funzioni stimabili In effetti si può dimostrare che nei modelli a rango non pieno non tutte le funzioni lineari dei parametri sono stimabili. 2002-3003 versione provvisoria 10.1.1 303 Analisi della varianza ad una via Modelli ad effetti fissi:assunzioni di base Il modello più semplice di analisi della varianza si ha per il modello ad una via ad effetti fissi. Per modello ad effetti fissi si intende un modello nel quale i parametri incogniti, come fatto fino ad ora, rappresentano delle costanti, sebbene non note. In un modello ad effetti casuali invece i parametri, o almeno alcuni di essi, sono delle realizzazioni di variabili casuali, per le quali occorre ipotizzare un modello particolare. Si ha un modello ad una via quando le n osservazioni sono suddivise in k gruppi secondo le k modalità di un criterio di classificazione in generale qualitativo. Se il criterio di classificazione è quantitativo esiste la possibilità di effettuare analisi più forti di quelle che vengono esposte in queste pagine, tenendo presenti le tecniche di regressione lineare, come si vedrà più avanti. Il modello per y : yi = µj + εi i = 1, 2, . . . , n Il modello per le medie: µj = µ + ηj j = 1, 2, . . . , k media gruppo j = media generale + effetto gruppo j Il modello è detto a effetti fissi perché si suppone che le µj siano dei parametri fissi, sebbene incogniti, relativi a k particolari gruppi. In definitiva il modello per le osservazioni diventa: yi = µ + ηj + εi µj = i = 1, 2, . . . , n; j = 1, 2, . . . , k Osservazione = media generale + effetto gruppo j+errore accidentale In effetti, per i motivi anticipati prima, occorre fissare un vincolo sui parametri, dato che questa parametrizzazione (1 media generale + k effetti dei gruppi) ha introdotto un nuovo parametro; infatti anche se i parametri adesso sono k +1 , in realtà la parte sistematica 304 Materiale didattico statistica 3 del modello è chiaramente dipende soltanto da k parametri degli effetti medi. Il vincolo che si impiega è: µ= k X µj nj /nequindi j=1 k X ηj n j = 0 j=1 Non è una scelta univoca, ma presenta il vantaggio che, qualora si ipotizzi assenza di effetti, la stima di µ sotto H0 coincide con quella sotto H1 . Diversamente si potrebbe pensare ad un sistema di vincoli più naturale, indipendente dalle ampiezze campionarie, con pesi uguali: µ= k X j=1 µj /kequindi k X ηj = 0. j=1 Scopo dell’analisi è quello di fare inferenza sulle relazioni che intercorrono fra le k medie delle popolazioni. In particolare si può essere interessati a saggiare l’ipotesi che le k medie siano tutte uguali, contro un’alternativa generica che almeno una sia diversa dalle altre: ipotesi di omogeneità: H0 : µj = µj = 1, 2, . . . , k (Le medie sono uguali ad un valore comune non specificato) equivalente a: H0 : ηj = 0j = 1, 2, . . . , k, (Gli effetti di gruppo sono tutti nulli) questo tipo di impostazione, in termini di effetti, è utile in particolare con disegni di analisi della varianza a più vie. P In questo caso si ipotizza sempre un vincolo sui parametri: kj=1 ηj nj = 0 , in modo che questi risultino stimabili In questo modo si vede che in entrambi i casi l’ipotesi nulla fissa k − 1 vincoli sui parametri. L’ipotesi alternativa H1 consiste temporaneamente nella semplice negazione di H0 . Impostato in questo modo il problema, si tratta banalmente di un’estensione a k medie del test t per il confronto di due medie mediante due campioni indipendenti. Assunzioni fatte sulla componente accidentale; In corrispondenza delle ipotesi di base sulla distribuzione degli errori già fatte nel contesto generale dei modelli lineari, si hanno le seguenti assunzioni nell’analisi della varianza ad una via: 2002-3003 versione provvisoria 305 εi (N (0, σ 2 ); e quindi yi (N (µj , σ 2 )conUi (Gj j = 1, 2, . . . , k εi , εr indipendenti (sia se Ui e Ur appartengono allo stesso gruppo sia nel caso i gruppi siano diversi); è utile vedere adesso questa ipotesi generale di indipendenza scomposta in due assunzioni particolari, con riferimento ai k campioni: gli errori sono indipendenti all’interno dei k campioni (ciascun gruppo è un campione casuale semplice); i k campioni sono indipendenti. Omoscedasticità; Ipotesi di normalità. (in effetti si potrebbe semplicemente assumere la non correlazione, e l’indipendenza scaturirebbe una volta fatta anche l’ipotesi di normalità) Si noti che le ultime due assunzioni (normalità e omoscedasticità) riguardano esclusivamente le k popolazioni (o universi) teoriche e non hanno relazione con il campionamento; le prime due assunzioni riguardano invece le relazioni fra le unità e fra i campioni e sono quindi collegati essenzialmente al meccanismo di acquisizione dei dati. (in effetti, però, un qualche collegamento fra i due gruppi di assunzioni esiste se per esempio si assume soltanto la non correlazione fra le osservazioni entro i campioni: se si assume anche la normalità, questa implica l’indipendenza). In pratica si sta ipotizzando che il modello da cui provengono i dati è del tipo rappresentato nella figura che segue (se è vera l’ipotesi nulla): Figura da inserire FIG2000ANOVA1.STG Se invece non vale l’ipotesi nulla di omogeneità delle medie, si potrà avere una situazione come quella della figura che segue: Figura da inserire FIG2000ANOVA2H1.STG In ogni caso si tratta di k popolazioni, normali, con la stessa varianza, per le quali l’eventuale effetto sperimentale (ossia l’appartenenza ad un particolare gruppo) comporta in sostanza semplicemente uno slittamento dell’intera distribuzione (o di più distribuzioni). Figura da inserire 306 Materiale didattico statistica 3 FIG2000ANOVAH1.STG Modelli ad effetti fissi:allontanamenti dalle assunzioni di base In definitiva, come si è visto, se valgono le assunzioni di base, H0 consiste nell’ipotesi che le k popolazioni siano in tutto uguali, ossia che i k campioni in realtà si possono considerare provenienti da un’unica popolazione. Se adesso supponiamo delle assunzioni meno rigide, possiamo ovviamente pensare di non far valere (o di rendere più flessibile) una o più delle quattro ipotesi. Qui esaminiamo soltanto alcune delle implicazioni poste dall’allontanamento dall’ipotesi di normalità o dall’ipotesi di omoscedasticità, lasciando ad altre sezioni la discussione sull’ipotesi di indipendenza entro e fra i campioni. Eteroscedasticità (varianze non omogenee) Evidentemente adesso, ammettendo comunque la normalità, anche se H0 è vera, le k popolazioni non saranno uguali; perché possono avere comunque delle varianze differenti. Il problema di prova delle ipotesi più semplice, ossia quello specificato da H0 , non implica più quindi l’uguaglianza di k popolazioni, ma soltanto l’uguaglianza di k effetti medi. Se il criterio di classificazione corrisponde a k trattamenti sperimentali, questa situazione corrisponde ad ammettere che i trattamenti possano provocare un alterazione nella variabilità fra i le unità sperimentali. In pratica il modello assunto è: yi (N (µj , σj2 )conUi (Gj j = 1, 2, . . . , k Ovviamente le varianze σj2 andranno stimate dai singoli campioni, e costituiscono quindi degli ulteriori parametri di disturbo nell’inferenza sugli effetti medi; è noto inoltre che nella costruzione di un test già nel caso di due campioni si ricade nel problema di Beherens -Fisher. Figura da inserire FIG2000ANOVA2.STG Tuttavia è sempre possibile verificare preliminarmente l’adeguatezza dell’assunzione di omoscedasticità, per campioni costituiti da osservazioni ripetute provenienti da k popolazioni normali. Più 2002-3003 versione provvisoria 307 avanti in questi appunti accenno il test più noto,il test di Bartlett, basato sul rapporto fra le verosimiglianze. Non normalità Occorrerebbe qua fare numerosissime distinzioni, perché si hanno ovviamente infinite forme di allontanamento dalla normalità. Qui elenco alcune delle situazioni più plausibili: • k popolazioni non normali ma dello stesso tipo e tutte note • k popolazioni non normali appartenenti alla stessa famiglia parametrica, e dipendenti da uno o più parametri incogniti. – Ad esempio le popolazioni potrebbero essere delle normali di ordine p o delle uniformi – Oppure potrebbero essere k distribuzioni gamma (con un parametro da stimare) – Oppure potrebbero essere k distribuzioni esponenziali • k popolazioni non normali appartenenti ad un’unica famiglia parametrica non nota. • k popolazioni non normali appartenenti a diverse famiglie parametriche 10.1.2 Ipotesi di omogeneità delle medie: stimatori e test corrispondenti. Le stime di massima verosimiglianza dei parametri, in assenza di vincoli sui parametri stessi ossia sotto H1 , si ottengono molto semplicemente considerando che i k campioni sono indipendenti e sono costituiti da osservazioni indipendenti provenienti da universi normali. Quindi è ovvio che tali stimatori sono le medie aritmetiche Mj delle nj osservazioni relative a ciascun campione (j = 1, 2, . . . , k) . Tuttavia, se si vuole lavorare con la tecnica dei modelli lineari generali, occorre considerare: la matrice X , che è ora costituita dalle k colonne di appartenenza delle n unità ai k gruppi: 308 Materiale didattico statistica 3 X= 1; 0; . . . ; 0 ...;...;...;... 1; 0; . . . ; 0 0; 1; . . . ; 0 ...;...;...;... 0; 1; . . . ; 0 ...;...;...;... 0; 0; . . . ; 1 ...;...;...;... 0; 0; . . . ; 1 la matrice XT X è chiaramente costituita da una matrice diagonale, con elemento generico sulla diagonale dato da nj (si riveda lo schema del la matrice X riportato nell’introduzione dei modelli lineari, e si verifichi tale relazione: si consideri che le colonne di X sono ortogonali, per cui gli unici elementi non nulli nel prodotto XT X , sono quelli corrispondenti agli elementi diagonali), per cui: n1 X X = Diag(n1 , n2 , . . . , nk ) = T n2 ... nk Il vettore XT y è costituito dalle k somme delle osservazioni per ciascun gruppo, ossia n 1 M1 ... XT y = (n1 M1 , n2 M2 , . . . , nk Mk )T = n M j j ... n k Mk per cui in definitiva si ha: stime di massima verosimiglianza nell’analisi della varianza ad una via: b = (XT X)−1 XT y = 2002-3003 versione provvisoria 309 = Diag(n1 , n2 , . . . , nk )−1 (n1 M1 , n2 M2 , . . . , nk Mk )T = −1 n1 n2 ... nk n 1 M1 ... n j Mj ... n k Mk M1 ... = Mj ... Mk La stima delle µj è dunque data dalle stime di massima verosimiglianza di ciascun campione Mj La stima di massima verosimiglianza di σ 2 si ottiene nel modo usuale con la tecnica generale adottata nei modelli lineari, ossia dalla devianza residua (relativa al modello completo) diviso i gradi di libertà corrispondenti. M.Q . vincolati: Analisi della varianza ad una via . La matrice X è composta da k colonne indicatrici dell’appartenenza delle n unità a k gruppi disgiunti. La parametrizzazione più naturale è quella in cui ogni parametro corrisponde al valor medio di Y in ciascun gruppo: β T = µ1 , . . . , µ j , . . . , µ k L’ipotesi di interesse è: H0 : β1 = β2 = . . . = βk 310 Materiale didattico statistica 3 Queste k − 1 uguaglianze corrispondono ad una scelta di C di k − 1 righe e k colonne: vincolo Gr.1 Gr.2 . . . Gr.J . . . Gr.K 1 1 0 ... 0 ... −1 2 ... 1 ... ... ... −1 0 0 ... 0 0 −1 j 0 0 ... 1 0 −1 ... ... ... ... ... ... −1 k−1 0 0 0 0 ... −1 ... C[k−1×k] = con a = 0k−1 Scrivere ora Cβ = a è come scrivere: µ1 − µk = µ2 − µk = . . . = µj − µk = . . . = µk−1 − µk = 0. Che costituiscono (k − 1) vincoli sui parametri; Occorre trovare la soluzione di massima verosimiglianza condizionatamente a tali vincoli (lineari) In effetti per la stima dei parametri sotto H0 non conviene ricorrere alla tecnica generale di stima con vincoli lineari qualsiasi, ma piuttosto ad un approccio diretto: Infatti la matrice X nel modello specificato da H0 è composta da una colonna di n valori uguali ad 1; 1 1 X= . . . ... 1 per cui è facile verificare che la soluzione è data da: T −1 b0 = (X X) T X y= n X yi /n = M (Media generale) i=1 D’altra parte è ovvio che sotto l’ipotesi nulla la stima di µ è data dalla media generale, in quanto in questo caso l’ipotesi specifica che la popolazione di provenienza è un’unica distribuzione normale, e quindi deriva l’usuale risultato sullo stimatore di massima verosimiglianza. La stima di σ 2 sarà adesso costituita dalla devianza residua sotto H0 , divisa per i gradi di libertà corrispondenti. 2002-3003 versione provvisoria 311 Scomposizione della varianza. Secondo l’approccio generale scomponiamo la devianza della componente accidentale, R(β) . Si riveda eventualmente tale parte nei modelli lineari. Impiego qui la notazione yij per indicare la i -esima osservazione del j -esimo gruppo (diversa rispetto alla precedente convenzione, tuttavia questa notazione risulta più utile quando, come adesso, un problema che è formalmente inquadrabile nell’ambito dei modelli lineari, è naturalmente interpretabile anche come confronto fra k popolazioni diverse attraverso k campioni, da cui l’esigenza del doppio indice, uno per le unità e l’altro per i gruppi) R(β) = R(b) + (b − β)T XT X(b − β) Oppure : (y − Xβ)T (y − Xβ) = (y − Xb)T (y − Xb) + (b − β)T XT X(b − β) che nel nostro caso diventa: nj k X X j=1 i=1 2 (yij − µj ) = nj k X X 2 (yij − Mj ) + k X j=1 i=1 nj (µ − Mj )2 j=1 Con riferimento alle devianze residue si ha: devianza residua sotto H1 : R(b) = nj k X X (yij − Mj )2 j=1 i=1 devianza residua sotto H0 : R(b0 ) = nj k X X (yij − M )2 j=1 i=1 e ricordando che b è costituito dal vettore delle k medie Mj e che b0 è invece costituito dalla media generale M si ha: 312 Materiale didattico statistica 3 Scomposizione ricavata dal caso di ipotesi di vincoli lineari qualsiasi della devianza sotto H0 (rivedere eventualmente) devianza residua sotto H1 . devianza residua aggiuntiva dovuta ad H0 R(b0 ) = R(b)+(b−b0 )T XT X(b−b0 ) = Pk Pnj = j=1 i=1 (yij − 2 Mj ) + P + kj=1 nj (Mj − M )2 link o riferimento VEDERE ANCHE TAVOLA RIPORTATA PIU’ AVANTI Per la stima della varianza ovviamente si ha: s2 (n − k)/σ 2 (χ2n−k qualunque sia l’ipotesi vera k nj devianzaentroigruppi X X = (yij − Mj )2 /(n − k) s = n−k 2 j=1 i=1 s2 è sempre una stima corretta della varianza TAVOLA DI SCOMPOSIZIONE DELLA DEVIANZA EMPIRICA (tavola dell’analisi della varianza) 2002-3003 versione provvisoria FONTE 313 DEVIANZA Pnj 2 j=1 i=1 (yij − M ) Pk Pnj 2 j=1 i=1 (yij − Mj ) Pk 2 j=1 nj (Mj − M ) Pk TOTALE ENTRO I GRUPPI FRA I GRUPPI g.d.l. Valore atteso Pk j=1 n−1 n−k k−1 (n − k)σ 2 P (k − 1)σ 2 + kj=1 nj ηj2 devianza totale = devianza entro i gruppi+devianza fra i Test F per la verifica dell’ipotesi di omogeneità delle medie: Pk nj (Mj −M )2 k−1 Pk Pnj 2 i=1 (yij −Mj ) j=1 n−k j=1 gruppi F = Secondo quanto già visto nell’analisi del modello lineare generale, sotto l’ipotesi nulla di omogeneità fra le medie, questo rapporto F si distribuisce come una v.c. F di Snedecor con (k − 1) e (n − k) gradi di libertà. La distribuzione di F sotto H1 é quella di una F non centrale con (k − 1) e (n − k) gradi di libertà, e parametro di P non centralità kj=1 nj ηj2 . E’ facile vedere che esiste una relazione fra questo rapporto F ed 2 il rapporto di correlazione, ηyx = σσmy (o meglio il suo quadrato ηyx y ) impiegato come indice per misurare, in una tavola di contingenza con un carattere quantitativo y ed un carattere qualsiasi X , la dipendenza in media della variabile quantitativa y dalla variabile 2 , che varia fra 0 ed (qualitativa o quantitativa) X . L’indice ηyx 2 1, infatti é costruito come rapporto fra σmy varianza tra le medie parziali di y e σy2 , varianza totale di y , ossia sempre quantità che compaiono nella tavola di analisi della varianza. Ricordando che: 2 σmy = k X j=1 2 nj (Mj − M ) /neσy2 = nj k X X j=1 i=1 (yij − M )2 /n Stima della Pnj i=1 Pnn− j i=1 ( j=1 n− Pk j=1 nj (M k− Pk 314 Materiale didattico statistica 3 2 ηyx 2 σmy = 2 σy si ha: Pk nj (Mj −M )2 k−1 Pk Pnj 2 i=1 (yij −Mj ) j=1 n−k j=1 F = = Pk nj (Mj −M )2 k−1 Pk Pnj P (y −M )2 − kj=1 nj (Mj −M )2 ] ij i=1 j=1 n−k j=1 = = Dividendo ora numeratore e denominatore per nσy2 , si ha subito: F = 1− 2 σmy (k−1)σy2 2 ; σmy /(k σy2 = − 1) 2 [n − k]ηyx 2 ) [k − 1](1 − ηyx Pertanto, anche se non è molto rigoroso, si potrebbe vedere il test F come un test per saggiare la significatività di un rapporto di correlazione. Formule per il calcolo Come già visto in altre occasioni, e come è noto in generale per il calcolo dei momenti con origine la media aritmetica, è possibile calcolare le tre devianze necessarie per la costruzione della tavola esprimendo le somme dei quadrati degli scarti (momenti con origine la media) in funzione di somme di quadrati (momenti con origine zero); riassumiamo di seguito tutte le formule utili per il calcolo delle quantità necessarie nell’analisi della varianza a una via. Formule elementari per l’analisi della varianza ad una via 2002-3003 versione provvisoria 315 Numerosità totale N= j=1 nj ; P nj yij Mj = i=1 nj Pk Pnj yij M j=1 N i=1 = j = 1, 2, . . . , k Pnj (yij − M )2 = j=1 Pk Pni=1 j 2 j=1 i=1 (yij − Mj ) = Pk 2 j=1 nj (Mj − M ) Pnj 2 yij − N M 2 j=1 Pk Pnj i=1 Pk 2 2 j=1 j=1 nj Mj i=1 yij − Pk 2 2 j=1 nj Mj − N M Media del gruppo j Media generale = Devianza TOTALE = ENTRO I GRUPPI: FRA I GRUPPI Pk Pk Pk Pk Le tre quantità essenziali per il calcolo delle devianze interne sono dunque: nj k X X 2 yij ; j=1 i=1 k X nj Mj2 = j=1 nj k X X j=1 2 ! 2 yij /nj i=1 NM = ( nj k X X nj Mj N j=1 yij )2 /N j=1 i=1 Chiaramente queste formule sono utili per il calcolo manuale delle devianze, mentre è ovvio, come già accennato altre volte, che nella pratica si farà uso di software statistico, programmato da sé o presente in software commerciale, con il quale presumibilmente (e auspicabilmente) lo studente sarà già familiare, e che senz’altro sarà indispensabile nella pratica quotidiana di soluzione di problemi reali. In effetti, per esperienza personale, suggerisco allo studente di effettuare qualche esercizio di analisi della varianza (magari relativi a data-set poco numerosi, con soltanto con qualche decina di dati) 316 Materiale didattico statistica 3 esclusivamente con una calcolatrice da tavolo, impiegando le formule sopra riportate. Sebbene io abbia volutamente trascurato volutamente di affrontare problemi di tipo numerico e/o computazionale, va detto che le formule sopra riportate presentano il vantaggio di leggere i dati una sola volta, il che risulta utile per insiemi di dati molto numerosi o registrati su supporti a bassa velocità di accesso; questa maggiore velocità di calcolo viene compensata da una possibile perdita in precisione numerica, dal momento che le somme di quadrati conterranno numeri più grandi che non le somme di quadrati di scarti. Considerazioni simili valevano anche per il calcolo dei momenti bivariati (covarianze) necessari per il calcolo della matrice di correlazione. Un modo conveniente di memorizzare i dati è quello di scrivere in una colonna tutte le osservazioni campionarie yij , ed in una colonna affiancata un numero, una lettera o anche una sigla alfanumerica identificativa del gruppo di appartenenza. In effetti il più delle volte li si troverà già in questa forma, all’interno di databases con un numero di colonne anche molto maggiore di due!! INSERIRE ESEMPIO INSERIRE ESEMPIO INSERIRE ESEMPIO L’analisi della varianza come confronto fra stime di varianze Presentiamo in questo paragrafo un modo leggermente diverso di impostare l’analisi della varianza ad una via, direttamente come problema di confronto fra varianze campionarie, che mette in luce il ruolo fondamentale dello studio della variabilità fra i gruppi per analizzare l’eterogeneità di un gruppo di medie campionarie. 2002-3003 versione provvisoria 317 Se l’ipotesi nulla di omogeneità delle medie è vera posso stimare la varianza in due modi diversi: mediante le singole osservazioni, attraverso la solita quantità: 2 s = nj k X X (yij − M )2 /(n − k) j=1 i=1 (che è una stima corretta della varianza anche sotto H1 ); mediante il campione di k medie (ma solo sotto H0 ); infatti supponiamo per semplicità che i k campioni siano tutti di numerosità nj = m . Allora ciascuna media Mj è una variabile casuale con distribuzione normale di parametri µj e σ 2 /m . Se però H0 è vera le k medie provengono tutte dalla stessa popolazione normale di parametri µ e σ 2 /m , e quindi costituiscono un campione casuale semplice (di ampiezza k ) da una normale, per cui si può stimare il parametro σ 2 /m attraverso la varianza campionaria: s2M = k X (Mj − M )2 /(k − 1) j=1 E’ facile vedere che ms2M è uno stimatore di σ 2 e che quindi il rapporto ms2M /s2 (che è proprio il rapporto F visto nelle pagine precedenti) si distribuisce sotto l’ipotesi nulla di omogeneità fra le medie, come una F di Snedecor, in quanto rapporto di due stimatori corretti (e indipendenti) di σ 2 . Figura da inserire fminoredi1.bmp Valore di F inferiore ad uno. E se il test F risulta inferiore ad 1? E’ un caso? Occorre fare qualche considerazione particolare o ci limitiamo a dire che non c’è evidenza contro H0 ? A rigore non dovrebbe importare, perché la zona di rifiuto del test è nella coda destra della distribuzione; tuttavia, per il ragionamento fatto nella sezione precedente, ciò significherebbe che la varianza stimata attraverso le medie è molto più bassa di quella sperimentale, mentre dovrebbero essere sotto H0 al più dello stesso ordine 318 Materiale didattico statistica 3 di grandezza; in effetti nell’AOV la varianza sperimentale rappresenta il metro secondo cui giudichiamo la variabilità fra le medie. In sostanza se F è minore di 1, o addirittura molto più piccolo, ciò vuol dire che la variabilità misurata attraverso le medie degli effetti è inferiore a quella sperimentale. Questo potrebbe essere un indizio di cattiva pianificazione dell’esperimento. Oppure qualche fattore di variazione è stato erroneamente trascurato, e la varianza sperimentale é sovrastimata, e quindi s2 non é un metro adatto per misurare la variabilità fra le medie degli effetti. 10.1.3 Divergenza dalla linearità per fattori quantitativi nell’analisi della varianza. Figura da inserire box plot e introduzione generale al problema. Riprendiamo in esame la tavola di analisi della varianza per un criterio di classificazione qualitativo: TAVOLA DI SCOMPOSIZIONE DELLA DEVIANZA EMPIRICA DEVIANZA Pnj 2 j=1 i=1 (yij − M ) Pk Pnj 2 j=1 i=1 (yij − Mj ) P k 2 j=1 nj (Mj − M ) Pk TIPO g.d.l. TOTALE n−1 ENTRO I GRUPPI n−k FRA I GRUPPI k−1 Val. atteso (n − k)σ 2 P (k − 1)σ 2 + kj=1 nj ηj2 relazione fra il test F e il rapporto di correlazione (empirico: eyz ; teorico: ηyz ) Esistono casi in cui è possibile scomporre ulteriormente la devianza fra i gruppi? − Mj )2 − M )2 i=1 (yij j=1 nj (Mj Pk j=1 Pk Pnj DEVIANZA Pnj 2 j=1 i=1 (yij − M ) Pk F RAIGRU P P I ENTRO I GRUPPI TOTALE TIPO k−1 n−k n−1 g.d.l variabilità spiegabile dalla classificazione in k gruppi; è ancora scomponibile se:il criterio di classificazione è a più entrate (AV a più vie) oppure se il criterio di classificazione è numerico; variabilità residua:non riducibile ulteriormente (a meno che non vi siano variabile concomitanti, si veda l’analisi della covarianza) variabilità complessiva osservata della variabile di risposta y , non considerando l’esistenza di fattori di classificazione. 2002-3003 versione provvisoria 319 320 Materiale didattico statistica 3 Se il criterio di classificazione è numerico, con livelli zj , si può scomporre ulteriormente la devianza fra i gruppi, k X nj (Mj − M )2 , j=1 per vedere quanta parte di essa è spiegata dalla regressione lineare delle medie di yMj sui valori zj . Se M̂j è il valore stimato dalla regressione lineare: M̂j = byz zj si può dimostrare che si può operare algebricamente la scomposizione: Pk j=1 nj (Mj Fra i gruppi − M )2 = Pk j=1 nj (Mj − M̂j )2 + Divergenza dalla linearita’ Pk j=1 nj (M̂j − M )2 Regressione lineare di Y su z (la somma dei doppi prodotti è nulla per le equazioni normali); Si può applicare il teorema di Cochran (perché la somma dei gradi di libertà coincide col totale) Quindi i due termini si distribuiscono (sotto H0 ) secondo due v.c. χ2 indipendenti, con k − 2 e 1 grado di libertà. In definitiva nel caso di un fattore quantitativo Z possiamo scomporre la devianza totale in tre parti: Tavola di scomposizione della devianza empirica di y per un criterio di classificazione semplice con k livelli quantitativi zj 2002-3003 versione provvisoria 321 DEVIANZA TIPO g.d.l. Proporzione di devianza totale Pnj 2 j=1 i=1 (yij − M ) Pk Pnj 2 j=1 i=1 (yij − Mj ) P k 2 j=1 nj (Mj − M̂j ) Totale n−1 1 Entro i gruppi n−k 1 − e2yz yij − Mj Divergenza dalla linearita’ k−2 e2yz Mj − M̂j Regressione lineare di y su z 1 2 ryz Pk Pk j=1 nj (M̂j − M )2 yij− M 2 − ryz Si può costruire il test per la verifica dell’ipotesi di linearità della regressione: F = component 2 e2yz −ryz k−2 1−e2yz n−k Figura da inserire Introdurre grafico (box plot possibilmente) Differenza fra i test di omogeneità 2 saggia l’ipotesi che le k medie non varino, contro Il test su ryz l’alternativa che varino in modo lineare rispetto a z . saggia l’ipotesi che βyz = 0 , contro l’alternativa che βyz 6= 0 , essendo comunque i valori attesi di y funzioni lineari di Z ) Il test con e2yz saggia l’ipotesi che le k medie non varino, contro l’alternativa che varino in modo qualsiasi (anche non linearmente rispetto a z ). saggia l’ipotesi che µj = µr , contro l’alternativa che per almeno due gruppi si abbia: µj 6= µr , essendo i k valori attesi di y funzioni qualsiasi di Z ) In linea generale questi due test dovrebbero differire per quanto riguarda il potere, dal momento che si riferiscono ad alternative differenti. 2 saggia l’ipotesi che le k medie varino solo per Il test su e2yz − ryz effetto di una relazione lineare rispetto a z , contro l’alternativa che varino in modo non lineare. M̂j − M 322 Materiale didattico statistica 3 Per esempio, supponendo l’esistenza di una relazione polinomiale di grado k − 1 dei valori attesi di y rispetto a Z . E(yi ) = k−1 X βj zij : j=0 saggia l’ipotesi che i k − 2 coefficienti dei termini di grado 2o e superiore siano nulli, H0 : β2 = β3 = . . . = βk−1 = 0; β0 , β1 qualsiasi ossia l’ipotesi che la relazione sia lineare, contro l’alternativa che almeno un coefficiente sia diverso da zero, ossia che la relazione sia curvilinea. 10.2 Analisi della varianza a due vie Analisi della varianza per due criteri di classificazione qualitativi: Elementi del modello: yijk = µij + εijk ; assunzioni su ε Modello per µij : P ARAMETRI Media Riga i (fattore A) i = 1, . . . , r µi. med med Media Colonna j (fattore B) j = 1, . . . , c µ.j med med η λ ν ε Media generale µ media ponderata delle rc medie µij . . . separabilità degli effetti; definizione degli effetti di riga e di colonna: 2002-3003 versione provvisoria 323 effetto generale µ (un parametro) effetto Riga (fattore A) αi = µi. − µ i = 1, . . . , r effetto Colonna (fattore B) βj = µ.j − µ j = 1, . . . , c Modello additivo: yijk = µ + αi + βj + εijk; Discussione su additività: esempio con una tavola 2x2 15 20 22 ??? interazioni. effetto interazione AxB γ ij = µij − µi. − µ.j + µ i = 1, . . . , r; j = 1, . . . , c significato delle interazioni Le interazioni possono essere viste come deviazioni dal modello additivo. oppure differenze fra gli effetti di riga in corrispondenza dei diversi livelli di colonna Effetti moltiplicativi per variabili quantitative esempio con le variabili indicatrici interpretazione degli effetti dei fattori in presenza di interazione: effetti medi e non parziali 324 Materiale didattico statistica 3 ESEMPI: B1 B2 Marg. A1 12 8 100 A2 6 14 100 Marg. 9 11 10 Discussione sul numero di parametri indipendenti Impostazione del modello lineare generale Figura da inserire ALTRO MATERIALE ESEMPI E GRAFICI (mathematica) (SU INTERAZIONI COME EFFETTO MOLTIPLICATIVO: E [y] = A + bx1 + cx2 + dx1 x2 ) Influenza della ripartizione delle n osservazioni nelle r × c celle sull’analisi Possibili configurazioni delle ampiezze campionarie: (corrispondono a configurazioni differenti della matrice del disegno Xn×(rc) ) nij proporzionali: ni. n.j nij = n Caso bilanciato; in particolare: nij uguali: nij = m Si possono usare pesi uguali per la definizione degli effetti; • con una sola osservazione per casella (m = 1) non sarà possibile stimare nel modo ordinario la varianza σ 2 senza fare opportune ipotesi sulle interazioni γ ij . • con nij qualsiasi (frequenze non proporzionali) • In questo caso Gli stimatori degli effetti di riga e di colonna risultano non ortogonali. 2002-3003 versione provvisoria 325 • problema della scelta dei pesi per la definizione degli effetti riga e di colonna; • Problemi per la stima degli effetti; • Problemi per la scomposizione della devianza e per i test. scomposizione della devianza empirica Analisi della varianza per due criteri di classificazione qualitativi: Si scompone facilmente la devianza totale: r X c X m X (yijk − M )2 = i=1 j=1 k=1 Aggiungendo e sottraendo Mij , Mi. , M.j ed arrangiando opportunamente i termini: r X c X m X [(yijk −Mij )+(Mij −Mi. −M.j +M )+(Mi. −M )+(M.j −M )]2 = i=1 j=1 k=1 r X c X m X 2 (yijk − Mij ) + m (Mij − Mi. − M.j + M )2 + i=1 j=1 i=1 j=1 k=1 +mc r X c X r X i=1 2 (Mi. − M ) + mr c X (M.j − M )2 j=1 I doppi prodotti (nel caso bilanciato) sono tutti nulli. 326 Materiale didattico statistica 3 TAVOLA DI SCOMPOSIZIONE DELLA DEVIANZA EMPIRICA per due criteri di classificazione qualitativi con: nij = m; n = rcm DEVIANZA Pc Pm (yijk − M )2 Pri=1Pcj=1Pmk=1 (yijk − Mij )2 Pr i=1Pc j=1 k=1 m i=1 j=1 (Mij − Mi. − M.j + M )2 P mc ri=1 (Mi. − M )2 P mr cj=1 (M.j − M )2 Pr fonte di variab. g.d.l. totale rcm − 1 entro i gruppi rc × (m − 1) interazioni (r − 1) × (c − 1) righe r−1 ( colonne c−1 ( (r − 1) × 2002-3003 versione provvisoria 327 Cenno alle formule semplificate per il calcolo delle devianze La devianza totale è stata scomposta con: DT=DE+DI+DR+DC Posto: s2 = DE/gdl(DE) è immediato ottenere i tre test (nel caso bilanciato, e quindi ortogonale (rivedere, se è il caso)) per la verifica delle ipotesi riguardanti: Le interazioni: DI gdl(DI)s2 Gli effetti di riga: DR gdl(DR)s2 Gli effetti di colonna: DC gdl(DC)s2 Si distribuiscono sotto la corrispondente ipotesi nulla come delle F con gli opportuni gradi di libertà Significato dei test se le interazioni sono significativamente diverse da zero Analisi della varianza a due vie costruzione della matrice X per il caso con frequenze uguali dimostrazione della ortogonalità Figura da inserire Tavola della matrice X NELL’ AOV a 2 VIE Orizzontale effettuando il prodotto XT X si ottiene una matrice (simmetrica) in 16 blocchi (4 gruppi di parametri x 4 gruppi di parametri); riferendoci ancora solo al caso di numerosità uguale m nelle rc caselle: n = mrc µ α β γ (1) (r − 1) (c − 1) (r − 1)(c − 1) XT X = n 0 0 0 µ (1) 0 A 0 0 α (r − 1) 0 0 B 0 β (c − 1) 0 0 0 C γ (r − 1)(c − 1) 328 Materiale didattico statistica 3 T X X= µ α β γ (1) (r − 1) (c − 1) (r − 1)(c − 1) n 0 0 0 0 A 0 0 0 0 0 0 B 0 0 C I quattro gruppi di parametri sono ortogonali Risultano ortogonali anche se le frequenze sono proporzionali nij = ni. n.j /n Se le frequenze non sono proporzionali non sarà possibile stimare in modo ortogonale gli effetti di riga e di colonna (cambierebbero anche le stime di un gruppo di parametri di effetti in funzione dei valori dell’altro gruppo di parametri) 2mc mc mc 2mc mc Ar−1,r−1 = ... 2mc 2mr mr mr 2mr mr Bc−1,c−1 = ... 2mr C = (Omettere); ˆ a = Mi. − M alf i ˆ betaj = M.j − M µ̂ = M j = 1, . . . , c i = 1, . . . , r effetto interazione A × γ̂ij = Mij − Mi. − M.j + M i = 1, . . . , r; j = 1, . . . , c B effetto Colonna (fattore B) effetto Riga (fattore A) effetto generale Per cui è immediato vedere che (nel caso di frequenze uguali nij = m) si hanno i seguenti stimatori: Per stimare i parametri conviene partire dalle definizioni dei parametri e dei vincoli. Infatti è ovvio che, nel modello completo con rc parametri, si ha: µ̂ij = Mij 2002-3003 versione provvisoria 329 330 10.2.1 Materiale didattico statistica 3 Analisi della varianza a due vie: altre problematiche Disegni non bilanciati caso in cui nij non sono proporzionali: • la situazione è tipica di studi osservazionali, o indagini esplorative; • qualche nij può anche essere nullo; • per esempio anche in situazioni sperimentali se l’esperimento associato a determinate combinazioni di fattori non può essere condotto a termine. • Le stime degli effetti interazioni e del residuo sono ortogonali e sono anche ortogonali rispetto alle stime degli altri effetti (scelto un opportuno sistema di pesi). • Le stime degli effetti di riga non sono comunque ortogonali rispetto alle stime degli effetti di colonna; • (la matrice XT Xche si ottiene impostando l’opportuna matrice X(n × rc) di variabili indicatrici, non è diagonale a blocchi. Non è possibile scomporre la devianza nel modo visto per i piani bilanciati Per stimare i parametri e per effettuare test si può ricorrere alla teoria generale sui modelli lineari: Si stimano i parametri e la devianza residua nel modo ordinario dal modello con tutti i parametri; Si stimano le porzioni di devianza attribuibili ai vari gruppi di parametri (ed eventualmente si verificano delle ipotesi nidificate), in sequenza: basta calcolare le stime dei parametri del modello imponendo gli opportuni vincoli, partendo dal gruppo delle interazioni, e dopo gli effetti riga o colonna (procedura stepwise) L’ordine di esecuzione della procedura per gli effetti riga e colonna determina due tavole di scomposizione della devianza differenti e stime differenti dei parametri (data la non ortogonalità) Figura da inserire ESEMPIO 2002-3003 versione provvisoria 331 Disegni bilanciati: una sola osservazione per casella (m = 1) Se m = 1 non sarà possibile stimare nel modo ordinario la varianza σ 2 senza fare opportune ipotesi sulle interazioni γ ij . Infatti non vi sono gradi di libertà per la stima della varianza σ 2 della componente accidentale: devianza entro i gruppi = c X m r X X (yijk − Mij )2 = 0 i=1 j=1 k=1 (perchéyijk = Mij ) gradi di libertà = rc × (m − 1) = 0 Vi sono essenzialmente due possibilità (valide anche per modelli a più vie): 1. Si assume γ ij = 0, ossia che il modello sia additivo, e si stima la varianza attraverso: s2I = r X c X (Mij − Mi. − M.j + M )2 /((r − 1)(c − 1)); i=1 j=1 E(s2I ) r X c X =σ + γ 2ij /((r−1)×(c−1)) = σ 2 se si assume : γ ij = 0 2 i=1 j=1 (si riveda la scomposizione della devianza per il caso bilanciato) 2. Oppure si possono fare delle assunzioni sulle interazioni, in modo che le interazioni non abbiano (r-1)(c-1) gradi di libertà, ma dipendano da un numero inferiore di parametri: γ ij = gij (α, β, θ), essendo θ un vettore di s < (r − 1)(c − 1). Il modello in generale sarà non lineare nei parametri Modelli moltiplicativi per le interazioni In effetti è opportuno che s sia piccolo in modo da lasciare un numero di gradi di libertà sufficiente per il residuo In particolare (Tukey): γ ij = θαi βj , 332 Materiale didattico statistica 3 L’ipotesi moltiplicativa è la più semplice, e si dimostra che, sebbene il modello sia non lineare, si giunge ad una scomposizione additiva conveniente che attribuisce a θ un grado di libertà e (r −1)(c−1)−1 gradi di libertà per la stima della varianza. La validità delle ipotesi restrittive sulle interazioni può essere giudicata anche attraverso un’opportuna analisi dei residui. 10.2.2 Analisi della varianza a più vie Analisi della varianza a più vie interazioni di ordine superiore al primo Esempio con l’analisi della varianza per una classificazione completa a 3 vie (fattori A,B e C): AC BC ABC yijhk = µ + αi + βj + χh + γ AB ij + γ ih + γ jh + γ ijh + εijhk; µ+ +αi + βj + χh + yijhk effetto generale effetti dei diversi livelli dei tre fattori AC BC +γ AB ij + γ ih + γ jh + interazioni fra le cop= pie di fattori (del primo ordine) +γ ABC ijh + interazioni del secondo ordine +εijhk componente accidentale Nel caso bilanciato l’analisi è simile a quella a due vie. Piani 2k : Piani fattoriali completi e incompleti si riveda in caso l’introduzione ai modelli lineari, con gli esempi relativi) Mi dispiace! capitolo ancora da fare Blocchi randomizzati; Quadrati latini Mi dispiace! capitolo ancora da fare 2002-3003 versione provvisoria 10.2.3 333 Analisi della varianza con variabili concomitanti: L’analisi della covarianza Situazioni con variabili quantitative e qualitative (rivedere introduzione ai mod.lineari) variabili concomitanti Riduzione della devianza residua. confronto fra k relazioni di regressione (lineare) Introduzione del problema in generale Interessi particolari: Verificare la significatività degli effetti di uno o più fattori, eliminando l’influenza di variabili concomitanti (con riduzione della devianza residua) Verificare se l’influenza delle variabili quantitative è la stessa in tutti i gruppi: confronto fra coeffiecienti di regressione lineare. Assunzioni per l’analisi della covarianza semplificata l’ipotesi di parallelismo l’analisi della covarianza completa l’ipotesi di linearità della relazione fra le medie delle variabili. Matrice del disegno sperimentale per l’analisi della covarianza con: un fattore qualitativo a k livelli; nj osservazioni per ogni trattamento o gruppo una variabile concomitante quantitativa Z, misurata come scarto dalla media del gruppo j: nj X zij = 0; j = 1, 2, . . . , k i=1 caso semplificato (rette parallele in tutti i gruppi) in pratica si ipotizza assenza di interazione fra i due fattori: 334 Materiale didattico statistica 3 parametri da 1 a k αj termine costante della regressione nel gruppo j; j = 1, 2, . . . k. parametro (k + 1)o β pendenza comune alle k rette Il vettore dei parametri è dato da: θ T = {α1 , α2 , . . . , αk , β} La matrice X (nell’impostazione a rango pieno) ha n righe e k +1 colonne: i RispostaosservataY 1 y1,1 1 0 ... ... ... ... ... n1 yn1,1 1 0 ... y1,2 0 1 ... ... 0 ... ... yn2,2 0 1 ... ... ... ... yi,j 0 0 ... ... ... ... ... y1,k 0 0 ... ... 0 0 ... ynk,k 0 0 ... n1 + n2 ... n1 + . . . + nj n1 + . . . + nk α1 cost.gruppo1 α2 cost.gruppo2 . . . αk X= 2002-3003 versione provvisoria 1 0 ... ... 1 0 0 1 0 ... 0 1 X= ... ... 0 0 ... ... 0 0 0 0 0 0 335 ... ... 0 0 z1,1 ... . . . 0 zn1,1 . . . 0 z1,2 ... 0 ... . . . 0 zn2,2 ... ... ... ... 0 zi,j ... ... ... . . . 1 z1,k ... ... ... ... 0 ... 0 0 ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... 1 ... ... 1 znk,k Risposta osservata Y= y1,1 ... yn1,1 y1,2 ... yn2,2 ... yi,j ... y1,k ... ynk,k Si vede che: n1 X X= T 0 0 0 ... 0 0 nk 0 Pk Pnj 2 0 j=1 i=1 zij 336 Materiale didattico statistica 3 X y= Pn1 i=1 yi1 ... T Pnk i=1 yik P nj j=1 i=1 yij zij Pk 1 ... k k+1 Per cui le stime di massima verosimiglianza sono: α̂j = Mj , j = 1, 2, . . . , k; Pk β̂ = b = Pnj i=1 yij zij 2 j=1 i=1 zij j=1 Pk Pnj stima della pendenza comune: β̂ = b è una media ponderata dei β̂j dei singoli gruppi. La devianza residua è: R(θ̂) = nj k X X ∗ 2 (yij −Mj −b zij ) = j=1 i=1 = nj k X X j=1 i=1 nj k X X 2 (yij −Mj ) −b j=1 i=1 2 (yij − Mj ) − [ nj k X X nj k X X 2 zij j=1 i=1 2 (yij − Mj )zij ] / j=1 i=1 2 nj k X X 2 zij = j=1 i=1 =DevInt(y) − [Codev.Int(ZY )]2 /DevInt(Z) (Riduzione di devianza residua, rispetto alla AOV, dovuta al fattore concomitante) Se l’ipotesi nulla impone k-1 vincoli: H0 : α1 = α2 = . . . = αk (= α) Il modo più semplice di procedere è quello generale di stimare i parametri sotto H0 , e quindi sottrarre dalla devianza residua sotto H0 quella residua non vincolata: R(θ̂0 ) = DevT ot(y) − [Codev.T ot(ZY )]2 /DevT ot(Z) R(θ̂0 ) è ricavata semplicemente dalla regressione di y su Z considerando i k gruppi come un unico campione. Si tenga presente che in questo caso vanno considerati gli scarti di Z dalla propria media generale, e non dalle medie dei singoli gruppi. 2002-3003 versione provvisoria 337 Per saggiare l’ipotesi si applica la tecnica generale dei modelli lineari: F = R(θ̂0 )−R(θ̂) k−1 R(θ̂) n−k−1 Spiegare l’ipotesi in termini di differenza fra medie corrette Tavola di scomposizione della di y nel caso di un fattore concomitante Z con pendenza uguale nei k gruppi: DEVIANZA DI Y SPIEGATA DALLA REGRESSIONE tipo SU Z g.d.l. DevInt(y) Codev.T ot(ZY )]2 DevT ot(Z) Codev.Int(ZY )]2 DevInt(Z) DevFraGruppi(y) (2)-(4) DevTot(y) totale n−2 entro i gruppi n−k−1 fra i gruppi k−1 La tecnica, in particolare nel caso di regressioni con pendenze uguali entro le caselle, è generalizzabile al caso di un modello: Y = Xθ + Zβ + ε ove le colonne di Z sono costituite da s variabili concomitanti e la matrice X (anche di rango non pieno) è la matrice di indicatori associata ad una classificazione anche a più vie. Caso generale: k coefficienti di regressione distinti La matrice X sarà composta da 2k colonne, di cui le prime k sono come prima costituite dagli indicatori di appartenenza ai gruppi: 338 Materiale didattico statistica 3 X1 = 1 0 ... ... ... 0 ... 1 0 0 ... ... ... ... ... ... 0 0 ... ... ... ... ... ... 0 0 ... 1 ... 0 ... ... ... ... ... ... 0 0 ... 0 ... 1 0 0 0 0 ... ... 0 0 ... ... ... 1 Occorre ora affiancare altre k colonne: z1,1 ... zn1,1 ... X2 = 0 ... 0 ... 0 ... 0... ... ... ... ... ... 0... ... ... ... ... zij ... ... ... ... ... ... ... 0 ... ... ... ... 0 ... 0 ... 0 ... 0 ... zn1,k ... znk,k dato che ora il vettore di 2k parametri è: θ T = α1 , . . . , αj , . . . , αk, β1 , . . . , βj , . . . , βk la matrice X è costituita dalle colonne di X1 e X2 affiancate Ipotesi di interesse: H0 : β1 = . . . = βj = . . . = βk ; rette di regressione parallele nei k gruppi. H0 : β1 = . . . = βj = . . . = βk ; α1 = . . . = α = . . . = αk rette di regressione uguali nei k gruppi. E’ possibile (ed è più semplice) procedere per passaggi successivi attraverso modelli nidificati (l’analisi non è ortogonale): 2002-3003 versione provvisoria 339 analisidellacovarianza F onte fonte totale DevT ot(y) Pnj 2 j=1 i=1 (yij − aj − bj zij ) residuo delle k regressioni entro i gruppi (pendenze diverse) Pk residuo analisi semplificata (pendenze uguali) Pk j=1 Fra i k gruppi (k medie aggiust.) 10.3 i=1 (yij − a∗j − b∗ zij )2 n−1 Res1 Pk j=1 Pnj i=1 (yij n − 2k Res2 n − k − 1 Res2 − Res1 Differenze fra le k pendenze residuo regressione unica (trascurando il fattore qualitativo) Pnj g.d.l. − a∗ − b∗∗ zij )2 Res3 Res3 − Res2 k−1 n−2 k−1 Il problema dei confronti multipli nell’analisi della varianza Affrontiamo adesso il problema dell’analisi ulteriore delle medie dei campioni, nel caso in cui l’ipotesi di omogeneità sia stata rifiutata. Resta inteso che nel caso in cui il test F risulti non significativo, poco altro potrà essere detto sull’esperimento, se non uno studio più approfondito relativo alla validità delle assunzioni di base. Se invece F è risultato significativo l’ipotesi di omogeneità va rifiutata; Possiamo indagare ulteriormente sull’eterogeneità dimostrata dalle medie dei gruppi? Ci possiamo porre alcune domande: • A quali medie è dovuto principalmente l’eterogeneità? • Alcune di queste medie possono essere comunque considerate simili? 340 Materiale didattico statistica 3 • E’ possibile dire qualcosa su particolari confronti fra combinazioni di medie? In effetti,con riferimento all’ultimo punto, possiamo effettuare diversi tipi di confronti fra medie; qui cito solo i principali: Differenze fra medie: µj − µs Contrasti lineari generali: ψ= k X c j µj , j=1 con k X cj = 0. j=1 Quindi un contrasto lineare non è altro che una combinazione lineare di medie con coefficienti a somma nulla. Di seguito sono riportati alcuni esempi di contrasti lineari: Contrasto Valori dei coefficienti µj − µs cj = 1; cs = −1 (µ1 + µ2 )/2 − (µ3 + µ4 + µ5 )/3 Pk−1 j=1 Confronto fra gli effetti medi di due campioni Confronto fra gli effetti medi di due gruppi di c1 = 1/2; c2 = 1/2 campioni 1 1 1 c3 = − ; c4 = − ; c5 = − 3 3 3 µj /(k − 1) − µk c1 = c2 = . . . ck−1 10.3.1 Tipo di confronto Confronto di k − 1 trattamenti, presi global= 1/(k−1)c −1 un gruppo k = con mente, di controllo (il k-esimo) Confronti a priori e a posteriori In effetti, dopo che il test F ha manifestato evidenza empirica contraria all’ipotesi di omogeneità, si potrebbe pensare di impiegare un semplice test t sulle coppie di medie stimate Mj , per vedere quali sono significativamente diverse; tuttavia questa non è una procedura 2002-3003 versione provvisoria 341 corretta, in quanto non tiene conto del fatto che molto probabilmente le medie da mettere a confronto verranno scelte dopo avere esaminato le k medie; inoltre questa procedura non garantisce il livello di significatività nominale nel caso si mettano a confronto più coppie di medie: una cosa è confrontare due medie, un’altra cosa è confrontare due medie scelte fra k medie osservate. Il livello di significatività sarà in generale ?????????????????????????????????????????????????? • se i confronti sono pianificati (a priori), si può usare il test t, usando come stima della varianza quella con più gradi di libertà dell’AOV. • se invece i confronti sono suggeriti dai dati (a posteriori), non si può impiegare il test t Alterazione del livello di significatività effettivo in caso di m test indipendenti effettuati sugli stessi dati: α∗ = 1 − (1 − α)m test t su tutte le coppie. i test da condurre sono in teoria k(k − 1)/2 (sebbene non tutti indipendenti. Inserire materiale presente solo su lucido e scrivere meglio Fra i metodi per superare il problema dei confronti multipli a posteriori, presento i due più noti ed utili nelle applicazioni: • Il metodo di Tukey (importante per il confronto fra coppie di medie) • Il metodo di Scheffè, adatto a contrasti lineari generali, importante per la sua relazione col test F. Altre tecniche particolari per effettuare test (o comunque per fare inferenza) su confronti selezionati a posteriori: • Test di Dunnett (specifico per il confronto rispetto ad un gruppo di controllo) • Correzione di Bonferroni per il livello di significatività • Test di Duncan 342 Materiale didattico statistica 3 Metodo di Tukey Per ipotesi se è vera H0 le medie campionaria hanno tutte la stessa distribuzione: Mj (N (µ; σ 2 /m); mentre se è vera H1 : Mj (N (µj ; σ 2 /m); m: ampiezza comune dei k campioni (n = km) Definiamo prima una nuova variabile casuale: il range studentizzato . Sia X(i) la variabile casuale corrispondente all’osservazione di posto i-esimo in un campione casuale di ampiezza r estratto da una N (µ, σ 2 ). Sia s2 una stima corretta di σ 2 (stimata indipendentemente dal campione) con ν gradi di libertà. Il range studentizzato è la variabile casuale definita da: Range studentizzato range studentizzato Zr,ν = X(r) − X(1) s Questa variabile casuale (i cui percentili sono tabulati) ha una distribuzione che chiaramente dipende da: r: ampiezza campionaria; ν: gradi di libertà della stima della varianza X −X ma non dipende invece dai parametri µ, σ 2 (dato che (r) s (1) è una quantità pivotale: infatti la differenza X(r) − X(1) chiaramente non dipende da µ ed il rapporto poi con s non dipende da σ 2 Figura da inserire Inserire tavola con i percentili (software di calcolo?); vedere Biometria tables • Se indichiamo con qα,r,ν il valore critico di tale distribuzione (i cui percentili sono tabulati) si ha chiaramente: Prob Zr,ν = [X(r) − X(1) ]/s(qα,r,ν = 1 − α ma anche: Prob max |Xi − Xj |(sqα,r,ν = 1 − α i6=j 2002-3003 versione provvisoria Prob \ 343 [|Xi − Xj |(sqα,r,ν ] =1−α i6=j E’ possibile adesso costruire degli intervalli di confidenza per le differenze fra medie (a posteriori), poiché sono stati introdotti tutti gli strumenti tecnici necessari. Torniamo alle medie dei k campioni: Mj (N (µi ; σ 2 /m). Si ha che le v.c. Mj − µi sono distribuite secondo una N (0; σ 2 /m); possiamo quindi costruire un intervallo mediante i punti critici del range studentizzato, simultaneamente per tutte le differenze fra medie: √ Prob |(Mi − µi ) − (Mj − µj )|(sqα,r,ν / m] = 1 − α Per cui l’intervallo di confidenza per una generica differenza è: √ √ (Mi − Mj ) − sqα,r,ν / m(µi − µj ((Mi − Mj ) + sqα,r,ν / m. Intervallo di confidenza di Tukey per una generica differenza di medie, ad un livello di probabilità fiduciaria 1 − α; (r campioni di ampiezza m) Pertanto potremo dire che sono significativamente diverse (ad un livello di significatività α) le medie per le quali tali intervalli (costruiti con un livello di probabilità fiduciaria 1 − α) non contengono lo zero. In tal modo è possibile costruire per un particolare esperimento, dati m, k e α, la LSD (Least Significant Difference): se ad esempio abbiamo 5 campioni di ampiezza 10, ad un livello di significatività del 5 Il metodo è generalizzabile a contrasti lineari qualsiasi, sebbene meno efficiente: ψ= k X j=1 c j µj , con k X j=1 cj = 0 344 Materiale didattico statistica 3 la stima di ψ dal campione è: ψ̂ = k X c j Mj ; j=1 |ψ̂ − ψ| = | k X cj (Mj − µj )|(1/2 j=1 k X |cj | max |(Mj − µj ) − (Mi − µi )| j=1 Per cui si ha, ricordando che: √ Prob max |(Mi − µi ) − (Mj − µj )|(sqα,r,ν / m] = 1 − α k X √ Prob ||ψ̂ − ψ| = 1/2 |cj |sqα,r,ν / m = 1 − α j=1 ed infine l’intervallo per ψ: ψ̂ − 1/2 k X k X √ √ |cj |sqα,r,ν / m |cj |sqα,r,ν / m ≤ ψ(ψ̂ + 1/2 j=1 j=1 Intervalli di confidenza simultanei: Metodo di Scheffè: Con la tecnica di Scheffè si adotta un approccio differente, basato non sui confronti in coppia, ma direttamente su generici contrasti lineari di tipo qualsiasi; si otterrà anche una relazione di tale tecnica con il test F per la verifica dell’ipotesi di omogeneità delle medie. Si è già visto che si può costruire una regione di confidenza per q combinazioni lineari nei parametri del modello lineare, in modo che sia 1 − α la probabilità fiduciaria: n o T T −1 T −1 2 Prob (Cβ − Cb) ([C(X X) C ]) (Cβ − Cb) ≤ qs Fα,q,n−k = 1−α Si sa anche che: T T −1 (Cβ−Cb) ([C(X X) T −1 C ]) [zT (Cβ − Cb)]2 (Cβ−Cb) = max T z z C(XT X)−1 C T z Figura da inserire dimostrazione sui lucidi scritti a mano Rivedere l’argomento per cui sostituendo nell’espressione di prima: P robmax z [zT (Cβ − Cb)]2 (qs2 Fα,q,n−k = 1 − α zT C(XT X)−1 CT z 2002-3003 versione provvisoria 345 P rob[zT (Cβ − Cb)]2 (zT C(XT X)−1 CT zqs2 Fα,q,n−k ∀z = 1 − α Notiamo anche che V (zT Cb) = σ 2 zT C(XT X)−1 CT z; e quindi una stima corretta della varianza di zT (Cb) si ha sostituendo nell’espressione precedente a σ 2 la sua stima corretta s2 V̂ (zT (Cb)) = s2 zT C(XT X)−1 CT z; Per cui si ha: P rob[zT (Cβ − Cb)]2 (V̂ (zT Cb)qFα,q,n−k ∀z = 1 − α Ed infine l’intervallo: q zT Cb( V̂ (zT Cb)qFα,q,n−k conterrà zT Cβ con probabilità 1 − α, per qualsiasi valore zT Applicando ora questo procedimento ai contrasti lineari nell’analisi della varianza si ha: ψ= k X cj µj , con k X j=1 cj = 0 j=1 Per stimare ψ dal campione si ha: ψ̂ = k X c j Mj ; j=1 per la stima della sua varianza: V̂ (ψ̂) = s 2 k X c2j /nj ; j=1 (si può ricavare per via diretta oppure dall’espressione generale di V (zT Cb)); In definitiva l’intervallo per un contrasto lineare è dato da: q ψ̂ ∓ V̂ (ψ̂)qFα,q,n−k Nell’analisi della varianza ad una via: q = k − 1. 346 Materiale didattico statistica 3 Relazione fra gli intervalli di confidenza di Scheffè e il test F dell’AOV: Per il modo in cui è stato costruito è evidente che se l’intervallo non contiene lo zero ciò equivale a rifiutare l’ipotesi nulla: H0 : ψ = 0 Riconsideriamo il test F sull’omogeneità delle k medie: E’equivalente a saggiare l’ipotesi che k-1 contrasti lineari (indipendenti) siano nulli. Questo implica che tutti i contrasti siano nulli, dato che ogni contrasto è combinazione lineare dei primi k-1; Quindi il test F saggia l’ipotesi che qualsiasi contrasto lineare sia nullo; Quindi il test F risulta significativo se e solo se esiste un contrasto lineare significativamente diverso da zero, ossia se esiste un contrasto lineare il cui intervallo di confidenza non copra lo zero Ovviamente se F risulta significativo, non è detto che il contrasto lineare significativo sia interessante o utile in generale. Tuttavia gli intervalli di Scheffè, sebbene forniscano dei test corrispondenti piuttosto conservativi (perché costruiti su tutti i possibili contrasti lineari, e non su uno particolare), forniscono certamente risultati coerenti col test F. Altre tecniche: tecniche più potenti per alternative particolari, uso di altri particolari range studentizzati \begin{fig} altro materiale sparso lucidi scritti a mano grafici ed esempi Lucidi antichi RIPORTARE LA TAVOLA SUL CONFRONTO FRA GLI INTERVALLI (LUCIDI A MANO) \end{fig} 2002-3003 versione provvisoria 10.3.2 347 L’ipotesi di omogeneità delle varianze. Il test di Bartlett saggiare l’ipotesi che le varianze di k popolazioni normali (anche con medie differenti) non siano diverse. costruzione del rapporto fra le verosimiglianze. correzione delle stime delle varianze. correzione del test (per migliorare l’approssimazione alla distribuzione asintotica). \begin{fig} ALTRO MATERIALE lucidi scritti a mano da Statistica Matematica \end{fig} 10.3.3 Il Potere del test F: distribuzioni non centrali. Per potere valutare il potere del test F per particolari ipotesi alternative, o meglio la funzione del potere al variare delle alternative, occorre fare ricorso alle distribuzioni non centrali. Distribuzione χ2 non centrale. La distribuzione χ2ν (centrale) è definita come la distribuzione della somma di ν quadrati di variabili normali indipendenti standardizzate, ossia: con valore atteso nullo ed a varianza unitaria. La distribuzione χ2 non centrale è invece definita come la distribuzione della somma di quadrati di variabili normali indipendenti, sempre a varianza unitaria ma con media qualsiasi. In pratica se Xi (N (µi , 1) allora la χ2 non centrale è definita da: χ2 (ν, λ) = n X X2i i=1 i due parametri sono: ν: gradi di libertà; P λ = ni=1 µ2i = parametro di non centralità 348 Materiale didattico statistica 3 Si può dimostrare che: χ2 (ν, λ) = χ2 (ν − 1, 0) + χ2 (1, λ) I primi due momenti sono: E[χ2 (ν, λ)] = ν + λ V [χ2 (ν, λ)] = 2(ν + 2λ) Distribuzione F non centrale. Una F non centrale con ν1 e ν2 gradi di libertà e parametro di non centralità λ, è definita come la distribuzione del rapporto fra una variabile casuale χ2 non centrale con ν1 gradi di libertà e parametro di non centralità λ, ed una χ2 centrale con ν2 gradi di libertà (divisi per i rispettivi gradi di libertà): F (ν1 , ν2 , λ) = χ2 [ν1 , λ]/ν1 χ2 [ν2 , 0]/ν2 Calcolo del potere del test Applicazioni all’analisi della varianza \begin{fig} Altro materiale Esempi e grafici Noncentral1.nb) Noncentral1_lucidi.nb) \end{fig} • Densità di una Chi-quadro non centrale con 1 grado di libertà e parametro di non centralità 0,2 e 5: • Densità di una Chi-quadro non centrale con 2 grado di libertà e parametro di non centralità 0,2 e 5: • Densità di una Chi-quadro non centrale con 3 gradi di libertà e parametro di non centralità 0,2 e 5: 2002-3003 versione provvisoria 349 • Densità di una Chi-quadro non centrale con 20 gradi di libertà e parametro di non centralità 0,2 e 5: • Densità di una F non centrale con 3 e 20 gradi di libertà e parametro di non centralità 0,2 e 5: Potere del test F Altro materiale Esempi e grafici Plot[{1-CDF[f[2,20,m],f95a],1-CDF[f[2,50,m],f95b]},{m,0,10},PlotPoints->15, PlotRange->{0,1},PlotStyle->{RGBColor[1,0,0],RGBColor[0,1,0],RGBColor[0,0,1]}] ContourPlot[1-CDF[f[2,20,10 e1^2+5 e2^2],f95a],{e1,-2,2},{e2,-2,2},PlotPoints->15 PlotRange->{0,1}] f0[\veca_,\vecb_]:= FRatioDistribution[\veca,\vecb] f95=Quantile[f0[4,16],0.95] 3.006917279924345 Power2=Table[1-CDF[nc[4,v2,10], Quantile[f0[4,v2],0.95]],{v2,5,30,5}] {0.346645, 0.497816, 0.564506, 0.600651, 0.623077, 0.63828} $$ f95=Quantile[f0[4,16],0.95]; Plot[1-CDF[nc[4,16,l],f95],{l,0,10},PlotPoints->15, PlotRange->{0,1}] Noncentral1.nb) 350 Materiale didattico statistica 3 Noncentral1_lucidi.nb) Esempio con: k=3;n1=10;n2=5,n3=8 Plot[1-CDF[f0[(4+l)^2/(4+2 l),16],(4/(4+l)) f95] ,{l,0,10},PlotPoints->15,PlotRange->{0,1}] Approssimazione di Patnaik Powerexact=Table[1-CDF[nc[4,16,l],f95],{l,0,15}] {0.05, 0.0911362, 0.138647, 0.190846, 0.246121, 0.303001, 0.360196, 0.41662, 0.471387, 0.52381, 0.573383, 0.619761, 0.662734, 0.702213, 0.7382, 0.770771} $$ Kendall,II,24.33 Powerappr=Table[1-CDF[f0[(4+l)^2/(4+2 l),16],(4/(4+l)) f95] ,{l,0,15}] {0.05, 0.0907828, 0.13731, 0.188238, 0.242288, 0.298216, 0.354857, 0.411159, 0.466217, 0.519281, 0.569762, 0.617224, 0.661374, 0.702045, 0.739176, 0.772798} $$ \Abs[Powerexact/Powerappr-1]*100 -13 {2.22045 10 , 0.389324, 0.973844, 1.3856, 2002-3003 versione provvisoria 351 1.58217, 1.60448, 1.50474, 1.32797, 1.10872, 0.872079, 0.635576, 0.410955, 0.205655, 0.0239555, 0.132152, 0.26231} $$ 10.4 Modelli ad effetti casuali Nella parte introduttiva sui modelli lineari e sulle caratteristiche degli elementi essenziali, abbiamo visto che il vettore β è un vettore di parametri ; in questa sezione vediamo, ma solo per i casi più elementari, che in certe situazioni si giunge ad una modellizzazione ancora di tipo lineare, ma in cui il vettore β è un vettore aleatorio,che avrà una sua distribuzione, di cui occorrerà stimare i parametri, per cui si parlerà di effetti casuali, in contrapposizione ai casi fin qui studiati di analisi della varianza a effetti fissi. Nella situazione più generale potremo fatalmente avere effetti sia fissi che casuali, e parleremo allora di modelli misti. Le parole chiave di questa sezione sono: • Modello II di AOV; • Modello a effetti casuali; • componenti della varianza In generale in un modello ad effetti casuali (soltanto casuali) il vettore delle n osservazioni è dato da: Y[n×1] = 1n θ + X[n×p] u[p×1] + ε[n×1] L’analogia col modello lineare generale è in buona parte solo formale; Nel modello lineare generale (con effetti fissi) l’interesse primario è lo studio del valore atteso di Y ; Nei modelli a effetti casuali l’interesse primario è lo studio delle componenti della varianza di Y e della media generale θ 352 Materiale didattico statistica 3 Caratteristiche essenziali degli elementi del modello: Y n elementi Vettore aleatorio osservabile; È, come sempre, la variabile di risposta di interesse θ 1 elemento Parametro incognito è l’effetto medio generale; è un parametro fisso ma incognito che in generale andrà stimato dai dati del campione; X matrice n × p Matrice di costanti note. sono, come prima, variabili non aleatorie osservate senza errori; possibilmente si tratta di una matrice di indicatori associata ad una classificazione ad una o più vie. U p elementi Vettore di variabili aleatorie non osservabili sono p variabili aleatorie che contribuiscono alla parte aleatoria di y; possono essere visti come dei coefficienti (o effetti) casuali Si dovranno fare delle ipotesi sulla natura della distribuzione di u che dipende in generale da un insieme di parametri (varianze) incogniti ε vettore n elementi Vettore aleatorio non osservabile direttamente; Al solito si faranno delle ipotesi sulla natura della distribuzione di ε che dipende in generale da un insieme di parametri incogniti Le assunzioni usuali sono: componente accidentale E(ε) = 0n , V (ε) = σε2 In ε è la componente accidentale additiva con componenti non correlati e con stessa varianza. (stesse ipotesi di prima) La varianza viene indicata con σε2 per distinguerla da quelle di u p effetti casuali E(u) = 0p momento primo perché è stato isolato l’effetto medio generale θ V (u) = Σ momento secondo σrj = 0 se r 6= j La matrice di varianza e covarianza degli effetti casuali è diagonale con elementi diagonali σj2 qualsiasi. Si può in particolare ipotizzare che queste varianze siano uguali a gruppi Cov(u, ε) = 0 2002-3003 versione provvisoria 353 gli effetti casuali non sono correlati con la componente accidentale V ar(uj ) = σj2 ; V ar(εi ) = σε2 ; Cov(uj, ur ) = 0r 6= j; Cov(εi , εl ) = 0i 6= l; Cov(εi , uj ) = 0perogni(i, j) Componenti della varianza: L’attenzione non è, come nel modello lineare a effetti fissi, sui fattori che influenzano i valori attesi di y , tramite y = componente sistematica + componente accidentale, ma sui fattori che compongono la varianza di y . Ipotizziamo che le varianze siano uguali all’interno di k gruppi di effetti, e che quindi vi siano k varianze distinte σj2 ; conseguentemente suddividiamo u[p×1] in k sottovettori ciascuno di lunghezza pj e la matrice X in k sottomatrici ciascuna di n righe P e pj colonne, essendo kj=1 pj = p. Y = 1n θ + k X Xj uj + ε j=1 E [Y] = 1n θ, ossiaE(yi ) = θ Per la varianza delle osservazioni si ha ora una diversa situazione. Infatti si vede facilmente che, con le assunzioni fatte: 0 T V [Y] = E(Y Y ) − 1n 1n θ = k X T σj2 Xj Xj + σε2 In j=1 Oltre al parametro θ, i parametri di interesse sono le k+1 varianze = 1, 2, . . . , k e σε2 ) (si assume che n(k + 1) Per questo motivo il modello viene spesso chiamato modello a componenti di varianza per l’analisi della varianza; Novità fondamentale rispetto al modello a effetti fissi: Le osservazioni sono in generale correlate (almeno a gruppi) perché la matrice V [Y] non è diagonale dato che le y sono combinazioni lineari delle stesse variabili uj Le osservazioni hanno lo stesso valore atteso Nel caso generale si cercheranno stimatori non distorti dei parametri, costituiti da forme quadratiche nelle osservazioni: (σj2 j σ̂j2 = yT Cs y. Condizioni di esistenza di stimatori non distorti (cenno) 354 Materiale didattico statistica 3 AOV a una via: effetti casuali La matrice X è la matrice di indicatori di appartenenza ai k gruppi; supponiamo le k varianze degli effetti casuali uj tutte uguali; supponiamo nj = m. yij = µ + uj + εij ; E(uj ) = 0E(εij ) = 0V ar(εi ) = σε2 ; V ar(uj ) = σu2 ; varianza dei k effetti costante Cov(uj, ur ) = 0r 6= j; Cov(εi , εl ) = 0i 6= l; Cov(εi , uj ) = 0perogni(i, j) Per quanto visto nel caso generale adesso si ha: E(yij ) = µ; V [Y] = σu2 XXT + σε2 In La matrice XXT risulta composta da k blocchi (lungo la diagonale) formati da 1m,m . Le osservazioni appartenenti ad uno stesso gruppo risultano correlate: intraclass-correlation. V ar(yij ) = σu2 + σε2 Figura da inserire controllare sotto corr(yij, ylj ) = σu2 i 6= l; σu2 + σε2 corr(yij, ylr ) = σu2 j 6= r σu2 + σε2 stima dei parametri Massima verosimiglianza: si giunge, con un procedimento non immediato, alle equazioni (modificando i denominatori ): µ̂ = M σ̂ε2 = k X m X j=1 i=1 (yij − Mj )2 /k(m − 1) 2002-3003 versione provvisoria 355 Si vedrà dopo il perché di questi denominatori σ̂ε2 + mσ̂u2 = m k X (Mj − M )2 /(k − 1), j=1 per cui: σ̂u2 = k X m(Mj − M )2 /m(k − 1) − σ̂ε2 /m j=1 (può risultare negativo) → connessione con la correlazione entro le classi. Distribuzione degli stimatori: µ̂ si distribuisce normalmente perché è combinazione lineare di un v.a. normale: µ̂ = 1Tn Y/nE(µ̂) = µ; V (µ̂) = 10n V [Y] 1n /n2 = 1Tn [σu2 XXT + σε2 In ]1n /n2 sommando tutti gli elementi e ricordando che n = km: = [σu2 m2 k + kmσε2 ]/k 2 m2 = = σu2 /k + σε2 /km µ̂(N (µ, σu2 /k + σε2 /km) Per quanto visto prima: Pk 2 j=1 m(Mj − M ) /(k − 1)mk è una stima di tale varianza. Pk Pm 2 j=1 i=1 (yij − Mj ) si distribuisce come nel modello a effetti fissi, perché gli scarti yij −Mj non dipendono né da µ né dagli effetti casuali uj . 356 k X Materiale didattico statistica 3 2 m(Mj −M ) = j=1 k X m(µ+uj +ε.j −(µ+u. +ε.. )2 = (ε.j , u. , ε.. sono medie) j=1 k X 2 m[(uj + ε.j ) − (u. + ε.. )] = j=1 k X m[zj − M (z)]2 j=1 considerando le variabili (non correlate) zj = uj + ε.j E(z) = 0; V (z) = [σu2 + σε2 /m]Ik dato che le uj e le ε sono non correlate. Data l’assunzione di normalità: P Pertanto kj=1 [zj − M (z)]2 è la somma di k quadrati di scarti di v.a. indipendenti dalla propria media aritmetica e quindi: k X m[(uj + ε.j ) − (u. + ε.. )]2 (m[σu2 + σε2 /m]χ2k−1 j=1 I due chi-quadro sono indipendenti. Quindi: E(σ̂u2 ) = E k X m(Mj − M )2 /m(k − 1) − σ̂ε2 /m = j=1 m[σ̂u2 + σε2 /m](k − 1)/[m(k − 1)]) − σε2 /m = σu2 Si può anche ricavare la varianza dello stimatore per la distribuzione si hanno solo risultati approssimati. Si possono costruire stimatori puntuali e per intervallo per varianze e rapporti di varianze. La stima σ̂u2 può risultare negativa; problemi connessi. Capitolo 11 Allontanamento dalle assunzioni di base nel modello lineare e nell’analisi della varianza. 11.1 Tipi di allontanamenti dalle assunzioni di base Studio degli effetti dell’allontanamento dalle assunzioni di base del modello lineare sugli stimatori dei parametri, sulle stime di previsione e sui test. Possibili allontanamenti dalle assunzioni di base: • Nella componente sistematica: – Per esempio: – non linearità e/o non additività – irrilevante solo nell’AOV a 1 via – esclusione di variabili rilevanti (o di componenti polinomiali importanti) – esclusione di effetti di interazione particolari – esempio: AOV a due vie con m = 1 – errore nella scala di misurazione della y e/o delle x (trasformazioni non lineari delle variabili) – (questi tipi di allontanamento hanno degli aspetti in comune) 357 358 Materiale didattico statistica 3 • nella componente accidentale: – non additività fra componente sistematica e accidentale – valore atteso non nullo (equivale alla non corretta specificazione del modello) – non normalità – esempio: errori distribuiti secondo una normale di ordine p. – oppure secondo un modello lineare generalizzato (GLM): coinvolge anche gli altri aspetti – sui momenti secondi: – eteroscedasticità – esempio: regressione ponderata; (varianze funzione dei valori attesi). – correlazione fra le componenti – esempio: dipendenza temporale; dipendenza territoriale. – in generale V (ε) 6= σ 2 In . effetti su: • proprietà stimatori • non distorsione • efficienza relativa • valori previsti • proprietà test • livello di significatività effettivo • potere del test 2002-3003 versione provvisoria 359 11.1.1 Effetti della non normalità sulla distribuzione di F 11.1.2 Effetti della non indipendenza 11.1.3 Effetti della eteroscedasticità 11.1.4 Trasformazioni 11.1.5 Finalità delle trasformazioni nel modello lineare 11.1.6 Tecniche alternative: test non parametrici e semiparametrici nella AOV 11.1.7 Test non parametrici 11.1.8 Test di permutazione 11.1.9 Analisi dei residui: Adeguatezza del modello (estensione dell’analisi per modelli di regressione più generali ). Validità del legame funzionale ipotizzato. Identificazione di eventuali fattori o variabili trascurati. Eliminazione di variabili poco importanti. identificazione di trasformazioni non lineari delle variabili, rispetto alle quali valgano le assunzioni di additività, normalità, indipendenza e omoscedasticità Identificazione di allontanamenti dalle ipotesi di base per la distribuzione della componente accidentale outlier (valore distante dalla maggioranza delle osservazioni) ? ==¿ campione eterogeneo, miscuglio di popolazioni Aspetti peculiari dell’analisi dei residui: Nella regressione: esame del legame funzionale fra la y e le X ; esame del range (eventualmente multivariato) all’interno del quale è plausibile l’ipotesi di linearità. Nell’analisi della varianza: validità delle ipotesi riguardanti l’additività di effetti; identificazione delle particolari combinazioni di livelli dei fattori che portano interazioni significative L’adeguatezza di un modello di regressione Ω0 , può essere saggiata più formalmente considerando un modello più ampio Ω1 , che fa ipotesi più generali sulla distribuzione degli errori e/o sul legame funzionale della componente sistematica; Ω1 dovrebbe includere Ω0 360 Materiale didattico statistica 3 come caso particolare, fissando alcuni parametri di Ω1 e costruendo i test relativi. ESEMPI Si può costruire una differente famiglia di modelli e saggiarne l’adeguatezza mediante criteri basati sulla log-verosimiglianza La costruzione di una qualsiasi famiglia di modelli presuppone che si abbiano delle idee precise sul tipo di allontanamento dalle assunzioni di base. Definizione generale di residuo. In generale su in un modello di regressione si ipotizza: Y = g(X, β, ε) con g(·) qualsiasi (ingloba sia il legame di y con i parametri che quello fra la componente sistematica e accidentale) allora se β ∗ è lo stimatore di massima verosimiglianza, i valori stimati di y sono: y∗ = g(X, β ∗ , ε) e quindi un residuo generale è: r soluzione delle equazioni: Y = g(X, β ∗ , r) In particolare si ha, con errori indipendenti: ri soluzione dell’equazione: yi = g(X(i) , β ∗ , ri ) Figura da inserire Esempio: Caratteristiche dei residui empirici nei modelli lineari Se si considerano i residui empirici nel modello lineare, si ha che, indicando con e il vettore dei residui empirici: e = y − Xb se il modello è correttamente specificato Y =X β + ε , i residui empirici sono allora esprimibili come: e = (y − Xb) = Xβ + ε − Xb; 2002-3003 versione provvisoria 361 e = ε + X(β − b). e quindi: Se invece in realtà vi è una generica distorsione δ, dipendente da variabili escluse, da componenti non lineari trascurate, o comunque da una errata specificazione del modello di varia natura, e quindi se: Y = Xβ + ε + δ, allora ovviamente si ha: e = ε + X(β − b) + δ. Il residuo empirico è dunque composto sostanzialmente da tre componenti (non separabili): Residuo empirico = e= componente accidentale + ε+ componente legata all’accuratezza degli stimatori + X(β − b)+ componente legata alla non corretta specificazione del modello δ Se il modello è correttamente specificato comunque il residuo è formato da due componenti: ε e X(β − b). Con queste limitazioni il residuo empirico dà informazioni su ε 362 Materiale didattico statistica 3 Se valgono le assunzioni di base: E(ε) = 0, V(ε) = σ 2 I, allora: E(e) = 0 peró, per la matrice di varianza e covarianza si ottiene: V (e) = E(eeT ) = E[(y−X(XT X)−1 XT y)(y−X(XT X)−1 XT y)T ] = = σ 2 (In − X(XT X)−1 XT ) Pertanto i residui empirici risulteranno in generale correlati e con varianza teorica differente. Se si vuole eliminare la diversa variabilità dei residui empirici si possono standardizzare gli stessi mediante gli elementi σ 2 (1 − hii ) sulla diagonale principale della matrice definita sopra. Residui standardizzati (o Residui studentizzati) hii → 0 al crescere di n ? casi particolari di matrice H riprendere esempi su carta esempio dell’AOV a una via esempio della regressione semplice grafici dei residui empirici Il modo migliore per avere informazioni sulla plausibilità delle assunzioni fatte sulla distribuzione di è quello di esaminare la distribuzione dei residui empirici ei = yˆi − yi , pur con le avvertenze fatte nei paragrafi precedenti: va ancora ricordato che la difficoltà fondamentale nel fare ipotesi sulle è che si tratta di variabili aleatorie non osservabili. In ogni caso se il modello è non distorto si ha per i residui empirici: e=ε+ X(β − b) | {z } effetto accuratezza stimatore 2002-3003 versione provvisoria 363 e quindi le informazioni su ε sono sintetizzate in e a meno dell’effetto dovuto agli stimatori X (β -b ), in generale dell’ ordine O(n−1/2 ). Per valori grandi di n tale effetto sarà trascurabile, come visto a proposito della valutazione di Ve Possiamo ottenere differenti tipi di grafici riassunti schematicamente nella tabella: 364 Materiale didattico statistica 3 ascissa ordinata impiego valore predetto: yˆi residuo: ei = yˆi − yi allontanamenti di vario tipo dalle ipotesi di base valore predetto: yˆi (residuo)2 e2i = (yˆi − yi )2 evidenzia un’eventuale presenza di eteroschedasticità (valore predetto)2 : yˆi residuo: ei = yˆi − yi serve per vedere eventualmente se è adeguata l’ipotesi di linearità regressore j: xij residuo: ei = yˆi − yi serve per vedere eventualmente se vi sono indicazioni di non linearità rispetto al regressore j-esimo regressore j: xij deleted residual: di serve per vedere eventualmente se vi sono indicazioni di non linearità rispetto al regressore j-esimo residuo al tempo i − 1: ei−1 residuo: ei evidenzia l’eventuale presenza di autocorrelazione seriale (di intervallo 1) anche non lineare normal probability plot (trasformata normale di probabilità dei residui) evidenzia l’allontanamento dalla normalità se i punti non si dispongono approssimativamente lungo una retta istogramma della distribuzione dei residui empirici, per vedere se la distribuzione dei residui è ben approssimabile da una normale (andrebbe utilizzato con un numero di residui superiore a un centinaio) 2002-3003 versione provvisoria 365 E’ intuitivo che parte di questi grafici possono essere utili anche nel caso di modelli non lineari (con errori additivi, se no occorreranno altri tipi di residui). residui allineati su poche righe Il grafico ottenuto rappresentando i residui in corrispondenza dei valori predetti è costituito dai punti: Pi : (yˆi , yˆi − yi ). Se le osservazioni yi assumono solo pochi valori distinti, diciamo s valori distinti, con s < n nel grafico residui contro valori predetti i punti si disporranno lungo s rette; infatti se abbiamo ad esempio rj osservazioni per ciascuna modalità yi , i corrispondenti rj punti Pi : (yˆi , yˆi − yi ) si disporranno lungo la retta di equazione: f (z) = z − yi Esempio Nel grafico sono riportati i residui in funzione dei valori predetti della regressione lineare multipla fra la variabile CRANIOCM(Circonferenza cranica) e altre tre variabili antropometriche. 366 Materiale didattico statistica 3 Figura 11.1: vai a indice figure I punti si dipongono lungo 12 segmenti di rette parallele, perchè i valori distinti della variabile dipendente CRANIOCM sono solo 12, come riportato nell’istogramma. 2002-3003 versione provvisoria 367 Figura 11.2: vai a indice figure esempio residui allineati su poche righe ESEMPI E GRAFICI Con allontanamenti di tipo vario esempio di pattern con punti allineati almeno un grafico per ogni situazione subsubsectionidentificazione di particolari allontanamenti approcci grafici approcci analitici __________________________________ ALTRO MATERIALE ESEMPI E GRAFICI 368 Materiale didattico statistica 3 LUCIDI SCRITTI A MANO __________________________________ 11.2 Stima dei parametri del modello lineare. Allontanamento dalle assunzioni di base:Minimi quadrati generalizzati Si supponga che gli errori seguano una distribuzione con matrice di varianza e covarianza V qualsiasi : E [ε] = 0n V (ε) = V. Per impiegare il metodo della massima verosimiglianza, ipotizzando che la distribuzione di ε sia una normale a n componenti, assumendo nota V , occorre valutare la verosimiglianza campionaria, data da: 1 L(β, σ 2 ; y) = (2π)−n/2 |V|−1/2 exp[− (y − Xβ)T V−1 (y − Xβ)] 2 Il massimo rispetto a β si ottiene minimizzando: min R(b) = (y − Xb)T V−1 (y − Xb) b con: −1 (y[n×1] − X[n×k] b[k×1] ) R(b) = (y[n×1] − X[n×k] b[k×1] )T V[n×n] = yT V−1 y − 2b0 XT V−1 y + b0 (XT V−1 X)b (Minimi quadrati generalizzati) derivando R(b) rispetto al vettore b : ∂R = −2XT V−1 y + 2(XT V−1 X)b ∂b Uguagliandole a 0 (vettore nullo): −2XT V−1 y + 2(XT V−1 X)b = 0; (XT V−1 X)b = XT V−1 y; b = (XT V−1 X)−1 XT V−1 y 2002-3003 versione provvisoria 369 soluzione unica avendo supposto X di rango k (e quindi b è ancora una combinazione lineare delle y ) Le condizioni del secondo ordine, riguardanti l’Hessiano, sono sempre soddisfatte, perchè: ∂ 2R = 2(XT V−1 X) ∂b∂bT definita positiva Le più comuni applicazioni di questo approccio si hanno nei: Modelli con errori eteroscedastici e nei Modelli con errori correlati Si puó ancora mostrare, con passaggi analoghi a quelli visti per i minimi quadrati ordinari , che valgono le seguenti relazioni: b = (XT V−1 X)−1 XT V−1 y = = (XT V−1 X)−1 XT V−1 (Xβ + ε) = = β + (XT V−1 X)−1 XT V−1 ε) Per la speranza matematica di b si ha: E(b) = β (avendo assunto E(ε) = 0n ) Per la matrice di varianza e covarianza di b si ha V (b) = (XT V−1 X)−1 XT V−1 V [Y] V−1 X(XT V−1 X)−1 = = (XT V−1 X)−1 avendo assunto stavolta: Σ(ε) = V Per i residui empirici si ha: R(b) = (y − Xb)T V−1 (y − Xb) = = εT V−1 (In − X(XT V−1 X)−1 XT V−1 )ε e la matrice (In − X(XT V−1 X)−1 XT V−1 ) risulta ancora idempotente. 370 11.2.1 Materiale didattico statistica 3 Minimi quadrati con matrice di varianze e covarianze qualsiasi Se V è nota , non vi sono particolari problemi numerici. Si può trovare una matrice Q tale che: QT Q = V−1 , e poi posto Z = QX e W = Qy si ritorna ai Minimi Quadrati ordinari: b = (Z 0 Z)−1 Z 0 W = (XT Q0 QX)−1 XT Q0 Qy; poichè: y = Xβ + ε, e premoltiplicando per Q : Qy = QXβ + Qε W = Zβ + Qε Σ[Qε] = I Minimi quadrati ponderati: Vii = σi2 eterogeneità Vij = 0(i 6= j) in questo caso è possibile stimare i parametri β e σi2 con algoritmi a due stadi. Modelli con autocorrelazioni: Vii = σ 2 Vij = σ 2 ρij 11.2.2 Minimi quadrati generalizzati: Errori autocorrelati \begin{fig} riscrivere controllando col file PDF \end{fig} 2002-3003 versione provvisoria 371 Si supponga un processo di Markov che generi errori di tipo AR (1) (componente autoregressiva del primo ordine). εt = ρεt−1 + at (−1 ≤ ρ ≤ 1) con: E(at ) = 0 V (a) = σa2 In Allora: E(εt ) = ρE(εt−1 ) = 0 per la stazionarietà!! [cov(εt−1 , at ) = 0] σε2 = σa2 /(1 − ρ2 ) cov(εt , εt−1 ) = ρσε2 corr(εt , εt−1 ) = e si dimostra facilmente che, per le autocorrelazioni di lag s vale la relazione generale, nel modello AR(1):r corr(εt , εt−s ) = ρ|s| Pertanto la matrice di varianza e covarianza di ε è seguente matrice: 1 ρ ρ2 . . . ρn−1 ρ 1 ρ . . . ρn−2 ρ2 ρ 1 . . . ρn−3 V = V (ε) = σε2 × = ... ... ... ... ... ρn−2 . . . . . . 1 ρ ρn−1 . . . . . . ρ 1 data dalla per cui l’elemento generico di V è dato da: vij = σε2 ρ|i−j| Si supponga ora di avere un modello lineare in cui la componente accidentale si distribuisce secondo un processo di Markov (autoregressivo del primo ordine) Y = Xβ + εconV (ε) = V(Markov, AR(1)) 372 Materiale didattico statistica 3 Si può riscrivere la t-esima osservazione yt nel modo seguente per rendere esplicito il carattere autoregressivo del modello: yt = xt β + εt = xt β + ρεt−1 + at = = xt β + ρ(yt−1 − xt−1 β) + at anche: yt − ρyt−1 = (xt − ρxt−1 )β + at in cui at rispetta le assunzioni fatte per il modello lineare ordinario. Dalle relazioni precedenti è evidente che la trasformazione che porta a residui non correlati induce una componente non lineare (nei parametri) nella componente sistematica del modello, data dalla presenza del fattore ρxt−1 β Analogamente si può vedere che: \begin{fig} $$ \veca_t=\vecy_t -\vecx_t \beta -\rho (\vecy_{t-1}-\vecx_{t-1}\beta=\epsilon_t-\rho\epsilon_{t-1} $$ riscrivere controllando col file PDF \end{fig} La funzione di verosimiglianza è data da: −1 2 log L = log |Vε | + [Y − Xβ]T Vε [Y − Xβ] Per il determinante di Vε si dimostra che: n |V (ε)| = σε2 (1 − ρ2 )n−1 = = σa2 (; 1 − ρ2 n n (1 − ρ2 )n−1 = σa2 1 − ρ2 mentre per l’inversa di V si dimostra che in questo caso è data da: V (ε)−1 = (σε2 )−1 × R(ε)−1 = 2002-3003 versione provvisoria 373 1 − ρ2 1 σa2 1 − ρ2 1 −ρ 0 ... 0 2 −ρ 1 + ρ −ρ ... 0 0 −ρ 1 + ρ2 ... 0 2 ... ... 1 + ρ −ρ ... 0 0 ... −ρ 1 La forma quadratica nei residui è: R(β, ρ, σ 2 ) = [Y − Xβ]T Vε − 1[Y − Xβ] = avendo indicato con ei l’i-esimo residuo empirico: ei = yi − yi ∗ Per ottenere l’espressione sopra indicata per R(β, ρ, σ 2 ) si tenga presente che nella forma quadratica: ----------------------------------------------------------------------------qui mancano parecchie formule controllare anche le versioni degli anni passati ----------------------------------------------------------------------------tutti gli elementi Zij della matrice V−1 sono nulli se: |i − j| > 1 In definitiva: 2logL = nlogσa2 − log(1 − ρ2 )+ Se n è grande, l’influenza dei termini − log(1 − ρ2 ) e (1 − ρ2 )e21 , è trascurabile, per cui: xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx per cui le stime asintotiche di massima verosimiglianza per i parametri riguardanti le componenti della varianza dell’ errore sono date da: 374 Materiale didattico statistica 3 Pn r= i=2 ei ei−1 P n−1 2 i=1 ei (avendo indicato con s2a e rrispettivamente le stime di σa2 e ρ) dal momento che: xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx che si annulla quando: xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx 11.2.3 Trasformazioni di variabili nell’analisi della varianza e nella regressione multipla 11.2.4 Effetti delle trasformazioni nei modelli lineari Stabilizzazione varianza ⇔ linearizzazione Assunzioni su εi ⇔ linearizzazione Se per esempio : yi = f(x ; β) + εi con V(εi ) = σi2 se si trova una trasformazione g(.) che stabilizza la varianza: g(yi ) ⇒ v(g(yi )) ≈ costante. Allora, se f(.) era lineare, dopo la trasformazione in generale non lo sarà più. Additività e linearità: Si supponga di avere un modello non lineare con errori di tipo moltiplicativo omoscedastici: y = eα+βx (1 + ε0 ) con σ 2 (ε0 ) = σ02 log(y) = α + βx + log(1 + ε0 ) per il valore atteso della trasformata si ha: E [log(1 + ε0 )] ≈ E [ε0 ] = 0 (sviluppando in serie e troncando al primo termine). Si ha allora che Var[log(1 + ε0 )] è indipendente da x. ... Ma, se ε0 è normale, log(1 + ε0 ) non lo è, e viceversa. 2002-3003 versione provvisoria 375 Oppure se: ε0 y=e + ε0 = e 1+ E [Y ] ε0 log(y) = α + βx + log 1 + = α + βx + z0 E [Y ] α+βx α+βx con: E [z0 ] ≈ 0 V ar(z0 ) = g[E [Y ]], per cui la trasformazione linearizzante introduce una eteroscedasticità degli errori Figura da inserire BLOCCO DI LUCIDI SCRITTI A MANO Vantaggi e svantaggi degli approcci basati su trasformazioni Trasformazioni normalizzanti:Trasformazioni di BOX-COX Stabilizzazione della varianza: conteggi binomiali e di Poisson anche da un notebook di mathematica. 376 Materiale didattico statistica 3 Elenco delle figure 2.1 2.2 2.3 tempi di arrivo delle onde sonore di un segnale a una sequenza di sensori posti ad intervalli uguali sul terreno 21 esempio elettrosmog: controlli . . . . . . . . . . . . . 24 esempio elettrosmog: casi . . . . . . . . . . . . . . . 25 3.1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.3 grafico a matrice delle coppie di variabili:dati grezzi . 3.4 grafico a matrice delle coppie di variabili . . . . . . . 3.5 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.6 grafico a matrice delle coppie di variabili . . . . . . . 3.7 grafico a matrice delle coppie di variabili:scale logaritmiche per tutte le variabili . . . . . . . . . . . . . . 3.8 grafico a matrice delle coppie di variabili:valori giornalieri di 8 indici di 8 borse . . . . . . . . . . . . . . 3.9 grafico a matrice delle coppie di variabili trasformate:valori giornalieri dei rendimenti relativi degli 8 indici di 8 borse . . . . . . . . . . . . . . . . . . . . . . 3.10 grafico a matrice delle tre variabili antropometriche e dell’età gestazionale: dati grezzi . . . . . . . . . . . . 3.11 grafico a matrice delle tre variabili antropometriche e dell’età gestazionale: dati corretti (almeno in parte) . 3.12 esempio delle nascite: relazione fra altezza e peso dei nati . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.13 esempio delle nascite: relazione fra peso dei nati e durata della gestazione . . . . . . . . . . . . . . . . . 3.14 esempio delle nascite: relazione fra peso dei nati e durata della gestazione . . . . . . . . . . . . . . . . . 3.15 esempio delle nascite: relazione fra peso dei nati e durata della gestazione . . . . . . . . . . . . . . . . . 377 29 30 31 32 33 36 37 38 39 41 42 44 45 46 47 378 Materiale didattico statistica 3 3.16 esempio delle nascite: relazione fra peso dei nati e durata della gestazione . . . . . . . . . . . . . . . . . 3.17 esempio delle nascite: relazione fra peso all’ingresso e peso all’uscita . . . . . . . . . . . . . . . . . . . . . 4.1 4.2 4.3 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Matrice di correlazione delle 4 variabili dell’esempio dei neonati . . . . . . . . . . . . . . . . . . . . . . . . Retta di minima distanza (ortogonale!) dai punti osservati:regressione principale . . . . . . . . . . . . . 48 50 67 68 76 5.1 densità di normali bivariate 1 . . . . . . . . . . . . . 80 5.2 densità di normali bivariate 2 . . . . . . . . . . . . . 81 5.3 intersezioni con la normale bivariata . . . . . . . . . . 83 5.4 intersezioni con la normale bivariata . . . . . . . . . . 84 5.5 intersezioni con la normale bivariata . . . . . . . . . . 85 5.6 densità di normali bivariate 1 . . . . . . . . . . . . . 95 5.7 densità di normali bivariate 2 . . . . . . . . . . . . . 96 5.8 distribuzioni condizionate in una normale multivariata 122 5.9 distribuzioni condizionate in una normale multivariatamatrice di varianze e covarianze e inversa . . . . . . 123 6.1 6.2 6.3 6.4 6.5 6.6 6.7 6.8 7.1 7.2 7.3 7.4 relazione fra due variabili in funzione del valore di una terza variabile . . . . . . . . . . . . . . . . . . . FIG2000REGR3.STG . . . . . . . . . . . . . . . . . . distribuzioni condizionate normali . . . . . . . . . . . campione da una normale bivariata . . . . . . . . . . distribuzioni condizionate normali in corrispondenza di valori fissati . . . . . . . . . . . . . . . . . . . . . . box-plot con retta di regressione e spezzata di regressione . . . . . . . . . . . . . . . . . . . . . . . . . . . interaz1.stg . . . . . . . . . . . . . . . . . . . . . . . interaz2.stg . . . . . . . . . . . . . . . . . . . . . . . grafico a matrice delle tre variabili antropometriche . relazione fra Circonferenza toracica e altezza su 1519 ragazzi . . . . . . . . . . . . . . . . . . . . . . . . . . relazione fra Circonferenza toracica, altezza e peso su 1519 ragazzi . . . . . . . . . . . . . . . . . . . . . . . relazione fra Circonferenza toracica, altezza e peso su 1519 ragazzi . . . . . . . . . . . . . . . . . . . . . . . 144 193 194 194 195 196 197 198 200 202 204 205 2002-3003 versione provvisoria 7.5 7.6 7.7 7.8 7.9 8.1 relazione fra Circonferenza toracica, altezza e peso su 1519 ragazzi . . . . . . . . . . . . . . . . . . . . . . . regressione dell’Altezza rispetto al peso: relazione fra i residui e la variabile esplicativa peso . . . . . . . . . regressione della Circonferenza toracica rispetto al peso: relazione fra i residui e la variabile esplicativa peso . . . . . . . . . . . . . . . . . . . . . . . . . . . relazione fra i residui W1 della variabile torace e i residui W2 della variabile altezza . . . . . . . . . . . correlazioni fra le 3 variabili e i due residui . . . . . . 379 206 210 211 212 216 verosimiglianza rispetto a µ e σ 2 per un campione proveniente da una normale e verosimiglianza profilo su µ . . . . . . . . . . . . . . . . . . . . . . . . . . . 225 11.1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 366 11.2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 367 elenco figure