Modelli statistici lineari ed altro

Modelli statistici lineari ed altro...
Marcello Chiodi
2 aprile 2003
2
Materiale didattico statistica 3
Università degli Studi di Palermo
Facoltà di Economia
Corso di Laurea in Statistica e Informatica per la Gestione e
l’Analisi dei Dati
http://dssm.unipa.it/sigad
Traccia del Corso di
Statistica 3
a.a. 2002-2003; Corso di 36 ore di lezione e 24 di esercitazioni, 6
crediti universitari
Valido anche come modulo per il corso di Statistica 3 per il 3◦
anno Corso di Laurea in Scienze Statistiche ed Economiche.
Marcello Chiodi
Dipartimento di Scienze Statistiche e Matematiche Silvio Vianelli
Università degli studi di Palermo
Viale delle Scienze, 90128 Palermo-Italy
e-mail: [email protected]; http://dssm.unipa.it/chiodi
(tel. 39-0916626236; fax. 39-091485726)
2002-3003 versione provvisoria
0.1
3
analisi casi di studio
analisi casi di studio, problemi reali, possibilmente con grafici e
situazioni varie
—— importanza dei contesti applicativi
difficoltà della statistica applicata ——
0.2
Articolazione del corso
corso di lezioni teoriche e corso di esercitazioni ed esame di casi
pratici mediante software statistico.
0.2.1
Software utilizzato
Prevalentemente (nell’a.a. 2002-2003) gli studenti faranno uso di
Statistica, di R, e di excel (o di latro software free-domain);
Il materiale didattico è stato realizzato dal Prof.Chiodi anche con
altro software, fra cui Mathematica e Visual Basic (versione 6).
0.2.2
Requisiti di base (consigliati) per la frequenza del
corso:
Statistica 1; Statistica 2; Analisi Matematica; Algebra Lineare; Calcolo delle Probabilità; è consigliabile anche avere familiarità con un
personal computer, possibilmente avendo sostenuto almeno uno dei
moduli del laboratorio informatico-statistico (meglio tutti e due).
Modalità di svolgimento dell’esame:
L’esame è costituito da una prova pratica di un caso di studio e da
una prova orale.
0.3
Avvertenza per gli studenti dei miei corsi
• Presuppongo che lo studente che legge questi appunti o che
comunque segue il corso, abbia le necessarie conoscenze di inferenza statistica, che qui vengono date per scontate (proprietà
degli stimatori, stimatori di massima verosimiglianza, costruzione di test, ipotesi semplici, composte, parametri di disturbo,
intervalli e regioni di confidenza, etc.).
4
Materiale didattico statistica 3
• Il corso di esercitazioni va considerato a tutti gli effetti parte
integrante comunque del presente corso.
• In questo corso non viene dato particolare risalto agli aspetti
propriamente computazionali, nel senso che quando per esempio si dice di trovare gli stimatori di massima verosimiglianza
di certi parametri, sotto particolari ipotesi e assunzioni, si presuppone che questi stimatori siano calcolabili in forma esplicita o che siano comunque valutabili in modo numerico utilizzando convenienti algoritmi, che in questo corso non vengono
comunque affrontati.
0.4
Traccia corso
• impostazione generale: problemi reali e analisi della dipendenza
• relazioni fra variabili e linguaggio vettoriale e matriciale; approfondimento di alcuni strumenti tecnici di calcolo matriciale
utili per il resto del corso.
• Concetto di relazione di regressione
• regressione semplice e parziale
• richiamo della normale bivariata. La normale multivariata (cenni)
• Il modello lineare: utilità e cenno ai possibili impieghi
• Stima dei parametri e proprietà degli stimatori nella regressione
multipla.
• Analisi dei residui
• Multicollinearità e scelta di variabili
• Analisi della varianza a una e più vie e della covarianza
• Modelli lineari generali
• Modelli lineari generalizzati e regressione logistica.
2002-3003 versione provvisoria
0.5
5
Elenco di siti utili
Sul sito del Prof. Chiodi
http://dssm.unipa.it/chiodi
per scaricare il software di simulazione
http://dssm.unipa.it/chiodi/downloadsimul2000.htm
pagina del materiale didattico
http://dssm.unipa.it/chiodi/materialedidattico.htm
Altri siti utili:
Sito statlib (con numerosissimi indirizzi di siti di software e datasets statistici)
http://www.stat.unipg.it/pub/stat/statlib/index.html
sito ufficiale di R:
http://cran.r-project.org
Risorse didattiche di area matematica:
http://www.shu.edu/projects/reals/index.html
http://www.math.it
http://www.integrals.com
http://www.nist.gov
http://www.univie.ac.at/projects/reals/index.html
...
...
6
Materiale didattico statistica 3
Indice
0.1 analisi casi di studio . . . . . . . . . . . . . . . . . .
0.2 Articolazione del corso . . . . . . . . . . . . . . . . .
0.2.1 Software utilizzato . . . . . . . . . . . . . . .
0.2.2 Requisiti di base (consigliati) per la frequenza
del corso: . . . . . . . . . . . . . . . . . . . .
0.3 Avvertenza per gli studenti dei miei corsi . . . . . . .
0.4 Traccia corso . . . . . . . . . . . . . . . . . . . . . .
0.5 Elenco di siti utili . . . . . . . . . . . . . . . . . . . .
3
3
3
3
3
4
5
1 stampa parziale
13
2 Problemi introduttivi
2.1 Casi reali e insiemi di dati . . . . . . . .
2.1.1 Caratteristiche dei dati reali . . .
2.2 Elementi distintivi dei vari problemi . . .
2.2.1 Elementi comuni ai vari problemi:
.
.
.
.
15
15
16
25
26
.
.
.
.
.
.
.
.
.
.
.
.
.
27
28
28
28
29
30
33
33
33
34
37
40
40
40
3 Esempi reali e casi di studio
3.1 dati antropometrici . . . . . . . . . .
3.1.1 descrizione del problema . . .
3.1.2 Esempio di matrice dei dati .
3.1.3 Le variabili (solo alcune) . . .
3.1.4 Rappresentazioni grafiche . .
3.1.5 Campione del dataset . . . . .
3.1.6 Problematiche statistiche (solo
3.1.7 spunti teorici . . . . . . . . .
3.2 dati di bilanci aziendali . . . . . . . .
3.3 indici di 8 borse . . . . . . . . . . . .
3.4 dati antropometrici neonati . . . . .
3.4.1 descrizione del problema . . .
3.4.2 variabili rilevate . . . . . . . .
7
.
.
.
.
.
.
.
.
.
.
.
.
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
alcune!)
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
8
Materiale didattico statistica 3
3.4.3
3.4.4
3.4.5
3.4.6
3.4.7
3.4.8
3.4.9
3.5
Esempio di matrice dei dati . . . . . . . . . .
Rappresentazioni grafiche 1 . . . . . . . . . .
Rappresentazioni grafiche 2 . . . . . . . . . .
Campione del dataset . . . . . . . . . . . . . .
Problematiche statistiche (solo alcune!) . . . .
Alcuni problemi e spunti . . . . . . . . . . . .
Una relazione non lineare: regressione non parametrica . . . . . . . . . . . . . . . . . . . .
3.4.10 spunti teorici . . . . . . . . . . . . . . . . . .
Elementi distintivi dei vari problemi . . . . . . . . . .
3.5.1 Elementi comuni ai vari problemi: . . . . . . .
40
40
41
42
42
43
48
50
58
59
4 Variabili Statistiche Multiple
61
4.1 Calcoli statistici in notazione vettoriale . . . . . . . . 61
4.1.1 Definizione della matrice dei dati . . . . . . . 62
4.1.2 significato dei primi due momenti multivariati
empirici . . . . . . . . . . . . . . . . . . . . . 74
4.1.3 ACP per variabili statistiche osservate . . . . 75
5 La distribuzione normale multivariata.
5.1 Richiami sulla normale bivariata . . . . . . . . . . . .
5.2 La normale multivariata . . . . . . . . . . . . . . . .
5.3 Distribuzione di variabili normali indipendenti . . . .
5.4 Densità normale multivariata . . . . . . . . . . . . .
5.5 Densità della distribuzione normale multivariata . . .
5.5.1 Distribuzioni marginali e indipendenza . . . .
5.5.2 Combinazioni lineari di variabili normali . . .
5.5.3 Caratterizzazione della distribuzione normale
multivariata. . . . . . . . . . . . . . . . . . . .
5.6 Assi principali . . . . . . . . . . . . . . . . . . . . . .
5.7 Distribuzione di forme quadratiche . . . . . . . . . .
5.7.1 Esponente della normale multivariata. . . . .
5.7.2 Indipendenza di forme quadratiche e lineari .
5.7.3 Teorema di Cochran: . . . . . . . . . . . . . .
5.8 Distribuzioni condizionate . . . . . . . . . . . . . . .
5.8.1 Distribuzione condizionata nel caso generale
di un gruppo di componenti rispetto ad un
altro gruppo di componenti. . . . . . . . . . .
5.8.2 Significato degli elementi dell’inversa della matrice di varianza e covarianza. . . . . . . . . .
79
79
85
85
87
89
91
92
93
94
98
104
106
107
109
110
115
2002-3003 versione provvisoria
5.9 Utilità della distribuzione normale multivariata . . .
5.10 Regressioni per vettori aleatori qualsiasi . . . . . . .
5.10.1 Regressioni lineari approssimate . . . . . . . .
5.11 Informazioni ricavabili dai primi 2 momenti . . . . .
5.12 Stimatori di massima verosimiglianza dei parametri
di una normale multivariata . . . . . . . . . . . . . .
5.12.1 Un test di Multinormalità: cenni . . . . . . .
5.13 Inferenza sui parametri della normale multipla . . . .
5.14 Distribuzioni multivariate non normali . . . . . . . .
5.14.1 Beta Multivariata . . . . . . . . . . . . . . . .
9
123
124
127
129
133
138
139
140
140
6 Introduzione ai Modelli Lineari
143
6.1 Il modello lineare di dipendenza per variabili normali. 143
6.2 Funzioni di regressione . . . . . . . . . . . . . . . . . 146
6.3 I modelli statistici. . . . . . . . . . . . . . . . . . . . 147
6.4 Il modello lineare generale. . . . . . . . . . . . . . . . 147
6.4.1 componente sistematica e componente casuale. 150
6.4.2 Caratteristiche essenziali degli elementi del modello lineare . . . . . . . . . . . . . . . . . . . 152
6.4.3 Caratteristiche più dettagliate degli elementi
del modello: . . . . . . . . . . . . . . . . . . . 153
6.4.4 Versatilità del modello lineare . . . . . . . . . 157
6.5 Problemi di inferenza . . . . . . . . . . . . . . . . . . 158
6.5.1 Ipotesi sulle ε . . . . . . . . . . . . . . . . . . 159
6.6 La matrice delle X . . . . . . . . . . . . . . . . . . . 160
6.6.1 Osservazioni ripetute. . . . . . . . . . . . . . . 161
6.6.2 Disegni fattoriali . . . . . . . . . . . . . . . . 162
6.6.3 Regressione multipla. . . . . . . . . . . . . . . 167
6.6.4 Regressione polinomiale: . . . . . . . . . . . . 171
6.6.5 Regressori del tipo 0/1 (dummy variables) . . 175
6.6.6 Analisi della varianza ad effetti fissi ed un
criterio di classificazione . . . . . . . . . . . . 176
6.6.7 Analisi della varianza ad effetti fissi con due
criteri di classificazione . . . . . . . . . . . . . 181
6.6.8 Analisi della covarianza . . . . . . . . . . . . . 182
6.6.9 Rette o piani di regressione con pendenze diverse: termini polinomiali moltiplicativi . . . . 184
6.6.10 Modelli autoregressivi . . . . . . . . . . . . . 187
6.7 Generalizzazioni . . . . . . . . . . . . . . . . . . . . . 189
10
Materiale didattico statistica 3
7 Spunti tratti da casi reali per l’introduzione
menti teorici
7.1 La correlazione parziale . . . . . . . . . . . .
7.1.1 Cenno alla regressione multipla . . .
7.1.2 correlazione fra residui . . . . . . . .
7.1.3 derivazione di r12.3 . . . . . . . . . .
di argo199
. . . . . 199
. . . . . 202
. . . . . 207
. . . . . 212
8 Stima dei parametri del modello lineare
217
8.0.4 Assunzioni di base nel modello lineare . . . . 218
8.1 verosimiglianza . . . . . . . . . . . . . . . . . . . . . 220
8.1.1 MINIMI QUADRATI ORDINARI . . . . . . 228
8.1.2 Teorema di Gauss-Markov . . . . . . . . . . . 232
8.1.3 Distribuzione campionaria di b (minimi quadrati ordinari) . . . . . . . . . . . . . . . . . . 234
8.2 Distribuzione della devianza residua nei modelli lineari237
8.2.1 Devianza residua in funzione dei valori osservati237
8.3 Scomposizione della devianza . . . . . . . . . . . . . 241
8.3.1 Scomposizione di R(β) . . . . . . . . . . . . . 242
8.3.2 Test F per la verifica di ipotesi nel modello
lineare: distribuzione nulla . . . . . . . . . . . 244
8.3.3 Distribuzioni sotto H0 e sotto H1 . . . . . . . 247
8.3.4 Scomposizione della devianza e test nel caso
di gruppi di regressori ortogonali . . . . . . . 250
8.4 Configurazioni della matrice X e di XT X . . . . . . 254
8.5 Modello lineare: Verifica di ipotesi generali . . . . . . 256
8.5.1 Prove di ipotesi particolari nel modello lineare 262
8.6 Test e regioni di confidenza nei modelli lineari . . . . 263
9 Regressione Multipla
269
9.1 Introduzione . . . . . . . . . . . . . . . . . . . . . . . 269
9.1.1 Prova dell’ipotesi di coefficienti di regressione
nulli nella regressione multipla. . . . . . . . . 273
9.2 La multicollinearità nella regressione multipla. . . . . 279
9.2.1 Esempi (sulla collinearità e simili) . . . . . . . 288
9.3 La scelta delle variabili nella regressione lineare multipla. . . . . . . . . . . . . . . . . . . . . . . . . . . . 288
9.3.1 Esempio di correlazioni osservate fra molte variabili . . . . . . . . . . . . . . . . . . . . . . 292
9.3.2 Esempi sulla regressione . . . . . . . . . . . . 300
2002-3003 versione provvisoria
11
10 Analisi della varianza
301
10.1 Analisi della varianza . . . . . . . . . . . . . . . . . . 301
10.1.1 Analisi della varianza ad una via . . . . . . . 303
10.1.2 Ipotesi di omogeneità delle medie: stimatori e
test corrispondenti. . . . . . . . . . . . . . . . 307
10.1.3 Divergenza dalla linearità per fattori quantitativi nell’analisi della varianza. . . . . . . . . 318
10.2 Analisi della varianza a due vie . . . . . . . . . . . . 322
10.2.1 Analisi della varianza a due vie: altre problematiche . . . . . . . . . . . . . . . . . . . . . 330
10.2.2 Analisi della varianza a più vie . . . . . . . . 332
10.2.3 Analisi della varianza con variabili concomitanti: L’analisi della covarianza . . . . . . . . 333
10.3 Il problema dei confronti multipli nell’analisi della
varianza . . . . . . . . . . . . . . . . . . . . . . . . . 339
10.3.1 Confronti a priori e a posteriori . . . . . . . . 340
10.3.2 L’ipotesi di omogeneità delle varianze. . . . . 347
10.3.3 Il Potere del test F: distribuzioni non centrali. 347
10.4 Modelli ad effetti casuali . . . . . . . . . . . . . . . . 351
11 Allontanamento dalle assunzioni
357
11.1 Tipi di allontanamenti dalle assunzioni di base . . . . 357
11.1.1 Effetti della non normalità sulla distribuzione
di F . . . . . . . . . . . . . . . . . . . . . . . 359
11.1.2 Effetti della non indipendenza . . . . . . . . . 359
11.1.3 Effetti della eteroscedasticità . . . . . . . . . . 359
11.1.4 Trasformazioni . . . . . . . . . . . . . . . . . 359
11.1.5 Finalità delle trasformazioni nel modello lineare359
11.1.6 Tecniche alternative: test non parametrici e
semiparametrici nella AOV . . . . . . . . . . . 359
11.1.7 Test non parametrici . . . . . . . . . . . . . . 359
11.1.8 Test di permutazione . . . . . . . . . . . . . . 359
11.1.9 Analisi dei residui: . . . . . . . . . . . . . . . 359
11.2 Minimi quadrati generalizzati . . . . . . . . . . . . . 368
11.2.1 Minimi quadrati con matrice di varianze e covarianze qualsiasi . . . . . . . . . . . . . . . . 370
11.2.2 Minimi quadrati generalizzati: Errori autocorrelati . . . . . . . . . . . . . . . . . . . . . 370
11.2.3 Trasformazioni di variabili nell’analisi della varianza e nella regressione multipla . . . . . . . 374
12
Materiale didattico statistica 3
11.2.4 Effetti delle trasformazioni nei modelli lineari 374
Capitolo 1
stampa parziale
13
14
Materiale didattico statistica 3
Capitolo 2
Problemi introduttivi
I problemi e casi di studio che seguono derivano da esperienze reali
o da esempi riportati nella letteratura scientifica; sono funzionali all’introduzione al corso, e in parte costituiscono una selezione dei problemi reali che verosimilmente sono affrontabili con le metodologie
e le tecniche studiate in questo corso.
Alcuni, in una forma anche diversa, di solito semplificata, sono
poi ripresi durante le mie lezioni, o comunque utilizzati come spunto
per l’introduzione di problematiche specifiche, o sfruttati nel corso
di esercitazioni.
Complessivamente coprono buona parte degli argomenti del corso
di Statistica 3.
2.1
Casi reali e insiemi di dati
Alcuni insiemi di dati sono inseriti almeno in modo parziale, in queste pagine per prendere abitudine con dati e situazioni vere Altri
problemi, evidenziati nel testo, si riferiscono invece a situazioni e
a metodologie diverse (tipicamente per alcune tecniche speciali di
analisi multivariata) che verranno solo accennate in questo corso ed
affrontate con maggiore dettaglio in altri corsi.
15
16
Materiale didattico statistica 3
Disponibilità di dati per gli studenti
Alcuni insiemi di dati saranno a disposizione degli studenti con modalità che saranno chiarite durante le lezioni e le
esercitazioni
2.1.1
Caratteristiche dei dati reali
...
Molti insiemi di dati con cui si ha che fare nella realtà hanno
un difetto fondamentale: sono veri!!!!
Gli unici dati che si presentano puliti sono quelli simulati
oppure quelli artificiali.
I dati veri disgraziatamente hanno tanti inconvenienti:
• non sono quasi mai completi (vi sono dati mancanti);
• difficilmente costituiscono un campione casuale semplice da una
qualsiasi popolazione;
• sono spesso eterogenei (ossia provengono da diverse popolazioni);
• le osservazioni possono avere un grado di precisione delle misurazioni differente;
• qualche volta si guardano bene dal provenire esattamente da
famiglie esponenziali o da universi normali;
2002-3003 versione provvisoria
17
In ogni caso non mi occuperò in questo testo dei problemi connessi
con la misura delle variabili o con la quantificazione di osservazioni
reali o con la costruzione di scale di misura.
Presupporrò sempre in tutti gli esempi che le yi e le xij (o altri
simboli che userò) siano riferiti a variabili osservate la cui misurazione e quantificazione costituisce un fatto acquisito e da non
mettere in discussione.
Esempio agrario
In molti esperimenti agrari si vogliono mettere a confronto delle
varietà di una certa coltura o pianta; oppure si vogliono confrontare
dei concimi differenti o comunque confrontare tecniche diverse di
produzione.
esempio con numeri
e con grafici
prendere da fonti storiche
• Si vuole vedere (mediante un esperimento che conduca all’ottenimento di un campione di osservazioni) se la diversa varietà,
o concime o altro fattore distintivo influenza la quantità media
di raccolto per unità di area (a parità di altre condizioni)
• L’area ove si conduce l’esperimento viene suddivisa in lotti, e
le diverse varietà, e/o i concimi, vengono assegnati ai vari lotti.
• E’ comunque noto che se nei vari lotti vengono assegnate le
stesse varietà nelle stesse condizioni, il raccolto sarà comunque
diverso, anche in modo rilevante, da lotto a lotto.
• I lotti vicini avranno la tendenza ad avere livelli dei raccolti
simili, e potrebbero esserci altri effetti collegati con la posizione
fisica dei lotti.
• Se l’esperimento fosse condotto in un altro anno, presumibilmente il raccolto medio sarebbe sostanzialmente diverso da
quello di quest’anno, anche usando la stessa varietà o concime.
Problemi statistici:
18
Materiale didattico statistica 3
• Separare l’effetto imputabile alle differenze fra i fattori controllabili, ossia le varietà (o i concimi) dagli effetti dovuti ai fattori
non controllabili, ossia i diversi lotti ed altre fonti di variabilità
• Stabilire qual è la varietà migliore;
• stimare la produttività media.
• Come pianificare l’esperimento se si vogliono effettuare simultaneamente i confronti fra le varietà e quelli fra i concimi? Oppure è meglio fare un esperimento per le varietà ed un altro per
i concimi?
• Se esiste un concime migliore, è sempre lo stesso per tutte le
varietà?
Esempio diete suini
Si vogliono confrontare tre diete per l’alimentazione di suini. L’efficacia della dieta è misurata semplicemente dall’incremento di peso
medio settimanale: interessa trovare la migliore dieta.
Gli animali sono suddivisi in 6 recinti; all’interno vi sono 6 animali
(uno per ciascuna combinazione dei 2 sessi per le 3 diete))
Il peso iniziale dell’animale è certamente importante.
mettere l’esempio da Rao
pag.246 (prendere i dati)
rao1.htm
• Il peso iniziale dell’animale è certamente importante (perchè si
suppone che animali più grossi crescano di più)
• E’ presumibile che l’incremento di peso di un generico animale sia dovuto a diversi fattori più o meno controllabili, ma
comunque in parte misurabili.
• che effetto ha il sesso degli animali?
• l’allocazione in un determinato recinto è importante?
• Quali diete sono migliori?
• Quali sono senz’altro da scartare?
2002-3003 versione provvisoria
19
Esempio sull’esame ecografico
Nelle diagnosi prenatali è necessario spesso avere una valutazione
del peso del nascituro, perchè pesi al di sotto di un certo percentile
(il 5◦ o il 10◦ ), in relazione alla settimana di gestazione, sono indizio
di possibili patologie.
Per valutare il peso prima della nascita, non si può ricorrere a
misurazioni dirette:
Si può procedere però valutando alcune misure rilevabili attraverso l’esame ecografico; da queste misure viene poi stimato il peso
del nascituro mediante una relazione usualmente non lineare. Solo
a titolo di esempio ne riporto una (Shepard et al.) fra quelle più
utilizzate:
Log10 EF W = 1.2508+(0.166xBP D)+(0.046xAC)(0.002646xACxBP D)
dove:
EFW = estimated fetal weight (g)
BPD = biparietal diameter (cm)
AC = abdominal circumference (cm)
I parametri di tale relazione sono stati stimati sulla base di misurazioni effettuate di EFW, BPD e AC su neonati.
L’ equazione serve a stimare il peso quando dall’esame ecografico
prenatale sono disponibili le misure BPD e AC.
Esempio sulla capacità del cranio
E’ noto che la capacità della scatola cranica è essenzialmente funzione di tre lunghezze caratteristiche del cranio; (o meglio la relazione
lega i logaritmi di tali variabili)
• Sulla base di un campione di soggetti si vogliono determinare i
parametri di tale relazione.
• L’interesse principale potrebbe essere quello di stabilire una
relazione empirica che possa consentire una buona stima della massa cranica, tenuto conto che è possibile ottenere le tre
misure lineari attraverso esami quali la TAC o altro.
• L’interesse potrebbe essere di confrontare tali relazioni per diversi gruppi di soggetti.
20
Materiale didattico statistica 3
Esempio geosismico
In un esperimento geosismico si rilevano i tempi di arrivo delle onde
sonore di un segnale a una sequenza di sensori posti ad intervalli
uguali sul terreno.
2002-3003 versione provvisoria
21
Figura 2.1: tempi di arrivo delle onde sonore di un segnale a una sequenza di
sensori posti ad intervalli uguali sul terreno
vai a indice figure
• Occorre determinare la relazione che esiste fra i tempi di arrivo
e la posizione dei sensori
• Si sa che in condizioni ideali e sotto certe ipotesi relative alla natura del terreno sottostante (omogeneità, pendenza costante, etc.) questa relazione dovrebbe essere data da una
spezzata costituita da diversi segmenti consecutivi a pendenza
decrescente.
Quanti sono i segmenti ed in quali punti si hanno i cambi di
pendenza?
inserire figura
Esempio carriere studenti
Si consideri un archivio di dati costituito dalle carriere degli studenti. Questo archivio è ricostruibile a partire dai dati caricati dalle
22
Materiale didattico statistica 3
segreterie universitarie e può esser utilizzato per studiare ad esempio
la lunghezza media dei periodi di studio, la percentuale di studenti
che completano in corso il proprio corso di studi, la percentuale di
fuori corso per ogni anno accademico e cosı̀ via.
L’analisi delle carriere accademiche e ormai diventata un obbligo
di legge e viene impiegata per analizzare e valutare l’efficienza dei
diversi atenei; un punto importante della riforma universitaria in
fase di attuazione è che le facoltà devono cercare di far laureare gli
studenti entro gli anni previsti dal loro corso di studi, diversamente
le facoltà sono considerate in qualche modo inefficienti.
Evidentemente nello studio delle carriere degli studenti si potrà tener conto di diversi fattori per vedere se e quanto influiscono
sull’andamento degli studi o meglio, sulla loro durata; fra i vari fattori si potranno considerare variabili proprie di ciascun individuo ad
esempio residenza, sesso, data di nascita, oppure variabili collegate
con il profitto ossia numero di esami sostenuti, votazione e cosı̀ via.
L’analisi di tali dati risulta spesso molto particolare in quanto ai
fini degli studi delle carriere vanno esaminate coorti simili di studenti
ossia studenti che si sono immatricolati tutti nello stesso anno; la
norma di questi tipi di dati è di contenere molti dati mancanti o
comunque di risultare in qualche modo censurati o troncati: per
esempio di solito non tutti gli studenti presenti nell’archivio hanno
completato gli studi o perché ancora non si sono laureati per che
hanno abbandonato gli studi; probabilmente alcuni studenti iniziano
la loro carriera dal secondo anno accademico o dal terzo perché
provenienti da altri atenei oppure concludono la loro carriera senza
un abbandono e senza una laurea perché si trasferiscono in altri
atenei.
Per analizzare questo tipo di dati spesso si fa ricorso a tecniche implementate in contesti medici per l’analisi dei modelli di
sopravvivenza.
• Queste carriere differiscono in modo sensibile da Facoltà a Facoltà? (o all’interno dei vari corsi di laurea?)
• Le carriere degli studenti (in termini di durata) differiscono in
funzione di fattori quali l’età, il sesso, l’essere o meno fuori sede,
il tipo e il voto di maturità, etc.?
2002-3003 versione provvisoria
23
altri problemi (da discutere durante il corso)
Esempio autoregressione
Un ulteriore caso è quello di una serie temporale osservata:
• abbiamo una sola variabile rilevata a intervalli di tempo costanti
• siamo interessati a vedere se e come le osservazioni dipendono
dalle precedenti
Esempio sulla rilevazione dei tempi di lavoro
Un altro caso reale di studio è costituito dalla rilevazione dei tempi di
lavoro; per un periodo di alcune settimane sono stati rilevati i tempi
di esecuzione di diverse mansioni in alcune biblioteche dell’ateneo
palermitano; questi dati di durata verranno messi in correlazione con
la particolare biblioteca col tipo di mansione, col tipo di attività, con
la particolare persona che ha operato, etc. per separare le diverse
fonti di variabilità.
Esempio sull’esposizione a fonti inquinanti (elettrosmog)
Effetti dell’elettrosmog (esposizione a fonti inquinanti).
Nel grafico 2.2 sono riportate le dislocazioni delle abitazioni di
tutti i morti in una città in un certo intervallo di tempo.
Nel grafico 2.3 sono riportate le dislocazioni delle abitazioni dei
soli morti per una particolare causa (A) nella stessa città (e nello
stesso periodo).
Il punto di coordinate (0,0) corrisponde alla dislocazione di una
fonte di elettrosmog che è sospettata di essere responsabile di una
maggiore mortalità per la causa (A).
Il problema potrebbe essere riformulato in questo modo:
Le disposizioni territoriali dei punti (o la loro densità) nei due
grafici sono simili?
24
Materiale didattico statistica 3
Figura 2.2: esempio elettrosmog: controlli
vai a indice figure
2002-3003 versione provvisoria
25
Figura 2.3: esempio elettrosmog: casi
vai a indice figure
2.2
Elementi distintivi dei vari problemi
migliorare questa parte:
mettere riferimenti agli esempi
• Le variabili esplicative possono essere quantitative, qualitative
o miste.
• I dati possono provenire da esperimenti pianificati, in cui alcuni
fattori sono tenuti sotto controllo, o da studi osservazionali
in cui non è possibile tenere sotto controllo i fattori. E’ di
fondamentale importanza che lo statistico intervenga comunque
nella fase di pianificazione dello studio, prima della rilevazione
dei dati.
• Può interessare la verifica di una particolare ipotesi (o la costruzione di un intervallo o regione di confidenza) relativamente solo ad un gruppo di parametri, mentre altri parametri del
modello giocheranno il ruolo di parametri di disturbo. Svolge
26
Materiale didattico statistica 3
spesso il ruolo di fattore di disturbo la particolare distribuzione
di errori accidentali.
• La risposta che si vuole ottenere può essere soltanto di tipo
comparativo (qual è il migliore fertilizzante fra A, B e C), oppure assoluto (qual è l’effetto medio del farmaco A per pazienti
di un certo tipo?)
• Come attribuire i vari trattamenti alle singole unità?
2.2.1
Elementi comuni ai vari problemi:
Problema generale
In generale si vuole studiare (possibilmente sulla base di
un campione di osservazioni) la dipendenza di un fenomeno (espresso spesso da una variabile quantitativa) da una
molteplicità di fattori o variabili esplicative (quantitative e/o
qualitative)
Capitolo 3
Esempi reali e casi di studio
27
28
3.1
3.1.1
Materiale didattico statistica 3
dati antropometrici
descrizione del problema
In un’indagine antropometrica, si esamina un grosso campione di
ragazzi a cavallo dell’età puberale, su ciascuno dei quali vengono
rilevati diversi caratteri antropometrici.
3.1.2
Esempio di matrice dei dati
antropometrici1/esempiodati.htm
2002-3003 versione provvisoria
29
Figura 3.1:
vai a indice figure
3.1.3
Le variabili (solo alcune)
antropometrici1/descriptive.htm
30
Materiale didattico statistica 3
Figura 3.2:
vai a indice figure
3.1.4
Rappresentazioni grafiche
Rappresentazione delle sole 7 variabili antropometriche:
2002-3003 versione provvisoria
31
Figura 3.3: grafico a matrice delle coppie di variabili:dati grezzi
vai a indice figure
Alcune osservazioni, come si vede dal grafico a matrice, presentano valori dubbi per alcune delle variabili, presumibilmente dovuti
ad errori di trascrizione; sono stati considerati come dati mancanti
ed è stato rappresentato di nuovo il grafico
32
Materiale didattico statistica 3
Figura 3.4: grafico a matrice delle coppie di variabili
vai a indice figure
antropometrici1/correlations.htm
2002-3003 versione provvisoria
33
Figura 3.5:
vai a indice figure
3.1.5
Campione del dataset
3.1.6
Problematiche statistiche (solo alcune!)
Non tutte saranno affrontate nel corso!
• Come interagiscono le variabili?
• Le relazioni fra le variabili antropometriche sono di tipo lineare?
• Che relazione c’è fra le variabili antropometriche e l’età dei
soggetti?
• Un sottoinsieme di esse o loro combinazioni sarebbero sufficienti
per dare buone informazioni sintetiche?
• le relazioni fra le variabili cambiano per le diverse fasi puberali?
• Alcune combinazioni di variabili potrebbero descrivere sufficientemente bene la fase dello sviluppo puberale di ciascun
individuo?
3.1.7
spunti teorici
34
Materiale didattico statistica 3
3.2
dati di bilanci aziendali
I grafici che seguono sono tratti da archivi di dati reali, riguardanti
2835 aziende siciliane, operanti in Sicilia nel 1992.
I dati sono quelli relativi ai bilanci pubblicati per riguardano
soltanto le società di capitale. Le variabili presenti sono:
• La ragione sociale;
• La provincia;
• Il fatturato annuo;
• Il numero di dipendenti;
• L’utile;
• I mezzi forniti dai terzi;
• Il costo complessivo del lavoro;
• La codifica dell’attività svolta.
Come è ovvio, questo insieme di dati difficilmente può essere
considerato un campione di aziende: in effetti, a meno di qualche
errore materiale, si tratta di tutte le aziende siciliane costituite da
società di capitale che hanno presentato un bilancio nel 92. Pertanto
già per questo solo motivo è impensabile trattare questi dati come
un campione casuale semplice da una normale multivariata; inoltre
le particolari variabili rilevate sono intrinsecamente non normali:
è noto infatti che la distribuzione delle aziende secondo la dimensione o secondo il numero di addetti è tipicamente asimmetrica come pure la distribuzione del fatturato; tuttavia è presumibile
che alcune di queste variabili siano legate da correlazioni almeno
approssimativamente lineari.
aziende1/esempioaziende1.txtlink esterno ad esempioaziende
2002-3003 versione provvisoria
35
RKG
PROV
FATT92
6
PA
337782
9
PA
224650
20
23
AG
PA
41
DIPENDEN
UTILE
MEZZITER
COSTOLAV
ISTAT1
-67013
262558
91357
24
91
-88
5574
2693
51
113788
110926
396
211
-2330
-10707
23038
33657
18439
15925
45
61
RG
90297
36
617
22614
1306
51
64
PA
59578
39
56
15869
1609
15
69
73
RG
ME
55479
52885
17
273
565
-3926
7436
58978
364
16689
24
35
75
PA
52761
1
-90
16230
5451
51
95
102
PA
RG
42722
41364
28
34
893
735
38321
2574
1393
2574
15
50
109
AG
38937
309
7286
1088
51
127
130
PA
PA
33333
32823
255
35
827
65
3601
1355
13935
1265
74
63
136
CT
31756
53
160
2262
1914
51
147
...
PA
...
29987
...
5
...
9
...
1234
...
192
...
51
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
2699
...
RG
...
2124
...
6
...
56
...
347
...
136
...
52
2702
CT
2123
2
3
0
221
51
2703
2708
AG
PA
2122
2116
6
-246
-14
624
1150
82
250
52
45
2710
PA
2115
34
-564
684
1148
74
2715
2719
CL
CL
2108
2101
1
11
-10
-45
0
538
79
310
45
26
2735
PA
2086
3
89
45
52
2739
2748
2766
PA
PA
2083
2066
2
1
286
7
3179
0
178
24
74
51
CL
2054
6
37
132
220
52
2798
PA
2026
4
-11
54
198
63
36
Materiale didattico statistica 3
Figura 3.6: grafico a matrice delle coppie di variabili
vai a indice figure
Come si vede le distribuzioni sono molto asimmetriche e sono poco plausibili probabilmente le ipotesi di normalità delle distribuzioni
(come peraltro si può immaginare data la natura delle variabili) e
di linearità e omoscedasticità delle relazioni di regressione.
SOlo a scopo esplorativo riporto qui anche gli stessi grafici in
scala logaritmica: molte relazioni sembrano (ma è da veriverificare)
più facilmente approssimabili da rette.
2002-3003 versione provvisoria
37
Figura 3.7: grafico a matrice delle coppie di variabili:scale logaritmiche per tutte
le variabili
vai a indice figure
3.3
indici di 8 borse
Sono rappresentati nelle figure i grafici a matrice dei valori di chiusura giornaliera degli indici di 8 borse nell’arco di circa 20 anni,
xtj , t = 1, 2, . . . , 4959; j = 1, 2, . . . , 8
38
Materiale didattico statistica 3
Figura 3.8: grafico a matrice delle coppie di variabili:valori giornalieri di 8 indici
di 8 borse
vai a indice figure
Nel grafico successivo sono rappresentate le trasformate ytj di
questi stessi indici, ossia i rendimenti relativi giornalieri:
ytj =
xt+1,j − xtj
xtj
t = 1, 2, . . . , 4958; j = 1, 2, . . . , 8
2002-3003 versione provvisoria
39
Figura 3.9: grafico a matrice delle coppie di variabili trasformate:valori
giornalieri dei rendimenti relativi degli 8 indici di 8 borse
vai a indice figure
40
Materiale didattico statistica 3
3.4
3.4.1
dati antropometrici neonati
descrizione del problema
Rilevazione in un ospedale palermitano dei dati relativi alle nascite
o ai ricoveri in un reparto di neonatologie.
Le variabili rilevate sono tutte quelle previste dalla cartella clinica
da compilare per ogni parto o per ogni neonato entrato
3.4.2
variabili rilevate
• Una rappresentazione con una matrice di grafici è utile per
avere un’idea delle relazioni a due a due fra le variabili.
• Molti software hanno la possibilità di fare tale rappresentazione
direttamente, insieme con la possibilità di marcare alcuni punti
particolari in tutti i grafici
• Fino ad un numero di variabili non superiori ad una decina,
si tratta di una rappresentazione che fa cogliere molto delle
relazioni fra le p variabili
3.4.3
Esempio di matrice dei dati
3.4.4
Rappresentazioni grafiche 1
2002-3003 versione provvisoria
41
Figura 3.10: grafico a matrice delle tre variabili antropometriche e dell’età
gestazionale: dati grezzi
vai a indice figure
3.4.5
Rappresentazioni grafiche 2
42
Materiale didattico statistica 3
Figura 3.11: grafico a matrice delle tre variabili antropometriche e dell’età
gestazionale: dati corretti (almeno in parte)
vai a indice figure
3.4.6
Campione del dataset
3.4.7
Problematiche statistiche (solo alcune!)
• nelle rappresentazioni grafiche si sono riportate solo alcune variabili a titolo di esempio: non si è tenuto conto di molte variabili che influiscono su queste, quali il tipo di parto, l’età della
madre, etc.
• E’ possibile costruire degli standard di peso, altezza e circonferenza cranica alla nascita in funzione dell’età gestazionale?
• la relazione fra peso ed età gestazionale è lineare, o è meglio
espressa da un polinomio? e di che grado?
• Che incidenza hanno i diversi tipi di parto?
• Esistono patologie più frequenti in funzione di alcuni fattori?
• Lo status materno (essere fumatrice, tipo di parto, età della
madre, etc. influenza le caratteristiche del neonato?)
2002-3003 versione provvisoria
• Etc. etc. . . .
3.4.8
Alcuni problemi e spunti
Alcune delle relazioni fra variabili sono tipicamente non lineari:
43
44
Materiale didattico statistica 3
Figura 3.12: esempio delle nascite: relazione fra altezza e peso dei nati
vai a indice figure
2002-3003 versione provvisoria
45
Figura 3.13: esempio delle nascite: relazione fra peso dei nati e durata della
gestazione
vai a indice figure
46
Materiale didattico statistica 3
Figura 3.14: esempio delle nascite: relazione fra peso dei nati e durata della
gestazione
vai a indice figure
2002-3003 versione provvisoria
47
Figura 3.15: esempio delle nascite: relazione fra peso dei nati e durata della
gestazione
vai a indice figure
48
Materiale didattico statistica 3
Figura 3.16: esempio delle nascite: relazione fra peso dei nati e durata della
gestazione
vai a indice figure
regressione
Non si confonda la curva ottenuta dalle medie dei pesi dei nati
in funzione della durata della gestazione (che è una curva di regressione )con la curva di crescita (intrauterina) del peso per un singolo
neonato in funzione della settimana di gravidanza (che è una curva
di crescita individuale)
3.4.9
Una relazione non lineare: regressione non parametrica
Nella figura è riportata la relazione (per il dataset delle nascite) fra
peso all’ingresso e peso all’uscita (solo a titolo di esempio e trascurando tutte le altre variabili che consentirebbero di selezionare
meglio i casi)
• E’ evidente che la relazione fra le due variabili non è lineare.
• Infatti, come si vede anche dal grafico, si sa che il neonato
comunque non esce dal reparto se non ha raggiunto un certo
peso (parte sinistra del grafico); (nel grafico sono riportati tutti
2002-3003 versione provvisoria
49
i casi a prescindere dal numero di giorni di permanenza e a
prescindere dal numero di settimane di gestazione)
• E’ improbabile che sia utile adattare un’unica relazione di regressione: è meglio procedere per via esplorativa
50
Materiale didattico statistica 3
Figura 3.17: esempio delle nascite: relazione fra peso all’ingresso e peso all’uscita
vai a indice figure
Si può cercare di stimare una relazione di regressione non paregressione non parametri- rametrica come si vede dal grafico (è irrilevante qual’è la tecnica
ca
particolare usata) da un certo punto in poi, la relazione può essere
considerata senz’altro lineare.
E’ ovvio che un’unica relazione lineare sarebbe del tutto insoddisfacente
3.4.10
spunti teorici
Esempio sui farmaci
Si vuole verificare l’efficacia di due o più farmaci per la cura di una
certa patologia.
• Si tenga presente che presumibilmente individui distinti possono avere reazioni differenti a parità di tipo e di dose del
farmaco.
• La reazione ad un farmaco potrebbe dipendere in parte da caratteristiche del paziente, quali: sesso, età, ipertensione, presenza di altre patologie, etc.
2002-3003 versione provvisoria
51
Problemi di organizzazione dell’esperimento:
Lo stesso soggetto può ricevere somministrazioni differenti? (per
molte patologie ciò non sarà senz’altro possibile, lo sarà ad
esempio per l’emicrania, ma non per le cardiopatie)
• E’ opportuno prevedere un gruppo di controllo cui viene somministrato un placebo?
• La consapevolezza dei soggetti di far parte di un gruppo sperimentale in certi casi potrebbe alterare la risposta.
• Come misurare l’effetto nel caso della mancata somministrazione di un farmaco? (ossia lo stato del paziente in assenza
di cura?) Mediante placebo o mediante dati storici o di altri
esperimenti su altri soggetti?
• Cambia qualcosa se lo scopo è il confronto fra i due farmaci
oppure una valutazione della loro efficacia individuale?
Esempio cavie
In un esperimento farmacologico su un antidepressivo somministrato a delle cavie, si vuole verificare l’efficacia del farmaco in concomitanza con altri fattori, alcuni dei quali dipendenti dal fatto che
la madre della singola cavia avesse assunto o meno un certo altro
farmaco durante la gravidanza.
esempio
dai dati farmacologici
numeri e grafici
Molti fattori sono costituiti da mutabili dicotomiche (ossia
somministrazione o no del farmaco)
Viene organizzato un esperimento con diverse combinazioni dei
livelli dei fattori. Per ogni soggetto viene predeterminata una attitudine generale all’esperimento in assenza di farmaco.
52
Materiale didattico statistica 3
Esempio dosaggio farmacologico
In un esperimento farmacologico di dosaggio biologico, si vuole costruire la curva di risposta in funzione delle dosi di un certo farmaco
A.
esempio di biostatistica
curva sigmoidale
con approssimazione lineare
problemi statistici
• E’ noto che la risposta media individuale per dosi intermedie
è approssimativamente lineare, almeno in un range limitato di
valori delle dosi somministrate.
• Per intervalli più ampi si sa senz’altro che la risposta non è di
tipo lineare.
• Dosi troppo piccole (al di sotto di un certo valore di soglia) non
portano risposte misurabili.
• I sovradosaggi (ossia le dosi di farmaco superiori a un certo
livello di soglia) non portano benefici ulteriori, o addirittura
possono essere dannosi.
• Occorre stimare il livello di soglia minima e quello massimo.
• Si vuole stimare la forma dell’intera curva di risposta
• Si vogliono ottenere dei dosaggi particolari (corrispondenti al
50%, ossia al fatto che siano efficaci per il 50% dei soggetti)
Esempio estrazione minerali
In un esperimento industriale si vogliono mettere a confronto più
procedimenti per l’estrazione di un certo elemento da minerali grezzi.
• Interessa selezionare il procedimento complessivamente migliore, ossia che estrae la maggior parte di elemento a parità di
costo o di costo inferiore a parità di materiale.
• I minerali grezzi hanno caratteristiche differenti come proporzione di elemento presente.
2002-3003 versione provvisoria
53
Alcuni procedimenti potrebbero essere migliori con minerali con
un maggior grado di purezza.
Esempio lavorazione lastra
Si deve eseguire una lavorazione per deformazione plastica su una
lastra metallica.
• E’ noto che il processo risulta notevolmente influenzato sia da
parametri geometrici sia tecnologici.
• In fase di progettazione vengono fissati la forma e le dimensioni finali del pezzo, il suo spessore, e il tipo di materiale da
utilizzare.
• Il problema è quello di determinare il valore degli altri parametri che caratterizzano il processo, quali il raggio del punzone,
le condizioni di attrito iniziale, la pressione da esercitare, con
l’obiettivo di ottimizzare il processo di lavorazione.
Esempio sulla didattica nelle scuole
In uno studio sulla qualità didattica delle scuole elementari si vuole
vedere se l’apprendimento dei bambini è in qualche modo legato al
livello di scolarizzazione dei genitori.
mettere un esempio vero
• Si deve tenere conto dell’influenza della diversa scuola.
• Si deve tenere conto dell’influenza del diverso insegnante.
• Si possono tenere presenti altri fattori che possono influenzare
tale relazione.
Esempio emittente televisiva
mettere un esempio vero
Viene condotta per conto di un’emittente televisiva un’indagine (multiscopo) mediante questionario per studiare il gradimento delle trasmissioni, misurato sia attraverso una scala prestabilita sia mediante
54
Materiale didattico statistica 3
il numero degli spettatori (che ha seguito tutta la trasmissione o solo
una parte)
• I gradimenti saranno differenti per le diverse trasmissioni;
• Potrebbe esservi un’influenza di fattori quali: sesso, età, posizione geografica, preferenze degli altri componenti del nucleo
familiare, etc.
• L’orario di trasmissione e il tipo di programmi offerti simultaneamente dalla concorrenza avranno sicuramente un’influenza
sul numero medio di spettatori e/o sullo share.
Esempio su un indagine clinica
Si sta studiando una determinata patologia e si predispone un’indagine clinica in cui si esaminano due gruppi di soggetti, brevemente
identificati come malati e sani. Per ciascun soggetto si rileva una
molteplicità di fattori collegati con la sintomatologia, la fisiologia e
l’anamnesi del singolo paziente.
• Quanto differiscono, rispetto ai vari sintomi ed alle caratteristiche fisiologiche ed all’anamnesi, i pazienti malati da quelli
sani?
• E’ possibile dire se un individuo è sano o malato sulla base
dei soli sintomi e delle variabili ausiliarie, prima di effettuare
un’analisi specifica? Qual è la probabilità di sbagliare e quali
sono i sintomi o le caratteristiche che consentono di prendere
le decisioni migliori?
• Oppure si vuole stimare qual è la probabilità di contrarre la
malattia (in un determinato intervallo di tempo) in funzione
dei vari fattori.
Esistono alcuni sintomi o caratteristiche individuali che possono
fungere da variabili di screening ossia di discriminazione fra i due
gruppi?
2002-3003 versione provvisoria
55
Esempio del sito archeologico
In un sito archeologico vengono trovati diversi scheletri. Su ciascuno
scheletro vengono effettuate diverse misurazioni (larghezza scatola
cranica, lunghezza femore, etc, . . . )
Sulla base di queste misurazioni è possibile stabilire se si tratta
di un insieme omogeneo?
• Oppure l’insieme è eterogeneo e quindi è un sito in cui sono
presenti sia uomini, che donne e bambini?
• E’ un sito in cui si trovano solo uomini (e quindi forse è un
campo di battaglia)?
Esempio del magazzino di un ipermercato
Si deve ottimizzare l’allocazione delle risorse nel magazzino centrale
di una catena di ipermercati: l’ottimalità dell’allocazione coincide
con la minimizzazione dei tempi di evasione degli ordini.
• In realtà si vuole contemporaneamente tenere conto di altri
fattori importanti, quali la fragilità dei colli, o la loro diversa
forma, che non consente un perfetto riempimento della pedana, o ancora il grado di affinità tra i prodotti (per esempio al
magazziniere può risultare comodo trovare tutti i tipi di pasta
in posizioni limitrofe), o una certa correlazione tra i prodotti,
dovuta al fatto che questi spesso si trovano presenti contemporaneamente in un ordine, o infine, ma non per questo meno
importante, il diverso indice di rotazione della merce.
Come tenere conto simultaneamente di tutti questi fattori di cosı̀
diversa natura?
Esempio sulle onde sonore
Si hanno dei campioni di onde sonore, rappresentate da curve, prodotte da un campione di n soggetti nel pronunciare alcune parole
56
Materiale didattico statistica 3
prestabilite. In base a questa informazione campionaria, se si osservano nuove onde sonore, si è in grado di determinare a quali parole
corrispondono?
Esempio sulla pesate
Si hanno cinque oggetti: se ne vogliono determinare le masse disponendo di una bilancia.
• Occorre effettuare una pesata a vuoto per tarare lo strumento?
• E’ meglio pesare tutti gli oggetti insieme oppure singolarmente?
• E’ opportuno effettuare più pesate in tempi diversi?
• Quale precisione nel risultato si vuole ottenere?
• Il tipo di strumento è rilevante? (la bilancia di un laboratorio chimico ha caratteristiche diverse da quella del negozio
alimentare)
E’ rilevante nell’organizzazione dell’esperimento che le masse siano simili oppure fra loro molto differenti, ad esempio se fra i cinque oggetti vi sono un camion ed una rondella? (e per rispondere a questa domanda abbiamo fatto una sommaria valutazione
preliminare delle quantità che occorre stimare)
Esempio rete ferroviaria
Consideriamo la rete dei trasporti ferroviari italiana; in una situazione di completa omogeneità dovremo aspettarci dei tempi di percorrenza da una città all’altra esattamente proporzionali alle distanze
che. Euclidee fra le varie città. In effetti, si sa che ciò non si verifica quasi mai e potrebbe quindi essere interessante effettuare la
seguente applicazione di scaling multidimensionale.
Si considerino n città italiane; si rilevano i tempi di percorrenza
ferroviari secondo quanto riportato dagli orari ufficiali delle ferrovie,
convenendo di prendere ogni volta il tempo più breve per ogni itinerario. Se i tempi fossero proporzionali alle distanze, una tecnica
2002-3003 versione provvisoria
57
d i scaling multidimensionale che trovi due soli fattori dovrà riprodurre esattamente la disposizione geografica delle n città; a meno
di una rotazione ortogonale e trascurando l’effetto della curvatura
terrestre.
Dal momento che i tempi non sono in realtà proporzionali alle
distanze, l’estrazione dalla tabella dei tempi dei primi due fattori mediante una qualsiasi tecnica di scaling multidimensionale ci
permette di vedere in quale il grado di distorsione delle distanze
indotto dal nostro sistema di misurazione; in altri termini costruiremo una carta geografica immaginaria nella quale le distanze sono
proporzionali il più possibile ai tempi di percorrenza osservati.
Esempio delle prove dei Gran Premi
Come esempio minimo di modello di analisi della varianza gerarchico
con effetti misti, ossia effetti fissi e ed effetti casuali, prendiamo
un piccolo esempio tratto da avvenimenti sportivi; esaminiamo i
tempi di qualifica ottenuti dai vari piloti nei gran premi di formula
uno. Consideriamo i tempi di qualifica e non i risultati ottenuti
in gara perché questi ultimi sono perturbati da diversi fattori, ed
inoltre hanno una notevole percentuale di dati censurati o comunque
indeterminati perché molti piloti non concludono la corsa; i dati
relativi invece alle qualifiche sono in effetti più regolari anche perché
ottenuti in condizioni più controllate.
I dati sono classificabili secondo più criteri: un criterio di classificazione è il particolare circuito; questo certamente andrà considerato
come un effetto fisso la cui influenza va eliminata; un altro criterio
di classificazione la scuderia; un terzo criterio è costituito dai due
piloti di ciascuna squadra. Il disegno è gerarchico perché i piloti di
ciascuna scuderia sono sempre gli stessi. Potremmo chiederci:
• Qual è l’effetto medio di ciascun circuito?
• Quanto influente, o significativa, è la differenza fra le varie
squadre?
• All’interno di ciascuna squadra, le differenze fra i piloti sono
significative?
• Quale dei precedenti effetti è preponderante?
• È più ragionevole studiare i tempi o la velocità?
58
Materiale didattico statistica 3
• L’ipotesi di normalità è ragionevole? Su questo aspetto una
analisi dei residui empirici sarà di grande aiuto.
• Esiste interazione fra i circuiti e le squadre? È estremamente
difficile che i dati relativi alle sessioni di prova possano fornirci
tali informazioni, in quanto le repliche sono costituite dai tempi
migliori dei due piloti; non sono stati rilevati tempi diversi per
ciascun pilota.
3.5
Elementi distintivi dei vari problemi
migliorare questa parte:
mettere riferimenti agli esempi
• Le variabili esplicative possono essere quantitative, qualitative
o miste.
• I dati possono provenire da esperimenti pianificati, in cui alcuni
fattori sono tenuti sotto controllo, o da studi osservazionali
in cui non è possibile tenere sotto controllo i fattori. E’ di
fondamentale importanza che lo statistico intervenga comunque
nella fase di pianificazione dello studio, prima della rilevazione
dei dati.
• Può interessare la verifica di una particolare ipotesi (o la costruzione di un intervallo o regione di confidenza) relativamente solo ad un gruppo di parametri, mentre altri parametri del
modello giocheranno il ruolo di parametri di disturbo. Svolge
spesso il ruolo di fattore di disturbo la particolare distribuzione
di errori accidentali.
• La risposta che si vuole ottenere può essere soltanto di tipo
comparativo (qual è il migliore fertilizzante fra A, B e C), oppure assoluto (qual è l’effetto medio del farmaco A per pazienti
di un certo tipo?)
• Come attribuire i vari trattamenti alle singole unità?
2002-3003 versione provvisoria
3.5.1
Elementi comuni ai vari problemi:
Problema generale
In generale si vuole studiare (possibilmente sulla base di
un campione di osservazioni) la dipendenza di un fenomeno (espresso spesso da una variabile quantitativa) da una
molteplicità di fattori o variabili esplicative (quantitative e/o
qualitative)
59
60
Materiale didattico statistica 3
Capitolo 4
Variabili Statistiche
Multiple
In questa breve sezione introduciamo la notazione per insiemi di dati
multivariati, le cosiddette matrici di dati;
in questo contesto verranno rivisti i concetti di momento primo
e secondo di variabili statistiche multiple, per i quali spesso è utile
adottare un simbolismo compatto, e se ne vedrà il significato;
quindi si darà un’ interpretazione all’analisi delle componenti
principali valida quando si hanno variabili statistiche osservate e
non variabili casuali.
4.1
Calcoli statistici in notazione vettoriale
espressione della varianza di una variabile statistica
Se abbiamo un vettore di osservazioni x e il corrispondente vettore degli scarti z :




x1
z1




 z2 
 x2 




 .. 
 .. 
 . 
 . 


z=
x=
 z 
 x 
 i 
 i 
 . 
 . 
 .. 
 .. 




xn
zn
con
zi = xi − M (x)
i = 1, 2, . . . , n
61
62
Materiale didattico statistica 3
è facile vedere che:
nV [x] =
n
X
(xi − M (x))2 =
i=1





n
X

2
=
zi = {z1 , z2 , . . . , zi , . . . , zn } 


i=1



z1
z2
..
.
zi
..
.
zn






=





= zT z
In modo simile, abbiamo l’espressione della covarianza
espressione della media aritmetica
inserire esempi con matrice di correlazione
in notazione standard e matriciale
4.1.1
Definizione della matrice dei dati
Supponiamo di avere l’informazione relativa a n unità su cui sono
state rilevate p variabili statistiche.
in questa fase di definizione del simbolismo che adotteremo per
un insieme di dati multivariato, non ci preoccuperemo del fatto che queste unità costituiscano una popolazione completa o
piuttosto un campione (casuale semplice, stratificato, ragionato, etc): supponiamo che si tratti comunque dell’intera informazione disponibile dall’osservazione, comunque essa sia stata
effettuata.
L’informazione completa è in ogni caso costituita da una matrice
di dati X[n×p] :
La matrice X (n righe e p colonne), di elemento generico xij
è data dai valori osservati di p variabili (che per ora supporremo
quantitative), per ciascuna delle n unità statistiche:
2002-3003 versione provvisoria

X[n×p]







=







X1
63
X2
Xj

Xp

x11 x12 . . . x1j . . . x1p U1 


... ... ... ... ... ...



... ... ... ... ... ...

xi1 xi2 . . . xij . . . xip Ui 



... ... ... ... ... ...


... ... ... ... ... ...

xn1 xn2 . . . xij . . . xnp Un
Non si confonda adesso la matrice dei dati X , con un vettore
aleatorio X : sebbene abbia usato lo stesso simbolo, sarà sempre
chiaro dal contesto a cosa ci si riferisce.
Medie =
M1 M2 . . . Mj . . . Mp
L’informazione relativa ad una unità Ui è dunque costituita dalla
riga i-esima delle p osservazioni relative alle p variabili:
Ui = {xi1 ; xi2 ; . . . ; xij ; . . . ; xip }T ; i = 1, 2, . . . , n
L’ informazione (univariata) relativa alla j-esima variabile Xj è
contenuta nella j-esima colonna:
Xj = {x1j ; x2j ; . . . ; xij ; . . . ; xnj }T ; j = 1, 2, . . . , p
Non verranno prese in considerazione in questo momento le problematiche derivanti da matrici di dati incomplete, ossia in cui
alcune delle osservazioni xij relative ad uno o più casi ed ad
una o più variabili sono mancanti. Alcune di queste problematiche verranno riprese più avanti, in particolare nel corso di
esercitazioni.
64
Materiale didattico statistica 3
I momenti primi e secondi (multivariati) di una variabile statistica
multipla
Ritornando alle ordinarie matrici di dati a due vie, la media aritmetica di ciascuna variabile è data:
n
X
Mj =
xij /nj = 1, 2, . . . , p
i=1
Il vettore delle medie è costituito dalle p medie aritmetiche:


M1


 M2 


 .. 
 . 

M (X) = 
 M 
 j 
 . 
 .. 


Mp
Se consideriamo una rappresentazione geometrica delle n unità
statistica, la nostra matrice dei dati costituisce l’insieme delle coordinate di n punti in uno spazio p-dimensionale.
Il punto di coordinate M (X) è detto centroide dell’insieme multivariato di dati.
E’ facile vedere che in notazione matriciale possiamo esprimere
M (X) mediante la relazione:
M (X) = XT 1n /n
Da ora in poi indicheremo con 1k un vettore colonna di k elementi
tutti uguali ad 1:


1


 ... 



1k = 
 1  , kvolte


 ... 
1
Per i momenti del secondo ordine si ha:
la varianza della singola variabile Xj :
σj2
=
n
X
i=1
(xij − Mj )2 /nj = 1, 2, . . . , p
2002-3003 versione provvisoria
65
la covarianza fra la variabile Xj e la variabile Xk :
σjk =
n
X
(xij − Mj )(xik − Mk )/n
i=1
j = 1, 2, . . . , p
k = 1, 2, . . . , p
E’ noto che tali relazioni riguardanti momenti secondi centrali,
sono esprimibili in termini dei momenti primi e secondi con origine
lo zero:
σj2
=
n
X
x2ij /n − Mj2 j = 1, 2, . . . , p
i=1
σjk =
n
X
xij xik /n − Mj Mk j = 1, 2, . . . , p; k = 1, 2, . . . , p;
i=1
Matrice di varianze e covarianze

σ12
. . . σ1i . . . σ1p

 ...

V [X] = 
 σ1i

 ...
σ1p
... ... ... ...
. . . σi2 . . . σip







... ... ... ... 
. . . σip . . . σp2
Per gli elementi sulla diagonale principale di V [X], ossia per le varianze delle singole componenti, invece della notazione σii si impiega
la notazione σi2 per uniformità col simbolismo nel caso univariato.
Si può definire la matrice di correlazione di elemento generico: matrice di correlazione
rij = {R(X)}ij =
σij
σi σj
che, ovviamente, è simmetrica ed ha elementi diagonali tutti
uguali ad uno:
66
Materiale didattico statistica 3
Matrice di correlazione empirica di p variabili
statistiche
rij = {R(X)}ij =

1

 ...

R(X) = 
 r1i

 ...
r1p
σij
σi σj
. . . r1i . . . r1p


... ... ... ... 

. . . 1 . . . rip 


... ... ... ... 
. . . rip . . . 1
Misura le correlazioni lineari fra le coppie di variabili.
Vedere esempio
E’ essenziale anche come strumento esplorativo.
La matrice di correlazione uguale alla matrice di varianze e
covarianze delle corrispondenti variabili standardizzate
2002-3003 versione provvisoria
67
Figura 4.1:
vai a indice figure
68
Materiale didattico statistica 3
Figura 4.2: Matrice di correlazione delle 4 variabili dell’esempio dei neonati
vai a indice figure
E’ utile spesso fare riferimento alla matrice degli scarti Z , il cui
generico elemento è definito da:
zij = xij − Mj i = 1, 2, . . . , n
j = 1, 2, . . . , p
Evidentemente le nuove variabili Zj risultano a media nulla.
Indichiamo ciascuna colonna con zj
M (Z) = 0
Adesso possiamo esprimere in modo compatto la generica covarianza σjk (o meglio la codevianza) in funzione delle colonne zj e
zk :
n
n
X
X
nσjk =
(xij − Mj )(xik − Mk ) =
zij zik =
i=1
i=1


z1k
 . 
 .. 




= (z1j , . . . , zij , . . . , znj )  zik  =
 . 
 . 
 . 
znk
= zT
j zk
Con questa posizione di comodo, è facile ora vedere che la matrice
di varianze e covarianze p × p delle variabili Xj (o delle variabili Zj )
è esprimibile in forma matriciale compatta da:
2002-3003 versione provvisoria
69
V (X) = V (Z) = ZT Z/n
Si può anche vedere che:
Z = X − 1n M (X)T = X − 1n 1n T X/n == (I − 1n 1n T /n)X
V (X) = V (Z) = [XT − M (X)1n T ][X − 1n M (X)T ]/n =
= XT X/n − M (X)M (X)T
ricordando, per l’ultimo passaggio, che:
[XT −M (X)1n T ][1n M (X)T ]/n = 0eM (X)1n T X/n = M (X)M (X)T .
Oppure, dalla relazione prima vista:
Z = (In − 1n 1n T /n)X,
si ha:
T
ZT Z = XT (In − 1n 1n T /n/n)T (In − 1n 1n /n)X;
e considerando che la matrice (In − 1n 1n T /n) è simmetrica e idempotente, si ha infine:
nV (X) = nV (Z) = ZT Z = XT (In − 1n 1n T /n)T (In − 1n 1n T /n)X =
= XT (In − 1n 1n T /n)X;
Si vedrà a proposito anche l’espressione della devianza residua nell’analisi dei modelli lineari, che è formalmente analoga a questa
espressione.
Come si vede, si ottengono risultati già noti nel caso a una e
due variabili sui momenti primi e secondi; la notazione matriciale
permette di ottenere risultati anche mnemonicamente simili a quelli
più che noti del caso univariato.
E’ appena il caso di osservare che mentre la notazione matriciale
fornisce espressioni compatte ed è inoltre implementabile facilmente negli ambienti di programmazione che supportano operazioni matriciali, difficilmente fornisce gli algoritmi più efficienti
per il calcolo dei momenti multivariati.
I momenti di combinazioni lineari di variabili statistiche multipla Per i momenti di combinazioni lineari di una variabile multipla
70
Materiale didattico statistica 3
valgono ovviamente relazioni del tutto analoghe a quelle viste per
combinazioni lineari di vettori di variabili aleatorie:
costruiamo una nuova variabile statistica a k componenti, mediante una qualsiasi trasformazione lineare delle variabili Xj , colonne della matrice dei dati X :
Y = XAT + 1n cT
La matrice A[k×p] ha k righe e p colonne e per il resto è qualsiasi,
nel senso che il suo rango può anche essere inferiore a min(k, p).
Il vettore c[k×1] ha k elementi.
La nuova matrice di dati Y ha n righe e k colonne Con semplici
passaggi si vede come data la matrice A e il vettore c è possibile
ottenere tutti i momenti di Y in funzione di quelli di X :
T
M (Y) = M (X)A + c
T
V (Y) = V (XA + 1n cT ) = AV (X)AT
MOMENTI DI UNA TRASFORMATA LINEARE y DI UNA
VARIBILE STATISTICA MULTIPLA
Y = XAT + 1Tn
T
T
M (XA + 1n cT ) = M (X)A + c Speranza matematica
T
V (XA + 1n cT ) = AV (X)AT
Matrice di varianze e covarianze
In particolare se k = 1 allora A è un vettore riga bT , c è uno
scalare e Y è una v.c. semplice (ossia scalare) e si ha:
y = Xb + c
e quindi:
M (y) = bT M (X) + c = b1 µ1 + b2 µ2 + . . . + bp µp + c
V (y) = bT V [(X)] b = b21 σ12 +b22 σ22 +. . .+b2i σi2 +. . .++b2p σp2 +2b1 b2 σ12 +. . .+2bi bj σij ++ . . .
2002-3003 versione provvisoria
71
...
Una forma quadratica con matrice di coefficienti data da
una matrice di varianze e covarianze V [X] esprime sempre
la varianza di una combinazione lineare delle X :
bT V [(X)] b = V [X]
...
Una matrice di varianze e covarianze è sempre semidefinita
positiva.
essendo V [Y] ≥ 0 , in quanto una varianza è sempre non
negativa, allora:
tT V [X] t ≥ 0, ∀t, t 6= 0
Rango della matrice di varianza e covarianza
• Se una variabile statistica è combinazione lineare delle altre
p − 1, allora il rango della matrice di varianza e covarianza di
X risulta uguale a p − 1 ;
• in generale il rango di V [X] risulta uguale a p − k se k componenti sono ottenute attraverso combinazioni lineari (indipendenti) degli elementi di X.
• il rango di V [X] risulta uguale esattamente a p (ossia a rango pieno) se e solo se le componenti di X sono linearmente
indipendenti.
72
Materiale didattico statistica 3
...
La sola conoscenza del rango di una matrice di varianza e covarianza ci dice poco sul tipo di interrelazioni (eventualmente
lineari) esistenti fra le p componenti: ci dice solo se esistono
uno o più legami lineari esatti
Esempio su una coppia di variabili standardizzate con
!
1 r
V [X] =
r 1
Le due variabili sono esattamente collineari solo se |r| = 1
Richiamo su autovalori e autovettori (in particolare per matrici
simmetriche, e per matrici di varianze e covarianze)
Cenno alle componenti principali
se γ j è un autovettore di V [X], (normalizzato, ossia con γ T
j γj =
1 allora si ha:
T
V [X] = γ T
j λγ j =
= V Xγ j
Zj = Xγ j
j = 1, 2, . . . , p
prima componente principale
Si può dimostrare che la variabile Z1 è la combinazione lineare
delle X (a coefficienti normalizzati) di maggior varianza,
e va sotto il nome di prima componente principale
Sezione avanzata
Formule più complesse valgono per i momenti multivariati di ordine superiore al secondo, ma
è possibile ricavare tutti i momenti (multivariati) di grado k di Y , sia centrali che non centrali,
a partire dalla conoscenza della matrice di trasformazione A e dei momenti multivariati di grado
1, 2, . . . , kdiX.
Come per le variabili aleatorie semplici i momenti di ordine 3 e 4 forniscono degli indici di forma,
i momenti multivariati di ordine superiore al secondo forniscono degli indici di forma multivariati,
2002-3003 versione provvisoria
73
degli indicatori di allontanamento dalla multinormalità, indici di non linearità delle regressioni e di
eteroscedasticità.
Esempio
n = 20, p = 4
X[20,4]


36
1930
435
304























=






















36
2100
440
40
2920
470
36
2900
480
40
3000
480
34
2770
460
40
3400
495
40
3500
500
41
3430
500
40
3200
490
41
3530
500
40
3310
500
39
3650
505
40
2920
505
39
3120
510
36
3500
510
39
3540
515
41
3640
525
41
4160
550
40
4140
535

315 


321 

332 


335 

330 


330 

333 


325 

314 


350 

340 


345 


327 

340 


335 

342 


346 

370 

363

779


38.95





 64660 
 3233.00 




M (X) = X 120 /20 = 
/20 = 


 9905 
 495.25 
6697
334.85
T
V(X) = XT X/n− =
74

Materiale didattico statistica 3
30427
2532510
386525
261120



 2532510 215035800 32309200 21794920 
T


 386525 32309200 4921075 3323975  /20−M (X)M (X) =


261120 21794920 3323975 2247269

4.471053
737.000
38.17105
14.30789



 737.000000 315264.211 15070.26316 7553.63158 

= cov(X) = 

 38.171053 15070.263
822.30263
383.46053


14.307895
7553.632
383.46053
251.50263

1.0000000 0.6207622 0.6295256 0.4266773


 0.6207622 1.0000000 0.9359824 0.8482956
Cor(X) = 
 0.6295256 0.9359824 1.0000000 0.8432057

0.4266773 0.8482956 0.8432057 1.0000000





Sezione avanzata
E’ invalso di recente l’uso di indicare una matrice dei dati X come matrice a due vie (unità ×
variabili) per distinguerla dalle cosiddette matrice a tre vie (unità × variabili × occasioni) in cui
per esempio l’elemento xijk rappresenta l’osservazione della j-esima variabile nell’i-esimo individuo
nell’occasione k, se per esempio lo stesso insieme multivariato è stato osservato in diverse occasioni,
o in diverse località; evidentemente in questo caso potremo fare diverse sezioni a due vie dei dati,
ma non è un argomento che trattiamo adesso.
4.1.2
significato dei primi due momenti multivariati empirici
Resta inteso che il significato da attribuire ai momenti primi e
secondi multivariati empirici è diverso secondo che si supponga:
1. di avere un campione proveniente da una distribuzione normale
multivariata
2. oppure solo un insieme di dati da una popolazione non specificata
Nel primo caso i momenti primi e secondi empirici sono proprio gli
stimatori di massima verosimiglianza dei parametri di una normale
multivariata (gli unici parametri di tale distribuzione);
2002-3003 versione provvisoria
75
Nel secondo caso i momenti avranno soltanto un valore sintetico
o descrittivo e non è detto che siano le migliori misure di media e
dispersione multivariata per i dati in esame.
4.1.3
ACP per variabili statistiche osservate
Vale la pena di ricordare che l’analisi delle componenti principali
può essere ancora vista come un problema di determinazione delle
combinazioni lineare (non correlate) di massima varianza di variabili statistiche effettivamente osservate, piuttosto che di variabili
aleatorie multiple (oppure come problema di determinazione della
combinazione lineare,vincolata, di varianza minima!); oppure come problema di determinazione di un nuovo spazio di riferimento
ortogonale.
Si ottengono comunque, se si prendono tutti gli autovettori, le
componenti per la rotazione della matrice dei dati che determinano
un nuovo insieme di variabili non correlate.
Nel caso di variabili statistiche multiple esiste un’altra possibilità
di interpretazione, più vicina alla logica della regressione lineare.
Si supponga di avere una matrice n × p di dati Z relativa a p
variabili centrate (ossia a medie nulle): 1Tn Z = 0p ; possibilmente le variabili sono standardizzate (diversamente l’analisi sarebbe
influenzata dalle diverse scale e unità di misura delle variabili).
Problema:
Trovare una retta r1 (nello spazio p-dimensionale definito dalle
variabili originali) di coseni direttori y1 , che minimizzi la somma delle distanze dei punti originali Pi dalle rispettive proiezioni ortogonali Qi1 su r1 gli n punti proiettati avranno coordinate
qi1 (i = 1, 2, . . . , n); il vettore di tali coordinate, ossia il vettore dei
valori assunti dalla nuova variabile si ottiene ovviamente mediante
la proiezione q1 = Zy1 . il vincolo di normalizzazione: y1T y1 = 1 , è
ovvio dato che y1 è un vettore dei coseni direttori.
76
Materiale didattico statistica 3
Figura 4.3: Retta di minima distanza (ortogonale!)
ti:regressione principale
dai punti osserva-
vai a indice figure
Si noti dalla figura che il quadrato della distanza euclidea di ogni
singolo punto Pi dall’origine O (baricentro, o centroide, è coincide
con il vettore delle medie delle p variabili), può essere espresso come:
2
2
OPi = OQi + Pi Qi
2
e si ha anche palesemente:
2
2
OPi = OH + Pi H
2
Uguagliando i secondi membri di tali relazioni pitagoriche, ed
esprimendo in termini di coordinate centrate, (ossia a media nulla)
2002-3003 versione provvisoria
77
nel caso generale di p coordinate si ha:
p
X
2
zij
= qi2 + Pi Qi
2
j=1
essendo:
p
n X
X
2
zij
=
i=1 j=1
p X
n
X
2
zij
n
X
n
X
i=1
= Dev(q) +
j=1 i=1
p
X
qi2 +
2
Pi Qi ;
i=1
n
X
2
Pi Qi ;
i=1
Dev(Zj ) = Dev(q) +
j=1
n
X
2
Pi Qi .
i=1
In questa relazione la somma delle devianze delle variabili originarie (che è anche uguale alla somma delle distanze dei punti dal
centroide) è ovviamente invariante rispetto a qualsiasi scelta della
retta e pertanto è una costante. Se indichiamo con q la nuova variabile, massimizzare Dev(q) , funzione obiettivo dell’ACP, corrisponde
P
a minimizzare ni=1 Pi Qi Quindi r1 è la retta che minimizza la somma delle distanze dei punti dalle loro proiezioni ortogonali sulla retta
stessa. Chiaramente la soluzione del problema di determinazione di
combinazioni lineari di massima varianza (e non correlate) è sempre
fornita dagli autovettori della matrice di varianze e covarianze delle
variabili originarie:
ZT Z
n
(che è anche la matrice di correlazione, se le variabili sono standardizzate).
r1 va anche sotto il nome di retta di regressione principale.
E’ intuitiva la spiegazione geometrica delle componenti successive, come rette, ortogonali alle precedenti.
S=
è possibile anche un’interpretazione in funzione delle distanze
euclidee fra coppie di punti, che per brevità e compattezza di
impostazione, ometto
78
Materiale didattico statistica 3
Capitolo 5
La distribuzione normale
multivariata.
5.1
Richiami sulla normale bivariata
79
80
Materiale didattico statistica 3
Figura 5.1: densità di normali bivariate 1
vai a indice figure
2002-3003 versione provvisoria
81
Figura 5.2: densità di normali bivariate 2
vai a indice figure
images/multinormani1.gifDensità della normale bivariata al variare di ρ images/multinormani2.gifDensità della normale bivariata
al variare di ρ images/multinormani3.gifDensità della normale bivariata al variare di ρ images/multinormani4.gifDensità della normale
bivariata al variare di ρ
ARGOMENTO DA COMPLETARE
La densità di una variabile aleatoria X = (X1 , X2 ) con distribuzione normale bivariata è data da:
f (x1 , x2 ) =
1
p
(5.1)
2πσ1 σ2 1 − ρ2
(
"
2 2 #)
1
x 1 − µ1
(x1 − µ1 )(x2 − µ2 )
x 2 − µ2
exp −
−2ρ
2(1 − ρ2 )
σ1
σ1 σ2
σ2
Ho riportato la coppia di variabili (X1 , X2 ), (e non (X,Y) perchè
questo renderà più semplice poi il passaggio alla normale multivariata;
tuttavia ho mantenuto la parametrizzazione con la correlazione
ρ piuttosto che con la covarianza σ12 .
82
Materiale didattico statistica 3
I primi due momenti identificano completamente la distribuzione,
in quanto si ha:
E [X1 ] = µ1 E [X2 ] = µ2
V [X1 ] = σ12
V [X2 ] = σ22
CovX1 , X2 = ρσ1 σ2
in termini matriciali:
E [X] =
µ1
!
V [X] =
µ2
σ12
ρσ1 σ2
ρσ1 σ2
σ22
!
per cui la correlazione lineare è data da ρ, infatti:
corr(X1 , X2 ) =
covX1 , X2
=ρ
σ1 σ2
Si ha l’importantissima proprietà:
Correlazione ⇐⇒ indipendenza nella normale
bivariata
In una normale bivariata:
X1 ⊥ X2 ⇐⇒ ρ = 0
ossia l’assenza di correlazione lineare implica l’indipendenza,
per due variabili con distribuzione normale bivariata.
2002-3003 versione provvisoria
Figura 5.3: intersezioni con la normale bivariata
vai a indice figure
83
84
Materiale didattico statistica 3
Figura 5.4: intersezioni con la normale bivariata
vai a indice figure
2002-3003 versione provvisoria
85
Figura 5.5: intersezioni con la normale bivariata
vai a indice figure
5.2
La normale multivariata
La distribuzione normale multipla può essere introdotta in numerosi
modi, ed espressa con diverse caratterizzazioni.
Qui viene introdotta come la distribuzione congiunta di combinazioni lineari di variabili normali.
5.3
Distribuzione di variabili normali indipendenti
Sia X un vettore di variabili casuali a p componenti indipendenti:
X = {X1 , X2 , . . . , Xi , . . . , Xp }T
ciascuna distribuita secondo una normale standardizzata.
La densità di tale distribuzione, data l’indipendenza, è data da:
86
Materiale didattico statistica 3
...
Densità congiunta di p variabili normali standardizzate e
indipendenti.
fX (x) =
p
Y
f (xi ) =
i=1
−p/2
= (2π)
exp[−
p
X
x2i /2] =
i=1
= (2π)−p/2 exp[−xT x/2]
La funzione caratteristica è:
1 T
φX (t) = exp − t t
2
Ovviamente i primi due momenti di X , per le ipotesi fatte,
sono:
E [X] = 0p ,
V (X) = Ip
E’ noto, ed è facile comunque vederlo attraverso la funzione caratteristica, che una singola combinazione lineare Z del vettore aleatorio X si distribuisce secondo una normale univariata, con media e varianza ricavabili dalle relazioni già viste per i momenti di
combinazioni lineari di vettori aleatori qualsiasi.
Infatti se: Z = bT X + c, allora i primi due momenti di Z sono
dati da:
E(Z) = bT E(X) + c = c
V (Z) = bT Σ(X)b = bT b = b21 + b22 + . . . + b2i + . . . + b2p
e si ha anche:
2002-3003 versione provvisoria
87
Z ∼ N (E(Z), V (Z)).
funzione caratteristica della combinazione lineare
...
Adesso occorre però studiare la distribuzione congiunta di p
combinazioni lineari di variabili normali indipendenti.
5.4
Densità della distribuzione congiunta di p
combinazioni lineari di p variabili normali
indipendenti
Consideriamo allora il vettore aleatorio Y, trasformazione lineare
del vettore aleatorio X, definito dalla relazione:
Y = AT X + µ
essendo:
A una matrice quadrata di dimensione p e rango pieno;
µ un vettore di p elementi;
Per ora abbiamo posto la condizione che A sia a rango pieno p,
sarà poi possibile generalizzare a trasformazioni X ⇒ Y anche
singolari, ossia a rango non pieno;
(rispetto alla notazione ordinaria si è indicata la trasformazione
mediante una matrice trasposta, perché di solito si dà un significato
geometrico alle colonne di A , ed ogni componente di Y corrisponde ad una colonna di A ; inoltre è irrilevante ai fini del risultato
partire da p variabili standardizzate Xi oppure a varianza qualsiasi:
l’importante è che siano indipendenti)
Per le proprietà sui momenti di trasformate lineari di v.a. i
momenti di Y sono dati da:
88
Materiale didattico statistica 3
E(Y) = AT E(X) + µ = µ
V (Y) = AT V (X)A = AT A
Per ricavare la densità di Y è conveniente esplicitare la trasformazione inversa.
Dalla relazione diretta:
Y = AT X + µ,
si ottiene subito la relazione inversa:
X = BT [Y − µ], avendo posto: B = A−1
Pertanto, applicando la regola per le densità di trasformazioni di
variabili aleatorie, la densità di Y è data da:
fY (y) = fX (BT [y − µ])J =
1
−p/2
T
T
= J(2π)
exp − [y − µ] BB [y − µ]
2
essendo J lo Jacobiano della trasformazione da Y a X , ossia la
matrice ∂Y
∂X , che ovviamente è dato da J = mod|B|, per cui si ha:
−p/2
fy (y) = mod|B|(2π)
1
exp − [y − µ]T BBT [y − µ]
2
(5.2)
Questa è la densità richiesta, tuttavia è meglio parametrizzare
questa distribuzione in modo che sia esplicito, se possibile, il legame
con i momenti di Y .
Indichiamo con Σ la matrice di varianza e covarianza di Y, ossia
V (Y), che abbiamo già visto essere uguale a AT A.
Se vogliamo esprimere V (X) in funzione di V (Y) si ha:
V (X) = BT V (Y)B = BT ΣB.
Per ipotesi abbiamo però che V (X) = Ip , per cui:
BT ΣB = Ip
chiarire
citazione
e quindi la matrice B diagonalizza Σ, per cui ha colonne proporzionali agli autovettori di Σ
2002-3003 versione provvisoria
89
divisi per le radici dei rispettivi autovalori (si rivedano eventualmente i teoremi relativi alla diagonalizzazione di matrici, agli
autovalori ed agli autovettori).
Inoltre, prendendo in esame la relazione BT ΣB = I, premoltiplicando ambo i membri per B e postmoltiplicando per BT , si
ottiene:
BBT ΣBBT = BBT
Postmoltiplicando (o premoltiplicando) ora ambo i membri per
(BBT )−1 (che esiste sempre essendo B, e quindi anche BBT , a rango
pieno p) si ha:
BBT ΣBBT (BBT )−1 = BBT (BBT )−1 e quindi:
BBT Σ = I.
Per cui in definitiva si ha:
BBT = Σ−1
e quindi nella forma quadratica ad esponente nell’espressione
(5.2) di fY (y) potremo sostituire BBT con Σ−1 .
Per potere ottenere il determinante di B che compare in fY (y),
basta applicare le note regole sui determinanti delle trasposte, dei
prodotti e delle inverse, per vedere che:
1
1
1
kBk = kBT k = kBBT k 2 = kΣ−1 k 2 = kΣk− 2
Inoltre essendo Σ definita positiva, il suo determinante è certamente
positivo.
5.5
Densità della distribuzione normale multivariata
In conclusione, sostituendo nella densità di y:
1
fY (y) = kB|(2π)−p/2 exp[− [y − µ]T BBT [y − µ]]
2
abbiamo:
90
Materiale didattico statistica 3
...
Densità della distribuzione normale non singolare
multivariata di parametri µ e Σ :
1
1
fY (y) = kΣk− 2 (2π)−p/2 exp[− [y − µ]T Σ−1 [y − µ]]
2
o anche:
1
1
fY (y) =
− [y − µ]T Σ−1 [y − µ]
p exp
1
2
|Σ| 2 (2π) 2
oppure
1
−1
− 12 [y−µ]T Σ [y−µ]
e
|Σ| (2π)p
fY (y) = p
I primi due momenti multivariati sono (come già visto prima
senza alcun bisogno di effettuare integrazioni p-dimensionali):
E [Y] = µ
V (Y) = Σ
e la funzione caratteristica (applicando la regola per le
trasformazioni lineari di variabili aleatorie) è data da:
1
φY (t) = exp[itT µ − tT Σt]
2
Ricordo che i momenti possono essere eventualmente ricavati
dalle opportune derivate di φY (t), valutate in t = 0.
Dalle espressioni della densità riportate sopra, è evidente l’analogia con l’espressione della densità della distribuzione normale
univariata.
Si vede quindi, in analogia al caso univariato, che la distribuzione normale multivariata dipende soltanto dai primi due momenti
(multivariati) di Y.
Inoltre è possibile far vedere, rifacendo a ritroso i passaggi pre-
2002-3003 versione provvisoria
91
cedenti, che qualsiasi vettore aleatorio Y la cui densità è data da:
1
2
−p/2
fY (y) = kC| (2π)
1
exp −
2
[y − µ]C
(5.3)
(con C definita positiva di rango p ) è distribuito secondo una
normale multivariata di parametri µ e Σ = C−1 .
Esiste inoltre una trasformazione lineare di Y che conduce ad un
vettore aleatorio X a componenti standardizzate e indipendenti:
X = BT [Y − µ], in cuiBè tale che : BT ΣB = I
5.5.1
Distribuzioni marginali e indipendenza
Inoltre è evidente che l’indipendenza fra tutte le componenti di Y
si può avere solo quando la fY (y) è fattorizzabile nelle rispettive
densità marginali, il che può avvenire se (e solo se) Σ è diagonale, ossia con covarianze nulle, e quindi correlazioni lineari semplici
nulle, il che porta un’altra fondamentale proprietà della normale
multivariata:
Un vettore aleatorio Y con distribuzione normale multivariata,
è a componenti indipendenti se (e solo se) le correlazioni lineari
fra le sue componenti prese a due a due sono nulle, ossia se la
matrice di varianza e covarianza è diagonale.
Quindi, se due variabili sono congiuntamente normali, l’assenza
di correlazione implica l’indipendenza.
La distribuzione marginale di un qualsiasi sottoinsieme di componenti di un vettore aleatorio distribuito secondo una normale multivariata è ancora distribuito secondo una normale multivariata con
parametri uguali ai corrispondenti sottoinsiemi di µ e Σ: il risultato si dimostra facilmente, ad esempio prendendo la funzione
caratteristica.
Infatti se il vettore Y è suddiviso in due sottovettori [Y1 , Y2 ] ,
corrispondentemente suddividiamo il vettore delle medie e la matrice
di varianza e covarianza:
µ=
µ1
µ2
!
92
Materiale didattico statistica 3
Σ=
Σ11 Σ12
!
ΣT12 Σ22
Posta ora, corrispondentemente alla partizione di Y , una partizione
t = {t1 , t2}, come si sa la funzione caratteristica di Y1 si ottiene da
quella di Y ponendo t2 = 0:
1 T
φY1 (t1 ) = φY (t1 , 0) = exp[itT
1 µ1 − t1 Σ11 t1 ]
2
che è la funzione caratteristica di una normale di parametri µ1 e
Σ11 .
In particolare tutte le distribuzioni marginali delle singole componenti sono normali univariate.
Come corollario è facile vedere che Y1 e Y2 (vettori aleatori
normali) sono indipendenti se e solo se Σ12 = 0.
5.5.2
Distribuzione di combinazioni lineari di variabili normali qualsiasi.
Mediante la funzione caratteristica è possibile vedere ora che qualsiasi combinazione lineare di un vettore aleatorio distribuito secondo una qualsiasi normale multivariata si distribuisce ancora secondo
una distribuzione normale multivariata:
Infatti dal momento che se Y = AZ , si ha:
φY (t) = φZ (AT t),
se Z(Np (µZ , ΣZ ) allora:
1 T
T
φZ (t) = exp it µZ − t ΣZ t
2
e quindi :
1 T
T
T
φY (t) = φZ (A t) = exp iA µZ − t AΣZ A t
2
T
per cui è immediato vedere che questa è ancora la funzione caratteristica di una normale multivariata di parametri AµZ e AΣZ AT
.
2002-3003 versione provvisoria
5.5.3
93
Caratterizzazione della distribuzione normale multivariata.
Le proprietà viste prima sulla distribuzione congiunta di combinazioni lineari di variabili normali costituiscono addirittura una caratterizzazione della distribuzione normale multivariata.
Infatti si ricorda una importante proprietà che caratterizza la
distribuzione normale multivariata (di cui non si fornisce la dimostrazione) (Mardia, 1970):
citazione
...
X , vettore aleatorio a p componenti, è distribuito secondo
una normale multivariata se e solo se bT X è distribuito secondo una normale (univariata) per qualsiasi vettore b di p
componenti.
E’ appena il caso di dire che il calcolo delle probabilità integrali
su domini rettangolari della normale multivariata è estremamente
complesso, e comunque non riconducibile a trasformazioni semplici
di integrali unidimensionali, se le variabili sono correlate.
citare software
Ancora va chiarito, sulla genesi della normale multivariata utilizzata in queste righe, che questa è una impostazione utile per ricavare
la distribuzione di combinazioni lineari di variabili normali indipendenti: nell’analisi di fenomeni reali ovviamente non è quasi mai ragionevole pensare che delle variabili osservate correlate siano state
effettivamente ottenute come combinazione di fattori o variabili non
correlate, anche se ovviamente è possibile, come si vede nell’analisi
delle componenti principali, operare una rotazione per ricavare variabili non correlte, che non necessariamente corrispondono però a
variabili osservabili o dotate di significato
94
Materiale didattico statistica 3
5.6
Assi principali degli ellissoidi di equiprobabilità
E’ immediato vedere che le curve con densità f (y) costante per
la normale multivariata di parametri µ e Σ sono, in uno spazio p
-dimensionale, degli ellissoidi di centro in µ , e di equazione:
1
kΣk− 2 (2π)−p/2 exp(−[y − µ]T Σ−1 [y − µ]/2) = k0
e quindi:
[y − µ]T Σ−1 [y − µ] = k1
essendo k1 e k2 due costanti positive qualsiasi.
• E’ facile vedere quindi che al variare del livello costante k ,
cambia solo il volume dell’ellissoide, ma le proporzioni fra gli
assi restano inalterate;
• le equazioni degli assi principali di tali ellissoidi sono date dagli
autovettori di Σ ;
• i quadrati delle lunghezze degli assi principali di tali ellissoidi
sono proporzionali agli autovalori di Σ.
• Se Σ è diagonale, gli ellissoidi hanno assi paralleli agli assi
coordinati e lunghezza proporzionale agli scarti quadratici medi
delle singole componenti.
• Si può fare vedere che gli autovettori danno le direzioni degli
assi principali impostando ancora un problema di massimo, ossia cercando i due punti sulla superficie dell’ellisse che hanno
distanza massima.
...
Fissato un qualsiasi valore di k1 , esiste una corrispondenza biunivoca fra ellissoidi in <p e distribuzioni normali
multivariate non singolari.
2002-3003 versione provvisoria
Figura 5.6: densità di normali bivariate 1
vai a indice figure
95
96
Materiale didattico statistica 3
Figura 5.7: densità di normali bivariate 2
vai a indice figure
Esempi e grafici sulla normale trivariata
Normale trivariata a media nulla con Matrice di varianze e covarianze:
\begin{fig}
{parametric_ellissoide1_gr_3.gif}
Con autovalori:
parametric_ellissoide1_gr_5.gif
\end{fig}
Ellissoidi di equidensità
(sono due sezioni tridimensionali della densità (a 4D)
Scalato in modo tale che la probabilità che un punto risulti interno all’ellissoide risulti del 90%.
2002-3003 versione provvisoria
97
\begin{fig}
parametric_ellissoide1_gr_11.gif
\end{fig}
Scalato in modo tale che la probabilità che un punto risulti interno all’ellissoide è del 50%
\begin{fig}
parametric_ellissoide1_gr_14.gif
\end{fig}
Normale trivariata a media nulla con Matrice di varianze e covarianze:
\begin{fig}
parametric_ellissoide1_gr_17.gif
Con autovalori:
parametric_ellissoide1_gr_19.gif
\end{fig}
Ellissoidi di equidensità (sono due sezioni tridimensionali della
densità (a 4D)
Scalato in modo tale che la probabilità che un punto risulti interno all’ellissoide sia del 90%.
\begin{fig}
parametric_ellissoide1_gr_25.gif
\end{fig}
Scalato in modo tale che la probabilità che un punto risulti interno all’ellissoide sia del 50%.
\begin{fig}
parametric_ellissoide1_gr_27.gif
\end{fig}
\begin{fig}
parametric_ellissoide1_gr_34.gif
\end{fig}
98
Materiale didattico statistica 3
Dalla figura a fianco si vedono le caratteristiche della distribuzioni
condizionate.
Normale trivariata a media nulla con Matrice di varianze e covarianze:
\begin{fig}
parametric_ellissoide1_gr_41.gif
Ellissoide di equidensità
(è una sezione tridimensionale della densità (a 4D)
Scalato in modo tale che la probabilità che un punto
risulti interno all’ellissoide è del 50%
parametric_ellissoide1_gr_49.gif
\end{fig}
5.7
Distribuzione di forme quadratiche in variabili normali standardizzate e indipendenti.
In questa sezione affrontiamo il problema della distribuzione di particolari forme quadratiche in variabili normali, indipendenti e non: la
finalità sarà chiara quando si studieranno le proprietà degli stimatori e dei test nei modelli lineari (modelli di regressione di analisi della
varianza etc.); si tratta molto semplicemente di generalizzare alcuni
risultati noti sulla v.c. χ2 : è ragionevole aspettarsi che forme quadratiche in variabili normali multivariate siano talora riconducibili
a variabili χ2 .
Sia X un vettore di variabili casuali a p componenti indipendenti,
ciascuna distribuita secondo una normale standardizzata, ossia
X(Np (0p , Ip ).
E’ noto che:
p
X
X2i ∼ χ2p, (oppureXT X(χ2p ).
i=1
In effetti questa è proprio la definizione di una variabile casuale
di tipo chi-quadrato con p gradi di libertà, che risulta avere una
2002-3003 versione provvisoria
99
distribuzione gamma di parametro di forma c = p/2 e parametro di
scala λ .
Più in generale ci si potrebbe chiedere se si può ricavare la distribuzione di una forma quadratica qualsiasi in variabili normali
standardizzate, ossia
Q = XT AX,
e per quali matrici A questa forma quadratica risulta ancora
distribuita come una chi-quadrato.
E’ facile vedere che la forma quadratica Q = XT AX
P
si distribuisce come pi=1 λi χ21 ,
ove i λi sono gli autovalori di A ;
Q = XT AX ∼
p
X
λi χ21
i=1
Questo risultato si ricava facilmente dalla decomposizione spettrale della matrice A , in quanto si può scrivere:
A = ΓΛΓT ,
per cui: Q = XT ΓΛΓT X,
e il vettore aleatorio W = ΓT X è ovviamente normale a componenti standardizzate e indipendenti, data l’ortogonalità di Γ (una
rotazione ortogonale di una iper-sfera conduce sempre ad una ipersfera!). Quindi segue facilmente in modo naturale il risultato scritto
prima. Esprimendo in modo più formale si ha:
posto W = ΓT X , essendo le colonne di Γ gli autovettori (ortogonali: ΓT Γ = I ) di A , si ha per i momenti di W :
E(W) = ΓT E(X) = 0
V (W) = ΓT V (X)Γ = ΓT Ip Γ = Ip
Il vettore aleatorio W è dunque composto da p variabili normali,
standardizzate e indipendenti.
Tornando ora alla forma quadratica Q si ha:
T
T
T
T
Q = X AX = X ΓΛΓ X = W ΛW =
p
X
λi Wi2
i=1
Le componenti Wi2 sono chiaramente distribuite come delle chiquadrato (indipendenti) con un grado di libertà.
100
Materiale didattico statistica 3
Pertanto Q è distribuita come una combinazione lineare di p variabili casuali chi-quadrato indipendenti con un grado di libertà, con
coefficienti dati dagli autovalori di A.
In ogni caso è possibile calcolare i momenti di Q in quanto
combinazione lineare di v.c. χ21 indipendenti:
E(Q) =
p
X
λi E(χ21 )
V (Q) =
λi
i=1
i=1
p
X
=
p
X
λ2i V (χ21 )
=2
p
X
λ2i
i=1
i=1
Se (e solo se) gli autovalori di A sono tutti uguali a 0 o a 1,
ossia se (e solo se) A è idempotente,
Q = XT AX si distribuisce come una variabile casuale χ2r
per la proprietà additiva delle v.c. χ2 , essendo r il rango di A,
ossia il numero degli autovalori λi uguali ad uno
Infatti si vede immediatamente che, se A è idempotente di rango
r , si ha:
λ1 = λ2 = . . . = λr = 1;
λr+1 = λr+2 = . . . = λp = 0;
per cui:
p
X
λi χ21
=
i=1
r
X
1 (χ21
i=1
+
p
X
0 (χ21
=
i=r+1
r
X
χ21 ∼ χ2r
i=1
Per dimostrare che l’idempotenza di A è condizione necessaria
e sufficiente perhcè Q sia distribuita come una chi-quadrato (prima abbiano visto che l’idempotenza di A è condizione sufficiente),
conviene ricorrere alla funzione caratteristica di Q , che è data da:
T
φQ (t) = Eexp(itX AX) = Eexp(it
p
X
λi X2i ) =
i=1
=
p
Y
i=1
Eexp(itλi X2i )
p
Y
1
=
(1 − 2itλi )− 2
i=1
2002-3003 versione provvisoria
101
(dato che X2i è distribuito come una chi-quadrato con un grado di
libertà, l’ultimo passaggio deriva dalla funzione caratteristica della
v.c. chi-quadrato).
Ancora si può osservare che 1−2itλi è un autovalore della matrice:
I − 2itA e quindi la produttoria di tali autovalori (1 − 2itλi ) è
uguale al determinante della suddetta matrice:
p
Y
1
1
φ(t) =
(1 − 2itλi )− 2 = kI − 2itA|− 2
i=1
Perché Q sia distribuita come una chi-quadrato, occorre che la
sua funzione caratteristica φQ (t) sia identicamente uguale a quella
di una v.c. χ2 per qualsiasi valore dell’argomento t .
È la funzione caratteristica di una v.c. χ2 con ν gradi di libertà
è data da:
φχ2 (t) = (1 − 2it)−ν/2 ,
mentre per la funzione caratteristica di Q si è visto che:
p
Y
1
φQ (t) =
(1 − 2itλi )− 2 .
i=1
Per avere φχ2 (t) = φQ (t) per qualsiasi t , occorre che i coefficienti
λi siano o zero o uno, di modo che i corrispondenti termini della
produttoria in φQ (t) siano uguali ad uno (se λi = 0 ) oppure a
1
(1 − 2it)− 2 (se λi = 1 ); se sono r (rango di A ) quelli uguali ad
uno, si avrà in definitiva:
φQ (t) = (1 − 2it)−r/2 ,
che è la funzione caratteristica di una chi-quadrato con r gradi di
libertà.
Esempio
Ad esempio si consideri la matrice seguente:
!
16/25 12/25
A=
12/25 9/25
Tale matrice simmetrica risulta idempotente di rango 1, come è
facile verificare effettuando il prodotto AA , oppure verificando che
λ 1 = 1 e λ2 = 0 .
102
Materiale didattico statistica 3
Supponendo di avere un vettore aleatorio X costituito da due
variabili casuali normali standardizzate e indipendenti, X1 e X2 la
forma quadratica Q = XT AX risulta data da:
Q = a11 X12 + a22 X22 + 2a12 X1 X2 = (16X12 + 9X22 + 24X1 X2 )/25,
e infine:
Q = [(4/5)X1 + (3/5)X2 ]2
E’ immediato verificare che Q si distribuisce secondo una chiquadrato con un grado di libertà, senza bisogno di applicare il teorema generale sulla distribuzione delle forme quadratiche. Infatti la
variabile:
Z = (4/5)X1 + (3/5)X2
è distribuita normalmente (in quanto combinazione lineare di
variabili normali) con media zero e varianza unitaria.
Infatti:
E[Z] = (4/5)E[X1 ] + (3/5)E[X2 ] = 0
V ar[Z] = (4/5)2 V ar[X1 ] + (3/5)2 V ar[X2 ] = 16/25 + 9/25 = 1
(Cov[X1 , X2 ] = 0 per l’indipendenza).
Quindi Q è uguale al quadrato di una normale standardizzata, e
quindi segue una distribuzione chi-quadrato con un grado di libertà.
Forme quadratiche idempotenti: somma dei quadrati degli scarti dalla
media.
Prendiamo ora in esame una forma quadratiche già nota, ossia la
somma dei quadrati degli scarti dalla propria media aritmetica di
n variabili casuali normali indipendenti Xi . Tipicamente le variabili
saranno quelle corrispondenti ad un campione a n componenti i.i.d.(e
quindi il vettore aleatorio è al solito X = {X1 , X2 , . . . , Xi , . . . , Xn }T ).
Interessa dunque la distribuzione della quantità:
Q=
n
X
i=1
(Xi − M )2
2002-3003 versione provvisoria
103
avendo indicato con M la variabile casuale media aritmetica delle n
componenti Xi :
M=
n
X
Xi /n
i=1
che si può anche scrivere:
M=
1n T X
,
n
essendo 1n un vettore di n elementi uguali ad uno.
Allora la somma dei quadrati degli scarti si può scrivere in notazione vettoriale con semplici passaggi:
Q=
n
X
(Xi − M )2 = [X − 1n M ]T [X − 1n M ] =
i=1
= [X −
1n 1n T X
1n 1n T X T
] [X −
]=
n
n
XT [I −
1n 1n T T
1n 1n T
] [I −
]X
n
n
T
Posto ora U = 1n 1nn , è facile vedere che U è idempotente e
simmetrica di rango 1: è composta da n × n elementi tutti uguali
a n1 ; quindi sono idempotenti (ma di rangon − 1 ) anche I − U , e
[I − U]T [I − U] , per cui possiamo scrivere:
Q=
n
X
(Xi − M )2 = XT [I − U]X
i=1
e Q è distribuita secondo una χ2n−1 .
Esempio numerico
Con n = 5 si supponga di avere le 5 osservazioni xi : 3, 5, 8, 9, 10,
con media aritmetica M = 7.
La somma dei quadrati degli scarti (osservati!) è data da:
Q=
n
X
i=1
(xi − M )2 = 16 + 4 + 1 + 4 + 9 = 34.
104
Materiale didattico statistica 3
E’ facile vedere che la matrice

0, 2 0, 2

 0, 2 0, 2

U=
 0, 2 0, 2

 0, 2 0, 2
U è data da:
0, 2 0, 2 0, 2


0, 2 0, 2 0, 2 

0, 2 0, 2 0, 2 


0, 2 0, 2 0, 2 
0, 2 0, 2 0, 2 0, 2 0, 2
Indicato quindi con x il vettore delle 5 osservazioni, si verifichi il
risultato fornito dal prodotto xT [I − U]x :
xT [I − U]x =

=
0, 8
−0, 2 −0, 2 −0, 2 −0, 2

3


−0, 2 0, 8 −0, 2 −0, 2 −0, 2   5




3 5 8 9 10 
 −0, 2 −0, 2 0, 8 −0, 2 −0, 2   8


 −0, 2 −0, 2 −0, 2 0, 8 −0, 2   9
−0, 2 −0, 2 −0, 2 −0, 2 0, 8
10
= 32 × 0, 8 + 52 × 0, 8 + . . . + 102 × 0, 8 − 2 × 0, 2 × 3 × 5 − . . . = 34
5.7.1
La distribuzione dell’esponente della distribuzione
normale multivariata.
Sappiamo già che il doppio dell’esponente della distribuzione norma2
le univariata, (X−E[X])
V (X) , si distribuisce secondo una variabile casuale
χ2 . Vediamo come si generalizza questo risultato nel caso normale
multivariato.
Sia Y un vettore di variabili casuali a p componenti, distribuito
secondo una normale multivariata qualsiasi, ossia
Y ∼ (Np (µ, Σ)
Si può dimostrare che la variabile casuale corrispondente alla forma
quadratica che figura al numeratore dell’esponente della funzione di
densità, ossia:
Q = (Y − µ)T Σ−1 (Y − µ),
segue una distribuzione chi-quadrato con p gradi di libertà.




=



2002-3003 versione provvisoria
105
Infatti il risultato si mostra facilmente ricorrendo ad una opportuna trasformazione lineare (già impiegata in questo capitolo)
X = BT [Y − µ],
in cui B è tale che:
BT ΣB = I, eΣ−1 = BBT .
e quindi:
V (X) = BT V (Y − µ)B = BT ΣB = I
Pertanto:
Q = (Y − µ)T Σ−1 (Y − µ) = (Y − µ)T BBT (Y − µ) =
= [(Y − µ)T B][BT (Y − µ)] = XT X ∼ χ2p
Per cui Q si distribuisce come la somma dei quadrati di p variabili
normali standardizzate e indipendenti, ossia come una chi-quadrato
con p gradi di libertà.
In definitiva:
se Y ∼ (Np (µ, Σ) , allora
(Y − µ)T Σ−1 (Y − µ) ∼ χ2p
Esempio numerico
Y ∼ (N2 (0, Σ),
!
2 1
conΣ =
1 1
e matrice di correlazione:R =
1
√1
2
√1
2
1
!
e quindi
Σ−1 =
1
−1
−1
2
!
;
pertanto la forma quadratica:
!
1
−1
Q = YT
Y = y12 + 2y22 − 2y12 y22 ∼ χ22
−1 2
106
Materiale didattico statistica 3
segue una distribuzione chi-quadro con due gradi di libertà.
eventualmente dimostrarlo per via
diretta nell’esempio
5.7.2
Indipendenza di forme quadratiche e combinazioni
lineari di variabili normali.
Sia X un vettore di variabili casuali a p componenti indipendenti,
ciascuna distribuita secondo una normale standardizzata, ossia
X ∼ Np (0p , Ip ).
Valgono alcuni teoremi sull’indipendenza fra forme quadratiche
in X e combinazioni lineari in X , che si basano sulle proprietà dei
vettori dei coefficienti che determinano le forme quadratiche e le
combinazioni lineari.
eventualmente mettere in
forma di schema
Si abbiano due forme quadratiche in variabili normali indipendenti X :
Q1 = XT A1 XeQ2 = XT A2 X
Le due forme quadratiche Q1 e Q2 sono indipendenti se e solo se
A1 A2 = 0(pxp)
(essendo ovviamente A1 e A2 matrici quadrate simmetriche, ed
essendo 0(p×p) una matrice quadrata composta di zeri);
Si abbia la forma quadratica
Q = XT AT X,
e la combinazione lineare Z = bT X
La forma quadratica Q e la combinazione lineare Z sono indipendenti
se e solo se Ab = 0p
(essendo b un vettore di p elementi e 0p il vettore nullo di p
componenti)
2002-3003 versione provvisoria
5.7.3
107
Teorema di Cochran:
Supponiamo di avere una somma di quadrati di p variabili normali
standardizzate e indipendenti, ossia:
Q = XT X
o, più in generale, una forma quadratica
Q = XT AX,
con A idempotente di rango p . In questo caso il numero delle
componenti di X potrà essere in generale maggiore di p; il punto
essenziale è che Q abbia una distribuzione chi-quadrato con p gradi
di libertà.
Supponiamo di saper scomporre algebricamente Q nella somma
di k forme quadratiche:
Q = XT X =
k
X
XT Ai X =
i=1
k
X
Qi ,
i=1
avendo posto : Qi = XT Ai X , ed essendo per ipotesi:
Q(χ2p
Il teorema di Cochran stabilisce delle relazioni di importanza
fondamentale in merito alle caratteristiche delle distribuzioni delle
singole componenti Qi .
...
TEOREMA DI COCHRAN Una qualsiasi delle seguenti tre
condizioni implica le altre due:
1. la somma dei gradi di libertà delle forme quadratiche deve
eguaglire p:
k
X
ρ(Ai ) = p = ρ(A)
i=1
(in generale la somma dei ranghi delle singole componenti deve
eguagliare il rango di A )
108
Materiale didattico statistica 3
2. tutte le k forme quadratiche Qi = XT Ai X hanno una distribuzione χ2
che corrisponde a :
tutte le Ai devono essere idempotenti;
3. tutte le k forme quadratiche Qi = XT Ai X sono a due a due
indipendenti,
che corrisponde a: Ai Aj = 0 per qualsiasi coppiai 6= j .
...
L’importanza di tale teorema nell’ambito della teoria normale sui modelli lineari è cruciale; in generale a ciascuna delle
k componenti si farà corrispondere una particolare fonte di
variabilità o un gruppo di parametri.
Ai fini pratici se per esempio se si vuole applicare ad una particolare scomposizione la proprietà 2, per poi dedurne la 1 e la 3, non
è necessario esplicitare le singole matrici Ai , ma è sufficiente sapere
che si è scomposta Q in forme quadratiche nelle variabili aleatorie
Xi .
Sezione avanzata
In effetti esiste una formulazione ancora più generale del teorema, che prende in considerazione
distribuzioni χ2 non centrali, ossia forme quadratiche in variabili normali con speranza matematica
diversa da zero, utile per la generalizzazione alla distribuzione di determinate quantità test non solo
sotto H0 ma anche sotto H1 . Per non appesantire questi appunti non riporto questa generalizzazione:
ne farò cenno più avanti soltanto quando sarà necessario.
Esempio. Come esempio si rifletta sulla nota scomposizione per
la somma dei quadrati di n variabili normali standardizzate indipendenti:
n
n
X
X
2
Xi =
(Xi − M )2 + nM 2
i=1
i=1
Per applicare il teorema di Cochran è sufficiente far vedere che i
due addendi sulla destra sono forme quadratiche in variabili normali
di rango n − 1 e 1: è immediato
verificarlo senza bisogno di espliPn
citare le matrici, perché i=1 (Xi P
− M )2 è palesemente una forma
quadratica con un vincolo lineare ( ni=1 (Xi − M ) = 0 ), mentre M 2
2002-3003 versione provvisoria
109
ha ovviamente un solo grado di libertà, quindi i due termini sono
indipendenti e distribuiti come delle v.c. χ2 con i rispettivi gradi di
libertà.
5.8
Distribuzioni condizionate nella normale multivariata
Una proprietà fondamentale della normale, che oltretutto la caratterizza, riguarda le distribuzioni di un gruppo di componenti
condizionatamente ai valori di un altro gruppo di componenti.
Questo argomento viene trattato adesso, senza limitarci ad esporre i risultati fondamentali, ma anzi entrando con un certo dettaglio,
per tre ordini di ragioni:
1. La peculiarità delle caratteristiche delle distribuzioni condizionate nella normale multivariata, che ne rappresenta un aspetto
fondamentale;
2. La possibilità di dare un significato statistico autonomo agli elementi dell’inversa della matrice di correlazione di una variabile
multipla normale;
3. Come premessa indispensabile ai modelli lineari che tratteremo
ampiamente in questo corso;
Come si vedrà nelle pagine successive, la distribuzione di un gruppo di variabili YA condizionata ad un particolare valore yB assunto
da un altro gruppo di YB è:
1. ancora normale ed inoltre:
2. La funzione di regressione di una componente yA rispetto alle
altre componenti è lineare
3. La distribuzione ha una matrice di varianze e covarianze che
non dipende dai valori della componente condizionante (omoscedasticità).
I risultati esposti in queste pagine generalizzano le proprietà note
per distribuzioni normali bivariate, in cui le due funzioni di regressione di ciascuna delle due variabili rispetto all’altra sono lineari, ed
inoltre le distribuzioni condizionate sono normali e omoschedastiche.
In effetti ci porremo il problema nella forma più generale della
distribuzione di un gruppo di variabili normali condizionatamente
110
Materiale didattico statistica 3
ad un altro gruppo di variabili normali, nota la loro distribuzione
congiunta.
Significato degli elementi dell’inversa della matrice di varianza e covarianza .
Sarà anche possibile dare un significato agli elementi dell’inversa
di Σ in termini di distribuzioni condizionate.
Infatti si dimostrerà che se C = Σ−1 , allora:
teorema 5.8.1 In una normale multivariata, cij = 0 è condizione
necessaria e sufficiente perché le variabili Yi e Yj siano indipendenti
condizionatamente alle altre p − 2 variabili.
5.8.1
Distribuzione condizionata nel caso generale di un
gruppo di componenti rispetto ad un altro gruppo
di componenti.
Nella versione breve del corso studiare solo i risultati finali
Supponiamo di avere un vettore Y di p componenti, con distribuzione normale multivariata, suddiviso nel caso più generale in due
sottovettori [YA , YB ] , con corrispondente suddivisione del vettore
delle medie e della matrice di varianze e covarianze:
!
YA
Y=
YB
!
µA
µ=
µB
!
ΣAA ΣAB
Σ=
ΣT
AB ΣBB
I due insiemi di indici A e B costuituiscono una partizione dell’insieme di indici I = 1, 2, . . . , p cosı̀ che:
A∪B =I
A∩B =∅
A 6= ∅B 6= 0∅
per il resto A e B sono costituiti da sottoinsiemi di indici qualsiasi
(con la restrizione che esistano le inverse delle matrici di varianze e
covarianze che si richiederanno nel seguito).
2002-3003 versione provvisoria
111
In effetti i casi più rilevanti, che tratteremo specificatamente,
sono quelli in cui A = i, per lo studio della distribuzione di una
variabile condizionatamente alle altre e A = i, j, per lo studio della distribuzione condizionata di due variabili, in particolare per lo
studio della dipendenza condizionata.
Ci chiediamo qual è la funzione di regressione di YA su YB ,
ossia la speranza matematica di YA condizionata ad un particolare
valore yB di YB :
E[YA kYB = yB ] =??
In generale ci chiediamo direttamente qual è la distribuzione di
YA condizionata ad un particolare valore yB di YB .
Per trovare la funzione di regressione nel caso generale, ricaviamo prima la densità della distribuzione di YA condizionata ad un
particolare valore yB assunto da YB .
Per comodità lavoriamo con variabili XA , XB con speranze
matematiche nulle, ponendo:
XA = YA − µA
XB = YB − µB
Ovviamente la matrice di varianze e covarianze di X è uguale a
quella di Y:
V (X) = V (Y)
E’ opportuno richiamare le formule per la semplificazione degli elementi dell’inversa della matrice partizionata delle varianze e
covarianze di y :
Σ−1 =
Σ−1
AA.B
−1
−Σ−1
AA.B ΣAB ΣBB
!
−1
−1
T
−1
−1
−Σ−1
AA.B ΣAB ΣBB ΣBB [ΣAB ΣAA.B ΣAB ΣBB + I]
avendo posto:
T
ΣAA.B = ΣAA − ΣAB Σ−1
BB ΣAB .
Indichiamo con ΣIJ il blocco corrispondente al posto di ΣIJ (I =
A, B; J = A, B) nell’inversa Σ−1 , cosı̀ che l’inversa sia data da:
!
ΣAA ΣAB
Σ=
T
ΣAB
ΣBB
112
Materiale didattico statistica 3
ΣAA = Σ−1
AA.B ;
−1
ΣAB = −Σ−1
AA.B ΣAB ΣBB ;
T
ΣBA = −Σ−1
BB ΣAB Σ−1AA.B ;
BB
Σ
=
Σ−1
BB
h
−1
ΣTAB Σ−1
AA.B ΣAB ΣBB
i
+I .
Non si confonda ad esempio ΣAA (blocco dell’inversa Σ−1 corrispondente agli indici AA ) con Σ−1
AA (inversa del blocco di Σ
corrispondente agli indici AA) (coincidono solo se ΣAB = 0 )
Ricaviamo dai noti teoremi del calcolo delle probabilità la densità
della distribuzione condizionata di XA :
fXA |XB =xB (xA kXB = xB ) =
fXA XB (xA , xB )
fXB (xB )
E’ più comodo lavorare sui logaritmi ed in particolare su −2 log f
(in modo da trasformare solo le forme quadratiche a numeratore
dell’esponente nella densità normale), indicando per brevità con K
la costante di normalizzazione, che si può determinare dopo:
−2 log[f (xA , xB )/f (xB )] =
−1
= K + xT Σ−1 x − xT
B ΣBB xB =
−1
AA
= K + xT
xA + 2xTA ΣAB xB + xTB ΣBB xB − xT
AΣ
B ΣBB xB =
(sostituendo gli opportuni blocchi di Σ−1 )
−1
−1
T −1
= K + xT
A ΣAA.B xA − 2xA ΣAA.B ΣAB ΣBB xB +
h
i
T T −1
T
−1
−1
+xTB Σ−1
Σ
Σ
Σ
Σ
+
I
xB − xT
AB
B ΣBB xB =
BB
AA.B AB BB
−1
−1
T −1
= K + xT
A ΣAA.B xA − 2xA ΣAA.B [ΣAB ΣBB xB ]+
2002-3003 versione provvisoria
113
T
−1
−1
+[xTB Σ−1
BB ΣAB ]ΣAA.B [ΣAB ΣBB xB ] =
= K + xA − ΣAB Σ−1
BB xB
T
−1
Σ−1
AA.B xA − ΣAB ΣBB xB
Per cui è chiaro dall’ultima forma quadratica, che si tratta del
numeratore dell’esponente di una distribuzione normale di parametri:
µXA kXB =xB = ΣAB Σ−1
BB xB
T
AA −1
ΣXA kXB =xB = ΣAA.B = ΣAA − ΣAB Σ−1
)
BB ΣAB = (Σ
(La costante K è ricavabile dalla condizione di normalizzazione, ma si può comunque verificare effettuando il rapporto fra i termini costanti delle due densità, tenendo presente che per matrici
partizionate si ha:
T
kΣk = kΣAA − ΣAB Σ−1
BB ΣAB kkΣBB k = kΣAA.B kkΣBB k
Per cui la distribuzione condizionata è:
XA|xB ∼ N ΣAB Σ−1
x
;
Σ
B
AA.B
BB
114
Materiale didattico statistica 3
e quindi si ha:
Distribuzioni condizionate nel caso generale di vettori aleatori
normali:
YA kYB = yB ∼ N µA + ΣAB Σ−1
BB (yB − µB ); ΣAA.B
La distribuzione condizionata è normale multivariata con
parametri:
E YA kYB = yB ) = µA + ΣAB Σ−1
BB (yB − µB
la funzione di regressione (speranza matematica condizionata) è
lineare in yB
T
AA −1
V (YA kYB = yB ) = ΣAA.B = ΣAA −ΣAB Σ−1
)
BB ΣAB = (Σ
la matrice di varianze e covarianze condizionate non dipende da
yB (omoscedasticità) i vettori casuali:
YA − (µA + ΣAB Σ−1
BB [YB − µB ])eYB
(oppure YA − ΣAB Σ−1
BB YB e YB )
T )
risultano indipendenti (si verifica subito calcolndo E(YA YB
link o riferimento
(vedere anche → )(figure varie)
Esempio numerico: Si consideri la matrice 3×3 di varianza e covarianza relativa ad una distribuzione normale multivariata
a tre componenti:
Esempio

2 1 1



Σ= 1 2 1 
1 1 1
Consideriamo la distribuzione della variabile 1 condizionatamente alla 2 e alla 3. La matrice di varianze e covarianze va quindi
partizionata seguente modo:
2002-3003 versione provvisoria
115

2 1 1



Σ= 1 2 1 
1 1 1
Mentre
ΣBB =
2 1
!
1 1
controllare
inserire lucidi manuali ed esercizio
completare
5.8.2
Significato degli elementi dell’inversa della matrice
di varianza e covarianza.
E’ possibile dare anche un significato agli elementi dell’inversa di
Σ , in termini di distribuzioni condizionate, nel caso in cui Σ sia
la matrice di varianza e covarianza di variabili aleatorie normali;
si vedrà come tali concetti possano essere estesi al caso di variabili
aleatorie non normali o, meglio, nell’analisi di dati multivariati, al
caso di variabili statistiche osservate.
Gli elementi non diagonali dell’inversa: la correlazione parziale
Intanto, con riferimento ad una distribuzione normale multivariata
con matrice di varianze e covarianze Σ , si può dimostrare che se
C = Σ−1 , allora:
teorema 5.8.2 cij = 0 è condizione necessaria e sufficiente perché
le variabili Yi e Yj siano indipendenti condizionatamente alle altre
p − 2 variabili YB .
Si può giungere al risultato in due modi:
Dalla densità normale multivariata si vede direttamente che:
se e solo se cij = 0 si ha la fattorizzazione:
f (y) = f (yi , yB )f (yj , yB )
che è una condizione necessaria e sufficiente per l’indipendenza
condizionata di due variabili aleatorie qualsiasi dotate di densità.
Infatti, ponendo YA = (yi , yj )T e indicando con YB tutte le
altre componenti, avendo indicato con C l’inversa della matrice di
varianza e covarianza opportunamente partizionata:
116
Materiale didattico statistica 3

cii cij
cTiB


C =  cij cjj cTjB 
ciB cjB CBB

si ha:
f (y) = f (yi , yj , yB ) = K × exp[−(yT Cy)/2] =
T
K×exp[−(cii yi2 +cjj yj2 +2cij yi yj +2yi cTiB yB +2yj cTjB yB +yB
CBB yB )/2]
Se ora cij = 0 allora si può facilmente operare su f (y) :
T
CBB yB )/2] =
f (y) = K×exp[−(cii yi2 +cjj yj2 +2yi cTiB yB +2yj cTjB yB +yB
T
= K×exp[−(cii yi2 +2yi cTiB yB +yB
CBB yB )/2]×exp[−(cjj yj2 +2yj cTjB yB )/2]
z
}|
{
g(yi , yB ) × g(yj , yB )
in modo da ottenere la fattorizzazione desiderata in due funzioni,
in cui non compaiono simultaneamente termini in yi e yj
Per una interpretazione in generale del significato dei termini
dell’inversa, e non solo per il caso estremo cij = 0 , conviene riferirsi
alle distribuzioni condizionate.
Dalla distribuzione di YA condizionata a YB = yB , ponendo
YA = (yi , yj )T (e quindi nella notazione della sezione precedente
A è uguale alla coppia di indici i, j e B all’insieme degli altri p − 2
indici) si ricava che essendo la distribuzione condizionata di YA
ancora normale, l’indipendenza condizionata si ha se e solo se yi , yj
risultano non correlati, condizionatamente a YB = yB .
Si è visto che:
−1 T
AA −1
V (YA kyB ) = Σ−1
)
AA.B = ΣAA − ΣAB ΣBB ΣAB = (Σ
cioè la varianza condizionata di YA è uguale all’inversa del blocco
di elementi corrispondenti ad YA nell’inversa di Σ .
Nel caso di due variabili i e j , occorre invertire la matrice 2 × 2
di elementi:
2002-3003 versione provvisoria
117
AA
Σ
=
!
cii cij
cij cjj
e quindi:
(ΣAA )−1 =
cjj
−cij
−cij
cii
!
/(cii cjj − c2ij )
pertanto yi e yj sono non correlati condizionatamente alle altre p − 2 variabili, e quindi indipendenti data la normalità della
distribuzione condizionata, se e solo se cij = 0 .
Dagli elementi di (ΣAA )−1 è possibile calcolare l’indice di correlazione lineare fra yi e yj condizionatamente a YB :
−cij
−σ ij
=√
corr(yi , yj kYB = yB ) = √
cii cjj
σ ii σ jj
(essendo σ ij il cofattore di σij in Σ )
indice di correlazione lineare parziale ossia correlazione fra due
variabili eliminata l’influenza delle altre p − 2 variabili
Esempi sulla differenza fra l’indipendenza condizionata e l’indipendenza marginale
L’indipendenza condizionata e l’indipendenza marginale sono due
concetti diversi, e nessuno dei due implica l’altro.
Per chiarire la differenza fra indipendenza marginale e indipendenza condizionata, ricorro qui ad un esempio relativo alla distribuzione congiunta di tre variabili dicotomiche A,B e C.
Si ha una tavola 2 × 2 × 2 di tre mutabili A,B, e C. Le
due tavole A × B condizionate ai valori di C sono:
Esempio
C = c1
b1
b2
tot.
C = c2
b1
b2
tot.
a1
0, 24 0, 06
0, 30
a1
0, 12 0, 28
0, 4
a2
0, 56 0, 14
0, 70
a2
0, 18 0, 42
0, 6
tot.
0, 80 0, 20
1, 00
tot.
0, 30 0, 70
1, 00
In queste distribuzioni condizionate A e B sono indipendenti;
118
Materiale didattico statistica 3
se P(C=c1 )= P(C=c2 )= 12 la tavola marginale A × B è:
Ctot.
citazione
b1
b2
tot.
a1
0, 18 0, 17 0, 35
a2
0, 37 0, 28 0, 65
tot.
0, 55 0, 45 1, 00
Nella distribuzione marginale A e B non sono indipendenti.
Si può presentare il caso opposto, di caratteri indipendenti marginalmente e associati condizionatamente (paradosso di Simpson).
Si ha un’altra tavola 2×2×2 di tre mutabili A,B, e C. Le due tavole
A × B condizionate ai valori di C sono ora:
C = c1
b1
b2
tot.
C = c2
b1
b2
tot.
a1
0, 5
0
0, 5
a1
0
0, 5
0, 5
a2
0
0, 5
0, 5
a2
0, 5
0
0, 5
1
tot.
0, 5 0, 5
tot.
0, 5 0, 5
1
In queste distribuzioni condizionate A e B sono associati (addirittura sono massimamente associati)
Infatti se P(C = c1 )= P(C=c2 )= 12 la tavola marginale A × B è:
Ctot.
b1
b2
tot.
a1
0, 25 0, 25 0, 5
a2
0, 25 0, 25 0, 5
tot.
0, 5
0, 5
1
Nella distribuzione marginale A e B sono indipendenti (addirittura equidistribuite)
Gli elementi diagonali dell’inversa: la correlazione multipla
Anche gli elementi sulla diagonale principale di Σ−1 sono interpretabili tenendo conto delle distribuzioni condizionate, ma in termini
di variabilità di una variabile spiegata da tutte le altre, concetto che
rivedremo poi nel caso di modelli lineari generali.
Infatti se ora consideriamo l’insieme YA costituito da una sola
variabile yi (e quindi nella notazione adottata finora A è uguale
all’indice i e B all’insieme degli altri p−1 indici), si ha per la varianza
di yi condizionata ai valori delle altre p − 1 variabili:
2002-3003 versione provvisoria
119
Tenendo conto che ΣAA = cii si ha:
V (yi kyB ) = (ΣAA )−1 = 1/cii = kΣ|/σ ii
Quindi l’inverso di un elemento diagonale dell’inversa della matrice di varianze e covarianze esprime la varianza della variabile di posto corrispondente condizionatamente alle altre p − 1
variabili.
max(
1
) = σi2
cii
min(cii ) =
1
σi2
Il massimo di questa quantità è proprio la varianza della componente
i -esima, ossia σi2
Se Σ è una matrice Z di correlazione, allora 1/cii indica la variabilità di yi non spiegata dalle altre p − 1 variabili, per cui si può
costruire il coefficiente di determinazione multipla:
2
Ri.B
= 1 − kZ|/z ii = 1 − 1/cii = 1 −
V (yi kkYB )
V (yi )
Misura quanta parte della variabilità di Yi è spiegata dalle altre
p-1 variabili del vettore aleatorio yB
In generale l’indice di correlazione lineare multipla è dato da:
s
Ri.B =
1−
|Σ|
=
σi2 σ ii
q
1 − 1/(σi2 cii )
\begin{fig}
Esempio Date le rilevazioni di $p=7 $ misure antropometriche
su un insieme di $n=1432 $ bambini,
si è calcolata la matrice di correlazione $\mZ $ che segue:
\mZ=
\end{fig}
120
Materiale didattico statistica 3
Ad esempio la correlazione lineare (marginale, ossia senza tenere
conto della presenza delle altre variabili) fra le prime due variabili è
di 0,719.
Figura da inserire Da questa matrice di correlazione si è calcolata
l’inversa C: C =
e quindi si è calcolata la matrice A che ha come elemento generico:
−cij
rij.B = √
cii cjj
correlazione parziale fra due variabili, Xi e Xj , tenute costanti le
altre 5:
Figura da inserire P=
(ovviamente in questa matrice gli elementi diagonali non vanno
considerati Si vede che la correlazione lineare (parziale, o meglio
condizionata, ossia tenute costanti le altre variabili) fra le prime due
variabili è di 0,245. Buona parte quindi della correlazione marginale
è indotta dall’influenza delle altre 5 variabili, ossia la covariazione
delle prime due variabili insieme alle altre 5.
Se invece trasformiamo gli elementi diagonali di C , mediante la
relazione:
kZ|
1
2
Ri.B
= 1 − ii = 1 −
z
cii
otteniamo i 7 indici di determinazione multipla, di ciascuna variabile
condizionatamente alle altre 6:
0.827137, 0.896544, 0.848327, 0.297231, 0.722443, 0.756753, 0.82098
Si noti che la matrice di correlazione ha 7 autovalori dati da:
λT = 5.06451, 0.674288, 0.635871, 0.245914, 0.207684, 0.105888, 0.06584
La successione di tali valori indica chiaramente la presenza di correlazioni lineari fra combinazioni lineari di variabili molto forti.
Impiego delle informazioni dell’inversa C nell’analisi di dati multivariati.
Come si è visto, l’analisi degli elementi dell’inversa della matrice
di correlazione può fornire degli elementi utili per indagare sulla dipendenza fra variabili sia in termini marginali che in termini
condizionati.
2002-3003 versione provvisoria
Esempio di variabili condizionatamente non correlate
121
122
Materiale didattico statistica 3
Figura 5.8: distribuzioni condizionate in una normale multivariata
vai a indice figure
2002-3003 versione provvisoria
123
Figura 5.9: distribuzioni condizionate in una normale multivariatamatrice di
varianze e covarianze e inversa
vai a indice figure
5.9
Utilità della distribuzione normale multivariata
In effetti quanto visto finora riguarda solo il modello teorico della
normale multivariata, ossia le caratteristiche delle distribuzioni di
vettori aleatori normali multivariati, che riassumo brevemente (e
solo per le proprietà più rilevanti)
• dipende solo dai primi due momenti multivariati;
• ha contorni iper-ellissoidali;
• ha distribuzioni marginali normali multivariate;
• ha distribuzioni condizionate (o parziali) normali multivariate
omoschedastiche e con funzioni di regressione lineari;
• combinazioni lineari di sue componenti sono ancora normali
multivariate;
124
Materiale didattico statistica 3
• è unimodale;
xxxxxxxxxxxxxxxxxxxxxxxxxxxx
\item si ottiene come distribuzione
limite di processi multivariati
come teorema limite centrale multivariato
Non ci stiamo per ora ponendo
il problema di adattare una tale
distribuzione a dati osservati.
In effetti in questo corso questo
problema non verrà affrontato,
se non marginalmente: l’importanza
del modello normale multivariato
per questo corso sta nel fatto
che è un modello utile per la
definizione di
relazioni di dipendenza in
media esattamente lineari ed
omoschedastiche, che
xxxxxxxxxxxxxxxxxxxxxxxxxxxxx
5.10
Regressioni approssimate per vettori aleatori qualsiasi
In generale se abbiamo un vettore aleatorio Z a p componenti con
distribuzione qualsiasi,


Z1


 Z2 


 .. 
 . 

Z=
 Z 
 i 
 . 
 .. 


Zp
possiamo essere interessati a misurare in qualche modo la dipendenza di una componente dalle altre, diciamo per semplicità per ora la
dipendenza di Z1 da tutte le altre componenti, Z2 , . . . , Zp ; in altre
parole vogliamo vedere se e come si modifica la distribuzione di Z1 ,
condizionata a particolari valori z2 , . . . , zp assunti dalle altre p − 1
variabili, al variare dei valori condizionanti z2 , . . . , zp .
2002-3003 versione provvisoria
125
Per semplicità supponiamo che la distribuzione condizionata di
Z1 esista sempre e sia dotata di densità per qualsiasi insieme di
valori z2 , . . . , zp .
Siamo quindi interessati allo studio della distribuzione condizionata di Z1 di densità:
fZ1 (z1 |Z2 = z2 , . . . , Zp = zp )
al variare dei valori z2 , . . . , zp .
Tale densità (univariata) è ovviamente data da:
fZ1 (z1 |Z2 = z2 , . . . , Zp = zp ) =
fZ (z1 , z2 , . . . , zp )
fZ2 ,...,Zp (z2 , . . . , zp )
Come esprimere adesso la dipendenza di Z1 dai valori z2 , . . . , zp
in modo sintetico, possibilmente senza considerare l’intera distribuzione condizionata?
Una soluzione del tutto naturale è quella di considerare una funzione g(·) (matematica, non aleatoria), dei valori z2 , . . . , zp che sintetizzi al meglio la distribuzione di densità fZ1 (z1 |Z2 = z2 , . . . , Zp = zp ).
Vogliamo quindi sostituire alla variabile aleatoria Z1 |Z2 = z2 , . . . , Zp = zp ,
una funzione g(z2 , . . . , zp ) in modo tale che sia minimo la perdita
di informazione . Se adottiamo un criterio di perdita quadratico,
dobbiamo minimizzare quindi il valore atteso:
E ((Z1 |Z2 = z2 , . . . , Zp = zp ) − g(z2 , . . . , zp ))2
(5.4)
in corrispondenza di ciascuna combinazione di valori z2 , . . . , zp .
Con questa impostazione, ossia una funzione di perdita quadratica, è evidente che il valore che minimizza la (5.4) è il valore atteso
della distribuzione condizionata di Z1 ossia:
g(z2 , . . . , zp ) = E [(Z1 |Z2 = z2 , . . . , Zp = zp )]
Tale funzione va sotto il nome di funzione di regressione di Z1 su
Z2 , . . . , Z p
La bontà di tale funzione di regressione nel sintetizzare la distribuzione condizionata di Z1 è valutabile attraverso la funzione di
varianza condizionata:
V [Z1 |Z2 = z2 , . . . , Zp = zp ] = E ((Z1 |Z2 = z2 , . . . , Zp = zp ) − g(z2 , . . . , zp ))2
126
Materiale didattico statistica 3
L’analisi di questa funzione mostra se le varianze sono costanti o
meno e come variano in funzione dei valori z2 , . . . , zp .
La funzione di regressione ovviamente, tranne che in casi particolari, è una funzione qualsiasi: può essere lineare, polinomiale,
esponenziale o altro.
Ci possiamo porre ancora un altro problema:
invece della funzione di regressione esatta, usiamo una funzione parametrica h(z2 , . . . , zp ; β), che dipenda da un numero ridotto
di parametri β . Anche stavolta vorremo minimizzare la perdita
quadratica:
E ((Z1 |Z2 = z2 , . . . , Zp = zp ) − h(z2 , . . . , zp ; β))2
(5.5)
Vediamo subito che relazione c’è fra questa perdita e quella minima realizzata con la funzione di regressione: non v’è dubbio che il
minimo della quantità in (5.5) sarà superiore al valore ottimo (5.4),
perchè nella (5.5) si minimizza rispetto ad una particolare funzione
parametrica.
Si può poi vedere che:
E ((Z1 |Z2 = z2 , . . . , Zp = zp ) − h(z2 , . . . , zp ; β))2 =
= E [({(Z1 |Z2 = z2 , . . . , Zp = zp ) − E [Z1 |Z2 = z2 , . . . , Zp = zp ]}]+ E [Z1 |Z2 = z2 , . . . , Z
= E ({(Z1 |Z2 = z2 , . . . , Zp = zp ) − E [Z1 |Z2 = z2 , . . . , Zp = zp ]})2 + E [Z1 |Z2 = z2 , . . .
-
2E [{(Z1 |Z2 = z2 , . . . , Zp = zp ) − E [Z1 |Z2 = z2 , . . . , Zp = zp ]}] {E [Z1 |Z2 = z2 , . . . , Zp =
E’ facile vedere che il doppio prodotto è nullo, dato che:
2E [{(Z1 |Z2 = z2 , . . . , Zp = zp ) − E [Z1 |Z2 = z2 , . . . , Zp = zp ]}] {E [Z1 |Z2 = z2 , . . . , Zp =
= 2 {E [Z1 |Z2 = z2 , . . . , Zp = zp ] − h(z2 , . . . , zp ; β)} E [{(Z1 |Z2 = z2 , . . . , Zp = zp ) − E [Z
perchèE [{(Z1 |Z2 = z2 , . . . , Zp = zp ) − E [Z1 |Z2 = z2 , . . . , Zp = zp ]}] = 0.
In definitiva abbiamo, utilizzando una notazione più sintetica ma
altrettanto chiara:
2002-3003 versione provvisoria
127
E ((Z1 |z2 , . . . , zp ) − h(z2 , . . . , zp ; β))2 =
= E ({(Z1 |z2 , . . . , zp ) − E [Z1 |Z1 |z2 , . . . , zp ]})2 + E [Z1 |Z1 |z2 , . . . , zp ] − h(z2 , . . . , zp ; β)2
Questa relazione è molto importante per due motivi:
1. La funzione di perdita
E ((Z1 |z2 , . . . , zp ) − h(z2 , . . . , zp ; β))2
relativa alla funzione h(z2 , . . . , zp ; β) può essere scomposta in
due componenti:
• la funzione di varianza condizionata:
E [(] {(Z1 |z2 , . . . , zp ) − E [Z1 |Z1 |z2 , . . . , zp ]})2
• e la cosiddetta divergenza dalla funzione h():
E [(] {(h(z2 , . . . , zp ; β) − E [Z1 |Z1 |z2 , . . . , zp ]})2
2. dal momento che la varianza condizionata non dipende dalla
funzione h(z2 , . . . , zp ; β), per ottenere il valore ottimo di β ,
invece di minimizzare la (5.4) possiamo minimizzare rispetto a
β la quantità:
E [(] {(h(z2 , . . . , zp ; β) − E [Z1 |Z1 |z2 , . . . , zp ]})2
trovare esempi semplici di
regressioni teoriche non lineari.
e mettere dei grafici
5.10.1
Regressioni lineari approssimate per vettori aleatori qualsiasi
Come visto prima, vettori aleatori con distribuzioni qualsiasi, o variabili statistiche osservate,avranno funzioni di regressione di forma
qualsiasi (anche non lineare) e con varianze diverse (eteroscedasticità).
Accenniamo adesso al caso della distribuzione condizionata di
un numero qualsiasi di componenti: In generale se Z è un vettore
aleatorio con distribuzione qualsiasi, e ZA e ZB sono due vettori
ottenuti dalle componenti di Z , allora:
128
Materiale didattico statistica 3
la funzione di regressione di ZA su ZB è la
speranza matematica di ZA condizionatamente a particolari valori
di ZB :
funzione di regressione
• E(ZA kZB = zB ) (se esiste) è una funzione di zB di forma
qualsiasi (in generale non lineare).
• la distribuzione (condizionata) di ZA , con densità fZA (zA kZB =
zB ) è in generale non normale.
• tale distribuzione dipende in generale dai particolari valori fissati di zB . In particolare quindi può essere con varianze V (ZA kZB =
zB ) non costanti.
Tuttavia se si considerano le regressioni parziali lineari approssimate (ossia le relazioni lineari che approssimano, secondo i minimi
quadrati, le curve di regressione) si ritrovano le stesse espressioni
(come funzioni della matrice di varianza e covarianza) che abbiamo
trovato per la normale multivariata.
Nel caso normale però queste relazioni sono esatte.
Le relazioni di regressione lineare approssimate in generale si
trovano minimizzando rispetto alla matrice W la quantità:
tr[V (ZA − WZB )]
(equivalente a E(ZA − WZB )2 se si lavora con vettori aleatori a
media nulla).
Si ottiene comunque:
W = ΣAB Σ−1
BB
Le regressioni però saranno esattamente lineari e omoscedastiche
solo nel caso normale multivariato. Figura da inserire
(figure varie)
link o riferimento
(vedere anche rightarrowregressione parziale e condizionata )
Analisi delle correlazioni lineari presenti in data set osservati
forse è il caso di metterlo dopo
Sezione avanzata
2002-3003 versione provvisoria
129
E’ il caso di fare comunque delle considerazioni sui momenti del secondo ordine quando si opera
con variabili che non seguono una normale multivariata, o quando si ha a disposizione un insieme di
dati per il quale non si può ipotizzare che si tratti di un campione proveniente da una distribuzione
normale multivariata.
Per esempio quando si utilizzano delle relazioni lineari approssimate secondo quanto visto in
precedenza, si sta implicitamente ipotizzando, oltre la linearità, l’uguaglianza fra le varianze delle
distribuzioni parziali e l’uguaglianza fra le correlazioni e le covarianze delle distribuzioni parziali, indipendentemente dai particolari valori fissati per le variabili indipendenti (o condizionanti).
Si stanno cioè ipotizzando relazioni parziali che non cambiano forma al variare delle condizioni.
Supponiamo per esempio di avere in un insieme di dati (n unità ×p variabili) relativo a p variabili
Xi , in cui le n unità sono suddivise in kZ gruppi secondo le modalità zh (h = 1, 2, . . . , kZ ) di una
ulteriore variabile Z , supponendo quindi di avere delle osservazioni ripetute in corrispondenza di
ciascuna delle kZ modalità di Z . Possiamo allora calcolare le varianze delle p variabili Xi e le loro
correlazioni in coppia per ciascuno dei kZ gruppi. Se per esempio osserviamo che le varianze di una
o più variabili cambiano in modo sostanziale da un gruppo ad un altro oppure se le correlazioni
fra alcune variabili cambiano in modo marcato in corrispondenza delle varie modalità di Z, questo
può essere un indizio del fatto che l’approssimazione dei minimi quadrati delle vere regressioni non
sarà appropriata e che quindi i dati presentano caratteristiche diverse da quelle di una normale
multivariata, per cui questo può essere indizio di assenza di multinormalità. In questi casi occorrerà
ricorre ad altre approssimazioni, non lineari, o eteroscedastiche, che tengano eventualmente in conto
momenti diversi dai primi due.
5.11
Sintesi delle informazioni sui vari tipi di
correlazione e dipendenza lineare ricavabile dai primi 2 momenti multivariati
I momenti multivariati primo e secondo, ossia il vettore delle speranze matematiche e la matrice di varianze e covarianze contengono
tutte (e sole) le informazioni che servono per la quantificazione e
l’analisi di tutti i tipi di dipendenza e correlazioni lineari relative a
coppie o gruppi di variabili, sia nelle distribuzioni marginali che in
quelle condizionate (si veda a proposito anche la sezione 5.8).
Riassumo nella tavola che segue le relazioni lineari e loro connessione con i momenti primi e secondi, secondo quanto fin qui studiato,
per variabili multiple X a p componenti e con momenti primi nulli
(quindi si tratta di variabili centrate):
X = {X1 , X2 , . . . , Xi , . . . , Xp }T
E [X] = 0
Ho indicato con Σ la matrice di varianze e covarianze e matrice
di correlazione R , i cui elementi sono al solito dati da:
chiarire
130
Materiale didattico statistica 3
rij =
σij
σi σj
con σi2 si è indicata la varianza della i -esima componente, ossia l’elemento i -esimo della diagonale di Σ , di modo che σi è lo
scostamento quadratico medio della i -esima variabile.
In effetti se con D indichiamo una matrice diagonale i cui elementi
sono le varianze delle singole componenti, per cui dij = 0 se i 6= j
e dii = σi2 , si può esprime la matrice di correlazione in termini
matriciali:
1
1
R = D− 2 ΣD− 2 ,
Secondo il simbolismo già adottato, con C , di elemento generico
cij , si è indicata l’inversa di Σ , esprimibile al solito in termini dei
cofattori σ ij degli elementi di posto i, j della matrice Σ :
cij = σ ij /kΣ|
...
relazioni lineari e loro connessione con i momenti primi e
secondi di una variabile X
Significato
statistico-probabilistico
espressione in termini di elementi
di Σ
varianza di una componente Xi
σi2
varianze e covarianze di una
combinazione lineare Y = A X
AΣAT
varianza di tutte le componenti
tr(Σ)
2002-3003 versione provvisoria
Significato
statistico-probabilistico
131
espressione in termini di elementi
di Σ
varianza generalizzata (di Wilks)
kΣ|
correlazione lineare semplice fra
due variabili Xi , Xj
coefficiente di regressione lineare semplice di una variabile Xi
rispetto ad un’altra, Xj
correlazione multipla: correlazione fra una variabile Xj ed una
combinazione lineare (la migliore, nel senso dei minimi quadrati!)
delle altre p − 1 variabili, che sono le componenti vettore aleatorio
XB ,
con
B
=
1, 2, . . . , j − 1, j + 1, . . . , p
dipendenza lineare di una variabile dalle altre p−1 variabili (combinate linearmente nel miglior modo
possibile).
frazione della varianza di Xi
spiegata dalle altre p-1 variabili.
frazione della varianza della distribuzione di Xi condizionatamente
a XB
rij =
bi,j =
σij
σj2
Ri.B =
=
q
σij
σi σj
q
1 − kΣ|/[σi2 σ ii ]
1 − 1/(σi2 cii ) = 1−
V (Xi kXB )
V (Xi )
V (Xi kXB )
V (Xi )
132
Significato
statistico-probabilistico
matrice di varianze e covarianze della regressione lineare di un
gruppo di variabili XA in dipendenza di una latro gruppo
di variabili XB (per il simbolismo sulle matrici partizionate
si veda la sezione sulla normale
multivariata)
correlazione parziale fra due variabili, Xi e Xj , tenute costanti le
altre p-2
combinazioni lineari a coefficienti
normalizzati di massima varianza
(e retta di minima distanza
dall’insieme di dati multivariato)
Materiale didattico statistica 3
espressione in termini di elementi
di Σ
T
AA −1
ΣAA −ΣAB Σ−1
)
BB ΣAB == (Σ
−cij
rij.B = √
cii cjj
Si ricavano dagli autovettori di Σ
varianza massima di una combinazione lineare delle Xi (a
coefficienti normalizzati)
λ1
varianza minima di una combinazione lineare delle Xi (a
coefficienti normalizzati)
λp
varianze delle componenti principali (combinazioni lineari delle Xi
(a coefficienti normalizzati)
λ : vettore degli autovalori di Σ
combinazioni lineari di gruppi di
variabili con correlazione massima.
Analisi delle correlazioni
canoniche
solo accennata
Per l’analisi di relazioni di tipo non lineare (o di regressioni lineari
per esempio eteroscedastiche), occorre far ricorso ad altri momenti
multivariati oltre il secondo. Si faranno degli esempi nell’ambito
dell’ analisi dei residui nella regressione multipla lineare.
In effetti si vedrà che anche nel modello lineare generale, l’analisi
2002-3003 versione provvisoria
133
della dipendenza lineare e delle proprietà degli stimatori, sotto certe
ipotesi semplificatrici è legata solo alla struttura delle varianze e
delle covarianze fra variabili dipendenti e indipendenti.
5.12
Stimatori di massima verosimiglianza dei
parametri di una normale multivariata
Supponiamo di avere un campione(multivariato) casuale di ampiezza
n estratto da una normale multivariata a p componenti, ossia una
matrice Xn × p di dati, le cui righe sono delle determinazioni di una
variabile normale multipla:

x11 x12

 x21 x22

 . . . . . .

X = 
 xi1 xi2

 . . . . . .

xn1 xn2

. . . x1j . . . x1p


. . . x2j . . . x2p 


... ... ... ... 



. . . xij . . . xip 


... ... ... ... 

. . . xnj . . . xnp
In analogia al caso univariato, i momenti primi e secondi calcolati
sul campione multivariato sono le stime di massima verosimiglianza
dei corrispondenti parametri della distribuzione di provenienza; in
134
Materiale didattico statistica 3
sintesi:
Lo stimatore di massima verosimiglianza del vettore delle speranze matematiche µ di una variabile normale multipla è dato
dal vettore M (X) delle medie aritmetiche di un campione multivariato x di n osservazioni i.i.d. estratto dalla corrispondente
distribuzione.
Tale stimatore, come nel caso univariato, è corretto, ossia non
distorto.
Lo stimatore di massima verosimiglianza della matrice di varianze
e covarianze Σ di tale variabile è dato dalla matrice delle varianze
e covarianze empiriche calcolata su un campione multivariato di
n osservazioni i.i.d. estratto dalla corrispondente distribuzione.
Tale stimatore, come nel caso univariato, è invece distorto.
E’ possibile costruire uno stimatore corretto moltiplicando sia le
n
varianze che le covarianze empiriche per il fattore correttivo n−1
,
ottenendo quindi lo stimatore:
Σ̂ = V [X] = V [Z] =
ZT Z
n
In effetti, dal momento che gli unici parametri della distribuzione normale multivariata sono il vettore delle medie e la matrice di
varianza e covarianza, per ottenere gli stimatori di massima verosimiglianza (puntuali!) di tutte le quantità necessarie per calcolare le
distribuzioni congiunte, marginali, condizionate e per le componenti
principali da un campione proveniente da una normale multivariata,
si impiegheranno le stesse formule già viste per la distribuzione teorica, sostituendo ai momenti primi e secondi teorici quelli empirici
stimati dal campione, dal momento che lo stimatore di massima verosimiglianza di una funzione dei parametri g(θ) è dato dalla stessa
funzione dello stimatore di Massima verosimiglianza, g(θ̂)
2002-3003 versione provvisoria
135
Dimostrazione
È opportuno a questo punto richiamare e rivedere le proprietà
viste precedentemente sulla derivazione di forme quadratiche di
determinanti e di matrici inverse.
Sezione avanzata
Per ricavare gli stimatori di massima verosimiglianza dei parametri di una normale multivariata costruiamo come sempre la verosimiglianza, o meglio il suo logaritmo, supponendo di avere n
osservazioni indipendenti ciascuna con p componenti.
Per comodità e perché questo facilita i passaggi successivi, consideriamo come parametri gli
elementi cij di C , l’inversa della matrice Σ di varianze e covarianze, oltre ovviamente al vettore
delle speranze matematiche µ.
Sappiamo dalle proprietà degli stimatori di massima verosimiglianza che la parametrizzazione
è irrilevante ai fini della determinazione degli stimatori puntuali.
Costruiamo la quantità:
−2 log L(µ; C)
(essendo L(µeC) la verosimiglianza campionaria (rispetto a µ e C), sulla base di un campione
di n osservazioni indipendenti (si riveda la parte iniziale sulla normale multivariata, per questa
parametrizzazione, in particolare l’equazione 5.3):
l(µ, C; X) = −2logL(µ, C; X) = k − nlog|C| +
n
X
T
(xi − µ) C(xi − µ)
i=1
essendo xi il vettore ( p -variato) osservato relativo all’i-esima osservazione. Procedendo a
derivare prima rispetto al vettore µ si ha:
n
n
X
X
∂l(µ, C; X)
= −2
C(xi − µ) = −2C
(xi − µ)
∂µ
i=1
i=1
E’ immediato vedere che
∂l(µ,C;X)
∂µ
si annulla se:
2C
n
X
(xi − µ̂) = 0
i=1
ossia (dato che C è di rango pieno!) solo quando:
n
X
(xi − µ̂) = 0,
i=1
ed infine:

M1
 ...


xi = nµ̂µ̂ =
xi /n(= M (X) =  Mj

i=1
i=1
 ...
Mp
n
X
n
X







Per quanto riguarda invece le derivate rispetto agli elementi di C conviene distinguere gli
elementi diagonali cjj da quelli fuori dalla diagonale cjk (k 6= j) :
∂
n ∂|C|
∂l(µ, C; X)
=−
+
∂cjj
|C| ∂cjj
Pn
i=1 (xi
− µ)T C(xi − µ)
j = 1, 2, . . . , p
∂cjj
Per il primo addendo a secondo membro ricordiamo il risultato generale per i determinanti di
matrici simmetriche:
∂|C|
= Cii
∂cjj
essendo Crs il cofattore di crs in C ,
136
Materiale didattico statistica 3
mentre per il secondo addendo ovviamente si tratta di termini lineari in C , per cui basterà
nella sommatoria selezionare solo le componenti opportune dei vettori (xi − µ) , ossia solo quelle
che moltiplicano cjj :
n
X
∂l(µ, C; X)
Cjj
2
= −n
+
(xij − µj ) .
∂cjj
|C|
i=1
Si vede subito che:
Cjj
2
= σj
|C|
dal momento che C = Σ−1 e quindi Σ = C−1 e gli elementi di un’inversa sono proprio dati
dai rapporti fra cofattori e determinante.
Per trovare le espressioni degli stimatori σ̂j2 occorre annullare le precedenti derivate, avendo
sostituito alle speranza matematiche µj gli stimatori di massima verosimiglianza Mj . Pertanto:
n
X
∂l(µ, C; X)
Cjj
2
= 0 → −n
+
(xij − Mj ) = 0;
∂cjj
|C|
i=1
e quindi:
Pn
2
i=1 (xij
σ̂J =
− Mj )2
n
Deriviamo adesso rispetto agli elementi non diagonali cjk (k 6= j ):
∂
∂l(µC; X)
n ∂|C|
=−
+
∂cjk
|C| ∂cjk
Pn
i=1 (xi
− µ)T C(xi − µ)
j, k = 1, 2, . . . , p; k 6= j
∂cjk
Procediamo come prima, e per il primo addendo a secondo membro ricordiamo il risultato
generale per i determinanti di matrici simmetriche:
∂|C|
= 2Cjk
∂cjk
cofattore di cjk in C, k 6= j.
Mentre per il secondo addendo selezioniamo le componenti dei vettori (xi − µ) che moltiplicano
cjk :
n
X
Cjk
∂l(µ, C; X)
= −2n
+2
(xij − µj )(xik − µk )
∂cjk
|C|
i=1
Ancora si ha:
Cjk
= σjk
|C|
e per trovare le espressioni degli stimatori σ̂jk occorre annullare le precedenti derivate, avendo
sostituito alle speranze matematiche µj gli stimatori di massima verosimiglianza Mj . Pertanto:
n
X
∂l(µ, C; X)
Cjk
= 0 ⇒ −2n
+2
(xij − Mj )(xik − Mk ) = 0;
∂cjk
|C|
i=1
e quindi:
Pn
σ̂jk =
i=1 (xij
− Mj )(xik − Mk )
n
e quindi in definitiva il risultato prima anticipato:
T
Σ̂ = V (X) = V (Z) = Z Z/n
essendo X il campione multivariato originario e Z la matrice degli scarti
2002-3003 versione provvisoria
137
Inferenza nel caso normale sugli autovalori:
Sebbene solitamente si impieghino le tecniche di analisi delle componenti principali a scopo esplorativo, è interessante accennare al caso
in cui si abbia a disposizione un campione multivariato estratto da
una distribuzione normale; abbiamo infatti già visto come per una
distribuzione normale multivariata gli autovalori e gli autovettori
assumano dei significati ben precisi.
Evidentemente gli stimatori di massima verosimiglianza degli autovalori e degli autovettori sono forniti dagli autovalori e dagli autovettori della matrice di varianza e covarianza campionaria (che è
lo stimatore di massima verosimiglianza della matrice di varianza
e covarianza teorica); dal momento che per gli stimatori delle varianze e delle covarianze per campioni provenienti da una normale
valgono della proprietà di regolarità e dei teoremi che forniscono
le distribuzioni campionarie e che garantiscono la consistenza degli
stimatori insieme con loro correttezza asintotica, dobbiamo aspettarci che anche per gli autovalori e gli autovettori ricavati da tali
matrici campionarie valgano delle proprietà di consistenza e di correttezza asintotica. In effetti qui mi limito a riportare un risultato
asintotico che riguarda la distribuzione degli autovalori per campioni
provenienti da una distribuzione normale multivariata.
Asintoticamente gli lj , stime campionarie dei veri autovalori λj ,
ottenute da un campione di n osservazioni estratto da una normale
multivariata, si distribuiscono secondo una normale multivariata a
componenti indipendenti:
con valore atteso: E[lj ] = λj
e varianza campionaria :
V ar[lj ] =
2λ2j
n−1
(si ricordi il caso particolare di matrici di varianze e covarianze
diagonali: questi risultati coincidono con quelli classici della distribuzione di una varianza campionaria!)
Casi interessanti:
H0 : λj = 1, j = 1, 2, . . . , p
che corrisponde al caso di indipendenza fra le variabili (standardizzate).
138
Materiale didattico statistica 3
È da intendersi che questi risultati sono semplicemente delle approssimazioni ma danno delle indicazioni sull’ordine di grandezza
dell’errore campionario.
5.12.1
Un test di Multinormalità: cenni
Quando si ha a disposizione un campione di dati multivariato, molto
spesso è necessario verificare se è plausibile l’ipotesi di provenienza
da un universo normale multivariato.
Un modo semplice per verificare la normalità di un campione
di osservazioni multivariate, consiste ovviamente nell’effettuare dei
test di normalità su ciascuna delle distribuzioni univariate.
Ricordo che la normalità delle distribuzioni marginali è una condizione necessaria ma non sufficiente per la normalità multivariata: pertanto i test sulla normalità delle distribuzioni marginali costituiscono uno sbarramento preliminare, nel senso che se danno
esito negativo possiamo senz’altro scartare l’ipotesi di multinormalità, altrimenti occorrerà procedere col saggiare l’ipotesi di normalità
multivariata con test basati sulla distribuzione congiunta.
Se l’insieme in esame è costituito da molte variabili non sarà
possibile utilizzare i normali test di bontà dell’adattamento; tuttavia
è possibile ottenere delle informazioni eventualmente anche grafiche
trasformando opportunamente l’insieme di dati multivariato.
Come si è visto infatti nel capitolo sulla distribuzione normale
multivariata, la forma quadratica ad esponente della densità normale ha una distribuzione proporzionale a quella di una χ2 con p
gradi di libertà.
Infatti se:
Y(Np (µ, Σ),
si è già visto prima che la variabile casuale
Q = (Y − µ)T Σ−1 (Y − µ)(χ2p
Pertanto se trasformiamo ognuno degli n vettori osservati xi a
p componenti secondo la stessa relazione, dovremo aspettarci che
questi n valori trasformati qi seguano ciascuno una distribuzione χ2
con p gradi di libertà:
qi = (xi − µ)T Σ−1 (xi − µ) ∼ χ2p
(le n trasformate qi risultano indipendenti per l’indipendenza
ipotizzata dei vettori osservati xi )
2002-3003 versione provvisoria
139
Quindi, se è valida l’ ipotesi di multinormalità, il vettore delle n
trasformate qi costituisce un campione casuale semplice estratto da
una distribuzione χ2 con p gradi di libertà. In effetti le quantità che
si usano effettivamente per il calcolo delle qi sono gli stimatori di µ
e Σ , M e S , e non i parametri veri (usualmente incogniti); questo
fa sı̀ che le quantità:
q̂i = (xi − M )T S−1 (xi − M )
seguono una distribuzione χ2p solo approssimativamente; l’approssimazione è soddisfacente per campioni grandi.
In effetti, un’informazione utile si ricava dalla rappresentazione
grafica di tali valori trasformati in corrispondenza dei percentili teorici di una variabile χ2 ; un altro elemento di cui si potrebbe tenere
conto nella costruzione di un test di normalità è dato dagli angoli che
i vettori osservati formano con il centroide del campione; tuttavia
adesso per semplicità non vedremo quest’ulteriore possibilità.
Esempio:
Questo esempio è tratto dall’insieme di dati antropometrici di cui si
è fatto cenno in capitoli precedenti (1432 casi x 7 variabili).
\begin{fig}
in ese2000_correlaz1.nb
\end{fig}
Inserire grafici sulle distribuzioni normali condizionate
5.13
Inferenza sui parametri della normale multipla
Mi dispiace! capitolo ancora da fare
140
Materiale didattico statistica 3
5.14
Esempi di distribuzioni multivariate non
normali
Sezione avanzata
Saltare nella versione breve del corso.
L’estensione al caso multivariato di distribuzioni non-normali a componenti non indipendenti
è sempre ardua, perché le possibilità di estensione di sistemi di curve univariate non normali al
caso multivariato possono essere di diversa natura, mentre dalla distribuzione normale univariata si
può arrivare alla sua estensione multivariata con diverse impostazioni giungendo sempre alla stessa
forma multivariata; ad esempio:
• dalla densità o dalla funzione caratteristica, sostituendo ad un quadrato una forma quadratica;
• se xT a è normale per qualsiasi a , allora x è normale multivariato.
• come distribuzione di x = µ + Ay(con y a componenti indipendenti)
• da distribuzioni condizionate normali e omoscedastiche con funzioni di regressione lineari.
5.14.1
Una particolare distribuzione beta multivariata (distribuzione di Dirichlet)
La distribuzione di Dirichlet a k componenti, che costituisce una particolare generalizzazione multivariata della distribuzione Beta, è definita come segue:
• si considerino k + 1 v.a. indipendenti Xi (i = 0, 1, 2, . . . , k) , ciascuna con distribuzione
Gamma con lo stesso parametro di scala λ e di parametri di forma ci ;
Pk
• indicata con S la loro somma, S =
i=0 Xi , la distribuzione di Dirichlet è la distribuzione
congiunta delle k nuove variabili definite dalle relazioni:
yi = Xi /Si = 1, 2, . . . , k.
La densità di tale distribuzione è data da:
f (y1 , y2 , . . . , yk ) =
k
Y
ci−1
yi
i=1
[1 −
k
X
yi ]
c0−1
i=1
Γ(
k
X
ci )/
i=0
k
Y
Γ(ci ),
i=0
ed è definita sul simplesso:
yi (0, i = 1, 2, . . . , k;
k
X
yi ≤ 1.
i=1
Questa distribuzione è importante ad esempio per la descrizione della distribuzione simultanea
di rapporti di composizione; si vedano nelle figure che seguono, per il caso bivariato, alcuni esempi
di densità per diverse combinazioni dei parametri c0 , c1 e c2 .(indicati nel seguito con a, b, c nel caso
bivariato)
Se ci (1(i = 0, 1, . . . ., k) , la densità ha sempre un massimo unico in corrispondenza di:
∗
yi = (ci − 1)/
k
X
(ci − 1), (i = 1, 2, . . . , k).
i=0
• Tutte le distribuzioni marginali univariate sono delle distribuzioni Beta.
• Le distribuzioni condizionate sono ancora delle Beta
• Nella distribuzione bivariata (indicando le due componenti con X ,y , e i parametri con a,b,c))
la distribuzione di y condizionata a X =x è proporzionale ad una variabile con distribuzione
Beta univariata. In particolare si dimostra che:
• y/(1 − x)kX = x si distribuisce come una Beta[b, c]
• per cui E [y] varia linearmente con x, ma anche V [y] varia con x
2002-3003 versione provvisoria
141
Esempi di densità di distribuzioni di Dirichlet: Figura da inserire
in bivar1.nb
c0 = 1, 2
c0 = 1, 2
c0 = 3
c1 = 0, 9
c1 = 1, 3
c1 = 4
c2 = 0, 9
c2 = 1, 8
c2 = 5.
\begin{fig}
FIG2000REGR_ETERO1.STG
\end{fig}
Altri esempi di distribuzioni multivariate non normali
Distribuzione Logistica Doppia di densità:
F (x, y) = 1/(1 + Exp[−x] + Exp[−y])
\begin{fig}
in bivar1.nb
\end{fig}
Distribuzione Esponenziale Bivariata $(a=0,7)$
$$
F(\vecx,\vecy)=
(1-Exp[-\vecx])(1-Exp[-\vecy])( (1+a Exp[-\vecx-\vecy])
$$
\begin{fig}
in bivar1.nb
\end{fig}
Distribuzione Bivariata Dirichlet
(\mBeta-bivariata) $a=1,5;
\vecb=1,6; c=2,1$
\begin{fig}
in bivar1.nb
\end{fig}
Distribuzione Bivariata Dirichlet
(\mBeta-bivariata) $a=4;
\vecb=4; c=3$
\begin{fig}
142
Materiale didattico statistica 3
in bivar1.nb
\end{fig}
Distribuzione Bivariata Dirichlet
(\mBeta-bivariata) $a=1,1;
\vecb=1,1; c=0,9$
\begin{fig}
in bivar1.nb
\end{fig}
Sezione avanzata
costruzione di variabili correlate
Uno schema generale di costruzione di variabili aleatorie correlate da p+1 variabili aleatorie indipendenti Xj (j=0,1, . . . ,p), è quello di considerare p variabili aleatorie sommando a tutte la componente
X0 . In dettaglio otteniamo ora un nuovo vettore aleatorio Y a p componenti, ponendo:


y1 = X0 + X1


...




 yj = X0 + Xj 




...
yp = X0 + Xp
In pratica la componente X0 è quella che determina la covarianza fra le componenti di Y .
E’ facile calcolare i momenti di Y da quelli di X , mentre può essere in generale arduo calcolare
la distribuzione di Y (è spesso è complicato integrare rispetto a X0 nella densità congiunta di X0 ,
X1 , . . . , Xp , ).
Come esercizio si calcoli la correlazione e la covarianza fra due generiche componenti di Y o,
direttamente, la matrice di varianze e covarianze e la matrice di correlazione di Y .
V (yj ) = V (X0 ) + V (Xj ); Cov(yj , yk ) = V (X0 )
costruzione di variabili correlate
Uno schema generale di costruzione di variabili aleatorie correlate da p+1 variabili aleatorie indipendenti Xj (j=0,1, . . . ,p), è quello di considerare p variabili aleatorie sommando a tutte la componente
X0 . In dettaglio otteniamo ora un nuovo vettore aleatorio Y a p componenti, ponendo:
In pratica la componente X0 è quella che determina la covarianza fra le componenti di Y .
E’ facile calcolare i momenti di Y da quelli di X , mentre può essere in generale arduo calcolare
la distribuzione di Y (è spesso è complicato integrare rispetto a X0 nella densità congiunta di X0 ,
X1 , . . . , Xp , ).
Come esercizio si calcoli la correlazione e la covarianza fra due generiche componenti di Y o,
direttamente, la matrice di varianze e covarianze e la matrice di correlazione di Y .
V (yj ) = V (X0 ) + V (Xj ); Cov(yj , yk ) = V (X0 )
Capitolo 6
Introduzione ai Modelli
Lineari
Figura da inserire
FIG2000REGR1.STG
FIG2000REGR2.STG
FIG2000REGR3.STG
6.1
Il modello lineare di dipendenza per variabili normali.
143
144
Materiale didattico statistica 3
Figura 6.1: relazione fra due variabili in funzione del valore di una terza variabile
vai a indice figure
Per quanto visto nelle lezioni sulla normale multivariata, la distribuzione di un numero qualsiasi di componenti condizionatamente a valori qualsiasi Z2 di altre componenti del vettore aleatorio
normale è normale, con valore atteso che è funzione lineare di Z2
, e matrice di varianze e covarianze indipendente dai particolari valori condizionanti; quindi le regressioni sono tutte lineari e
omoscedastiche.
Pertanto se si ha a disposizione un campione casuale semplice
da una normale multivariata, non esiste alcun problema di identificazione del modello, né di scelta della funzione, perché tutte le
distribuzioni condizionate sono note.
2002-3003 versione provvisoria
145
Tuttavia sono rari i casi in cui nello studio della dipendenza di
uno o più fenomeni, si può ragionevolmente ipotizzare di avere un
campione casuale semplice da una distribuzione normale multipla,
perché spesso ci si trova in altre situazioni, fra cui essenzialmente si
hanno le seguenti:
• I dati costituiscono un campione casuale semplice proveniente
da una distribuzione multivariata non normale.
• I dati non costituiscono un campione casuale semplice ma, per
esempio, i valori delle variabili indipendenti sono stati opportunamente selezionati o predisposti
• oppure si ha un campione non probabilistico o comunque un
archivio di dati che non costituisce un campione.
• Il modello da cui si possono selezionare i dati è effettivamente
una distribuzione normale multivariata (almeno approssimativamente normale), e si può estrarre un campione casuale semplice, tuttavia l’interesse dell’analisi è limitato allo studio della
distribuzione di una delle componenti y condizionatamente a
valori particolari o estremi delle altre componenti X : è noto anche nell’analisi della regressione semplice, che l’inferenza
è migliore (ossia le bande di confidenza della relazione di regressione sono più strette) se si selezionano unità con valori
estremi delle componenti condizionanti X più vicine a quelle di
interesse.
spostare questo paragrafo
Ovviamente restano rinviati (ma solo per poche pagine!) i problemi relativi alla stima dei parametri sulla base di un campione di
osservazioni p-variate, che verranno affrontati estendendo opportunamente le tecniche impiegate quando si studia la dipendenza
di una variabile y da una variabile indipendente x .
In effetti anche nel caso di campioni casuali semplici da distribuzioni non normali multivariate, si possono cercare le migliori (nel
senso dei minimi quadrati) relazioni lineari fra le speranze matematiche di y e particolari valori di X . In ogni caso, come si apprestiamo
a discutere diffusamente, i valori delle x possono anche non essere
146
Materiale didattico statistica 3
delle determinazioni di variabili casuali, ma valori anche scelti in
modo non casuale.
Nei paragrafi che seguono verranno affrontati diversi aspetti reversatilità del modello li- lativi alla versatilità del modello lineare ed alle diverse possibilità
neare
interpretative del modello e dei suoi parametri: alcuni dei concetti
fondamentali relativi a particolari modelli lineari vengono introdotti
fra breve, prima che vengano affrontati gli aspetti inferenziali.
6.2
Funzioni di regressione
questo pezzo va agganciato
con il pezzo sulla regressione
per vettori aleatori.
Supponiamo di avere un vettore aleatorio di p + 1 componenti:
(Y, Z1 , Z2 , . . . , Zp )
l’approccio alla misura della dipendenza di una componente Y di
un vettore aleatorio dalle altre componenti, può essere affrontato in
termini di funzione di regressione, ossia della funzione di dipendenza
della speranza matematica di Y da particolari configurazioni di Z :
E [Y ] = f (z)
Ovviamente questo concetto può essere esteso al caso in cui abbiamo n osservazioni relative a p + 1 variabili statistiche, e si vuole
studiare come varia una (o meglio le sue medie) in funzione delle
altre.
L’approccio tecnico scelto in questo corso ci consentirà di affrontare in modo simile gli aspetti inferenziali relativi alla regressione
multipla, all’analisi della varianza, della covarianza; inoltre costituirà una buona base per alcuni tipi di GLM (Generalized linear
models) sia per l’interpretazione dei parametri che per l’inferenza.
2002-3003 versione provvisoria
6.3
147
I modelli statistici.
Prima di iniziare lo studio del modello lineare, che ci accompagnerà
per tutto (o quasi) il corso) vale la pena di fare una citazione:
Utilità dei modelli statistici
All models are wrong, but some are useful
(G.E.P. Box)
(Tutti i modelli (statistici) sono sbagliati, ma alcuni sono
utili)
6.4
Il modello lineare generale.
Per modello lineare in generale si intende un modello nel quale una
variabile di risposta osservabile Y è spiegata da una combinazione
lineare di k variabili esplicative Xj , secondo dei parametri incogniti
βj , più una componente accidentale ε (non osservabile) , secondo
la generica relazione lineare:
...
y = X1 β1 + X2 β2 + . . . + Xk βk + ε
148
Materiale didattico statistica 3
...
In generale si può avere:
y = g(X1 , . . . , Xk , β, ε)
In particolare comunque ci occuperemo di modelli lineari di dipendenza nei quali le Xj non sono variabili casuali, ma costanti note,
che assumono n valori in <k (tutti distinti oppure con ripetizioni,
questo si vedrà meglio in seguito).
A differenza di quanto visto nelle lezioni precedenti, non ci stiamo
occupando della distribuzione simultanea di k + 1 variabili aleatorie,
perché le Xj sono variabili i cui valori possono addirittura essere
prefissati ed assegnati.
La generica osservazione i -esima è quindi caratterizzata da un
particolare vettore di valori delle k variabili Xj , indicato con:


xi1


 ... 



xi = 
x
 ij 


 ... 
xik
Eventualmente le x potranno essere dei valori particolari (fissati!) di variabili casuali, nel caso in cui studiamo le distribuzioni
condizionate della variabile aleatoria Y , condizionatamente agli
n valori di k variabili aleatorie Xj , e ipotizzeremmo in quel caso
l’esistenza di k+1 variabili aleatorie osservabili. Anche in questa
situazione però non ci occuperemmo della distribuzione congiunta delle Xj , ma solo di f (Y|Xnxk ) , ossia la distribuzione di Y
condizionatamente a particolari valori delle x.
2002-3003 versione provvisoria
149
E’ più opportuno allora fornire l’equazione per la variabile casuale
yi corrispondente alla generica i-esima osservazione:
...
Yi = xi1 β1 + xi2 β2 + . . . + xik βk + εi = xTi β + εi
Il vettore delle n osservazioni può essere quindi cosı̀ espresso
formalmente:
MODELLO LINEARE GENERALE
Y[n×1] = X[n×k] β [k×1] + ε[n×1]
L’ equazione deve essere lineare nei parametri β .
Rappresentando i dati in blocchi si ha:
Figura da inserire
BLOCCHI
Y[n×1] = X[n×k] β [k×1] + ε[n×1]

y1












 
...   ...
...
 


...
...   ...
 
yi  =  xi1 β1 + xi2 β2 +
 

... 
...
  ...
 
...   ...
...
yn
xn1 β1 + xn2 β2 +



ε1
 
 
 
 
 
 
+xik βk  + 
 

... 
 
 
...  
+xnk βk
...
...
x11 β1 + x12 β2 + . . . +x1k βk
...
...
...
...
...
...
...
...








εi 

... 


... 
εn
150
Materiale didattico statistica 3
...
L’utilità e la versatilità di tale modello per la descrizione di
fenomeni reali risiede nella possibilità di dare un significato
agli elementi di X e di β .
Il nome lineare presuppone in generale che il modello sia
lineare nei parametri βj
6.4.1
componente sistematica e componente casuale.
Possiamo interpretare le due componenti fondamentali del modello
che forniscono la risposta Y come:
Xβ la componente sistematica del modello;
ε
la componente accidentale, che qui sto supponendo additiva, per semplicità, e per comodità
interpretativa.
Se:
E [ε] = 0n
(come è ovvio assumere se ε è effettivamente una componente accidentale additiva) allora:
E [Y] = Xβ,
e quindi il modello è schematizzabile come:
Y = E [Y] + ε
In questo caso quindi possiamo vedere la variabile Y come una
variabile casuale, di cui abbiamo un campione di n osservazioni, la
cui speranza matematica è funzione lineare di k variabili Xj secondo
la relazione:
E [yi ] =
k
X
xij βj
i = 1, 2, . . . , n
j=1
questa proprietà è in stretta relazione con l’ipotesi di additività
della componente accidentale.
L’assunzione E [ε] = 0n presuppone la validità del modello per le
speranze matematiche e quindi implicitamente si ipotizza:
2002-3003 versione provvisoria
151
• che la componente accidentale (che ha un effetto additivo) sia a
media nulla: questo in effetti è quasi scontato quando parliamo
di errori accidentali additivi;
• che le k variabili siano le uniche rilevanti ai fini della spiegazione
della speranza matematica di Y , o meglio della spiegazione di
sue variazioni.
• Il modello per la parte sistematica non è distorto, perchè: E [Y] =
Xβ .
In ogni caso non si sta implicitamente assumendo l’esistenza di
relazioni di causa effetto fra le X e la Y , ma semplicemente
che la conoscenza delle X può spiegare meglio la variabilità del
fenomeno Y (nel senso che ne diminuisce la variabilità).
Ricordo inoltre che non è necessario ipotizzare modelli distributivi per le Xj , perché, almeno per ora, si sta supponendo che
siano dei termini fissati, secondo differenti possibili schemi che
vengono adesso esaminati
Ad esempio nella regressione lineare semplice si ipotizza:
Yi = β0 + xi β1 + εi
con
E [Yi ] = β0 + xi β1
Sezione avanzata
Adesso occorre citare e studiare opportunamente gli esempi della lezione introduttiva, che in
buona parte sono tutti suscettibili di essere posti in questa forma.
152
6.4.2
Materiale didattico statistica 3
Caratteristiche essenziali degli elementi del modello
lineare
Elemento e Dimensioni
Caratteristiche
Y
vettore
elementi
Vettore aleatorio osservabile;
è la variabile di risposta di interesse, ossia quella di
cui si cerca di studiare (e di spiegare) la variabilità;
n
X
matrice n × k
elementi
Matrice di costanti note.
Le k componenti (vettori di n elementi) sono
variabili non aleatorie osservate senza errori
Sono le k variabili esplicative che si pensa
influenzino la risposta Y .
Si vedranno dopo alcune delle numerose configurazioni che può assumere la matrice X.
β
vettore
elementi
k
Vettore di parametri incogniti;
β andrà stimato dai dati del campione.
In generale sono dei parametri fissi; in certi modelli,
che tratteremo in questo corso solo marginalmente,
alcuni dei coefficienti sono considerati come effetti
casuali, e quindi come variabili aleatorie.
ε
vettore
elementi
n
Vettore aleatorio non osservabile direttamente;
In funzione delle diverse ipotesi fatte sulla natura
della distribuzione di ε (che può dipendere in generale da un insieme di parametri θ ) si possono avere
differenti stime dei parametri incogniti del modello.
2002-3003 versione provvisoria
6.4.3
153
Caratteristiche più dettagliate degli elementi del modello:
ElementoCaratteristiche
Y
Vettore aleatorio osservabile;
vettore n elementi
• è la variabile di risposta di interesse, ossia quella di cui
si cerca di studiare (e di spiegare) la variabilità;
• è una variabile quantitativa;
• solo in casi speciali si considerano Y qualitative (ad
esempio presenza/assenza; oppure successo/insuccesso).
In questo corso non affronteremo, almeno non queste
tecniche, casi di risposte y qualitative non dicotomiche.
• Ci stiamo occupando essenzialmente di modelli nei quali
la risposta yi è univariata; diversamente, con risposte
multiple, abbiamo modelli multivariati.
• Si considera la distribuzione di Y come vettore aleatorio,
perché si pensa che questa distribuzione possa per qualche aspetto (media, varianza, etc.) variare in funzione
delle Xj .
• Il modello è multiplo se si hanno diverse colonne nella
matrice X
• con y indichiamo il vettore dei valori osservati
• Di solito è utile vedere (preliminarmente) se la variabilità
osservata della Y è dovuta solo alla variabilità naturale
o anche a fattori sistematici (ossia la dipendenza dalle
X ).
• Le n unità dovrebbero essere gli elementi di un campione
casuale; tuttavia questo modello viene utilizzato anche
per analisi esplorative su dati osservazionali o comunque
non provenienti da un campione (leggere discussione di
Cox su int.stat.rev.)
154
Materiale didattico statistica 3
ElementoCaratteristiche e Dimensioni
X
Matrice di costanti note.
matrice n × k elementi
• Le k componenti (vettori di n elementi) sono variabili
non aleatorie osservate senza errori
• o comunque con un eventuale errore di ordine di
grandezza molto inferiore rispetto a quello di Y .
• I valori delle x potrebbero essere n valori particolari assunti da un vettore aleatorio p-dimensionale. In questo
caso studiamo la distribuzione condizionata di y per quei
particolari valori di X.
• Le Xj sono le k variabili esplicative che si pensa
influenzino la risposta Y .
Le configurazioni di X possono essere numerose:
• quantitative
• variabili indicatrici (0/1 o -1/1)
• variabili miste
2002-3003 versione provvisoria
155
La matrice delle X (o meglio l’intero insieme dei dati) può
provenire da:
• studi osservazionali: in cui si scelgono le k variabili, ma
gli n valori di ciascuna variabile sono quelli osservati
negli n individui scelti, per cui non è possibile in generale
pianificare particolari combinazioni degli n × k valori.
• esperimenti pianificati: in cui si scelgono non solo le k
variabili, ma anche tutto lo schema degli n × k valori,
per cui è possibile stabilire in anticipo quali valori verranno utilizzati per ciascuna delle k variabili ed inoltre
quali combinazioni di valori dei fattori (o delle variabili)
verranno impiegate insieme.
• dati ricavati da statistiche ufficiali o archivi e/o databases o dati prelevati da archivi remoti in rete: possibilmente si tratta di dati raccolti non per finalità statistiche
e pertanto potrebbero essere poco affidabili, di qualità
non nota e molto probabilmente non costituiscono nè un
campione casuale nè una popolazione completa. 1
1 Ovviamente
questa considerazione riguarda l’intero dataset osservato, compresa la y .
156
Materiale didattico statistica 3
ElementoCaratteristiche
β
Vettore di parametri incogniti ;
vettore di k elementi:
β = {β1 , β2 , . . . , βj , . . . , βk }T
β andrà stimato dai dati del campione
• Ciascun parametro esprime la dipendenza (lineare) dalla
corrispondente variabile esplicativa.
• In generale gli elementi di β sono dei parametri fissi, se
non precisato diversamente;
• in certi modelli alcuni dei coefficienti sono considerati
come effetti casuali, e quindi come variabili aleatorie.
• Ciascun parametro esprime la dipendenza (lineare) dalla
corrispondente variabile esplicativa.
• Pertanto βj misura l’incremento medio della risposta Y
in corrispondenza di un incremento unitario della j-esima
variabile Xj .
• Se Xj è una variabile indicatrice (0/1) della presenza di
una certa caratteristica (non quantitativa), allora βj misura l’effetto medio della presenza di tale caratteristica
sulla risposta Y .
In generale:
βj =
∂E [Yi ]
∂xij
se il modello è lineare però vale anche:
xij =
∂E [Yi ]
∂βj
2002-3003 versione provvisoria
157
Elemento
Caratteristiche
ε
Vettore aleatorio non osservabile direttamente;
vettore di n elementi
I n funzione delle diverse ipotesi fatte sulla natura della
distribuzione di ε (che può dipendere in generale da un
insieme di parametri θ ) si hanno differenti stimatori dei
parametri incogniti del modello.
• Rappresenta la componente accidentale, che viene
supposta additiva, in modo tale che se è anche
con speranza matematica nulla (come spesso si può
ipotizzare) si ha:
E [Y] = Xβ
• In effetti ε a rigore dovrebbe essere una variabile aleatoria non dipendente da variabili esterne, che esprime semplicemente l’errore sperimentale, o l’errore di
misurazione
• nel caso in cui il modello non sia correttamente specificato, ε finirà per inglobare le variabili ed i fattori non esplicitati nella parte sistematica, e quindi
perderà la sua natura di componente accidentale.
6.4.4
Versatilità del modello lineare
La formulazione di tale modello per la speranza matematica di una
v.a., sebbene molto semplice, permette di trattare diversi tipi di
situazioni e di risolvere differenti problemi di inferenza.
In funzione di particolari configurazioni che può assumere la matrice X, si può adattare questa impostazione a situazioni particolari.
Ad esempio:
• per l’analisi della regressione lineare multipla, se le colonne
della matrice x sono n osservazioni di k variabili quantitative,
• per l’analisi della regressione polinomiale, se le colonne della
matrice X sono le potenze di una o più variabili quantitative,
• oppure per l’analisi della varianza se le k colonne di x so-
158
Materiale didattico statistica 3
no delle variabili dicotomiche indicatrici (dummy variables) di
appartenenza ad un gruppo;
• per l’analisi della covarianza;
• per particolari analisi di disegni sperimentali a più vie con
interazioni fino ad un ordine massimo fissato.
• Analisi di superfici di risposta
• Analisi discriminante
• Analisi dei modelli di crescita
soltanto alcune di queste problematiche verranno trattate in
questi appunti;
si rivedano comunque gli esempi tratti dalla sezione di problemi
introduttivi
6.5
Problemi di inferenza
In generale in un modello lineare possiamo avere diversi problemi di
inferenza, in particolare di stima e di prova delle ipotesi, in funzione
della natura dei dati e del tipo di problema. Ad esempio:
• stimare il vettore dei parametri β nel caso generale;
• stimare il vettore dei parametri β nel caso in cui vengono imposti dei vincoli su alcune delle sue componenti (alcune componenti nulle o uguali, per esempio)
• Il valore del vettore dei parametri β è uguale ad un certo valore
β0 ?
• Costruzione di una regione di confidenza per il vettore dei
parametri β ;
• Costruzione di un intervallo di confidenza per una delle componenti di β ; (o per una combinazione lineare delle componenti
di β , ad esempio β1 − (β2 + β3 )/2 ).
2002-3003 versione provvisoria
159
• Inferenza su r componenti di β ; le altre k − r componenti
di β non interessano e svolgono però il ruolo di parametri di
disturbo.
• Gli effetti di alcune variabili Xj sono uguali? Ossia alcuni dei
parametri sono uguali?
• Alcuni dei parametri sono uguali subordinatamente al valore di
altre variabili Xj ?
• Qual è la combinazione di fattori che fornisce la risposta media
Y più elevata?
• Subordinatamente al fatto che alcuni effetti siano significativamente diversi da zero, quali hanno condotto alla significatività?
• Una o più fra le variabili Xj può essere eliminata, senza che
questo riduca in modo sostanziale la spiegazione della variabile
di risposta? Eliminare una variabile esplicativa Xj dal modello
corrisponde ad ipotizzare βj = 0.
• Anche se βj è significativamente diverso da zero, può comunque
convenire lavorare con un modello ridotto anche se distorto?
6.5.1
Ipotesi sulle ε
Per potere dare una risposta, anche approssimativa, ad alcune di
queste domande, e quindi per la costruzione di stimatori e test, e
per fare in generale inferenza (almeno muovendosi in un contesto
parametrico), occorrerà fare ovviamente delle ipotesi, più o meno
restrittive, sulla distribuzione di ε . Questa distribuzione dipenderà
in generale da un vettore di parametri θ :
ε ∼ φ(θ).
E’ ovvio che, anche ammettendo di conoscere la forma funzionale φ
, occorrerà stimare il vettore di parametri θ .
160
Materiale didattico statistica 3
...
Va tenuto presente che ε non è direttamente osservabile, come
accade invece, ad esempio, quando si osserva un campione
proveniente da una normale univariata di parametri incogniti
µ (costante) e σ 2 .
θ svolge in generale il ruolo di parametro di disturbo.
Ovviamente il numero dei parametri incogniti θs non dovrà essere
elevato, diversamente non sarà possibile stimarli.
ESEMPIO: se si suppone ε ∼ N (0, Σ) non possono essere incogniti emphtutti gli elementi della matrice di varianza e covarianza
Σ (perchè sarebbero n(n + 1)/2 parametri)
Quanto interagiscono la stima di θ e quella di β ? E’ possibile in
qualche modo verificare a posteriori la validità delle ipotesi fatte
sulla distribuzione delle ε ?
Le possibili scelte verranno analizzate successivamente alla discussione sul significato della parte sistematica.
6.6
La matrice delle X
La struttura ed il metodo di scelta delle Xj , insieme con la parametrizzazione scelta determina in parte il tipo di analisi.
Sostanzialmente le Xj (tutte o alcune) possono provenire da:
studi osservazionali Questo caso si presenta quando non è possibile in generale stabilire a priori la matrice X : si sceglieranno solo le k particolari variabili da analizzare e le n unità
che costituiscono il campione. Eventualmente potremo, entro
certi limiti, operare alcune trasformazioni sulle x in modo da
ricondurci a schemi particolari.
esperimenti pianificati con: variabili controllabili
in cui alcune variabili ( h ), e tutto lo schema degli n × h
valori corrispondenti della matrice X , vengono pianificati in
anticipo, per cui si stabilisce in partenza il range di valori di
ciascuna variabile esplicativa e le combinazioni di valori delle
2002-3003 versione provvisoria
161
variabili esplicative che si vogliono osservare, in funzione delle risposte che si vogliono ottenere dall’esperimento. Con un
esperimento mal pianificato, in cui ad esempio non sono previste alcune combinazioni di livelli di variabili, non si potranno
per esempio condurre tutti i test che si possono effettuare con
dati provenienti da un esperimento ben pianificato.
variabili note ma il cui valore non è pianificabile Ad esempio
vengono selezionati alcuni soggetti in base al sesso ed alla condizione lavorativa, per cui si stabilisce in anticipo quante osservazioni fare per tutte le combinazioni sesso x condizione lavorativa mentre per le altre variabili non è possibile pianificare
dei valori particolari.
Figura da inserire
ESEMPI VARI
6.6.1
Osservazioni ripetute.
Alcune delle righe della matrice X potrebbero essere (volutamente o
per caso) replicate. Nel caso di presenza di osservazioni ripetute per
ciascuna combinazione di fattori, l’analisi potrà anche dire qualcosa
di più:
• sulla bontà delle assunzioni fatte sulla distribuzione degli errori
• sulla forma funzionale della relazione (se lineare o meno).
• Sulla variabilità della componente accidentale per ciascuna combinazione di fattori.
Figura da inserire AMPLIARE
162
Materiale didattico statistica 3
citazione
Figura da inserire fig2000regr5.stg INSERIRE ESEMPIO E GRAFICO a 2D e 3D
6.6.2
Disegni fattoriali
Un disegno si dice fattoriale se vengono pianificate le osservazioni di
tutte le possibili combinazioni dei livelli dei k fattori.
Pertanto se ogni fattore Xj può assumere mj livelli (j = 1, 2, . . . , k),
si avranno:
Q
C = kj=1 mj distinte combinazioni,
ciascuna delle quali può essere replicata, per ottenere la matrice
X.
Esempio:
In un esperimento farmacologico si vuole stimare l’effetto di un
farmaco (tre dosi: una nulla, una media, una alta) su pazienti con
una particolare patologia. Si vuole verificare anche l’effetto su pazienti sani, e vedere se il sesso del paziente influenza il tipo di risposta. Complessivamente si hanno i seguenti fattori e corrispondenti
livelli:
Fattore
livelli (o modalità qualitative)
dosi di un farmaco
3 livelli quantitativi di dose
Sesso
2 livelli
Condizione sperimentale
2 livelli: malati e sani
Totale:
12 combinazioni
Le 12 possibili combinazioni sono dunque:
2002-3003 versione provvisoria
163
DOSE
SESSO
CONDIZIONE
1
Alta
F
Sano
2
Alta
F
Malato
3
Alta
M
Sano
4
Alta
M
Malato
5
Media
F
Sano
6
Media
F
Malato
7
Media
M
Sano
8
Media
M
Malato
9
Bassa
F
Sano
10
Bassa
F
Malato
11
Bassa
M
Sano
12
Bassa
M
Malato
Se si conviene di assegnare i seguenti valori numerici:
DOSE
Valore
Alta
+1
Media
0
Bassa
-1
SESSO
Valore
CONDIZIONE
Valore
M
+1
Sano
+1
F
-1
Malato
-1
Si ottiene la seguente matrice X dei regressori:
164
Materiale didattico statistica 3
DOSE
SESSO
CONDIZIO
1
+1
+1
+1
2
+1
+1
-1
3
+1
-1
+1
4
+1
-1
-1
5
0
+1
+1
6
0
+1
-1
7
0
-1
+1
8
0
-1
-1
9
-1
+1
+1
10
-1
+1
-1
11
-1
-1
+1
12
-1
-1
-1
Se i livelli sono quantitativi ed equispaziati (come in questo esempio), l’analisi risulta ortogonale
Anche nell’esempio che segue si ha un disegno bilanciato:
LIVELLI; X2 e X3 con 3 livelli
X1: 5
2002-3003 versione provvisoria
LIVELLI ORIGINALI
X1
X2
X3
1
0
0
2
0
0
3
0
0
4
0
0
5
0
0
1
1
0
2
1
0
3
1
0
4
1
0
5
1
0
1
2
0
2
2
0
3
2
0
4
2
0
5
2
0
1
0
1
2
0
1
3
0
1
4
0
1
5
0
1
1
1
1
2
1
1
3
1
1
4
1
1
5
1
1
1
2
1
2
2
1
3
2
1
4
2
1
5
2
1
1
0
2
2
0
2
3
0
2
4
0
2
5
0
2
1
1
2
2
1
2
3
1
2
4
1
2
5
1
2
1
2
2
2
2
2
3
2
2
4
2
2
5
2
2
165
SCARTI DALLE MEDIE
Z1
Z2
Z3
-2
-1
-1
-1
-1
-1
0
-1
-1
1
-1
-1
2
-1
-1
-2
0
-1
-1
0
-1
0
0
-1
1
0
-1
2
0
-1
-2
1
-1
-1
1
-1
0
1
-1
1
1
-1
2
1
-1
-2
-1
0
-1
-1
0
0
-1
0
1
-1
0
2
-1
0
-2
0
0
-1
0
0
0
0
0
1
0
0
2
0
0
-2
1
0
-1
1
0
0
1
0
1
1
0
2
1
0
-2
-1
1
-1
-1
1
0
-1
1
1
-1
1
2
-1
1
-2
0
1
-1
0
1
0
0
1
1
0
1
2
0
1
-2
1
1
-1
1
1
0
1
1
1
1
1
2
1
1

90

ZT Z =  0
0
0
0


30 0 
0 30
166
Materiale didattico statistica 3
link o riferimento
(vedere anche più avanti)
• Anche se non si riesce a costruire un disegno fattoriale, perché troppo oneroso, sarà opportuno di solito ricorrere a disegni
ortogonali , ossia schemi di disegni sperimentali con variabili
indipendenti non correlate.
• L’opportunità di avere l’ortogonalità dei fattori (ossia variabili
non correlate) è pienamente giustificata solo nell’ambito della
teoria normale completa sui minimi quadrati.
• Comunque è ragionevole fare in modo che i fattori non siano
correlati (se possibile).
• In un esperimento a molti fattori sarà opportuno che siano
bilanciate in corrispondenza a ciascuna coppia di fattori, le
possibili combinazioni di coppie di livelli.
ESEMPIO di DISEGNO FATTORIALE completo E INCOMPLETO Figura da inserire
FATTORIALI12.bmp
FATTOR2.STG
link o riferimento
(vedere anche → esempi e grafici qualitativi e quantitativi)
Disegni 2k
Un caso particolare di disegno fattoriale si ha nel caso di k fattori
qualitativi dicotomici, per cui le variabili assumeranno il valore 1 o
0 secondo che la caratteristica è presente o assente; è conveniente
anche utilizzare i valori 1 e -1, in modo che in un piano fattoriale
completo le variabili risulteranno centrate (ossia con media nulla) e
con varianza unitaria.
Per esaminare tutte le combinazioni (senza repliche) occorre prevedere 2k osservazioni.
Disegno fattoriale completo 4 fattori a due livelli -1,1.
farmaco si/no;
sesso M/F;
malato si/no;
ospedalizzato si/no;
Esempio
2002-3003 versione provvisoria
24
167
Si ottiene una matrice (centrata, ossia con medie nulle) con 16 =
righe:
Z1
Z2
Z3
Z4
1
1
1
1
1
2
1
1
1
-1
3
1
1
-1
1
4
1
1
-1
-1
5
1
-1
1
1
6
1
-1
1
-1
7
1
-1
-1
1
8
1
-1
-1
-1
9
-1
1
1
1
10
-1
1
1
-1
11
-1
1
-1
1
12
-1
1
-1
-1
13
-1
-1
1
1
14
-1
-1
1
-1
15
-1
-1
-1
1
16
-1
-1
-1
-1

16 0 0 0

 0 16 0 0
ZT Z = 
 0 0 16 0

0 0 0 16
6.6.3






Regressione multipla.
L’informazione campionaria, relativa a n unità, è costituita da:
• Un vettore di n valori osservati y della variabile di risposta
quantitativa Y .
168
Materiale didattico statistica 3
• La matrice X ( n righe e k colonne) è data dai valori di k
regressori quantitativi, noti, per ciascuna delle n osservazioni
Figura da inserire blocchi
y[n×1] , X[n×k]
Le n unità osservate sono quindi costituite da k + 1 variabili e
sono schematizzabili nelle n righe:

y1
x11 x12 . . . x1k






(y|X) = 






...
...
... ...
...
...
... ...
yi
xi1
xi2 . . .
...
...
... ...
...
...
... ...
yn xn1 xn2 . . .


... 


... 

xik 


... 

... 

xnk
La dipendenza (del valore atteso) di y dalle Xj è espressa quindi
dalla relazione:
k
X
E [yi ] = α +
xij βj
j=1
abbiamo quindi k coefficienti di regressione incogniti βj che esprimono la dipendenza media (parziale) della risposta da ciascun regressore.
In generale nel modello si considera anche un termine noto incognito α , che esprime la risposta media corrispondente a valori nulli
dei regressori;
α di solito non è oggetto di particolare interesse ed usualmente
svolge il ruolo di parametro di disturbo.
La relazione è analoga, almeno formalmente, alla relazione di
regressione lineare che studia la dipendenza della speranza matematica di una variabile aleatoria rispetto ai valori (fissati!) di altre k
variabili aleatorie.
Non si confonda la regressione multipla (una variabile di risposta
e molti regressori) con la regressione multivariata (molte variabili di
risposta e uno o più regressori).
2002-3003 versione provvisoria
169
Relazione di regressione in termini di scarti
Per comodità interpretativa, e per motivi più tecnici che si vedranno
al momento di affrontare i problemi di stima, convenzionalmente si
può porre:
la prima colonna (j = 0) composta tutta da 1 (in modo da
prevedere la presenza di un termine noto);
le altre colonne costituite dagli scarti semplici rispetto alla media
di ciascuna variabile.
Con la posizione:
zij = xij − M (Xj )
i = 1, 2, . . . , n;
j = 1, 2, . . . , k
la matrice X può essere messa

1 z11

 ... ...

X=
 1 zi1

 ... ...
nella forma più conveniente:

. . . z1j . . . z1k

... ... ... ... 

. . . zij . . . zik 


... ... ... ... 
1 zn1 . . . znj . . . znk
Media variabile: 1 0 . . . 0 . . . 0
Per i parametri si ha:
β T = {β0 , β1 , . . . , βj , . . . , βk }







β=





β0 Termine noto

β1 Coefficiente di regressione parziale variabile 1












... ......
βj variabile j
... ......
... ......
βk variabile k
Quindi la matrice dei regressori e il vettore dei coefficienti risultano partizionati in:
X = [1n |Z]
β T = [β0 |β1,k ]
170
Materiale didattico statistica 3
Il legame lineare è ora dato da:
E(yi ) =
k
X
zij βj
j=0
Per cui la risposta viene vista come somma di:
• un effetto generale, β0 , corrispondente a livelli nulli degli scarti
zij , e quindi a livelli medi dei regressori originari xij
• k singoli effetti proporzionali agli scarti dei singoli regressori
dalla propria media.
Dal punto di vista interpretativo, la riscrittura in termini di scarti
consente di dare un significato logico, ed utile per i confronti, al
termine noto.
Rispetto alla parametrizzazione originaria si ha:
E(yi ) =
k
X
j=0
zij βj = β0 +
k
X
zij βj = β0 −
j=1
k
X
M (Xj )βj +
j=1
k
X
xij βj
j=1
Quindi:
i coefficienti di regressione sono sempre uguali (si sono solo effettuate delle traslazioni di assi!)
Per il termine noto:
α = β0 −
k
X
M (Xj )βj
j=1
L’utilità teorica e pratica di queste posizioni sarà chiarita nella
parte relativa all’inferenza nella regressione lineare. In ogni caso
continuerò ad indicare la matrice del disegno o dei regressori con
X , precisando eventualmente se si tratta di scarti o di variabili
originarie.
L’ ipotesi nulla che più spesso si vuole verificare (almeno preliminarmente) è:
H0 : β1 = β2 = . . . = βk = 0; conβ0 qualsiasi.
Ossia che il valore atteso della variabile dipendente sia costante
ed indipendente dai regressori.
Figura da inserire ESEMPIO
2002-3003 versione provvisoria
6.6.4
171
Regressione polinomiale:
Dal momento che la linearità va intesa rispetto ai parametri, e non
rispetto alle Xj , il modello lineare comprende anche la regressione
polinomiale in una o più variabili:
Regressione polinomiale di grado k in un regressore Z se
E [yi ] =
k
X
βj zij ;
i = 1, 2, . . . , n
j=0
Ci si riporta al caso generale del modello lineare ponendo:
xij = zij βj ;
i = 1, 2, . . . , n;
j = 0, 1, . . . , k.
Anche in questo caso si continua a parlare di modelli lineari,
pochè il termine lineare si riferisce sempre ai parametri e non ai
regressori.
Si noti come però i regressori risultino in generale correlati, a meno che non si faccia ricorso a particolari trasformazioni del modello
polinomiale basate sui polinomi ortogonali.
Figura da inserire esempio
Polinomi in più variabili e superfici di risposta
E’ immediata la generalizzazione alle superfici polinomiali di grado
k in p regressori.
Regressione polinomiale di grado k in p regressori Zh
E(yi ) =
k
X
j=0
···
k
X
j=0
βj1,j2,...,jp
Y
P
(zih )jh ; i = 1, 2, . . . , n
jh =j
In particolare se k = 2 e se i coefficienti dei termini di secondo
grado in ciascun regressore sono nulli, si possono convenientemente
quantificare ed inserire nel modello degli effetti di interazione moltiplicativi del tipo βhr zih zir (interazione del primo ordine fra il regressore r-esimo ed h-esimo; Termini moltiplicativi che coinvolgono
k regressori sono relativi ad effetti di interazione di grado k − 1
link o riferimento
(vedere anche più avanti )
172
Figura da inserire
FIG2000REGPOLIN1.STG
Materiale didattico statistica 3
2002-3003 versione provvisoria
173
Figura da inserire
FIG2000REGSPLINE1.STG
Regressione parametrica e non parametrica
In questo corso ci occuperemo prevalentemente di regressione parametrica, ossia modelli di dipendenza nei quali è specificata la forma
di dipendenza funzionale della variabile di risposta o meglio della
sua speranza matematica, dalle variabili esplicative.
In effetti, di solito supponiamo anche che sia nota la forma distribuzionale della componente accidentale, a meno di qualche parametro di disturbo (per esempio nella regressione lineare semplice
supponiamo usualmente che gli errori siano distribuiti normalmente
con varianza uguale ma incognita).
Nella regressione non parametrica invece, si evita il più possibile
di fare delle ipotesi in merito alla forma funzionale della dipendenza;
queste tecniche, che non affronteremo in modo particolare nel nostro
corso, sono tipiche di una fase esplorativa dell’analisi dei dati quando
non si sa, almeno con buona approssimazione, qual è la forma della
relazione che lega la variabile dipendente al regressore.
Sostanzialmente si cerca direttamente di approssimare la funzione
di regressione localmente, per ciascun valore di x:
ŷ(x) ≈ E [y|x]
evidentemente nel caso in cui si ha una sola variabile esplicativa
il modo più conveniente di ottenere informazioni sul tipo di relazione è quello di effettuare una analisi grafica; chiaramente questo
strumento è disponibile anche nel caso di due variabili esplicative.
Un caso molto comodo si ha per esempio quando sono disponibili
nj osservazioni ripetute in corrispondenza dello stesso valore di xj :
in questo caso, infatti, la linea spezzata che congiunge le medie
aritmetiche della variabile di risposta in corrispondenza dei diversi
valori della xj , costituisce una base per la stima della vera relazione
funzionale fra la speranza matematica della variabile risposta e la
variabile esplicativa (o le variabili esplicative).
Pnj
yij
ŷ(xj ) = i=1
nj
Nel caso in cui non si abbiano osservazioni ripetute per la stessa variabile esplicativa, sarà necessario ricorrere ad approssimazioni
174
Materiale didattico statistica 3
analitiche: alcune delle tecniche si basano su opportune generalizzazioni di tipi di medie mobili o su adattamenti mediante particolari
funzioni kernel; un metodo molto generale, senza bisogno di entrare
in grande dettaglio, è dato da una media ponderata delle yi :
Pn
w(xi − x)yi
ŷ(x) = i=1
w(xi − x)
ove i pesi w(xi − x) sono delle funzioni decrescenti di xi − x; ad
esempio:
w(xi − x) = e−
(xi −x)2
2h2
essendo h un parametro di lisciamento.
Se si cercano approssimazioni sufficientemente regolari uno strumento tecnico molto utile è costituito dalle funzioni splines, particolarmente utili sia nel caso univariato sia nel caso bivariato.
Le funzioni splines sono delle particolari funzioni ottenute dalla
composizione di r segmenti di polinomi fj (x), j = 1, 2, . . . , r in modo
tale che la curva risulti sufficientemente liscia e regolare senza punti
di discontinuità in corrispondenza dei cambi di segmento.
Uno degli approcci per trovare i parametri dei segmenti di polinomio (se r = n) consiste nell’imporre alcuni vincoli alle funzioni
e ad alcune loro derivate in corrispondenza ai punti d’incontro dei
segmenti (nodi), zj , j = 1, 2, . . . , r:
fj (zj ) = fj+1 (zj );
fj (zj ) = fj+1 (zj );
fj (zj ) = fj+1 (zj );
j = 1, 2, . . . , r
Sufficienti requisiti di regolarità si ottengono operando con segmenti di polinomi di 3◦ grado.
Un altro approccio consiste nel cercare una curva composta da
segmenti polinomiali che risulti adattarsi abbastanza bene ai dati
(con r < n) mantenendo comunque una regolarità della curvatura
della curva complessiva.
In ogni caso queste tecniche di regressione non parametrica sono
suscettibili di applicazione:
-nella fase esplorativa della ricerca di una relazione di dipendenza
fra variabili
-oppure a scopo interpolatorio, quando un’approssimazione polinomiale localmente regolare è preferibile ad una relazione lineare o
comunque ad una relazione che sia della stessa forma e con gli stessi
parametri in tutto il campo di variazione della X .
2002-3003 versione provvisoria
6.6.5
175
Regressori del tipo 0/1 (dummy variables)
Esiste un modo formale di esplicitare la matrice X in modo da trattare anche variabili esplicative di tipo qualitativo. Vediamo come
prima con un esempio relativo ad una situazione nota.
Si supponga la situazione classica del confronto delle medie µ1 e
µ2 di due popolazioni normali con uguale varianza sulla base delle
informazioni di due campioni casuali semplici indipendenti.
Per la speranza matematica della variabile casuale associata alla
generica osservazione abbiamo:
E(Yi ) = µj perj = 1, 2,
secondo se l’unità i-esima appartiene al primo o al secondo campione.
Possiamo indicare sinteticamente:
E(Yi ) = xi1 µ1 + xi2 µ2
introducendo due regressori con la convenzione che per le unità
del primo campione si ha: xi1 = 1 e xi2 = 0 , per le unità del secondo
campione si ha invece: xi1 = 0 e xi2 = 1 .
Oppure si può parametrizzare con:
E(Yi ) = µ1 + xi2 (µ2 − µ1 )
e l’ipotesi da verificare sarà:
H0 : δ = (µ2 − µ1 ) = 0
con µ1 qualsiasi.
(oppure si vorranno costruire intervalli di confidenza per δ )
L’aspetto essenziale di questo esempio è che anche questa
situazione standard è riconducibile ad un modello lineare.
Esempio: Si hanno due campioni indipendenti di 14 osservazioni
relative ad una variabile quantitativa, suddivise in due gruppi A e
B, rispettivamente di numerosità 6 e 8.
A
2; 3; 3,1; 4; 5; 5,3.
B
3; 4,1; 4,3; 4,8; 6, 6,5; 7; 7,2.
176
Materiale didattico statistica 3
Potremmo pensare di avere rilevato 3 variabili su 14 individui nel
modo che segue:
y
xA
xB
2
1
0
3
1
0
3,1
1
0
4
1
0
5
1
0
5,3
1
0
3
0
1
4,1
0
1
4,3
0
1
4,8
0
1
6
0
1
6,5
0
1
7
0
1
7,2
0
1
Sarà bene che da ora in poi lo studente si abitui a questa impostazione, in particolare per problemi con più variabili, perché riuslta
estremamente comoda in particolare per le situazioni complesse;
(per la situazione dell’esempio, ossia test t a due campioni, non
v’è alcun motivo pratico di ricorrere a tale formulazione, perché
l’impostazione standard è quella più uitile)
6.6.6
Analisi della varianza ad effetti fissi ed un criterio
di classificazione
La versatilità del modello lineare, almeno da un punto di vista formale, si coglie per situazioni apparentemente lontane da quelle della
2002-3003 versione provvisoria
177
regressione multipla, ossia per lo studio della dipendenza in media di una variabile quantitativa da una qualitativa (o più variabili
qualitative).
Si supponga di avere n osservazioni suddivise in k gruppi indipendenti secondo le k modalità di un criterio di classificazione semplice
(o mutabile sconnessa).
Si suppone che i gruppi siano internamente omogenei, ma che le
medie dei gruppi possano essere in generale diverse:
E(Yi ) = µj
La matrice X è ora composta da k colonne costituite dagli n
indicatori dell’appartenenza delle unità ai gruppi:
(MATRICE del disegno sperimentale)

i


1


...



n1








n1 + n2


X=




 n + n + ... + n
2
j
 1





n1 + n2 + . . . + nk
Gr.1 Gr.2 . . . Gr.J . . . Gr.K
1
0
0
0
...
0
...
...
...
0
1
0
...
...
...
0
0
1
...
...
...
0
0
...
...
...
...
0
0
1
...
...
...
0
...
...
...
...
...
...
0
0
...
1
...
0
...
...
...
...
...
...
0
0
...
0
...
1
0
0
...
0
...
...
0
0
...
0
...
1





























178
Materiale didattico statistica 3

1 0

 ... 0 ...

 1 0 ...


 0 1 ...

 0 ... ...


 0 1 ...
X=
 ... ... ...


 0 0 ...

 ... ... ...


 0 0 ...

 0 0 ...

0 0 ...
0
... ...
...
...
...
...
...
1
...
0
0
0
0
0
1
...





... 0
n1



... 0


... 0



... 0
n1 + n2


... ...



... 0

. . . . . . n1 + n 2 + . . . + n j 



... 1


... ...

. . . 1 n1 + n2 + . . . + nk
µ1


 ...

β=
 µj

 ...
µk








2002-3003 versione provvisoria
179
Si ha:
nj osservazioni per ogni trattamento o gruppo:
nj =
n
X
xij ; j = 1, 2, . . . k.
i=1
ogni unità Ui appartiene ad un solo trattamento:
k
X
xij = 1; i = 1, 2, . . . , n
j=1
xij = 1 se e solo se l’unità Ui appartiene al j -esimo trattamento
β T = µ1 , . . . , µ j , . . . , µ k
L’ ipotesi nulla di interesse è di solito quella di omogeneità:
H0 : β1 = β2 = . . . = βk
oppure
H0 : β1 − βk = β2 − βk = . . . = βk−1 − βk = 0
Con questa parametrizzazione X ha rango pieno k , ma l’ipotesi
nulla di omegenità far le medie impone k − 1 vincoli
Altro modo di impostare l’ analisi della varianza a una via:
βj = µj − µ
βk+1 = µ
effetto del trattamento
(o
del
gruppo)
j; j = 1, 2, . . . k.
media generale;
e stavolta la matrice del disegno è:
180
Materiale didattico statistica 3

i
eff. gr.1 eff. gr.2


1
1
0


...
...
...



n1
1
0


0
1



0
...


n1 + n2
0
1



X=
...
...



0
0

 n + n + ... + n
...
...
2
j
 1


0
0


0
0

n1 + n2 + . . . + nk
0
0














X=













. . . eff. gr.j . . . eff. gr.k effetto g
0
0
...
...
0
...
1
0
...
0
0
1
...
0
1
...
...
...
...
1
...
...
...
0
1
...
...
...
0
1
...
...
...
0
..
...
...
...
0
1
...
...
...
...
..
...
1
...
0
1
...
...
...
...
..
...
0
...
1
1
...
0
...
...
..
...
0
...
1
1
eff. gr.1 eff. gr.2 . . . eff. gr.j . . . eff. gr.k effetto generale
1
...
0
...
0
...
1
1
...
...
0
1
...
...
...
...
...
...
0
0
1
...
1
...
...
...
0
1
...
0
...
0
...
...
...
1
...
...
...
0
...
1
...
...
...
...
...
...
...
0
0
0
0
...
...
0
0
...
...
1
...
1
...
0
0
...
0
...
1
1




























2002-3003 versione provvisoria
181


µ1 − µ


...

 µ −µ=
 j
β=

...

 µ −µ
 k
µ










H0 : β1 = β2 = . . . = βk = 0 e µ qualsiasi ( k vincoli)
In questo caso però x ha una colonna linearmente dipendente
dalle altre, per cui ha rango k invece di k + 1 .
6.6.7
Analisi della varianza ad effetti fissi con due criteri
di classificazione
E’ possibile estendere il disegno precedente all’analisi della varianza
a due vie, per la quale si può impostare un modello lineare con rs
colonne, con:
Xijm = 1 se Ui appartiene al j -esimo trattamento di riga e all’
m -esimo trattamento di colonna.
Oppure si può partire da una matrice del disegno sperimentale
semplificata con r + s + 1 colonne x e Z , tali che:
xi0 = 1 effetto generale;
xij = 1 se Ui appartiene al j -esimo trattamento di riga
zim = 1 se Ui appartiene all’ m -esimo trattamento di colonna
e introdurre nel modello di descrizione dei dati dei termini moltiplicativi (che saranno 1 solo se Ui appartiene ad una riga e ad una
colonna) per considerare l’effetto di interazione:
yijk = β0 +
r
X
j=1
αj xij +
s
X
m=1
ηm zimj +
r X
s
X
γjm xij zim + εijk
j=1 m=1
In pratica si considerano le due matrici di appartenza ai gruppi
per i due criteri di classificazione separatamente; se nel modello occorre tener conto dell’appartenza simultanea (termini di interazione)
si farà riferimento ai termini moltiplicativi xij zim , che sono uguali ad 1 solo per le unità che appartengono alla modalità j -esima
del primo criterio di classificazione ed alla modalità m -esima del
secondo criterio di classificazione.
Le ipotesi da verificare sono quelle usuali (si vedranno in dettaglio nella parte inferenziali relativa all’analisi della varianza a due
182
Materiale didattico statistica 3
vie); con questa parametrizzazione però, peraltro molto comoda e
naturale, il modello ha parametri ridondanti (rango = rs ; parametri
1 + r + s + rs ).
In modo analogo si possono impostare modelli a più vie.
Figura da inserire ESEMPIO
6.6.8
Analisi della covarianza
(L’utilità dell’analisi della covarianza verrà esaminata più avanti)
Supponendo di avere n osservazioni suddivise in k gruppi secondo un criterio di classificazione semplice e relative ad una variabile
di risposta y e ad una singola variabile concomitante x ci si può
ricondurre al modello lineare generale ponendo:
zij = xij − Mj (x)j = 1, 2, . . . , k
ove Mj (x) è la media di x per le sole osservazioni del gruppo j .
La matrice X sarà composta da 2k colonne, di cui le prime k
sono date da:

z1,1
... 0... ...








X1 = 








...
...
...
...
zn1,1 . . . 0 . . . . . .
... ... ... ...
0
...
zij
...
...
0
...
...
...
0
...
...
...
...
...
...
0
...
0
...
0


... 

0 


... 

0 


... 

zn1,k 


... 
znk,k
mentre le altre k colonne sono costituite dalla matrice di appar-
2002-3003 versione provvisoria
183
tenenza ai gruppi:









X2 = 








1
0
... ... ...
0

...
1
0
0
... ... ...
... ... ...
0
0

















... ... ... ... ... ...
0 0 ... 1 ... 0
... ... ... ... ... ...
0
0
...
0
...
1
0
0
0
0
...
...
0
0
... ...
... 1
per cui la matrice X è costituita dalle colonne di X1 e X2 affiancate ossia:
X = X1 |X2 ,
e i 2k parametri sono:
β T = β1 , . . . , βj , . . . , βk , α1 , . . . , αj , . . . , αk
Ipotesi di interesse:
H0 : β1 = . . . = βj = . . . = βk ; α1 = . . . = α = . . . = αk
con β1 , α1 qualsiasi ( 2k − 2 vincoli)
rette di regressione uguali nei k gruppi.
In generale si possono costruire disegni più complessi, con più
variabili concomitanti e con più regressori, considerando un modello
lineare del tipo:
Y = X1 β1 + X2 β2 + ε
in cui:
X1 è una matrice a più regressori,
X2 è una matrice di indicatori per più criteri di classificazione,
β1 è il vettore dei parametri che esprimono la dipendenza della
variabile di risposta dalle variabili concomitanti
β2 è il vettore dei parametri che esprimono la dipendenza della
variabile di risposta dai fattori di classificazione.
184
6.6.9
Materiale didattico statistica 3
Rette o piani di regressione con pendenze diverse:
termini polinomiali moltiplicativi
Una relazione polinomiale con termini lineari e termini misti di
2◦ grado può esprimere la presenza di effetti di interazione in un
modello lineare:
Esempio 1:
Si supponga una dipendenza in media della risposta y da due
fattori quantitativi secondo la relazione:
E(yi ) = xi1 β1 + xi2 β2 + xi1 xi2 β12
Se il parametro β12 fosse uguale a zero avremmo un classico piano
di regressione: E(yi ) = xi1 β1 + xi2 β2 , in cui parametri sarebbero
interpretabili nel modo già visto (modello additivo).
Se invece tale parametro è diverso da zero, è presente un effetto
di interazione fra i regressori X1 e X2 : infatti per esempio la dipendenza di y dal regressore X1 , per ciascuno dei possibili livelli di X2 ,
è sempre lineare, ma l’inclinazione, e quindi la forza della dipendenza di y da X1 , dipendono dal particolare livello assunto da X2 . Il
parametro β1 non misura più la dipendenza parziale di y da X1 ,
per qualsiasi livello di X2 , ma solo la dipendenza media rispetto a
tutti i livelli di X2 .
Esempio di polinomio di secondo grado per effetto interazione:
Supponiamo per esempio
β1 = 1,
β2 = 3,
β12 = 2,
per cui:
E [yi ] = xi1 1 + xi2 3 + xi1 xi2 2
2002-3003 versione provvisoria
185
L’effetto interazione fra X1 e X2 è tale da modificare anche il disegni ortogonali
tipo di dipendenza di y da X1 (da negativa a positiva)
Si vedano nel grafico seguente le tre rette di regressione ottenute
per tre diversi valori di X2 (-1;0;+1)
186
Materiale didattico statistica 3
Esempio 2: (confronto fra due rette) Pendenza diversa come effetto interazione fra un fattore (o regressore) quantitativo e un fattore
qualitativo:
Si supponga che la relazione di una risposta y da un regressore
X1 dipenda anche da una variabile dicotomica: In questo caso la differenza di pendenza può essere inserita nel modello lineare mediante
l’introduzione di un termine moltiplicativo, che non altera la linearità delle relazioni parziali, ma consente l’interpretazione dell’interazione fra i due fattori. ( X1 può essere formato da un gruppo di regressori: l’esempio resta sostanzialmente inalterato) Per semplicità
possiamo considerare la variabile dicotomica X2 con due livelli:-1 e
+1, per cui ci riportiamo formalmente al caso precedente:
E(yi ) = β0 + xi1 β1 + xi2 β2 + xi1 xi2 β12 =
= (β0 + xi2 β2 ) + xi1 (β1 + xi2 β12 )
e quindi:
(
E [yi ] =
(β0 − β2 ) + xi1 (β1 − β12 ) sexi2 = −1
(β0 + β2 ) + xi1 (β1 + β12 ) sexi2 = +1
Da cui risulta evidente, ed utile da un punto di vista interpretativo, che β2 rappresenta un effetto (medio) del fattore X2 sul livello medio di yi , mentre β12 rappresenta l’effetto (medio) del fattore X2 sulla relazione fra y e X1, per cui rappresenta un effetto di
interazione (di primo ordine).
Risulta quindi irrilevante o comunque poco interessante dal punto
di vista pratico, con questa interpretazione dei parametri, un test
costruito per la verifica dell’ipotesi: H0 : β1 = 0 , perché questo
misurerebbe l’effetto marginale del primo regressore, senza tenere
conto del livello dell’altro regressore (o meglio per un livello nullo,
o medio, del secondo fattore). Se per esempio il fattore dicotomico
X2 fosse il sesso (M=-1;F=+1), tale effetto marginale sarebbe di
nessun interesse, perché ogni soggetto sarà o M o F, e quindi anche se
risultasse β1 = 0, in effetti la dipendenza della risposta dal regressore
X1 sarebbe −β12 per i maschi e +β12 per le femmine. Eventualmente
occorrerebbe prima saggiare l’ipotesi: H0 : β12 = 0
Termini moltiplicativi con più termini possono servire per quantificare effetti di interazione di ordine superiore al primo.
2002-3003 versione provvisoria
187
Abbiamo già fatto cenno a questo argomento quando abbiamo
parlato di distribuzioni condizionate nella normale multivariata; ricordo infatti che in una distribuzione normale multivariata la correlazione fra due variabili condizionata ai valori singoli di un’altra
variabile o di più variabili è sempre la stessa, indipendentemente dai
livelli assunti dalla III variabile. In altri termini nella distribuzione
normale multivariata si è già visto che la dipendenza di y da x non
varia in funzione dei livelli di una terza variabile z : questo è analogo
al concetto di assenza di interazione, con l’avvertenza che in effetti
il concetto di interazione può essere introdotto senza la necessità di
riferirsi ad un modello probabilistico multivariato.
Esempio di piano fattoriale 2k
Supponendo di avere quattro fattori dicotomici X1 , X2 , X3 e X4 con
livelli standardizzati -1 e 1, (vedere paragrafo sui disegni fattoriali),
il modello seguente:
E [yi ] = β0 + xi1 β1 + xi2 β2 + xi3 β3 + xi4 β4 +
+xi1 xi2 β12 + xi1 xi3 β13 + xi2 xi3 β23 +
+xi1 xi2 xi3 β123 .
esprime una dipendenza della risposta dai livelli dei quattro regressori; mentre il fattore X4 non interagisce con nessun altro fattore, gli altri 3 fattori interagiscono sia presi a due a due (interazioni
di primo ordine) che tutti e tre insieme (interazione di secondo ordine). Dal punto di vista interpretativo: l’effetto del 4◦ fattore è
separabile rispetto a tutti gli altri; l’effetto degli altri 3 invece non
è separabile neanche a coppie.
6.6.10
Modelli autoregressivi
Un caso speciale è costituito dall’osservazione di una serie temporale, cioè si dispone di n osservazioni eseguite ad intervalli di tempo
uguali.
Si può pensare, in assenza di informazioni esterne o comunque di
altre variabili, di volere studiare la dipendenza della serie dalla stessa
serie spostata di uno o più unità temporali; in pratica si ipotizza che
Yt , osservazione al tempo t, o meglio, la sua speranza matematica
E [Yt ], dipenda linearmente dall’osservazione precedente yt−1 .
188
Materiale didattico statistica 3
Supponiamo quindi di volere spiegare la variabilità di una serie
mediante i soli valori della serie stessa in tempi precedenti; sarà in
realtà opportuno fare delle ipotesi sul processo stocastico che ha
generato la serie (ossia che sia stazionario), per cui la serie non ha
certamente componenti di trend.
Possiamo, prima di ipotizzare particolari processi stocastici che
possono avere generato la serie, adottare un approccio analogo alla
regressione lineare, cercando la relazione di regressione che fa dipendere Yt da Yt−1 . In pratica impostiamo un modello di regressione
(detto modello autoregressivo ) nel quale la serie originaria svolge
il ruolo della variabile di risposta, mentre la Yt−1 svolge il ruolo di
regressore o variabile esplicativa.
serie originaria serie arretrata di una unità temporale


y2





y3



..



 .
yt



yt+1




..


.




yn





























y1





y2



..



 .
yt−1



 yt



..


.




yn−1



























Evidentemente questo approccio presuppone serie
equiintervallate
Ovviamente la dipendenza da valori precedenti può essere estesa
anche a valori distanziati di più di un intervallo temporale:
Si può proseguire il ragionamento pensando che yt sia influenzato
non solo dalla precedente determinazione yt−1 ma anche da yt−2 e
dalle precedenti osservazioni fino a yt−k .
2002-3003 versione provvisoria
serie originaria


yk+1





yk+2



..



 .
yt



yt+1




..


.




yn
6.7



























189
serie yt−1
serie yt−2


yk





yk+1



..



 .
yt−1



yt




..


.




yn−1


yk−1





yk



..



 .
yt−2



yt−1




..


.




yn−2



























...














...













serie yt−k














y1
y2
..
.
yt−k



yt−k+1




..


.




yn−k



























Generalizzazioni e modelli non lineari (cenni)
Possiamo pensare che la speranza matematica della risposta sia una
funzione qualsiasi dei parametri e delle variabili indipendenti Xj :
Modello non lineare con errori additivi.
Y = f (X, β) + ε
con:
E [ε] = 0
f (·) vettore di funzioni non lineari.
Modello non lineare con legame qualsiasi fra componente accidentale
e sistematica.
Y = g(X, β, ε)
Modello non lineare con errori moltiplicativi.
Yi = fi (X; β) × εi
GLM: Generalized Linear Models
E [Y] = h(Xβ)
Modelli Lineari Generalizzati:
η(E [Y]) = Xβ
controllare e fare anche su dispensa2003d1.tex
190
Materiale didattico statistica 3
La speranza matematica della variabile di risposta è funzione (h(.)
non lineare) del predittore lineare X β .
Si tratta ancora di modelli non lineari, ma con la particolarità
che la dipendenza dalle Xj è scomposta in due parti:
• la funzione di legame (unica)
• un predittore lineare xT
i β
Questa impostazione consente di attribuire alla matrice X e al
vettore di parametri β significati simili a quelli assunti nei modelli
lineari.
Una sottoclasse di GLM molto impiegata nelle applicazioni è
quella in cui la distribuzione della componente accidentale appartiene alla famiglia di distribuzioni esponenziale.
Si avrà in sostanza:
$$
f(\vecy_i)=
$$
Regressione logistica
La probabilità del verificarsi di un evento (variabile di risposta)
dipende dalle variabili Xj .
Regressione piecewise
Una relazione di regressione può essere individuata da una spezzata, ossia da una retta che cambia inclinazione in corrispondenza dei
livelli delle variabili esplicative. Nel caso in cui i punti di cambio dell’inclinazione non siano noti, il problema è configurabile nell’ambito
dei modelli non lineari (non lineari rispetto ai parametri !)
Approssimazione di modelli non lineari
Eventualmente un modello lineare può essere visto come approssimazione del primo ordine di un modello non lineare
Regressione non parametrica
La forma funzionale f (X, β) non è precisata:viene stimata direttamente E [Yi |xi ] (in modo non parametrico), ed eventualmente dopo
si cerca di valutare f (.) . Nel caso k = 1, 2 questo può servire come
2002-3003 versione provvisoria
191
indizio per la scelta del tipo di funzione, o per la scelta del tipo di
polinomio, etc.
192
modello autoregressivo
Materiale didattico statistica 3
2002-3003 versione provvisoria
Figura 6.2: FIG2000REGR3.STG
vai a indice figure
193
194
Materiale didattico statistica 3
Figura 6.3: distribuzioni condizionate normali
vai a indice figure
Figura 6.4: campione da una normale bivariata
vai a indice figure
2002-3003 versione provvisoria
195
Figura 6.5: distribuzioni condizionate normali in corrispondenza di valori fissati
vai a indice figure
196
Materiale didattico statistica 3
Figura 6.6: box-plot con retta di regressione e spezzata di regressione
vai a indice figure
2002-3003 versione provvisoria
Figura 6.7: interaz1.stg
vai a indice figure
197
198
Materiale didattico statistica 3
Figura 6.8: interaz2.stg
vai a indice figure
Capitolo 7
Spunti tratti da casi reali
per l’introduzione di
argomenti teorici
7.1
La correlazione parziale
Si prenda in considerazione il caso relativo a dati antropometrici
esposto nel grafico 3.3.
Restringiamo per semplicità per ora la nostra attenzione a tre
variabili:
TORACE
ALTEZZA
PESO
e riguardiamo il grafico a matrici delle sole tre variabili che usiamo
per questo esempio.
199
200
Materiale didattico statistica 3
Figura 7.1: grafico a matrice delle tre variabili antropometriche
vai a indice figure
...
Vogliamo vedere se e come si modifica la relazione (lineare)
fra due variabili, quando si vuole tenere conto dell’influenza
che una terza variabile ha su di loro.
Come eliminare quest’influenza e come misurare poi la
relazione?
Esaminiamo la relazione fra torace e altezza (senza considerare
altre variabili).
E’ una relazione crescente (prescindendo dal fatto che sia lineare o
no: assumiamo per semplicità per ora di approssimare le relazioni di
regressione con funzioni lineari, che nel nostro caso danno comunque
una buona idea generale della relazione di regressione)
TORACECM = 7.7185+0.4475*ALTEZZA: retta di regressione
lineare
2002-3003 versione provvisoria
r=0.58 indice di correlazione lineare semplice
201
202
Materiale didattico statistica 3
Figura 7.2: relazione fra Circonferenza toracica e altezza su 1519 ragazzi
vai a indice figure
Questa relazione non tiene conto della presenza di altre variabili.
Dal momento che si sa che esistono altre variabili che influenzano
sia x che y, ci poniamo adesso una domanda un po’ diversa:
che relazione esiste fra la circonferenza toracica e l’altezza a parità
di altre condizioni, per ora diciamo semplicemente a parità di peso?
Oppure, che relazione esiste fra la circonferenza toracica e l’altezza dei soggetti con lo stesso peso?
Ci chiediamo: cosa succede considerando esplicitamente una terza variabile?
7.1.1
Cenno alla regressione multipla
Adesso i punti vanno rappresentati in uno spazio a tre dimensioni.
Dobbiamo adattare un piano di regressione
z=Torace
y=peso
x=altezza
Il piano di regressione
z = a + bx + cy
minimizza la somma dei quadrati degli scarti dei punti osservati
2002-3003 versione provvisoria
203
dal piano (misurati in verticale, ortogonalmente rispetto al piano xy
e parallelamente a z)
(è irrilevante in questo contesto come venga calcolato)
204
Materiale didattico statistica 3
Figura 7.3: relazione fra Circonferenza toracica, altezza e peso su 1519 ragazzi
vai a indice figure
Sono riportate altre due punti di vista della nuvola di punti
tridimensionale:
2002-3003 versione provvisoria
205
Figura 7.4: relazione fra Circonferenza toracica, altezza e peso su 1519 ragazzi
vai a indice figure
206
Materiale didattico statistica 3
Figura 7.5: relazione fra Circonferenza toracica, altezza e peso su 1519 ragazzi
vai a indice figure
2002-3003 versione provvisoria
207
...
• Avendo utilizzato una relazione lineare (ossia l’equazione
di un piano) per approssimare la relazione di regressione
che fa dipendere z da x e y, piani paralleli intersecheranno il piano di regressione formando rette con la stessa
pendenza
• In particolare un qualsiasi piano con y costante (ossia
y = k e quindi parallelo al piano X-Z) interseca il piano
di regressione z = a + bx + cy formando una retta di
regressione di equazione:
z = a + ck + bx
il coefficiente b è quindi un coefficiente di regressione
parziale
• L’ipotesi di linearità della regressione multipla, implica
quindi regressioni parziali con la stessa pendenza: non
è detto che questa sia un’ipotesi sempre realistica, ma
costituisce un’approssimazione comoda.
• Si osservi ora che nel nostro caso l’intersezione del piano
di regressione col piano torace- altezza (ossia a parità di
peso) è una retta con pendenza negativa.
7.1.2
Correlazione parziale come correlazione fra residui
Proviamo comunque ad eliminare l’influenza della variabile peso ricorrendo solo agli strumenti tecnici della regressione lineare semplice.
208
Materiale didattico statistica 3
...
Come eliminare l’infuenza della terza variabile sulle prime
due?
Esiste un modo molto semplice per operare, che conduce agli
stesi risultati che otterremo in altroi capitoli anche per altra via:
calcoliamo le regressioni lineari della variabile altezza, X1 , e della
variabile torace , X2 , sulla variabile peso, X3 .
Su ciascuna relazione calcoliamo i residui:
wi1 = xi1 −(a13 +b13 xi3 )
e
wi2 = xi2 −(a23 +b23 xi3 ) i = 1, 2, . . . , n
ovviamente la nuova variabile W1 (residui Altezza) non è correlata con X3 (peso); anche la variabile W2 (residui Torace ) non è
correlata con X3 (peso).
2002-3003 versione provvisoria
209
coefficiente di regressione
parziale
210
Materiale didattico statistica 3
Figura 7.6: regressione dell’Altezza rispetto al peso: relazione fra i residui e la
variabile esplicativa peso
vai a indice figure
...
Le due variabili W1 e W2 sono state depurate dalla
dipendenza dalla variabile X3
Questa eliminazione dell’influenza di X3 è rappresentabile graficamente rappresentando nel piano le n coppie di punti (wi1 , wi2 ), i =
1, 2, . . . , n insieme con la retta di regressione lineare.
2002-3003 versione provvisoria
211
Figura 7.7: regressione della Circonferenza toracica rispetto al peso: relazione
fra i residui e la variabile esplicativa peso
vai a indice figure
La retta di regressione fra il torace e l’altezza, eliminata l’influenza della variabile peso, ha cambiato inclinazione ed è ora a pendenza
negativa!
Possiamo esprimere questo risultato dicendo che, per soggetti
con lo stesso peso, la circonferenza toracica in media diminuisce
all’aumentare dell’altezza.
Possiamo adesso direttamente misurare la correlazione fra le cinque variabili fin qui usate:
X1=ALTEZZA
X2=TORACE
X3=PESO
W1=resa ltp eso(residuidell0 altezzarispettoalpeso)W2=rest oracep eso(residuidelT oracerispetto
212
Materiale didattico statistica 3
Figura 7.8: relazione fra i residui W1 della variabile torace e i residui W2 della
variabile altezza
vai a indice figure
La correlazione fra le due variabili residue W1 e W2 è:
rW 1,W 2 = −0.25 Correlazione fra torace e altezza a parità di peso
Questo indice va sotto il nome di indice di correlazione lineare
parziale fra le variabili X1 e X2, tenuta costante X3 e si indi con
r12.3 .
Nella sezione seguente ricaviamo analiticamente r12.3 ()se non è
già noto al lettore), in funzione delle correlazioni lineari semplici.
Faccio notare soltanto che l’approccio seguito adesso per definire
la correlazione parziale tenendo costante l’influenza di una variabile,
è perfettamente estendibile alla correlazione parziale fra due variabili
tenuta costante l’influenza di altre k variabili. Occorrerà soltanto
calcolare i residui dalle regressioni multiple di X1 e X2 rispetto alle
altre k variabili e poi considerarne la correlazione.
7.1.3
derivazione di r12.3
Per derivare r12.3 con questa impostazione, occorre richiamare soltanto alcuni risultati
della regressione lineare semplice.
Intanto ricaviamo i valori dei residui wi1 , wi2 in funzione dei
valori originali xi1 , xi2 , xi3 .
2002-3003 versione provvisoria
213
Sappiamo dalla regressione lineare semplice che:
Pn
j=1 xj1 xj3
xi3
wi1 = xi1 − (a13 + b13 xi3 ) = xi1 − Pn
2
j=1 xj3
(con x indico lo scarto da M, media aritmetica di X)
E’ più comodo adesso passare alla notazione vettoriale, per cui
con xr (r = 1, 2, 3) indico il vettore (colonna) degli scarti relativi
alla r−esima variabile:


x1r − Mr


 x2r − Mr 




..


.

xr = 
,
(r = 1, 2, 3)
 x −M 
 jr
r 


..


.


xnr − Mr
Tornando all’espressione dei residui abbiamo:
Pn
j=1 xj1 xj3
xi3
2
j=1 xj3
wi1 = xi1 − (a13 + b13 xi3 ) = xi1 − Pn
=
xT
3 x1
x3 T x3
Adesso riesprimiamo l’intero vettore dei residui w1 , ottenendo:
= xi1 − xi3
w1 = x1 − (a13 + b13 x3 ) == x1 − x3
xT
3 x1
=
x3 T x3
(mettendo in evidenza a destra il vettore x1 )
x3 xT
3
= I− T
x1
x3 x3
T
(si noti che x3 xT
3 è una matrice (n × n), mentre x3 x3 è uno
scalare)
i
h
x3 xT
3
E’ utile notare anche che la matrice I − xT x è idempotente
3
3
link da creare
A questo punto applichiamo questa formula anche alla colonna
dei residui dell’altra variabile w2 (residui della relazione di dipendenza lineare di X2 da X3 ):
214
Materiale didattico statistica 3
x3 xT
3
x2
w2 = I − T
x3 x3
Adesso finalmente costruiamo l’indice di correlazione lineare parziale:
w2T w1
q
=
T
T
w1 w1 w2 w2
r12.3 = correlazione lineare (W1 , W2 ) = q
ih
i
h
x3 xT
x3 xT
3
3
I
−
x1
xT
I
−
2
xT
xT
3 x3
3 x3
r
=r h
ih
i
h
ih
x3 xT
x3 xT
x3 xT
T
3
3
3
I−
x
x
I
−
I
−
xT
I
−
1
2
1
xT x
xT x
xT x
3
3
3
3
3
3
x3 xT
3
xT
3 x3
i
x2
(ricordando tutte le proprietà
h viste in
i questa sezione ed applicando
T
l’idempotenza della matrice I − xx3Txx3 )
3
3
h
i
x3 xT
3
xT
I
−
x1
2
xT
3 x3
r
=r h
i
h
x3 xT
T
T
3
x1 I − xT x x1 x2 I −
3
3
x3 xT
3
xT
3 x3
i
x2
Per farla breve, si vede che le quantità a denominatore sono le
radici quadrate delle devianze residue (cosa che si sapeva già dalla
costruzione
dell’indice di correlazione), per cui sono proporzionali a
q
2 j = 1, 2.
1 − rj3
A numeratore esplicitiamo il prodotto:
T
r12.3
T x3 x3
xT
x1
2 x1 − x2 xT
3 x3
= ... = √
=
√
2√
2√
1 − r13 1 − r23 DevX1 DevX2
√
√
√
√
√
√
3 r23 DevX2 DevX3
r12 DevX1 DevX2 − r13 DevX1 DevX
DevX3
q
q
=
=
√
√
2
2
1 − r13 1 − r23 DevX1 DevX2
(semplificando tutte le devianze)
r12 − r13 r23
q
2
2
1 − r13 1 − r23
q
2002-3003 versione provvisoria
inserire poi discorso su correlazione multipla
in funzione della correlazione
parziale
215
216
Materiale didattico statistica 3
Figura 7.9: correlazioni fra le 3 variabili e i due residui
vai a indice figure
Capitolo 8
Stima dei parametri del
modello lineare (modelli a
rango pieno)
Adesso, dopo avere visto alcuni dei più importanti impieghi del modello lineare per la descrizione di relazioni statistiche di natura varia,
e le diverse interpretazioni dei parametri e delle variabili del modello,
passiamo ad affrontare i problemi di stima.
L’approccio che seguiremo, di tipo parametrico, è fondato interamente sulla verosimiglianza e viene esposto prima con riferimento
ad un modello generico a rango pieno; una volta esposte le caratteristiche fondamentali dell’inferenza per il caso generico, si passerà
ad esaminare problemi relativi a modelli particolari, principalmente
per l’analisi della regressione multipla e per l’analisi della varianza.
217
218
Materiale didattico statistica 3
Si supponga che:
y[n×1] = X[n×k] β[k×1] + ε[n×1]
essendo :
y[n×1]
il vettore dei valori osservati
X[n×k] una matrice nota (i valori
osservati dei regressori)
β[k×1]
il vettore di parametri da
stimare in generale completamente incognito.
ε[n×1]
un vettore di variabili casuali non osservabili, la
cui distribuzione dipende
in genere da un vettore θ
incognito di parametri di
disturbo.
Ovviamente per potere stimare i parametri β e θ mediante il
metodo della massima verosimiglianza occorre fare delle ipotesi sulla
distribuzione congiunta delle componenti di ε .
In ogni caso sarà necessario fare tale ipotesi se si vuole calcolare
la verosimiglianza rispetto ai parametri per problemi di stima, di
test e di costruzione di intervalli di confidenza di vario tipo.
In questa prima parte considereremo esclusivamente approcci di
tipo parametrico.
8.0.4
Assunzioni di base nel modello lineare
Le ipotesi semplificatrici che classicamente vengono fatte nell’approccio parametrico sono:
2002-3003 versione provvisoria
219
a
E [ε] = 0n , momento primo
per cui E[Y] =
Xβ
X β è la componente sistematica ed ε è
la componente accidentale additiva.
b
V [ε] = σ 2 In
momento secondo
La matrice di varianza e covarianza della componente accidentale è diagonale con elementi
uguali, ossia
b1) gli errori sono non correlati;
b2) gli errori hanno la stessa varianza (ipotesi di omoscedasticità);
c
ε ∼ Nn (0; σ 2 In )
distribuzione
Nel caso di normalità degli errori,
le assunzioni a) e
b) che specificano i
primi due momenti
multivariati, identificano in modo univoco la distribuzione della componente
accidentale ε .
Con queste ipotesi si vedrà che il metodo della massima verosimiglianza conduce al metodo dei minimi quadrati.
Altre implicazioni delle ipotesi di base:
• Data l’assunzione di normalità, la non correlazione fra le componenti di ε implica l’indipendenza delle componenti.
220
Materiale didattico statistica 3
• In caso di validità della b1) e della b2) non solo si ha l’indipendenza, ma la distribuzione di ciascuna yi dipende solo dalla
corrispondente componente accidentale εi .
• Sono quindi esclusi, con questa restrizione, i modelli autoregressivi e in generale i modelli ARMA sia per l’analisi di dati
temporali che di dati spaziali o territoriali.
• Le assunzioni a,b e c implicano che le εi abbiano la stessa
distribuzione, che quindi non dipende in alcun modo né dai
particolari valori xij , né dai valori dei parametri βj.
• L’ additività fra componente accidentale e sistematica implica
che non vi sia collegamento fra l’assegnazione delle varie unità
e gli errori accidentali.
8.1
La funzione di verosimiglianza nel modello
lineare.
In un primo momento costruiamo la verosimiglianza del modello lineare in funzione dei parametri beta ed in funzione della varianza
(o dei parametri da cui dipende la matrice di varianze e covarianze).
È inutile per ora precisare se questa verosimiglianza ci servirà per
costruire degli stimatori puntuali, o degli stimatori per intervallo,
o per costruire dei test. In ogni caso per fare inferenza in senso
lato, l’analisi della verosimiglianza è essenziale, perché ci permette di costruire un criterio per la plausibilità di determinati valori
parametrici alla luce dell’evidenza campionaria.
Con le assunzioni a), b) e c) fatte prima siamo in grado di costruire la verosimiglianza campionaria, dal momento che abbiamo
un campione y di n osservazioni estratto da una distribuzione normale di parametri (o comunque una osservazione da una normale
multivariata a n componenti):
E [Y] = (Xβ);
V [Y] = σ 2 In ;
quindi in definitiva:
Y ∼ N (Xβ, σ 2 In )
per cui la verosimiglianza campionaria è data da:
2002-3003 versione provvisoria
221
Verosimiglianza del modello lineare
n
L(β, σ 2 ; y) = (2π)− 2 |V [Y] |−1/2 ×
1
T
−1
× exp − (y − Xβ) [V [Y]] (y − Xβ)
2
(y − Xβ)T (y − Xβ)
2 − n2
= (2πσ ) exp −
2σ 2
Funzione di verosimiglianza campionaria per il modello
lineare con le ipotesi semplificatrici.
Rispetto alla notazione precedente il vettore θ di parametri della
componente accidentale è composto dal solo σ 2 , in quanto chiaramente la distribuzione di ε dipende solo da σ 2 .
Il logaritmo della verosimiglianza campionaria per i k + 1 parametri del modello, ossia le k componenti di β e σ 2 è quindi dato,
trascurando la costante −( n2 )Log(2π) , da:
logL(β, σ 2 ; y) = −nlog(σ 2 )/2 −
(y − Xβ)T (y − Xβ)
2σ 2
Log Verosimiglianza per un modello lineare con l’assunzione di
normalità, indipendenza e omoscedasticità
(anche uguale a:
Pn
2
−nlog(σ )/2 −
i=1 (yi
Pk
2
j=1 xij βj )
)
2σ 2
−
Con altre ipotesi su V [Y] si giunge a differenti funzioni di verosimiglianza e differenti stimatori.
Derivando nella rispetto a σ 2 otteniamo:
∂logL[β, σ 2 |y])
n
(y − Xβ)T (y − Xβ)
=
−
+
∂σ 2
2σ 2
2(σ 2 )2
222
Materiale didattico statistica 3
Uguagliando a zero e risolvendo rispetto a σ̂ 2 si ottiene facilmente
il valore σ̂ 2 (β) che massimizza la verosimiglianza:
(y − Xβ)T (y − Xβ)
n
Stima di Max. ver. di σ 2 in funzione degli altri parametri β
per un modello con errori indipendenti e omoscedastici. (anche
uguale a:
Pn
Pk
2
i=1 [yi −
j=1 xij βj ]
2
σ̂ (β) =
n
σ̂ 2 (β) =
Si vede dunque che con queste ipotesi la verosimiglianza campionaria dipende dalle osservazioni campionarie solo attraverso
la somma dei quadrati degli scarti fra valori osservati e valori
previsti.
Si vedrà più avanti il caso di osservazioni ancora distribuite normalmente ma con matrice di varianze e covarianze qualsiasi:
sotto queste ipotesi più generali la verosimiglianza sarà funzione dei dati ancora attraverso una forma quadratica, ma difficilmente, o perlomeno solo in alcuni casi particolari, sarà possibile ottenere delle soluzioni esplicite per gli stimatori di massima
verosimiglianza.
Tornando al nostro caso semplificato, con errori non correlati e
con varianze uguali, è immediato trovare lo stimatore di massima
verosimiglianza della varianza.
Si vedranno poi le caratteristiche di questo stimatore, distorsione,
efficienza, etc., anche in funzione del fatto che β sia noto o sia da
stimare.
Verosimiglianza profilo rispetto a β
Sostituendo ora nella verosimiglianza campionaria tale valore di σ̂ 2 β
al valore incognito del parametro di disturbo σ 2 , otteniamo una
quantità che è funzione solo del vettore β dei parametri di interesse
2002-3003 versione provvisoria
223
(ossia la verosimiglianza profilo di β )
L(β, σ̂ 2 (β); y) =
2π
2
σ̂ (β)
− n2
(y − Xβ)T (y − Xβ)
2σ̂ 2 (β)


 (y − Xβ)T (y − Xβ) 
exp −
(y−Xβ )T (y−Xβ ) 

2
exp[−
− n2
(y − Xβ)T (y − Xβ)
= cost.×
n
n
In definitiva si ha:
n
n
L(β, σ̂ 2 (β); y) = costante × exp(− ) × σ̂ 2 (β)− 2 =
2
− n2
n (y − Xβ)T (y − Xβ)
= costante × exp(− )
2
n
verosimiglianza profilo rispetto a β.
E’ evidente che questa espressione è massima quando:
y − Xβ T y − Xβè un minimo.
Analogamente per il logaritmo di tale verosimiglianza profilo si ha:
n
n
− ( )Logσ̂ 2 (β) =
2
2
n
(y − Xβ)T (y − Xβ)
= kost − ( ) log
2
n
log L(β, σ̂ 2 (β); y) = log(costante) −
(avendo posto kost = log(costante) − n2 )
Log-verosimiglianza profilo rispetto a β
verosimiglianza profilo normalizzata=rapporto delle verosimiglianze
La verosimiglianza profilo è uno strumento tecnico utile per fare
inferenza nel caso generale di presenza di parametri di disturbo; nel
nostro caso l’interesse preminente dell’inferenza è per i parametri β
: il parametro σ 2 è soltanto un parametro di disturbo, nel senso che
non è necessariamente oggetto dell’inferenza ma comunque è necessario stimarlo dai dati per fare inferenza sul parametro di interesse
(multiplo) β .
Ancora vediamo che la verosimiglianza profilo è funzione dei dati
solo attraverso la forma quadratica già vista: è evidente che la possibilità di ricavare la verosimiglianza profilo in modo cosı̀ semplice
rispetto a β , è stata determinata dal fatto che esiste lo stimatore
224
Materiale didattico statistica 3
di massima verosimiglianza della varianza in forma esplicita, con le
assunzioni semplificatrici fatte in questo caso.
È evidente il collegamento fra verosimiglianza profilo e test basati sul rapporto delle verosimiglianze, come si vedrà fra poco; se
si ricorda il metodo di costruzione del rapporto verosimiglianza si
noterà come sia a numeratore sia a denominatore i parametri di disturbo vengono sostituiti dai valori massimizzano la verosimiglianza
ossia dai valori più plausibili alla luce dei dati osservati.
La figura 8.1 riportata qui sotto chiarisce il significato e l’utilità
dei vari tipi di verosimiglianza:
2002-3003 versione provvisoria
225
Figura 8.1: verosimiglianza rispetto a µ e σ 2 per un campione proveniente da
una normale e verosimiglianza profilo su µ
vai a indice figure
La superficie rappresenta la verosimiglianza normalizzata per un
campione estratto da una distribuzione normale standardizzate; tale
verosimiglianza è rappresentata sull’ asse z mentre sugli assi x e y
sono rappresentati i due parametri di posizione di scala o meglio
di posizione e di varianza di una distribuzione normale. Il punto
di massimo è raggiunto ovviamente in corrispondenza della media
campionaria e della varianza campionaria.
La curva rappresentata nel piano xy, per comodità rappresentata sopra la superficie, rappresenta la relazione fra lo stimatore di
massima verosimiglianza di sigma quadro e il parametro di posizione.
La curva in grassetto rappresentata sulla superficie è data dai
valori della verosimiglianza standardizzata in corrispondenza dello
stimatore ottimale della varianza. Questa è la verosimiglianza profilo rispetto al parametro medio; la curva rappresentata sul piano xz
vera proiezione della verosimiglianza profilo che è funzione soltanto
del parametro medio.
E’ da considerare che nel caso di un modello lineare generale non
226
Materiale didattico statistica 3
sarà possibile una tale rappresentazione grafica poiché abbiamo k
parametri da stimare, ossia le componenti di; tuttavia la relazione
che lega la varianza stimata ai parametri della parte sistematica è
sempre la stessa, ossia di tipo quadratico.
Verosimiglianza di un campione da una normale, insieme con la
verosimiglianza profilo
Costruzione del test LR
E’ facile già da queste espressioni della verosimiglianza e in particolare della verosimiglianza profilo, costruire i rapporti di verosimiglianza per la verifica di particolari ipotesi sugli elementi di β ,
in quanto la verosimiglianza profilo è funzione soltanto di σ̂ 2 (β) e
quindi solo di (y − Xβ)T (y − Xβ) . Infatti vogliamo verificare ad
esempio l’ipotesi
H0 : β = β0
contro l’alternativa generica:
H1 : β 6= β0
Indichiamo con β̂ la stima di massima verosimiglianza di β sotto H1 , costruiremo il test LR (Likelihood Ratio) rapportando la
verosimiglianza massima sotto H0 e quella massima sotto H1 . Sotto H0 non vi sono parametri di disturbo da stimare (tranne σ 2 la
cui influenza è stata eliminata in quanto stiamo lavorando con la
verosimiglianza profilo su β );
sotto H1 a parte σ 2 va stimato il vettore β
Per cui otteniamo la relazione:
LR =
=
max L(β, σ 2 ; y|H0 )
max L(β, σ 2 ; y|H1 )
L(β0 , σ̂ 2 (β0 ); y)
L(β̂, σ̂ 2 (β̂); y)
=
σ̂ 2 (β0 )
! n2
σ̂ 2 (β̂)
! n2
(y − Xβ̂)T (y − Xβ̂)
(y − Xβ0 )T (y − Xβ0 )
=
Come è noto valori alti di LR (vicini ad uno) indicheranno la plausibilità dell’ipotesi nulla; ci preoccuperemo dopo della costruzione
effettiva dei test e della loro distribuzione campionaria.
2002-3003 versione provvisoria
227
In generale comunque se vogliamo saggiare una generica ipotesi
nulla H0 contro una più generale H1 , essendo H0 un caso particolare di H1 , possiamo pensare ciascuna ipotesi Hi (i = 1, 2) come un
sistema di vincoli gi (β) imposti sugli elementi di β .
Ad esempio g0 (β) potrebbe consistere del fatto che una superficie
sia di primo grado, mentre g1 (β) potrebbe essere l’alternativa che
la superficie sia di secondo grado (ma non un polinomio di grado
superiore).
Indicando ora con β̂ i la stima di massima verosimiglianza di β
sotto Hi , possiamo nel caso generale costruire il test:
LR =
max L(β, σ 2 ; y|g0 (β))
max L(β, σ 2 ; y|g1 (β))
L(β̂ 0 , σ̂ 2 (β̂ 0 ); y)
L(β̂ 1 , σ̂ 2 (β̂ 1 ); y)
=
(
y
y
σ̂ 2 (β̂ 0 )
σ̂ 2 (β̂ 1 )
T
− Xβ̂ 1 y
T
− Xβ̂ 0 y
− n2
=
− Xβ̂ 1
) n2
− Xβ̂ 0
Il criterio del rapporto della verosimiglianza conduce ad un test
sensibile e ad uno strumento generalmente molto utile per l’inferenza statistica sebbene non possegga almeno per piccoli campioni le
proprietà ottimali che un test dovrebbe avere secondo la teoria di
Neyman-Pearson. Il problema della verifica di ipotesi, ossia della costruzione di un test di significatività, si può riassumere come segue:
sulla base dei dati osservati la famiglia di distribuzioni dell’ipotesi
alternativa H1 si adatta significativamente meglio ai dati della famiglia parametrica rappresentata dall’ipotesi nulla H0 ? Rifiutiamo
H0 a favore di H1 se questo miglioramento è significativo.
Sebbene questo test non possegga tutte le proprietà ottimali richieste, risponde comunque ai requisiti fissati da Fisher per la verifica di ipotesi nell’indagine scientifica: lo scopo dei test è di attestare
l’evidenza che i dati forniscono in merito a certe ipotesi più o meno
definite; criteri di ottimalità quali potenza, ampiezza, non distorsione, sono importanti ma non sono necessariamente la cosa più
importante nelle applicazioni.
228
Materiale didattico statistica 3
Dalla costruzione del test del rapporto delle verosimiglianze per
i parametri di un modello lineare con l’ipotesi di normalità, eteroscedasticità, non correlazione, si vede che tale rapporto dipende
esclusivamente dai rapporti fra le varianze stimate sotto le diverse
ipotesi;
• una varianza è quella relativa all’ipotesi più generale cioè quella
che impone meno vincoli sui parametri che sarà più piccola
nell’ambito della famiglia parametrica considerate;
• la varianza relativa alla verosimiglianza del numeratore è quella calcolata sotto l’ipotesi di esistenza di qualche vincolo sui
parametri.
È quindi evidente che l’ipotesi di normalità implica che le quantità sufficienti per fare inferenza sono le varianze stimate.
8.1.1
MINIMI QUADRATI ORDINARI
Per trovare dunque il massimo incondizionato della verosimiglianza
occorre trovare β̂ che da ora in poi indico per comodità di notazione
con b .
Minimi quadrati
Va trovato il minimo di (y − Xb)T (y − Xb) ossia il minimo
della somma dei quadrati degli scarti fra: valori osservati y e
valori calcolati Xb . (indicati con yi∗ )
Minimi Quadrati Ordinari. (Ordinary Least Squares: OLS) In
forma matriciale:
min R(b),
b
con:
R(b) =
n
X
i=1
(yi −
k
X
j=1
2
xij βj ) =
n
X
(yi − yi∗ )2
i=1
= (y[n×1] − X[n×k] bT
[k×1] )(y[n×1] − X[n×k] b[k×1] ) =
2002-3003 versione provvisoria
229
= yT y − 2bT XT y + bT (XT X)b
essendo yi∗ l’ i -esimo valore stimato.
Derivando R(b) ( = yT y − 2bT XT y + bT (XT X)b ) rispetto al
vettore b si ottiene:
∂R(b)
= −2XT y + 2(XT X)b
∂b
Uguagliandole a 0 (vettore nullo):
−2XT y + 2(XT X)b = 0;
Occorre risolvere, in b , il sistema:
(XT X)b = XT y
Sistema di equazioni normali
Temporaneamente imponiamo la restrizione che X sia di rango
k , e quindi esiste, ed è unica, l’inversa di XT X .
Diversamente potremmo ricorrere ad una riparametrizzazione
oppure all’uso dell’inversa generalizzata
SOLUZIONE GENERALE DEI MINIMI
QUADRATI NEI MODELLI LINEARI A RANGO
PIENO
(Sono stimatori di massima verosimiglianza con le ipotesi
semplificatrici)
b = (XT X)−1 XT y
la soluzione esiste unica avendo supposto X di rango k
e fornisce certamente il minimo di (y − Xb)T (y − Xb)
230
Materiale didattico statistica 3
Si tratta certamente di un minimo, in quanto le condizioni del
secondo ordine, riguardanti l’Hessiano, sono sempre soddisfatte, è:
∂R(b)
= −2XT y + 2(XT X)be
∂b
∂ 2 R(b)
= 2(XT X)
T
∂b∂b
che è sempre definita positiva e quindi il punto di stazionarietà
fornisce il minimo assoluto della funzione.
inserire dimostrazione senza derivate ispirata a Rao
Minimizzazione di R(β)senzausodiderivate
Possiamo ricavare il valore b che minimizza R(β) anche senza fare
uso di derivate (e addirittura senza neppure la necessità di ipotizzare
che X sia di rango pieno).
Procediamo come segue, analogamente alla dimostrazione della
seconda proprietà della media aritmetica
n
X
2
(yi − My ) leq
i=1
n
X
(yi − a)2
∀yi , a
i=1
Sia b tale che:
XT Xb = XT y
Trasformiamo ora la quantità da minimzzare (devianza teorica)
R(β) = εT ε
R(β) = (y − Xβ)T (y − Xβ) =
( anche uguale a: (Y − E [Y])T (Y − E [Y]) )=
(Aggiungendo e sottraendo Xb )
= [(y − Xb) + (Xb − Xβ)]T [(y − Xb) + (Xb − Xβ)] =
sviluppiamo il prodotto in cui compare il binomio formato dai
due termini: (y − Xb)e(Xb − X)
= [y − Xb]T [y − Xb]+
+[Xb − Xβ]T [Xb − Xβ]+
+2[Xb − Xβ]T [y − Xb]
2002-3003 versione provvisoria
231
Nell’ultimo termine in [Xb − Xβ] si mette in evidenza X ottenendo
2[b − β]T XT [y − Xb] =
=
2[b − β]T [XT y − XT Xb] = 0
l’ultimo termine è nullo per l’ipotesi fatta su b .
In definitiva si ha (indicando qq[y − Xb] con R(b)):
R(β) = (y − Xβ)T (y − Xβ) =
= [y − Xb]T [y − Xb] + [Xb − Xβ]T [Xb − Xβ] =
= R(b) + [Xb − Xβ]T [Xb − Xβ] ≥ R(b)
dal momento che [Xb − Xβ]T [Xb − Xβ] ≥ 0.
Pertanto è dimostrato che b minimizza R(β) = (y − Xβ)T (y −
Xβ)
Abbiamo ipotizzato all’inizio: XT Xb = XT y
A questo punto se supponiamo X a rango pieno possiamo esplicitare la soluzione (perchè esiste allora l’inversa di XT X):
SOLUZIONE GENERALE DEI MINIMI
QUADRATI NEI MODELLI LINEARI A RANGO
PIENO
(Sono stimatori di massima verosimiglianza con le ipotesi
semplificatrici)
b = (XT X)−1 XT y
la soluzione esiste unica avendo supposto X di rango k
e dà il minimo di (y − Xb)T (y − Xb)
232
Materiale didattico statistica 3
Il metodo dei minimi quadrati ordinari (OLS: Ordinary Least
Squares) COINCIDE con il metodo della massima verosimiglianza se e solo se: la distribuzione di ε è una normale a n variabili
a componenti indipendenti e con uguale varianza σ 2 (altrimenti
occorre impiegare metodi diversi da quello dei minimi quadrati)
Pertanto gli stimatori dei minimi quadrati godranno delle proprietà asintotiche ottimali degli stimatori M.V. soltanto nel caso
gaussiano, diversamente saranno soltanto i migliori stimatori lineari
non distorti.
8.1.2
Teorema di Gauss-Markov
Date le assunzioni a) e b), ossia errori a media nulla, non correlati ed
a varianze uguali, gli stimatori dei minimi quadrati hanno comunque
una proprietà ottimale:
In un modello lineare, con le assunzioni ricordate sopra, gli stimatori dei minimi quadrati di un qualsiasi insieme di funzioni lineari
dei parametri βj sono a varianza minima nella classe degli stimatori non distorti e lineari nelle yi In effetti si può anche dimostrare
che sono gli stimatori con la minima varianza generalizzata.
In effetti questo teorema non dimostra affatto la superiorità assoluta degli stimatori dei minimi quadrati, è può considerarsi una
proprietà sufficiente per rendere inutile l’assunzione di normalità:
infatti il teorema asserisce solo che sono i migliori fra gli stimatori
lineari nelle osservazioni non distorti.
Intanto non è detto che la non distorsione sia una proprietà in assoluto necessaria, ma fondamentalmente nulla obbliga a restringersi
agli stimatori lineari.
Assumere la linearità nelle osservazioni equivale ad assumere la
normalità.
Ad esempio nella derivazione della normale:
imponendo la condizione che dato un campione di n osservazioni
2002-3003 versione provvisoria
233
indipendenti il miglior stimatore di E(X ) sia la media aritmetica
delle osservazioni, Gauss dimostrò che la distribuzione degli errori è
normale.
MINIMA VARIANZA E MINIMA VARIANZA GENERALIZZATA.
234
Materiale didattico statistica 3
Variabili a media zero (regressione in termini di scarti)
Se X è posta nella forma conveniente vista prima, ossia prima
colonna tutta uguale ad 1, e k colonne di scarti dei regressori dalle
rispettive medie, X avrà un totale di k + 1 colonne, supposte linearmente indipendenti (dal momento che il rango di X è in questo caso
k + 1 ).
Questa forma della matrice dei regressori viene utilizzata quando
si vuole esplicitamente inserire un’ordinata all’origine β0 fra i parametri del modello e per semplificare alcune scomposizioni successive:
Si vede facilmente che in questo caso:
!
T
n
0
k
XT X =
0k nSX
(XT X)−1 =
XT y =
1/n
0T
k
0k (SX )−1 /n
!
nMy
!
ncov(X, y)
avendo indicato:
con SX matrice delle varianze e covarianze dei k regressori e
cov(X, y) vettore delle covarianze fra la y e le x .
In questo modo è possibile separare la stima del termine noto da
quella dei coefficienti di regressione:
!
b0 = M y
b=
bk = S1X cov(X, y)
8.1.3
Distribuzione campionaria di b (minimi quadrati ordinari)
In ogni caso, qualunque sia la scelta della X , comunque di rango k
(e k colonne), lo stimatore b è dato in generale da:
b = (XT X)−1 XT y;
Per ipotesi Y = Xβ + ε;
e quindi b è una combinazione lineare delle y per cui potremmo direttamente applicare le regole per il calcolo dei momenti di
combinazioni lineari di variabili casuali.
2002-3003 versione provvisoria
235
Per la speranza matematica di b si ha:
E(b) = E[(XT X)−1 XT Y] =
= E[(XT X)−1 XT (Xβ + ε)] =
= E[(XT X)−1 XT Xβ] + E[(XT X)−1 XT ε] =
= E(β) + (XT X)−1 XT E(ε) =
=β
Momento primo di b
E [b] = β
(b è uno stimatore corretto di β ) Per ottenere il risultato è
stato sufficiente assumere soltanto: E(ε) = 0n .
Quindi perché b sia corretto per β è sufficiente che il modello
lineare sia non distorto.
Per la matrice di varianze e covarianze campionarie di b si ha
V [b] = (XT X)−1 XT V [Y] X(XT X)−1 =
= (XT X)−1 XT σ 2 In X(XT X)−1 =
= σ 2 (XT X)−1 XT X(XT X)−1 =
= σ 2 (XT X)−1
236
Materiale didattico statistica 3
Momento secondo di b
V (b) = σ 2 (XT X)−1
avendo assunto oltre a E(ε) = 0n :
V(ε) = σ 2 In
(omoscedasticità e non correlazione)
qualunque sia la forma della distribuzione delle εi
Quindi la struttura della matrice di varianze e covarianze di b
dipende dalla struttura della matrice (XT X)−1 e quindi dalla
struttura delle matrici (XT X) e X . Se la matrice X è una
matrice di scarti dalle medie aritmetiche (e le variabili indipendenti sono numeriche in senso stretto), allora XT X è la matrice
di devianze e codevianze dei k regressori; pertanto la struttura
dei primi due momenti multivariati della distribuzione di b non
dipende solo dalle assunzioni su ε ma anche dalla struttura della
matrice X.
Questo è uno degli aspetti di cui occorre tenere maggiormente
conto tutte le volte che è possibile scegliere, in tutto o in parte,
come costruire la matrice delle x.
Se (e solo se) le Xj sono tutte non correlate i bj saranno tutti non
correlati; Se la matrice (XT X ) risulta a blocchi (ossia gruppi
di variabili internamente correlate ma non fra gruppi diversi),
allora è a blocchi anche V (b), ossia i corrispondenti gruppi di
stimatori dei coefficienti saranno internamente correlati ma fra
gruppi diversi vi sarà assenza di correlazione.
Si rivedranno in contesti particolari alcuni di questi aspetti
2002-3003 versione provvisoria
237
Distribuzione di b
Se, inoltre, vale l’assunzione di normalità, allora:
b segue una distribuzione normale multivariata (in quanto
combinazione lineare delle y )
b è lo stimatore di massima verosimiglianza (come peraltro
abbiamo già ottenuto)
b(N (β; σ 2 (XT X)−1 )
Si possono quindi costruire eventualmente delle regioni di confidenza per i parametri (se σ 2 è noto) che risulteranno in questo caso
ellissoidali. Occorrerà distinguere il caso in cui σ 2 sia noto (poco
plausibile) dal caso in cui venga stimato. In effetti anche senza assumere la normalità della componente accidentale, sotto condizioni
non troppo restrittive sulla matrice delle x la distribuzione dello
stimatore dei minimi quadrati tende alla normale al divergere di n .
Si rivedrà questa proprietà quando si parlerà dell’allontanamento
dalle ipotesi di normalità.
Introdurre qui discussione sull’assunzione di normalità
(verrà poi ripresa nella parte relativa all’analisi dei residui
ed agli allontanamenti dalle assunzioni di base)
8.2
8.2.1
Distribuzione della devianza residua nei modelli lineari
Devianza residua in funzione dei valori osservati
Indichiamo ancora con b = (XT X)−1 XT y lo stimatore di massima verosimiglianza di β in un modello lineare (di rango pieno),
supponendo la validità delle ipotesi semplificatrici sulla componente
accidentale:
ε ∼ Nn (0; σ 2 I)
Trasformiamo la devianza residua R(b), ossia la somma dei quadrati degli scarti fra valori della variabile di risposta osservati e stimati (che è la quantità minimizzata mediante il metodo dei minimi
238
Materiale didattico statistica 3
quadrati); l’importanza di tale quantità (e della sua distribuzione
campionaria!) è evidente alla luce di quanto abbiamo visto sui test
basati sui rapporti di verosimiglianze.
Il vettore y − Xb è detto vettore dei residui (empirici). R(b) è
quindi la devianza dei residui empirici
Esprimiamo la devianza residua in funzione delle osservazioni:
R(b) =
Pn
i=1 (yi
− yi∗ )2
= (y
Pn
i=1 (yi
− Xb)T (y
−
Pk
2
j=1 xij bj )
=
− Xb) =
(sostituendo a b il valore
trovato XT X)−1 XT y)
= (y − X(XT X)−1 XT y)T (y − X(XT X)−1 XT y) =
= [(In − X(XT X)−1 XT )y]T [(In − X(XT X)−1 XT )y] mettendo in evidenza y
= yT (In − X(XT X)−1 XT )T (In − X(XT X)−1 XT )y
ed infine:
R(b) = yT (In − X(XT X)−1 XT )y
devianza residua
(In −X(XT X)−1 XT ) è simmetrica ed idempotente di rango n−k
(infatti una qualsiasi matrice X(XT X)−1 XT è idempotente di rango
k, come si è visto nella parte iniziale)
R(b) è una forma quadratica nelle y
Inoltre:
(In − X(XT X)−1 XT )X = 0n×k
e quindi i residui empirici risultano non correlati con le X è:
Cov(y − Xb, X) = [y − Xb]T X = 0
si ricava direttamente dalle equazioni normali.
( y − Xb ha media nulla).
Devianza residua in funzione della componente accidentale ε :
Esprimiamo ora R(b) in funzione della componente accidentale ε :
2002-3003 versione provvisoria
239
Dall’espressione precedente:
R(b) = yT (In − X(XT X)−1 XT )y =
(operando sul terzo fattore, esprimendo y come Xβ + ε, secondo
quanto ipotizzato)
= yT (In − X(XT X)−1 XT )(Xβ + ε) =
aprendo la parentesi a destra
= yT (In − X(XT X)−1 XT )Xβ + yT (In − X(XT X)−1 XT )ε =
e dato che (In − X(XT X)−1 XT )X = 0 , ed effettuando le stesse
operazioni sul termine yT , si ha:
= yT 0n×k β + (Xβ + ε)T (In − X(XT X)−1 XT )ε =
aprendo la parentesi a sinistra
= 0 + β T XT (In − X(XT X)−1 XT )ε + εT (In − X(XT X)−1 XT )ε =
= 0 + 0 + εT (In − X(XT X)−1 XT )ε.
240
Materiale didattico statistica 3
In definitiva si ha l’ulteriore espressione per la devianza residua:
R(b) = εT (In − X(XT X)−1 XT )ε
La devianza residua R(b) è quindi una forma quadratica nelle
ε
Quindi si può vedere facilmente che, essendo E(εi εj ) = 0(i 6= j)
, sviluppando i termini della forma quadratica si ha:
E(R(b)) = tr(In − X(XT X)−1 XT )σ 2 edinf ine :
E[R(b)] = (n − k)σ 2
avendo ipotizzato soltanto:
E(ε) = 0eV (ε) = σ 2 In
(anche senza l’assunzione di normalità); quindi:
2
s = R(b)/(n − k) =
n
X
(yi − yi∗ )2 /(n − k)
i=1
è sempre una stima corretta della varianza.
Distribiuzione della devianza residua
Se vale l’ assunzione di normalità,
R(b) = (y − Xb)T (y − Xb) = εT (In − X(XT X)−1 XT )ε
si distribuisce come σ 2 χ2n−k ,
2002-3003 versione provvisoria
241
perché è una forma quadratica in variabili normali indipendenti
a media zero e varianze uguali (ε) , con matrice dei coefficienti
(In − X(XT X)−1 XT ) idempotente di rango n − k .
8.3
Scomposizione della devianza nel modello
lineare e verifica di ipotesi.
Effettuiamo alcune scomposizioni delle diverse somme di quadrati
(e forme quadratiche in generale) che abbiamo incontrato (fra cui
ad esempio: R(b), R(β) , yT y ).
La scomposizione della somma dei quadrati yT y
Operiamo sulla devianza di y , (o più precisamente sulla somma dei
quadrati yT y ) partendo ancora da una delle relazioni trovate per
R(b):
R(b) =
n
X
(yi − yi∗ )2 = (y − Xb)T (y − Xb) =
i=1
= yT (In − X(XT X)−1 XT )y =
aprendo la parentesi
= yT y − yT X(XT X)−1 XT y =
sostituendo b alla espressione (XT X)−1 XT y
= yT y − (yT X)b =
Ricordiamo che, trasponendo il sistema di equazioni normali si ha:
yT X = bT XT X
= yT y − bT XT Xb;
242
Materiale didattico statistica 3
ed infine (risolvendo rispetto a yT y ):
T avola Di Scomposizione Della Devianza Empirica (Somme Dei Quadrati)
FORMA QUADRATICA
FONTE DI VARIABILITA’
yT y =
Somma dei quadrati di y
(devianze se y è a media
nulla)
(y − Xb)T (y − Xb)+
bT XT Xb
8.3.1
devianza residua
Somma dei quadrati spiegata dalla regressione
Scomposizione di R(β)
Per potere costruire dei test, trasformiamo ora la devianza teorica
R(β) = εT ε
R(β) = (y − Xβ)T (y − Xβ) =
( anche uguale a: (Y − E [Y])T (Y − E [Y] )=
(Aggiungendo e sottraendo Xb )
= [(y − Xb) + (Xb − Xβ)]T [(y − Xb) + (Xb − Xβ)] =
sviluppiamo il prodotto in cui compare il binomio formato dai due termini: (y−Xb)e(Xb−
X)
2002-3003 versione provvisoria
= (y − Xb)T (y − Xb)
243
=R(b)
+
(Xb − Xβ)T (Xb − Xβ)
si mette in evidenza X sia
a sinistra che a destra e si
ottiene (b − β)T XT X(b −
β)
+
(y
− Xb)T (Xb − Xβ)
= 0 perché (y − Xb)T X =
0 dalle equazioni dei minimi quadrati
=
R(b) + (b − β)T XT X(b − β)
Si può interpretare tale scomposizione in modo leggermente diverso, ponendo l’enfasi non su b , stimatore di β , bensı̀ su Xb ,
stimatore lineare ottimale del valore atteso E [Y] . Pertanto
244
Materiale didattico statistica 3
In definitiva quindi si ha:
R(β) = R(b) + (b − β)T XT X(b − β)
Oppure :
(y−Xβ)T (y−Xβ) = (y−Xb)T (y−Xb)+(b−β)T XT X(b−β)
Possiamo rivedere questa relazione in termini di contributi alla
devianza teorica di ε :
(y − Xβ)T (y − Xβ) =
(y − Xb)T (y − Xb)+
(b − β)T XT X(b − β)
devianza teorica complessiva di ε (rispetto al modello
vero)
devianza residua
devianza delle stime
Questa scomposizione è basilare anche perché possiamo vedere
che il rapporto delle verosimiglianze costruito in precedenza per
saggiare l’ipotesi nulla H0 : β = β0 , contro l’alternativa generica
H1 : β 6= β0 , è funzione di queste quantità. Infatti:
n
max[L(β, σ 2 ; y)|H0 ]
[y − Xb)T (y − Xb)] 2
LR =
==
=
max[L(β, σ 2 ; y)|H1 ]
[y − Xβ0 )T (y − Xβ0 )]
n
R(b) 2
=
R(β0 )
avendo ora indicato con b lo stimatore di massima verosimiglianza prima indicato con β̂ .
8.3.2
Test F per la verifica di ipotesi nel modello lineare:
distribuzione nulla
Per esaminare la distribuzione nulla del rapporto delle verosimiglianze, o di una sua trasformazione monotona, riprendiamo in esame la
2002-3003 versione provvisoria
245
scomposizione di base di R(β) , e dividiamo tutti i termini per σ 2 :
R(β)
R(b) (b − β)T XT X(b − β
=
+
σ2
σ2
σ2
con le ipotesi che abbiamo fatto, compresa ovviamente quella di
normalità, possiamo vedere che i tre termini si distribuiscono come
delle χ2 , per cui si può applicare il teorema di Cochran; infatti:
R(β)
:
σ2
(A) si distribuisce come una χ2 con n gradi di libertà in quanto
somma dei quadrati di n v.c. normali standardizzate:
Pn 2
R(β)
εT ε
i=1 εi
=
=
σ2
σ2
σ2
R(b)
:
σ2
(B) si distribuisce come una χ2 con n-k gradi di libertà (come si
è visto) in quanto:
R(b) = (y − Xb)T (y − Xb) =
= εT (In − X(XT X)−1 XT )ε
si distribuisce come σ 2 χ2n−k
essendo (In − X(XT X)−1 XT ) idempotente di rango n − k
[b − β]T XT X[b − β]
σ2
(C)
si distribuisce come una χ2 con k gradi di libertà in quanto è il
numeratore dell’esponente della densità di una normale multivariata:
b ∼ N (β; σ 2 (XT X)−1 )
Quindi si può applicare il teorema di Cochran ed i termini (B) e
(C) risultano indipendenti.
In definitiva la quantità:
F =
[b−β ]T XT X[b−β ]
k
[y−Xb]T [y−Xb]
n−k
=
[b − β]T XT X[b − β]
ks2
246
Materiale didattico statistica 3
essendo il rapporto fra due variabili casuali χ2 indipendenti divise
per i rispettivi gradi di libertà, si distribuisce secondo una F di
Snedecor con k ed n − k gradi di libertà, essendo β il vero valore
del vettore dei parametri.
Pertanto, per saggiare l’ipotesi nulla:
H0 : β = β0 , contro l’alternativa generica
H1 : β 6= β0 ,
possiamo impiegare la quantità:
F =
[b−β0 ]T XT X[b−β0 ]
k
[y−Xb]T [y−Xb]
n−k
che sotto H0 si distribuisce secondo una variabile aleatoria F di
Snedecor con k ed n − k gradi di libertà.
La regione di rifiuto sarà costituita dai valori elevati di F, superiori
ad Fα,k,n−k . (ossia situati sulla coda destra della corrispondente
variabile F di Snedecor)
Infatti valori osservati di F elevati danno evidenza contraria ad
H0 .
F è funzione monotona del rapporto delle verosimiglianze LR
costruito in precedenza. Infatti:
F =
[b−β0 ]T XT X[b−β0 ]
k
[y−Xb]T [y−Xb]
n−k
F =
R(β0 )−R(b)
k
R(b)
n−k
=
=
R(β0 )
n−k
F =
−1
=
R(b)
k
1
n−k
F =
−1
LR
k
Statistiche sufficienti nel modello lineare.
b e s2 costituiscono un set di stimatori congiuntamente sufficienti
per β e σ 2 .
2002-3003 versione provvisoria
247
Infatti partendo dalla verosimiglianza del modello lineare, introdotta prima, con le ipotesi semplificatrici fatte, e con le scomposizioni ora viste si può giungere ad una fattorizzazione:
L(β, σ 2 ; y) =
(y − Xβ)T (y − Xβ)
2σ 2
n
R(β)
= (2πσ 2 )− 2 exp[−
2σ 2
n
= (2πσ 2 )− 2 exp[−
n
= (2πσ 2 )− 2 exp[−
R(b) [b − β]T XT X[b − β]
−
]=
2σ 2
2σ 2
(n − k)s2
[b − β]T XT X[b − β]
]
exp[−
].
2σ 2
2σ 2
Quindi la verosimiglianza campionaria rispetto a β e σ 2 dipende
dalle osservazioni solo attraverso le statistiche b e s2 .
n
= (2πσ 2 )− 2 exp[−
Matrice di informazione
Dalla verosimiglianza è anche immediato vedere che l’informazione
di Fisher su β è ancora funzione della matrice X .
Infatti:
2
XT X
∂ log L(β, σ 2 ; y)
=
−
I(β) = E
σ2
∂β∂β T
- (La matrice delle derivate seconde comunque è costante)
Vinf (b) = −I −1 (β).
Per cui il valore asintotico della matrice di varianze e covarianze
di b coincide con il valore già trovato per via diretta per n qualsiasi.
8.3.3
Distribuzioni sotto H0 e sotto H1 .
Va sottolineato che nella scomposizione vista prima la quantità(B)
ossia:
R(b)
(y − Xb)T (y − Xb)
=
σ2
si distribuisce sempre come una v.a. χ2 con n − k gradi di libertà, sia sotto H0 che sotto H1 ; (fatta ovviamente l’assunzione di
normalità)
248
Materiale didattico statistica 3
e quindi la stima della varianza:
2
s = R(b)/(n − k) =
n
X
(yi − yi∗ )2 /(n − k)
i=1
ha sempre una distribuzione proporzionale a quella di una χ2 con n−
Quindi:
k gradi di libertà
s2 (n − k)/σ 2 ∼ χ2k
qualunque sia l’ipotesi vera
Infatti R(b) dipende solo dai valori osservati e non dipende dai
particolari valori delle componenti del vettore dei parametri β .
Si noti inoltre che la distribuzione di s2 non dipende dalla particolare configurazione (scelta a priori o osservata) della matrice X ,
se non attraverso le sue dimensioni, n e k .
Diversamente la forma quadratica definita dalla quantità (C)
ossia:
(b − β)T XT X(b − β)/σ 2
si distribuisce come una χ2 con k gradi di libertà solo se β è il vero
valore del parametro; Pertanto la forma quadratica a numeratore del
test F divisa per i gradi di libertà k
s21 = (b − β0 )T XT X(b − β0 )/k
è uno stimatore corretto di σ 2 solo sotto H0 perché:
(b − β0 )T XT X(b − β0 )
si distribuisce come σ 2 χ2k soltanto se è vera H0
Infatti la distribuzione di s21 dipende dal vero valore assunto dai
parametri componenti del vettore β .
Inoltre, come si vede nelle pagine successive e come si intuisce dalle formule di queste pagine, la distribuzione di s21 nel caso generale
(ossia sotto H1 !) dipende anche dalla configurazione della matrice
X (scelta a priori o osservata) attraverso il prodotto XT X . Pertanto è intuibile, sebbene non tratteremo tale argomento in dettaglio,
che la scelta del particolare disegno della matrice X , quando possibile, potrebbe influenzare la distribuzione di s21 sotto H1 , e quindi
il potere del test.
2002-3003 versione provvisoria
249
In altre parole se per la costruzione di test in particolari contesti
sperimentali è necessario operare con certi valori del potere del test,
questo obiettivo può essere raggiunto agendo anche sugli elementi
della matrice X , ossia sulla configurazione del disegno sperimentale.
In generale se β0 è il valore specificato dall’ipotesi nulla e se β è il
vero valore, allora possiamo calcolare il valore atteso della quantità
(b − β0 )T XT X(b − β0 ) , effettuando alcune manipolazioni della
forma quadratica:
E(b − β0 )T XT X(b − β0 )=
Aggiungendo e sottraendo
β
= E[(b − β) − (β0 − β)]T XT X[(b − β) − (β0 − β)] =
sviluppiamo il prodotto in
cui compare il binomio formato dai due termini: (b −
β) e (β0 − β)
= E(b − β)T XT X(b − β)
= kσ 2 perché la forma quadratica si distribuisce come σ 2 χ2k essendo β il vero
valore
+
E(β0 − β)T XT X(β0 − β)
é la speranza matematica
di una costante
2(β0
− β)T XT X(b − β)
=
=0 perché é una combinazione lineare del vettore
aleatorio b−β , che é a media nulla perché: E(b) =
β
=
kσ 2 + (β0 − β)T XT X(β0 − β)
Il grafico qui sotto riporta un esempio di distribuzione nulla con
due alternative: si tratta di tre densità di F non centrali con 3 e 10
gradi di libertà: la distribuzione nulla è quella corrispondente ad un
parametro di non centralità nullo. La linea verticale corrisponde al
valore critico per α =0,05
Distribuzione nulla e due alternative per il test F(3,10);
α = 0, 05; λ = 2, 5
250
Materiale didattico statistica 3
\begin{fig}
noncentral1_lucidi.nb
\end{fig}
Riassumendo in una tavola questi ultimi risultati:
Quantità
Espressioni esplicite
(y
Interpretazione
Speranza matematica
Distribuzione
R(β0 ) − R(b)
R(b)
− Xb)T (y
− Xb)
Devianza residua
Scostamento
nulla
dall
H0 : β = β0
(n − k)σ 2
kσ 2
H1 : β 6= β0
(n − k)σ 2
kσ 2 + (β0 − β)T XT
β)
H0 : β = β0
σ 2 χ2n−k
σ 2 χ2k
H1 : β 6= β0
σ 2 χ2n−k
σ 2 χ2 (k, λ)
centrale;λ:parametr
di
non
ce
T
T
λ = (β0 −β) X X(
Risulta evidente che E(F (H1 ) > E(F (H0 ) e la regione di rifiuto
del test va fissata sulla coda destra della distribuzione di F.
8.3.4
(b − β0 )T XT X(b −
Scomposizione della devianza e test nel caso di gruppi di regressori ortogonali
Se r gruppi di variabili indipendenti sono ortogonali (ossia risultano
non correlati linearmente se si tratta di regressori scartati dalla media) la matrice XT X risulta composta da r blocchi disposti lungo la
diagonale (r ≥ 2) :
ciascun blocco è composto da un numero qualsiasi kj di variabili,
P
in modo tale che: rj=1 kj = k ;
2002-3003 versione provvisoria
251
Per esempio, termine noto e regressori, r = 2, k1 = 1 ;
In particolare se tutti i kj sono uguali ad uno, vuol dire che tutte
le variabili risultano ortogonali
eventualmente gli indici delle variabili sono permutati in modo
che le variabili di uno stesso gruppo siano consecutive


XT1 X1
0
0
0
0
0


TX


0
X
0
0
0
0
2
2




0
0
.
.
.
0
0
0


T
X X=

T


0
0
0
X
X
0
0
j
j




0
0
0
0
...
0


T
0
0
0
0
0 Xr Xr
Ad esempio tutte le variabili del 1◦ blocco sono ortogonali a tutte
quelle del j -esimo gruppo; all’interno di ciascun gruppo le variabili
non sono ortogonali (o comunque non tutte). In corrispondenza a
questi r blocchi suddividiamo il vettore dei parametri β e quello
delle stime b .
T
T
T
β T = (β T
1 , β2 , . . . , βj , . . . , βr )
T
T
T
bT = (bT
1 , b2 , . . . , bj , . . . , br )
Il vantaggio per l’inferenza è che i gruppi di stimatori dei corrispondenti parametri saranno a blocchi non correlati (indipendenti
data l’assunzione di normalità):
Cov(bj , bl ) = 0(j 6= l)
Dal punto di vista numerico, ciascun gruppo di stime è ricavabile
da un sottoinsieme di equazioni normali:
(XTj Xj )bj = XTj yequindi :
bj = (XTj Xj )−1 XTj y
è la matrice (XT X)−1 risulta ora diagonale a blocchi:

0
0
0
(XT1 X1 )−1


0
(XT2 X2 )−1 0
0


0
0
...
0

(XT X)−1 = 

0
0
0 (XTj Xj )−1


0
0
0
0

0
0
0
0
0
0

0
0
0
0
0
0










...
0
0
(XTr Xr )−1
252
Materiale didattico statistica 3
La matrice di varianze e covarianze di b è data da:
V (b) = σ 2 (XT X)−1 ,
Per cui possiamo scrivere, moltiplicando (XT X)−1 per lo scalare σ 2
:


V (b1 )
0
0
0
0
0


 0
V (b2 ) 0
0
0
0 


 0
0
...
0
0
0 


V (b) = 

 0
0
0 V (bj ) 0
0 


 0
0
0
0
...
0 


0
0
0
0
0
V (br )
In generale è possibile scomporre semplicemente la forma quadratica (b−β)T XT X(b−β) in r forme quadratiche (due o più) mutuamente indipendenti, se e solo se la matrice X può essere partizionata
in r gruppi di regressori non correlati nel modo visto.
Possiamo in questo caso esprimere la forma quadratica:
Q(b − β) = (b − β)T XT X(b − β) =
=
r
X
(bj − β j )T XT
j Xj (bj − β j ) =
j=1
r
X
Q(bj − βj );
j=1
Evidentemente le singole forme quadratiche si distribuiscono come delle variabili aleatorie χ2 con kj gradi di libertà moltiplicate
per σ 2 e sono indipendenti;
Ovviamente sono anche indipendenti rispetto a R(b)
per cui le scomposizioni viste prima in questo caso si estendono
ulteriormente, scomponendo ciascun termine in r termini.
Si possono quindi costruire dei test Fj con numeratori indipendenti, mettendo a denominatore sempre s2 (stima corretta della varianza) ed a numeratore l’opportuna forma quadratica Q(bj − βj )
divisa per i rispettivi gradi di libertà kj :
Fj =
[bj −βj ]T XTj Xj [bj −βj ]
kj
[y−Xb]T [y−Xb]
n−k
=
Q(bj −βj )
kj
s2
I rapporti Fj si distribuiscono secondo una F di Snedecor con kj
ed n − k gradi di libertà
Pertanto, per saggiare un’ipotesi nulla:
H0 : β = β0 ,
2002-3003 versione provvisoria
253
contro l’alternativa generica
H1 : β 6= β0 ,
nel caso di r blocchi ortogonali, si può considerare anche per il
vettore β0 la stessa suddivisione in blocchi:
T
T
T
T
T
β0 = β10 β20 . . . βj0 . . . βr0
Per cui l’ipotesi nulla può essere suddivisa in r ipotesi,
Hj0 : βj = βj0 j = 1, 2, . . . , r
per saggiare ciascuna delle quali possiamo impiegare i test:
Fj =
[bj −βj0 ]T XTj Xj [bj −βj0 ]
kj
,j
(y−Xb)T (y−Xb)
n−k
= 1, 2, . . . , r;
ognuno dei quali sotto H0 si distribuisce secondo una variabile
aleatoria F di Snedecor con kj ed n − k gradi di libertà.
Questi test sono indipendenti. E’ possibile che l’ipotesi nulla
specifichi solo alcuni gruppi di parametri, e non tutti.
Es. H0 : βs = βs0 ; βj qualsiasi per j 6= s
In particolare può interessare:
H0 : βs = 0
Rispetto al test che si condurrebbe in presenza di un solo gruppo
di regressori, cambia solo a denominatore la stima della varianza,
che ha n − k gradi di libertà invece che n − ks . In ogni caso è meglio
procedere con la stima con n − k gradi di libertà che è certamente
254
Materiale didattico statistica 3
corretta
Se a ciascun gruppo di parametri e di regressori si può fare corrispondere una diversa fonte di variabilità, questo implica che
per fare inferenza riguardo a ciascuna componente, indipendentemente dalle altre, è necessario che il gruppo di regressori
corrispondente a ciascuna sorgente di variazione risulti ortogonale rispetto ai regressori corrispondenti alle altre sorgenti di
variabilità.
Questi aspetti sottolineano l’importanza di operare, quando possibile, con regressori ortogonali, almeno a gruppi, perché questo
implicherà essenzialmente:
L’indipendenza fra i corrispondenti gruppi di stimatori;
L’indipendenza approssimata fra i test relativi ai vari gruppi di
parametri, ossia alle differenti sorgenti di variabilità
\begin{fig}
Esempio di fattori ortogonali da
STATISTICA Esempi ripresi dai problemi introduttivi
\end{fig}
8.4
Configurazioni della matrice X e di XT X
2002-3003 versione provvisoria
255
XT X
Significato e conseguenze
per l’interpretazione del
modello e per l’inferenza
Tutte le Xj sono ortogonali
Diagonale È il caso migliore: si possono saggiare ipotesi e fare inferenza in generale sui singoli parametri in modo indipendente
(anche i valori degli stimatori si trovano in modo
indipendente)
Tutte le combinazioni di
valori dei fattori
Fattoriale
Meglio ancora! Fra l’altro migliorano le proprietà
delle regioni di confidenza
costruite su E(yi )
Gruppi di Xj sono ortogonali
Diagonale a blocchi
È un caso importante: si
possono saggiare ipotesi (e
fare inferenza in generale) su gruppi di parametri
separatamente
Correlazioni lineari generiche fra le X
A rango pieno ma non
diagonale
È il caso generale della regressione multipla, in particolare per studi osservazionali.
Qualcuna delle Xj è fortemente dipendente linearmente dalle altre Xj
A rango pieno ma con
qualche autovalore vicino a
zero
MULTICOLLINEARITA’
Alcune Xj indicano la presenza/assenza di livelli di
un fattore
A rango non pieno
Per costruzione: Alcuni casi di Analisi della varianza
etc.
Alcune variabili sono esattamente proporzionali
A rango non pieno
Per errore di rilevazione (si tolgono le variabili
ridondanti)
X
256
8.5
Materiale didattico statistica 3
Modello lineare: Verifica di ipotesi generali
Comunque sia configurata la matrice X e quindi XT X , non sempre
l’ipotesi d’interesse riguarda tutti i parametri.
In generale siamo interessati a verificare ipotesi relativi a sottoinsiemi di valori dei parametri, come ad esempio:
H0 : β1 = β2 = 0; βj qualsiasi per j > 2
comunque
H0 : β s = β s 0 ; βj qualsiasi per j 6= s
relativa ad un gruppo di parametri βs
Può però interessarci un’ipotesi che implichi un confronto fra i
valori di alcuni parametri; ad esempio:
H0 : β1 = β2 = β3 (= µ;
con µ non specificato) e βj qualsiasi per j > 3 .
quest’ultima ipotesi equivale ad imporre i due vincoli:
β1 − β3 = 0
β2 − β3 = 0
In effetti queste ipotesi nulle possono essere considerate come
delle ipotesi che impongono dei vincoli lineari (anche molto generali)
sui valori dei k parametri, secondo la relazione generale:
Cβ = θ 0
In dettaglio, dato il modello:
y[n×1] = X[n×k] β[k×1] + ε[n×1]
(supponiamo sempre X di rango k ) in generale siamo interessati
a verificare l’ipotesi:
H0 : C[q×k] β[k×1] = Cβ0 = a[q×1].
Con q < k e q rango di C
Esempio: Analisi della varianza ad una via .
Si riveda l’impostazione della matrice X nella parte introduttiva
sui modelli lineari; La matrice X è composta da k colonne indicatrici
dell’appartenenza delle n unità a k gruppi disgiunti.
La parametrizzazione più naturale è quella in cui ogni parametro
corrisponde al valor medio di Y in ciascun gruppo:
2002-3003 versione provvisoria
257
β T = µ1 , . . . , µ j , . . . , µ k
L’ipotesi che può interessare non è però che tutti i coefficienti siano
nulli, ma che siano uguali fra loro:
H0 : β1 = β2 = . . . = βk
Queste k − 1 uguaglianze corrispondono ad una scelta di C di
k − 1 righe e k colonne:
vincolo
Gr.1 Gr.2 . . . Gr.J . . . Gr.K
1
1
0
...
0
...
−1
2
...
1
...
...
...
−1
0
0
...
0
0
−1
j
0
0
...
1
0
−1
controllare
...
...
...
...
...
−1
k−1
0
0
0
0
...
−1
controllare C[k−1×k] =

C[k−1×k]





=




1
0
...
0
. . . . . . −1


. . . . . . . . . . . . −1 

0 0 . . . 0 . . . 0 −1 


0 0 . . . 1 . . . 0 −1 

. . . . . . . . . . . . . . . . . . −1 

0 0 . . . 0 . . . 1 −1
...
1
con a = 0k−1
Scrivere ora Cβ = a è come scrivere:
µ1 − µk = µ2 − µk = . . . = µj − µk = . . . = µk−1 − µk = 0.
Riprendiamo l’esempio sull’ipotesi nulla:
H0 : β1 = β2 = β3 (= µ;
con µ non specificato) e βj qualsiasi per j > 3 .
La matrice dei vincoli è costituita da due sole righe:
258
Materiale didattico statistica 3
vincolo
1
2
C[2×k] =
Gr. 1
Gr. 2
Gr. 3
Gr. J
...
Gr. K
1
0
-1
0
...
0
0
1
-1
0
...
0
C[2×k] =
1 0 −1 0 . . . 0
0 1 −1 0 . . . 0
!
con a = (0, 0)T Altro esempio:
Se l’ipotesi di interesse è:
H0 : β1 = β2 = . . . = βk = 0
questo corrisponde a scegliere:
C = Ik ; a = 0k .
Esempio.
In un modello di regressione multipla si può avere un problema
di scelta di variabili (vedere dopo).
L’ ipotesi:
H0 : β1 = β2 = . . . = βq = 0, q < k;
e
βq+1 , βq+2 , . . . , βk qualsiasi
corrisponde a q vincoli definiti da:
C = Iq : 0k−q ; a = 0k
ossia i vincoli non coinvolgono i k − q regressori oltre βq .
Ovviamente q = 1 nel caso di ipotesi concernenti un singolo
parametro.
La stima dei parametri del modello lineare con vincoli lineari sui
parametri
In questo caso per costruire il rapporto di verosimiglianza per la
verifica dell’ipotesi generale:
H0 : C[q×k] β[k×1] = a[q×1]. Cdirangoq
2002-3003 versione provvisoria
259
(con H1 : ipotesi alternativa che non fissa alcun vincolo sui parametri) si ha:
max L[β, σ 2 , y|H0 ]
LR =
=
max L[β, σ 2 , y|H1 ]
max L[β, σ 2 , y|Cβ = a]
=
maxL[β, σ 2 , y|β<k ]
− n2
R(b0 )
=
R(b)
essendo b lo stimatore di massima verosimiglianza non vincolato,
e b0 lo stimatore di massima verosimiglianza sotto i vincoli lineari
imposti da H0 .
Minimi quadrati vincolati
Per trovare b0 occorre risolvere un problema di minimi quadrati
vincolati:
minb0 R(b0 ) = (y − Xb0 )T (y − Xb0 ) =
yT y − 2bT0 XT y + bT0 (XT X)b0
soggetto a q vincoli lineari:
Cb0 = a; Cdi rangoq
Occorre introdurre q moltiplicatori di Lagrange 2vecdh ed uguagliare a 0 le derivate di Q(b0 ) rispetto al vettore b0 e al vettore
d[q×1] :
Q
=−
Q(b0, d) = R(b0 ) + 2(Cb0 − a)T d
b0
2XT y + 2(XT X)b0 + 2CT d
Q
= (Cb0 − a
d
Uguagliandole a 0 (vettore nullo):
−2XT y + 2(XT X)b0 + 2CT d = 0;
(Cb0 − a = 0;
dal primo gruppo di equazioni:
(XT X)b0 = XT y − CT d;
260
Materiale didattico statistica 3
b0 = (XT X)−1 XT y − (XT X)−1 CT d =
(sostituendo b = (XT X)−1 XT y , stimatore dei minimi quadrati non vincolato)
= b − (XT X)−1 CT d
Dal secondo gruppo di equazioni:
Cb0 = a = Cb − C(XT X)−1 CT d;
Sono q equazioni indipendenti in k incognite d ,
Cb = −C(XT X)−1 CT d;
con soluzione data da:
−d = [C(XT X)−1 CT ]−1 (a − Cb)
risostituendo nel sistema che fornisce b0 si ha:
b0 = b − (XT X)−1 CT d =
= b + (XT X)−1 CT [C(XT X)−1 CT ]−1 (a − Cb)
Si può facilmente vedere che questa soluzione fornisce il minimo
e rispetta i vincoli (premoltiplicando per C )
Tutte le inverse citate esistono, per le ipotesi fatte sui ranghi di
XeC.
In realtà di solito conviene risolvere il sistema dei minimi quadrati
secondo la parametrizzazione fornita da H0 , se questa è esplicitabile
rispetto ai parametri. La tecnica ora esposta per trovare b0 è utile
prevalentemente a scopo teorico per vedere la relazione fra b0 e b
; Inoltre è utile per i casi nei quali Cβ = a non sia semplicemente
esplicitabile.
Nell’ espressione di b0 esplicitiamo, in modo che sia evidente la
relazione lineare fra b0 e b :
Ponendo, per semplicità: F = (XT X)−1 CT [C(XT X)−1 CT ]−1
si ottiene
b0 = b+(XT X)−1 CT [C(XT X)−1 CT ]−1 (a−Cb) == F.a+(Ik −F.C)b
b0 risulta corretto solo sotto H0
Infatti
E(b0 ) = β + (XT X)−1 CT [C(XT X)−1 CT ]−1 (a − Cβ) = β
2002-3003 versione provvisoria
261
perchè sotto H0 : a − Cβ = 0
Inoltre per la matrice di varianze e covarianze si ha in generale:
V (b0 ) = (Ik −F.C)V (b)(Ik −F.C)T == σ 2 [(XT X)−1 −F.C(XT X)−1 −(XT X)−1 CT F T +F.C(XT X
Questi tre termini risultano uguali in valore assoluto.
Infine, dopo qualche semplificazione:
V (b0 ) = σ 2 (XT X)−1 −σ 2 [(XT X)−1 CT [C(XT X)−1 CT ]−1 C(XT X)−1 ] =
= V (b) − σ 2 [(XT X)−1 CT [C(XT X)−1 CT ]−1 C(XT X)−1 ].
• Le varianze di ciascun elemento di b0 risultano inferiori a quelle
dei corrispondenti elementi di b ;
• Si ricordi però che in generale b0 è distorto.
Modello lineare: Scomposizione della devianza per il problema soggetto a vincoli:
Anche in questo caso la devianza residua può essere scomposta in
una forma conveniente
Alcune scomposizioni:
R(b0 ) = (y − Xb0 )T (y − Xb0 ) =
Sommando e sottraendo
Xb e poi aprendo il quadrato del binomio
= [(y − Xb) + (Xb − Xb0 )]T [(y − Xb) + (Xb − Xb0 )] =
= (y − Xb)T (y − Xb)
=R(b )
+
(Xb − Xb0 )T (Xb − Xb0 )
si mette in evidenza X sia
a sinistra che a destra e si
ottiene (b − b0 )T XT X(b −
β)
+
(y
− Xb)T (Xb − Xb0 )
=
R(b) + (b − b0 )T XT X(b − b0 )
In definitiva:
R(b0 ) = R(b) + (b − b0 )T XT X(b − b0 )
=0 perché:(y−Xb)T X = 0
dalle equazioni dei minimi
quadrati
262
Materiale didattico statistica 3
...
(b − b0 )T XT X(b − b0 ): Devianza residua supplementare
dovuta ad H0 . Misura anche la distanza fra i due stimatori.
E inoltre, sostituendo l’ espressione di (b − b0 ):
R(b0 ) − R(b) = (a − Cb)T [C(XT X)−1 CT ]−1 (a − Cb)
Si distribuisce (sotto H0 ) come una χ2 con q gradi di libertà,
indipendentemente da R(b).
Pertanto è possibile costruire test per la verifica di una ipotesi
qualsiasi semplicemente mettendo a numeratore del test F l’incremento di devianza dovuto ad H0 (e modificando i gradi di libertà)
8.5.1
Prove di ipotesi particolari nel modello lineare
Se la matrice C è costituita da:
C = Iq ; 0q×k
(ossia specifica solo i valori di q parametri)
la matrice (C(XT X)−1 CT )−1 ora risulta costituita dall’inversa
del blocco q×qdella matrice (XT X)−1 corrispondente ai q parametri
specificati da H0 ,ossia [(XT X)−1 q ]−1
il vettore di q elementi (a − Cb) è semplicemente costruito dalla
differenza fra valori ipotizzati e valori stimati sotto H0 .
T
−1 ]
[b0 ]T
q indica il vettore di q elementi coinvolto dall’ipotesi nulla particolare.[(X X)
q
indica il bloccoq × q nella matrice (XT X)−1
F =
[b−β0 ]Tq [(XT X)−1 q ]−1 [b−β0 ]q
q
[y−Xb]T [y−Xb]
n−k
=
In ogni caso il rapporto:
F =
R(b0 )−R(b)
q
R(b)
n−k
si distribuisce (sotto H0 ) come una F con q ed n − k gradi di
libertá , se è valida l’ ipotesi nulla:H0 : β = β0 . (con q numero di
gradi di libertá del numeratore)
2002-3003 versione provvisoria
263
Ovviamente si vede facilmente che questo rapporto è funzione del
rapporto delle verosimiglianze.
Va precisato che questo approccio va bene per saggiare ipotesi
singole, anche concernenti q parametri, ma non gruppi di ipotesi,
perché i test relativi a sottoinsiemi differenti di parametri (o di loro
combinazioni lineari) non sono indipendenti, se non nel caso visto
prima di matrice XT X a blocchi diagonali. Condurre in parallelo
test separati sugli elementi di β in assenza dei necessari requisiti
di ortogonalità è in generale una procedura errata, nel senso che
non vengono certamente rispettati i livelli di significatività nominali.
Può essere utile, in analisi esplorative, a titolo comparativo, per
confrontare verosimiglianze relative a modelli concorrenti, ma non
per effettuare test nel vero senso del termine.
8.6
Test e regioni di confidenza nei modelli lineari
L’approccio visto prima, sui test LR per ipotesi che impongono q
vincoli lineari sui parametri, a rigore va impiegato solo per saggiare
un’ipotesi concernente un unico set di parametri;
oppure occorre avere set di ipotesi ortogonali In generale se k > 1
non esiste un test UMPU.
Regioni di confidenza simultanee per i parametri
La regione di confidenza migliore, ad un livello 1 − α, è determinata
dai valori β per i quali i valori osservati del test F non risultano
superiori al valore teorico Fα,k,n−k .
Pertanto, dato un campione nel quale b è la stima di massima
verosimiglianza, tale regione è delimitata dai valori β per i quali:
[(b − β)T XT X(b − β)](ks2 Fα,k,n−k
Nel caso di regressori non ortogonali, tali regioni risulteranno date
da ellissoidi con assi obliqui, per cui l’interpretazione delle regioni
stesse potrà essere ardua.
Anche la relazione con i singoli intervalli sarà di difficile interpretazione, infatti per ciascun valore di uno dei parametri, l’intervallo
ottimo dell’altro varia, sia per posizione che per estensione.
264
Materiale didattico statistica 3
Intervalli di confidenza e regioni di confidenza
Come si è visto la struttura di correlazione fra gli estimatori dei
parametri è strettamente dipendente dalla struttura di correlazione dei regressori o comunque dalla struttura della matrice X . Le
regioni di confidenza che costruiremo per i parametri β saranno
ovviamente quelli ellisoidali, data la normalità, ma con una inclinazione degli assi principali che dipenderà dalla correlazione fra le
diverse componenti dello stimatore di β .
È il caso adesso di riflettere sulle differenze concettuali e interpretative che esistono fra regioni di confidenza e intervalli di confidenza, l’intersezione, infatti, fra intervalli di confidenza costruiti
singolarmente o per ciascun parametro anche nel caso di assenza di
correlazione, conduce a risultati e ad interpretazioni diverse da quelle ottenute mediante regioni di confidenza simultanee. Si consideri,
infatti, la figura seguente: dai dati dell’esempio si sono costruiti
gli intervalli di confidenza per β1 e β2 ad un livello fiduciario di α;
inoltre si è costruita la regione di confidenza simultanea per i due
parametri ricavata dalla relazione vista nel paragrafo precedente,
fondata sui percentili della distribuzione F.
Occorre intanto riportare le due situazioni a parità di livello di copertura ossia fare in modo che la probabilità fiduciaria complessiva
dei due intervalli sia uguale alla probabilità fiduciaria della regione ellissoidale; le due situazioni o meglio i due approcci conducono
a conclusioni leggermente differenti ma non contrastanti in modo
stridente; il punto fondamentale consiste nell’avere in un caso un’intersezione fra segmenti che conduce ad un rettangolo e nell’altro
caso una circonferenza o in generale un’ellisse con assi paralleli agli
assi coordinati la differenza di area coperta è, in effetti, molto bassa.
Nell’esempio si può calcolare come riportato nella figura.
Si consideri invece un esempio nel quale gli stimatori dei due
parametri β1 e sono molto correlati; in questo caso la regione di
confidenza simultanea sarà costituita da un ellissoide su delle con
assi non paralleli a quelli coordinati; la discrepanza fra la superficie
coperta da quest’ellisse e quella coperta dall’intersezione tra i due
segmenti è ora più forte;
Inoltre esiste un problema d’interpretazione molto grosso: secondo del valore assunto dal parametro β1 , l’intervallo di confidenza
ottimo per il parametro β2 è differente, non solo per ampiezza ma
anche per posizione; d’altra parte il fatto che due stimatori risultino
2002-3003 versione provvisoria
265
correlati significa proprio che non è possibile fare inferenze separatamente sulle due singole componenti. La relazione con i singoli
intervalli sarà di difficile interpretazione, infatti per ciascun valore di uno dei parametri, l’intervallo ottimo dell’altro varia, sia per
posizione che per estensione.
VEDERE GRAFICI AGGIUNTIVI NEL FILE:
\begin{fig}
DISPENSA2000_FIGURE2.DOC
\end{fig}
regioni di confidenza per funzioni lineari dei parametri
In effetti se siamo interessati a particolari combinazioni di parametri
a =C β , possiamo direttamente costruire regioni di confidenza per
tali funzioni lineari dei parametri a partire dalla quantità:
R(b0 ) − R(b) = (a − Cb)T [C(XT X)−1 CT ]−1 (a − Cb);
Prendendo in considerazione il corrispondente test F si può direttamente costruire la regione (q-dimensionale) costituita da tutti i
valori a per i quali:
(a − Cb)T [C(XT X)−1 CT ]−1 (a − Cb)(qs2 Fα,q,n−k
regioni di confidenza relative a sottoinsiemi di parametri
Se la matrice C è definita da:
C = Iq ; 0q×k
(ossia specifica solo i valori di q parametri), allora:
la matrice(C(XT X)−1 CT )−1 risulta costituita dall’inversa del
blocco q × q della matrice (XT X)−1 corrispondente ai q parametri
specificati da H0 ,ossia[(XT X)−1 q ]−1
il vettore di q elementi (a − Cb) è semplicemente costruito dalla
differenza fra valori dei parametri e valori degli stimatori per soli q
dei k parametri.
La regione (q-dimensionale) è quindi costituita dai valori di βq
per i quali:
[b − β]Tq [(XT X)−1 q ]−1 [b − β]q (qs2 Fα,q,n−k
266
Materiale didattico statistica 3
[(XT X)−1 q ] indica il blocco q × qnella matrice (XT X)−1 .
[b − β]q indica l’opportuno sottovettore di q elementi
Intervalli di confidenza per E(yi )
Per quanto visto prima, è evidente che lo stimatore migliore di E(yi )
è yi ∗ = xT
i b, essendo x(i) il vettore di osservazioni dei regressori corrispondente all’unità i-esima, e quindi rientriamo nel caso i
combinazioni lineari degli stimatori b .
Pertanto, e comunque se il modello è completo e corretto:
T
E(yi ∗) = E(xT
i b) = xi β = E(yi )
T
2 T
T
−1
V (yi ∗) = V (xT
i b) = xi V (b)x(i) = σ xi (X X) x(i)
essendo al solito xT
i l’i-esima riga della matrice X .
Applicando quindi le formule dei paragrafi precedenti, otteniamo l’intervallo di confidenza per E(yi ) ad un livello di probabilità
fiduciaria 1 − α, dato da:
q
T
T
−1
xi b(stα,n−k xT
i (X X) x(i) .
Risulta dunque evidente che il luogo dei punti x(i) per i quali tali
intervalli risultano di uguale ampiezza, a parità di altre condizioni,
è costituito dai punti per i quali
T
−1
xT
i (X X) x(i) = Costante,
ossia dai punti che hanno uguale distanze di MahalaNobis dal
centroide dei regressori.
\begin{fig}
esempi nel notebook mathematica
\end{fig}
Nelle figure allegate sono mostrati gli effetti dovuti a configurazioni diverse delle X .
\begin{fig}
DISPENSA2000_FIGURE3.DOC
\end{fig}
2002-3003 versione provvisoria
267
errori di previsione
Varianza degli errori di previsione e distorsione degli stimatori variano in senso opposto
\begin{fig}
INSERIRE LUCIDO FATTO A MANO
(che si trova nel blocco dopo la regressione)
esempio da rivedere e ripetere in aula
\end{fig}
\begin{fig}
regr1.ppt
\end{fig}
268
Materiale didattico statistica 3
Capitolo 9
Regressione Multipla
9.1
Introduzione
Nei capitoli precedenti si è vista la teoria generale sull’inferenza nei
modelli lineari, sia nel caso di modelli con vincoli che senza vincoli. Precedentemente avevamo visto come in realtà i modelli lineari
siano utilizzabili per diversi problemi statistici, in funzione della
particolare costruzione e configurazione della matrice X ; in questo
capitolo affrontiamo il caso specifico dei modelli di regressione, e le
peculiarità dell’inferenza in questo caso, insieme con una selezione
dei problemi inferenziali più comunemente affrontati nelle applicazioni reali. Ricordo che nella pratica dello statistico le tecniche di
regressione lineare multipla costituiscono una costante che capita di
affrontare in numerosi problemi, almeno come tecnica preliminare
di esplorazione dei dati.
Scomposizione della devianza empirica col termine noto e k regressori
a media nulla:
Se la matrice X prevede una colonna di costanti uguali ad uno e altre
k colonne a media nulla, abbiamo un modello con termine noto e
con matrice XT Xpartizionata a due blocchi diagonali:
!
n
0T
T
k
X X ==
0k nSX (= ZT Z)
Quindi tutte le forme quadratiche che hanno come matrice dei coefficienti questa matrice con (k + 1) × (k + 1) elementi, saranno scomponibili in una forma quadratica con matrice di k × k elementi, ed
un termine singolo.
269
270
Materiale didattico statistica 3
(Indichiamo ora il termine noto con α, ed il corrispondente stimatore con a, invece che con β0 per evitare confusione con i valori β0
dell’ipotesi nulla; con β indico il vettore dei parametri relativo alle
k variabili e con b il corrispondente stimatore dei minimi quadrati);
Chiaramente risulta: a = My
Per quanto riguarda la scomposizione della devianza empirica di
y nel modello di regressione multipla, possiamo partire dalla relazione trovata fra R(b) e la somma dei quadrati yT y . (in effetti
adesso dovremmo indicarlo con R(a, b))
R(b) =
n
X
(yi − yi∗ )2 = (y − a.1 − Zb)T (y − a.1 − Zb) =
i=1
= yT y − nMy2 − bT ZT Zb =;
dato che a = M y .
-------------------------controllare Zb e
M_{\vecy}
--------------------------
Possiamo anche scrivere:
R(b) = (y − My )T (y − My ) − bT ZT Zb.
Quindi nei modelli di regressione multipla, per eliminare l’influenza
del termine noto, che svolge il ruolo di parametro di disturbo, si può
direttamente lavorare in termini di scarti, sia per le x che per y .
In ogni caso sarà possibile fare inferenza indipendente su questo
termine.
2002-3003 versione provvisoria
271
T AVOLA DI SCOMPOSIZIONE DELLA DEVIANZA EMPIRICA NELLA REGRESSIONE
Z è la matrice degli scarti
dalle medie
TOTALE
RESIDUA
SPIEGATA
(y − My )T (y − My )
bT ZT Zb
− My )2
(y − My − Zb)T (y − My −
Zb)
Pn
∗ 2
i=1 (yi − yi )
Devianza totale osservata
di y
devianza residua (deviazioni dal valore stimato)
Devianza spiegata dalla regressione lineare sui k regressori (presi globalmente)
n−k−1
k
Pn
i=1 (yi
Pn
∗
i=1 (yi
gradi di libertà:
n−1
Il coefficiente di determinazione lineare multipla R2
E’ utile almeno da un punto di vista descrittivo, generalizzare l’indice già visto per quanto riguarda le distribuzioni condizionate di
vettori aleatori normali.
La bontà della regressione lineare sulle x per spiegare la variabilità della y può essere misurata dall’indice (compreso fra 0 e
1):
R2y.12...k =
DEVIANZA SPIEGATA
DEVIANZA TOTALE
2 = r2
Se k = 1 è ovvio che Ry.1
Si può eventualmente calcolare R2 mediante la formula vista per
le distribuzioni condizionate di vettori aleatori normali.
Evidentemente possiamo anche utilizzare il complemento ad 1
per misurare l’incidenza del residuo sul totale:
DEVIANZA RESIDUA
DEVIANZA TOTALE
Il valore di questa quantità fornisce la porzione di variabilità di
y che non è spiegata dalla regressione sulle k variabili.
1 − R2y.12...k =
− My )2
272
Materiale didattico statistica 3
Scomposizione della devianza teorica nella regressione multipla
Scomponiamo ora la devianza teorica:
Si riveda eventualmente la parte relativa alla stima dei parametri
con questa particolare matrice X
εT ε/σ 2 =
= R(b)/σ 2 + (a − α)n(a − α)/σ 2 + (b − β)T ZT Z(b − β)/σ 2 =
= R(b)/σ 2 + (My − α)2 /(σ 2 /n) + (b − β)T ZT Z(b − β)/σ 2 .
Palesemente vale ancora il teorema di Cochran, per la scomposizione in tre parti della devianza complessiva:
il nuovo termine
α)2 /(σ 2 /n) si distribuisce come una χ21 ,
e per il teorema di Cochran risulta indipendente dalle altre due
forme quadratiche.
Si ha, considerando quindi il termine noto:
R(α, β) = R(a, b) + (b − β)T (ZT Z)(b − β) + n(My − α)2
oppure
n
X
[yi − E(yi )]2 = (y − α.1 − Zβ)T (y − α.1 − Zβ) =
i=1
(y−My −Zb)T (y−My −Zb)+(b−β)T (ZT Z)(b−β)+n(My −α)2 +
(rispetto al simbolismo adottato precedentemente si consideri che
adesso il valore atteso è: E [Y] = α.1 + Zβ )
?
Possiamo rivedere questa relazione in termini di contributi alla
devianza teorica di ε :
2002-3003 versione provvisoria
273
Forma Quadratica
fonte
gradi di libertà
(y − α.1 + Zβ)T (y − α.1 −
devianza teorica complessiva di ε.
(rispetto al
modello vero)
n
(y − My − Zb)T (y − My −
Zb)
devianza residua
n−k−1
(b − β)T (ZT Z)(b − β)
devianza delle stime dei
coefficienti di regressione
k
n(My − α)2
devianza dovuta alla stima
del termine noto
1
Zβ)
9.1.1
Prova dell’ipotesi di coefficienti di regressione nulli
nella regressione multipla.
Dai risultati visti in precedenza e che scaturiscono sostanzialmente
dall’ortogonalità fra termine noto e regressori, risulta immediato il
test per saggiare l’ipotesi nulla:
H0 : β = 0k ,
con α qualsiasi contro l’alternativa generica:
H1 : β 6= 0k.
TEST NELLA REGRESSIONE LINEARE MULTIPLA
Si può infatti impiegare la quantità test:
b0 ZT Zb
ks2
che sotto H0 si distribuisce secondo una variabile aleatoria F di
Snedecor con k ed n − k − 1 gradi di libertà.
Avendo indicato al solito con s2 la stima corretta della varianza,
con n − k − 1 gradi di libertà, data da:
F =
s2 = (y − My − Zb)T (y − My − Zb)/(n − k − 1) =
=
n
X
i=1
(yi − yi∗ )2 /(n − k − 1)
274
Materiale didattico statistica 3
E’ facile vedere che, dal momento che in fondo il test è dato da:
F =
Devianzaspiegata
k
Devianzaresidua
n−k−1
si può esprimere questo test in funzione di R2 :
F =
R2y.12...k
k
1−R2y.12...k
n−k−1
Per saggiare ipotesi particolari, rare nelle applicazioni della regressione multipla, del tipo:
H0 : β = β0 ,
con α qualsiasi
si impiegherà ovviamente il test:
[b − β0 ]T ZT Z[b − β0 ]
ks2
LA REGIONE DI RIFIUTO
La regione di rifiuto sarà costituita dai valori elevati di F , superiori ad Fα,k,n−k−1 (ossia situati sulla coda destra della corrispondente
variabile F di Snedecor). Valori osservati di F elevati danno evidenza contraria ad H0 . Infatti sotto H1 il valore atteso di bT ZT Zb nel
numeratore del test F per saggiare l’ipotesi β = 0k , è dato, dalle
formule precedenti, da:
F =
E(bT ZT Zb|H1 ) = kσ 2 + β T ZT Zβ.
mentre
E(bT ZT Zb|H0 ) = kσ 2
Risulta sempre (al solito):
E(bT ZT Zb|H1 ) > E(bT ZT Zb|H0 )
è nella forma quadratica β T ZT Zβ , ZT Z è definita positiva; in
ogni caso si vede subito che β T ZT Zβ = (Zβ)T Zβ che è palesemente
una somma di quadrati.
2002-3003 versione provvisoria
275
Prova di ipotesi particolari nella regressione multipla.
Si può essere interessati ad una particolare ipotesi, quale un vincolo
lineare sui coefficienti di regressione, oppure il fatto che, semplicemente:
alcuni dei coefficienti di regressione siano nulli e quindi,
che i corrispondenti regressori Xj siano ininfluenti ai fini della
spiegazione di y .
Si può seguire la metodologia generale vista precedentemente: si
badi però che quella tecnica è soddisfacente solo se applicata:
per una ipotesi soltanto oppure
per più ipotesi relative a regressori ortogonali a gruppi.
L’ ipotesi:
H0 : β1 = β2 = . . . = βq = 0conq < k;
e
βq+1 , βq+2 , . . . , βk qualsiasi
(che corrisponde a q vincoli definiti da C = Iq : 0k−q ; a = 0q )
stabilisce che q coefficienti di regressione siano nulli
e quindi stabilisce che i corrispondenti q regressori siano eliminabili dal modello generale di spiegazione della variabile di risposta.
Possiamo effettuare il test generale:
F =
[R(b0 )−R(b)]
q
R(b)
n−k−1
=
[b−β0 ]Tq [(ZT Z)−1 q ]−1 [b−β0 ]q
q
[y−Xb]T [y−Xb]
n−k−1
in cui b0 è lo stimatore di massima verosimiglianza di β sotto H0
(quindi ha q elementi uguali a zero se H0 : [β0 ]q = 0 ).
In effetti si vede facilmente che il test è ora dato da:
F =
[b]Tq [(ZT Z)−1 q ]−1 [b]q
qs2
T
−1 indica il blocco
[b]T
q indica il vettore di q elementi coinvolto dall’ipotesi nulla .(Z Z)
q
qxq di (ZT Z)−1
276
Materiale didattico statistica 3
in cui è esplicito il fatto che la quantità a numeratore misura
la distanza da zero di un particolare sottoinsieme di stimatori di
coefficienti di regressione.
Ovviamente si distribuisce come una F con q e n − k − 1 gradi di
libertà.
Test per un singolo coefficiente (uno solo!)
Nel caso particolare in cui q = 1 , evidentemente stiamo saggiando
l’ipotesi che un singolo coefficiente di regressione sia nullo:
H0 : βj = 0
e gli altri β qualsiasi
Il test in questo caso diventa:
F =
bj [(ZT Z)−1 jj ]−1 bj
s2
=
b2j
cjj s2
essendo cjj il j -esimo elemento sulla diagonale di (ZT Z)−1 ;
essendo q = 1 possiamo prendere la radice quadrata di questa quantità, che si distribuisce come una t di Student con n − k − 1 gradi
di libertà, per ottenere il test:
t=
bj
(tn−k−1
s(cjj
Si può eventualmente considerare in questo caso un’alternativa
unidirezionale che conduce a regioni di rifiuto sulla coda destra o
sulla sinistra. Si noti anche che cjj è la varianza campionaria di bj
Con questo test possiamo saggiare una ipotesi su un coefficiente
(uno e uno solo!!!);
Utilizzare questo test per più di un regressore è una procedura
distorta.
Test per l’eliminazione di q regressori in termini di perdita in R2
Riscriviamo il test per saggiare l’ipotesi che q regressori siano
nulli:
2002-3003 versione provvisoria
277
F =
[R(b0 )−R(b)]
q
R(b)
n−k−1
Devianza spiegata da k regressori-Devianza spiegata da k − q regressori
F =
q
Devianza residua [nel modello completo]
n−k−1
Dividendo ora ambo i termini della frazione per Dev(y) si può
esprimere questo test in funzione di due diversi indici R2 :
F =
R2y.12...k −R2y.q+1...k
q
1−R2y.12...k
n−k−1
in cui:
• R2y.q+1...k è la frazione di varianza di y spiegata dai k − q
regressori Xq+1 , Xq+2 , . . . , Xk ;
• R2y.12...k è la frazione di varianza di y spiegata da tutti i regressori;
Quindi il test corrisponde a saggiare l’ipotesi che il decremento
in R2y.12...k dovuto all’eliminazione dei q regressori X1 , X2 , . . . , Xq
non si discosti significativamente da 0.
Evidentemente il numeratore del test F è sempre positivo (si
tratta sempre, come si era visto prima) di una frazione di varianza.
Il test è relativo ad una ipotesi relativa ad un insieme fissato di
q regressori.
Successivamente si utilizzeranno queste scomposizioni per arrivare ad un criterio di scelta di k-q particolari regressori
Possiamo impostare una tavola di analisi della varianza per la
riduzione di variabili:
278
Materiale didattico statistica 3
TOTALE=
RESIDUA
SPIEGATA da k − q
regressori
SPIEGATA
gressori (al n
altri k − q )
1 − R2y.12...k
R2y.q+1...k
R2y.12...k − R
n−k−1
k−q
q
frazioni di varianza
1
gradi di libertà:
n−1
Rappresentazione grafica della suddivisione delle frazioni di devianza.
0R2y.12...k 1
devianza spiegata da tutti i
k regressori
0R2y.q+1...k 1
devianza spiegata dagli ultimi k − q regressori
0R2y.12...k − R2y.q+1...k 1 devianza in più spiegata
dai primi q regressori
01 − R2y.q+1...k 1
devianza non spiegata dagli ultimi k − q regressori
Un indice normalizzato è dato da:
R2y.12...k − R2y.q+1...k
1 − R2y.q+1...k
coefficiente di determinazione parziale di Y sui primi q regressori,
al netto degli altri k-q regressori
L’indice che è ancora palesemente compreso fra 0 e 1;
misura la frazione ulteriore di varianza spiegata dai q regressori,
tenuto conto della regressione sugli altri k-q.
incremento di R2 in funzione dell’indice di correlazione parziale;
trovare (forse sul kendall o Rao)
2002-3003 versione provvisoria
9.2
279
La multicollinearità nella regressione multipla.
In questa sezione affrontiamo un problema cruciale nell’analisi
della regressione, in particolare per dati economici o comunque
provenienti da indagini osservazionali che si può riassumere nella
domanda:
Avere regressori linearmente correlati ha qualche influenza
negativa sull’analisi della regressione?
Banalmente si potrebbe pensare che l’unica cosa importante è
la correlazione (multipla) della Y con le X. Vedremo in questa
sezione che è anche importantissimo analizzare la struttura di
correlazione interna delle X
Supponiamo una caso molto semplice
con due soli regressori. Consideriamo per semplificare le cose, e
focalizzare l’attenzione solo sulle correlazioni, che le variabili (y e
X) siano tutte standardizzate.
Sappiamo che V [b] = (XT X)−1 σ 2 . Se quindi k = 2 si ha:
Caso di due soli regressori
V [b] = σ 2
1
r12
r12
1
!−1
1
= σ2
2
1 − r12
1
−r12
−r12
1
!
per cui la varianza di uno dei due stimatori è data da:
V [b1 ] = V [b2 ] = σ 2
1
2
1 − r12
Collinearità nella regressione a due regressori
La varianza degli stimatori dei coefficienti di regressione è
funzione crescente della correlazione fra i regressori r12
ed è funzione crescente della varianza σ 2 della componente
accidentale
280
Materiale didattico statistica 3
Studiare anche come varia la dipendenza di y dalle x passando da due a un regressore
Passando alla situazione generale, se i k regressori non sono ortogonali, possono avere una struttura di interdipendenza di vario
tipo.
Si sono già viste alcune delle conseguenze della non ortogonalità
dei regressori o fattori sulla distribuzione degli stimatori di massima
verosimiglianza e di altre quantità collegate:
• Lo stimatore b è a componenti correlate (dal momento che ha
varianza proporzionale a (XT X)−1 );
• I contributi alla spiegazione di Y di ciascuna variabile non sono
separabili.
• Non si possono condurre test indipendenti su tutti i singoli
coefficienti.
• Le regioni di confidenza dei parametri β costruite sulla base
del valore critico di F risultano ellissoidali e non sferiche.
• Il luogo dei punti xi nello spazio dei regressori che conduce
ad intervalli di confidenza di eguale ampiezza per E(ψ̂i ) è il
contorno di un ellissoide di equazione:
σ 2 x(i)T (XT X)−1 x(i) = Cost.
Il caso estremo è quello in cui il rango di X (e quindi di XT X)
è inferiore a k: supponiamo di non trovarci comunque in questa
situazione, perché l’eventuale variabile combinazione lineare esatta
delle altre è stata individuata ed eliminata.
Supporremo di trovarci invece, nell’ambito delle situazioni con
dei regressori correlati, vicino a questa situazione estrema.
Nei casi non estremi occorrerà misurare il grado di collinearità
fra le variabili indipendenti ossia quanto complessivamente incidono le correlazioni fra le Xj sulla distribuzione di b ed in generale
sull’inferenza nella regressione multipla
Consideriamo una matrice delle x a media nulla (quindi è una
matrice di scarti) ed a varianza unitaria (quindi è una matrice di
variabili standardizzate); evidentemente ciò corrisponde ad effettuare una traslazione ed un cambiamento di scala sugli assi che non
2002-3003 versione provvisoria
281
alterano in alcun modo lo studio della dipendenza lineare di y dalle
Xj .
(Anzi in questo modo si possono fare valutazioni comparative fra
i coefficienti di regressione, in quanto non influenzati dalle diverse
unità di misura).
Lo studio della multicollinearità riguarda la struttura di correlazione fra le X e successivamente l’influenza di questa struttura
sullo studio della dipendenza di Y dalle X , sulle proprietà degli
stimatori, delle regioni di confidenza, etc.
In questa lezione sulla multicollinearità, sto esaminando solo le
implicazioni di tipo statistico: lascio volutamente da parte le implicazioni di tipo computazionale. È noto, infatti, che dal punto
di vista numerico la risoluzione di sistemi di equazioni lineari,
in presenza di collinearità, comporta dei problemi di stabilità
numerica delle soluzioni.
Con determinante della matrice dei coefficienti prossimo a zero gli errori di troncamento potrebbero svolgere un ruolo determinante sul calcolo delle soluzioni del sistema di equazioni
normali.
Se le x sono standardizzate la matrice di varianze e covarianze S
è anche la matrice di correlazione, ed è data da:
S = XT X/n.
Quindi è lo stesso studiare la struttura di XT X o quella di S .
Dal momento che le x sono a media nulla e a varianza unitaria,
si avrà che combinazioni lineari delle x sono a media nulla, e inoltre:
dal momento che la somma degli autovalori di S è uguale alla sua
traccia (ossia alla somma delle varianze), è quindi uguale a k se si
lavora con variabili standardizzate
Occorre che le x siano standardizzate per poter valutare la grandezza di ciascun autovalore.
Infatti:
λi > 0i = 1, 2, . . . k;
(S è definita positiva e di rango pieno)
282
Materiale didattico statistica 3
Inoltre:
k
X
λi = k
i=1
Per cui gli autovalori sono limitati fra 0 e k:
k > λi > 0i = 1, 2, . . . k;
e
M (λi ) =
k
X
λi /k = 1
i=1
Nella situazione ideale di assenza di correlazioni fra le x si ha:
λ1 = λ 2 = . . . = λ k = 1
perché S = I
La situazione è ideale perché le stime dei regressori risultano non
correlate e le inferenze sui regressori sono indipendenti.
Si parla di multicollinearità quando, pur essendo la matrice S a
rango pieno, alcuni dei suoi autovalori sono molto vicini a zero,
avvicinandosi alla situazione estrema di collinearità esatta.
Questo si verifica quando qualcuna delle variabili x è quasi uguale
2002-3003 versione provvisoria
283
ad una combinazione lineare di alcune delle altre variabili X .
la situazione limite λk = 0 corrisponde al caso di rango inferiore
a k, ossia una variabile è esattamente combinazione lineare delle
altre (oppure q variabili sono combinazioni lineari delle altre se
λk−q+1 = λk−q+2 = . . . = λk = 0)
Nella regressione multipla ci interessa che la Y sia molto correlata con le X , ma è preferibile che le X siano poco correlate
internamente
Si riveda per analogia la parte relativa all’analisi delle componenti principali per vettori aleatori. Si riveda anche l’interpretazione dell’analisi in componenti principali per variabili statistiche
osservate.
Si riveda anche lo schema riportato in un capitolo precedente sull’influenza delle possibili configurazioni di matrice x sull’inferenza
nei modelli lineari.
Legami lineari fra regressori
Adesso esamineremo con dettaglio l’influenza delle correlazioni fra
i regressori nel caso generale: esistono infatti delle situazioni nelle
quali la presenza di correlazioni potrebbe essere importante anche
se non si è in una situazione di multicollinearità vera e propria; si
vedrà più avanti a proposito la relazione che lega la varianza delle
previsioni con la varianza degli stimatori.
Dall’equazione che definisce gli autovettori e gli autovalori della
matrice delle varianze e covarianze S (gli autovalori son proporzionali a quelli della matrice delle devianze e codevianze XT X, essendo X una matrice di variabili scartate dalle rispettive medie e
possibilmente standardizzate) si ha:
284
Materiale didattico statistica 3
Sγ j = (XT X/n)γ j = λj γ j ≈ 0seλj ≈ 0
(dato che tutti gli elementi di γ j , i-esimo autovettore sono compresi fra 0 e 1, per la condizione di normalizzazione γ Tj γ j = 1)
Allora premoltiplicando per γ Tj si ha:
(γ Tj XT Xγ j )/n = γ Tj λj γ j = λj ≈ 0
Poniamo:
√
uj = Xγ j / n
cosı̀ che uj è una combinazione lineare nelle X , e quindi:
(γ Tj XT Xγ j )/n = uTj uj = λj ≈ 0(per l’ipotesi fatta)
Allora se λj è piccolo si ha: il vettore uj è una combinazione
lineare delle X , con media zero e varianza molto piccola, per cui si
ha anche:
uj ≈ 0 ossia ⇒ Xγ j ≈ 0
Quindi esiste una combinazione lineare delle variabili quasi nulla Le variabili maggiormente coinvolte corrispondono ai più alti
coefficienti di γ j
ossia le variabili Xr corrispondenti ai più alti elementi γ rj ; avendo inteso le colonne della matrice Γ di elemento γ rj costituite dagli
autovettori di S
2002-3003 versione provvisoria
285
Si può giungere a questo tipo di risultato (ossia esistenza di combinazioni lineari quasi esatte fra i regressori), anche considerando
che in questo caso una o più variabili risulta combinazione lineare
quasi esatta delle altre, ossia avrà una dipendenza lineare elevata
dalle altre variabili, in termini di regressione multipla .
In effetti, ricordando le relazioni fra R2 e gli elementi dell’inversa
di S (si rivedano nella parte relativa alle distribuzioni condizionate
di v.a. normali), si può arrivare a:
Ri2 = 1/cii
Ri2 è il coefficiente di determinazione multipla di Xi rispetto alle
altre k − 1 variabili, ossia quanta variabilità di Xj è spiegata dalle
altre k − 1 variabili Xj (j 6= i)
cii è l’elemento diagonale di C , l’inversa di S
Ricordando anche che:
λj (C) = λj (S −1 ) = 1/λj (S);
si ha:
Ri2 = 1 − 1/cii ; 1/(1 − Ri2 ) = cii
quindi sommando queste ultime relazioni per tutte le variabili si ha:
k
X
i=1
1/(1 − Ri2 )
=
k
X
cii = tr[C] =
i=1
k
X
1/λi
i=1
Quindi se qualche autovalore è molto piccolo, la traccia di C è
molto grande e questo è direttamente collegato al fatto che qualche
correlazione multipla delle x è elevata.
CITARE OUTPUT DI STATISTICA
(ridondanza, etc.)
Conseguenze sulla distribuzione campionaria di b
V (b) = σ 2 (XT X)−1 = σ 2 (nS)−1 = S−1 (σ 2 /n) = C(σ 2 /n)
Quindi a parte il fattore (σ 2 /n) la struttura delle correlazioni interne fra gli elementi di b è funzione della struttura delle correlazioni
interne fra le X , e non dipende in alcun modo dalla variabile di risposta y : dipende solo dallo schema di valori assunti dai regressori
(siano essi osservati o prestabiliti prima di un esperimento).
286
Materiale didattico statistica 3
Si noti inoltre che invece le varianze dipendono al solito dai valori
osservati, attraverso il fattore (σ 2 /n)
k
X
V (bi ) = tr(V (b)) = tr(S−1 )(σ 2 /n) = (σ 2 /n)tr[C] == (σ 2 /n)
i=1
k
X
i=1
Quindi se vi è multicollinearità (ossia qualche λi molto piccolo) la traccia di C sarà elevata e quindi sarà elevata la somma delle varianze campionarie degli stimatori dei coefficienti di
regressione.
Sarà conseguentemente elevata anche la varianza di yi∗
Indici di multicollinearitá:
Pp
Ip = Pi=1
k
λj
i=1 λj
=
varianza delle prime p componenti
somma di tutte le varianze
Pp
Ip =
i=1 λj
k
nel caso di variabili standardizzate.
Più che regole automatiche, l’analisi grafica dell’andamento di
Ip al variare di p può guidare nell’analisi della multicollinearità in
insiemi di dati reali.
ESEMPI VARI
Collinearità: confronto fra k e k-1 regressori attraverso i λ
Costruzione di un stimatore distorto di β
Per esaminare meglio gli effetti della multicollinearità sulla varianza
campionaria dello stimatore b , si può sfruttare la decomposizione
spettrale o canonica della matrice S−1 , introdotta a proposito delle
proprietà degli autovalori e degli autovettori di matrici simmetriche:
S
−1
−1 T
= ΓΛ
Γ =
k
X
i=1
γ i γ Ti /λi
1/λi
2002-3003 versione provvisoria
287
mentre per la matrice originaria S abbiamo la decomposizione di
base:
T
S = ΓΛΓ =
k
X
λi γ i γ Ti
i=1
Se invece di prendere tutti i k termini di questa decomposizione,
ci limitiamo a prendere i primi q termini, otteniamo un’approssimazione della matrice S tanto migliore, quanto più sono piccoli gli
autovalori corrispondenti aai termini scartati:
T
S = ΓΛΓ =
k
X
λi γ i γ Ti
≈
i=1
q
X
λi γ i γ Ti = S(q)
i=1
in corrispondenza di questa approssimazione costruiamo una inversa modificata:
S
−1
=
k
X
γ i γ Ti /λi
i=1
→
q
X
−1
,
γ i γ Ti /λi = S(q)
i=1
in cui stavolta mancano i termini più elevati in valore assoluto.
(evidentemente le stesse scomposizioni, a meno del fattore n, si
possono fare sulla matrice XT X)
Pertanto, se invece di b si definisse:
b0 = S−1
XT y/n
(q)
si otterrebbe uno stimatore distorto ma con minore varianza!
Infatti:
controllare bene il seguito
E(b0 ) = S−1
XT (Xβ) =
(q)
S−1
(XT X)β = (S−1
/n)(nS(q) + R(q))β =
(q)
(q)
q
X
i=1
γ i γ Ti /λi (λi γ i γ Ti ) +
k
X
λi γ i γ Ti
i=q+1
A parte l’eventuale impiego effettivo di questo stimatore, l’utilità
della sua introduzione sta nell’esplicitazione del legame fra distorsione e varianza campionaria degli stimatori di β .
288
9.2.1
Materiale didattico statistica 3
Esempi (sulla collinearità e simili)
Figura da inserire ESECOLL2.RTF esecollinear2.STA esecoll2.stg
dove sono???
9.3
La scelta delle variabili nella regressione lineare multipla.
Motivazioni
Si è detto prima di sottoinsiemi di variabili predittive stabiliti a
priori e quindi senza riferimento ai particolari dati osservati. Spesso
però, date k variabili esplicative, si vuole scegliere un sottoinsieme di
q di tali variabili con diverse finalità: per effettuare stime o previsioni
statistiche a costo inferiore, riducendo il numero di variabili che
occorrerà rilevare in futuri studi.
Per migliorare l’accuratezza delle previsioni eliminando variabili poco informative o comunque poco rilevanti ai fini della previsione di E [y] per descrivere un data-set multivariato, o comunque
una relazione multipla in modo parsimonioso e con pochi parametri.
per stimare coefficienti di regressione con errori standard piccoli, in
particolare se alcuni dei regressori sono molto correlati.
Stime carenti dei coefficienti possono portare buone stime predittive (ossia al solo scopo di stimare valori di y o di E [y]).
Strategie di scelta
La strategia complessiva della scelta di variabili si può articolare in
alcune fasi generali:
• decidere quali sono le variabili che costituiscono l’insieme più
ampio dei k regressori (e quindi procedere alla rilevazione)
• trovare uno o più sottoinsiemi di variabili che spiegano bene la
variabile di risposta;
• applicare una regola di arresto per decidere quante variabili
esplicative (regressori) usare;
• stimare i coefficienti di regressione
• saggiare la bontà del modello ottenuto (analisi dei residui, aggiunta di nuove variabili, aggiunta di termini polinomiali, etc.).
2002-3003 versione provvisoria
289
Per quanto riguarda il punto b), possiamo esplicitarlo in questo
modo:
fissato un numero di regressori ridotto, diciamo p, quale dei k Cq
sottoinsiemi dei k regressori originari scegliere?
Sembra logico, e comunque più semplice, almeno in prima istanza,
scegliere quello che fornisce la maggior quota di varianza spiegata,
ossia il maggiore fra gli R2 ;
In aggiunta a questo criterio di massimizzazione globale, avendo
fissato q, si può comunque pensare a scopo esplorativo di prendere
in esame alcuni sottoinsiemi che forniscono le soluzioni migliori.
Occorrerà possibilmente un qualche algoritmo per ridurre il numero di R2 da calcolare.
Fonti di distorsioni
Le distorsioni nella stima dei coefficienti sono dovute a due diverse
fonti:
una distorsione dovuta all’avere omesso variabili, di ui è possibile
fornire una valutazione (in termini di deviazione dal modello completo) una distorsione dovuta al procedimento di selezione, che non
viene in generale fatto indipendentemente dai dati; in altri termini
i dati mediante i quali si stimano i coefficienti sono gli stessi che
hanno portato alla selezione di un particolare sottoinsieme.
quest’ultima distorsione, dovuta alla selezione, può essere distinta
in due ulteriori componenti: una dovuta alla scelta fra sottoinsiemi
delle stesse dimensioni l’altra dovuta alla regola di arresto impiegata
per scegliere il numero q migliore di regressori. Queste ultime fonti
di distorsione in generale non sono valutabili con precisione.
Criteri di scelta
Che criterio usare per scegliere il numero p più opportuno di variabili
da includere nel modello?
Si tenga presente che se Ap è l’insieme ottimo di p variabili e
Ap+1 è l’insieme ottimo con p + 1 variabili, si ha sempre:
Ry2 (Ap )(Ry2 (Ap+1 )
(l’uguaglianza in effetti vale solo in caso di collinearità esatta, che a
rigore abbiamo escluso se S è di rango pieno).
Inoltre se Iq+1 è un insieme con p+1 variabili e se IpT è un suo sottoinsieme, ossia un insieme di p variabili ottenuto da Iq+1 eliminando
290
Materiale didattico statistica 3
una variabile, si ha ancora:
Ry2 (IpT )(Ry2 (Ip+1 ).
Eventuali test F condotti sugli R2 saranno comunque distorti, almeno in termini di livelli di significatività.
Infatti la devianza che si mette a numeratore non è calcolata su
un set dato a priori, ma in base al fatto che il residuo sia il più basso
possibile.
Algoritmi di scelta delle variabili.
Si possono comunque avere diversi algoritmi di scelta di variabili, a
prescindere dal problema della scelta di q.
Tutte le regressioni possibili
Selezione in avanti (forward selection)
Selezione all’indietro, o eliminazione (backward selection);
Regressione passo (stepwise regression)
(algoritmi di sostituzione).
Il metodo di tutte le regressioni possibili prevede l’esame di tutti
k
i 2 − 1 possibili sottoinsiemi di variabili;
k
(2 − 1 =
k
X
k Cp )
p=1
Computazionalmente oneroso, sebbene esistano ora degli algoritmi
di ricerca che consentono di limitare il numero dei confronti, pur
trovando l’ottimo assoluto per ciascun numero di regressori q.
Un problema interpretativo si ha quando si ottengono soluzioni
non nidificate: alcuni software (S-Plus, per esempio) possono fornire
oltre l’ottimo assoluto per ciascun valore di p, anche un certo numero
di soluzioni sub-ottimali, ossia gli r migliori sottoinsiemi.
Metodi che conducono ad ottimi locali
Il metodo della selezione in avanti prevede di partire da un modello
senza regressori, e di introdurli uno alla volta secondo che producano
il valore più elevato fra i test F.
Evidentemente si trovano soluzioni sub-ottimali, e si rischia di
non prendere mai in esame simultaneamente determinati sottoinsiemi di regressori.
2002-3003 versione provvisoria
291
Il metodo della selezione all’indietro, consiste nel partire dal modello completo, e ad ogni passo si elimina la variabile cui corrisponde
il valore di F più basso.
Anche questo fornisce soluzioni sub-ottimali; tuttavia è molto
usato e abbastanza ben interpretabile, in quanto prende comunque
in esame una volta tutte le variabili simultaneamente;
inoltre fornisce una graduatoria delle variabili in ordine decrescente di importanza secondo l’ordine di eliminazione;
Il metodo stepwise unisce le due tecniche prima menzionate:
si parte da un modello senza regressori e si segue la tecnica della
selezione in avanti; ad ogni passo con una nuova variabile introdotta,
si riesamina l’insieme delle variabili introdotte, per vedere se si può
eliminarne qualcuna (con procedura backward); successivamente i
continua con la selezione in avanti fino a che non si effettuano più
modifiche dell’insieme di repressori:
test di ingresso: F > Fin
test di uscita: F < Fout
Questa tecnica, che risale al 1960, essenzialmente rispondeva all’esigenza pratica di non prendere in esame simultaneamente grossi
insiemi di regressori; inoltre nella versione originaria considerava la
possibilità di valutare le varie inverse e determinanti di ogni passo
a partire da quelli trovati al passo precedente.
Distorsione degli stimatori con modelli ridotti
Come si è visto:
E(yi ∗) = E(x(i)T b) = x(i)T β = E(yi )
V (yi ∗) = V (x(i)T b) = x(i)T V (b)x(i) = σ 2 x(i)T (XT X)−1 x(i)
Ovviamente questa relazione presuppone la correttezza del modello; se adesso prendiamo in considerazione la possibilità di lavorare con modelli distorti, vediamo cosa succede all’errore quadratico
medio della singola previsione:
E.q.m(yi ∗) = E(x(i)T (b−β))2 = Ex(i)T [(b − E(b)) + (E(b) − β)]2 =
Ex(i)T V (b)x(i) + x(i)T x(i) (E(b) − β)2 .
292
Materiale didattico statistica 3
Vediamo ora cosa accade per la media di tutti gli e.q.m. di
previsione, almeno per i valori effettivamente osservati:
n
X
???xi
i=1
errore quadratico medio degli stimatori
Figura da inserire LUCIDI SCRITTI A MANO
cenni al Cp di Mallows
9.3.1
Esempio di correlazioni osservate fra molte variabili
Quando si rilevano molte variabili su n soggetti, in particolare in
studi osservazionali, è possibile rilevare nella fase esplorativa delle
correlazioni, sia semplici che multiple, anche molto consistenti, semplicemente per effetto di fluttuazioni campionarie dovute al cercare
correlazioni empiriche alte in una matrice di correlazione con molti
elementi.
Infatti si supponga per semplicità che la matrice n×p delle osservazioni costituisca un campione (multivariato) di ampiezza n proveniente da una distribuzione normale multivariata a p componenti
indipendenti, e quindi con correlazioni lineari teoriche ρij = 0 ;
semplicemente per il fatto che nella matrice di correlazione stimata
p × p si avranno p(p − 1)/2 indici rij empirici di correlazione lineare,
stime di massima verosimiglianza delle corrispondenti correlazioni
lineari ρij della popolazione multinormale di provenienza (sebbene
tali p(p−1)/2 non siano indipendenti perché calcolate su p variabili):
Il più grande di tali indici chiaramente ha una distribuzione campionaria che non ha come valore atteso il valore teorico ρij = 0
.
Per un rij qualsiasi vale l’usuale trasformazione:
s
rij
n−2
2
1 − rij
che si distribuisce come una t di student, con n − 2 gradi di
libertà, quando ρij = 0 , tuttavia in questo caso stiamo scegliendo
dalla matrice di correlazione l’elemento (o gli elementi) più grande,
per cui non valgono i normali risultati sulla distribuzione di rij .
Esempio:
2002-3003 versione provvisoria
293
Da una distribuzione normale multivariata con 30 componenti
indipendenti e standardizzate è stato estratto un campione di 100
osservazioni (la matrice dei dati è stata costruita per simulazione,
ossia mediante generazione di numeri pseudo-casuali). Dal campione
di osservazioni, con n = 100 e p = 30 è stata calcolata la matrice
delle stime delle correlazioni lineari:
X1
X2
X3
X4
X5
X6
X7
X8
X9
X10
X11
X12
X13
X14
X15
X16
X17
X18
X19
X20
X21
X22
X23
X24
X25
X26
X27
X28
X29
X30
X1
1.00
-.07
-.03
-.13
.08
-.10
-.04
.06
.15
-.08
-.00
-.02
-.03
.00
-.03
.08
.20
-.02
.22
.19
.03
-.18
.04
-.05
.02
-.08
.00
-.02
.09
.10
X2
-.07
1.00
-.00
.03
.07
.07
.02
.04
-.00
.01
-.25
.05
-.14
.01
-.02
.00
-.04
-.06
-.04
-.04
.06
-.03
-.13
.10
-.01
.16
.07
-.03
-.02
-.01
X3
-.03
-.00
1.00
.14
-.09
-.02
-.01
.08
.16
-.04
-.08
-.02
-.08
.04
-.05
-.19
.05
.05
-.08
.08
-.11
.14
.04
-.06
-.08
-.12
-.08
.03
-.07
.13
X4
-.13
.03
.14
1.00
-.13
.07
.18
-.14
.18
-.12
-.05
-.03
-.09
.10
.15
-.13
.06
.03
.02
-.13
-.09
.01
.05
-.03
-.05
-.01
-.09
-.03
-.04
-.17
X5
.08
.07
-.09
-.13
1.00
.02
.02
-.10
.06
.03
-.08
.01
-.02
-.17
.12
.05
-.08
-.03
.01
.01
.10
.12
.04
-.05
-.00
.12
-.12
.12
-.13
.08
X6
-.10
.07
-.02
.07
.02
1.00
-.01
-.17
-.01
.00
.03
.13
.04
.02
.03
.04
-.13
-.13
.19
-.06
.06
-.05
-.18
-.11
-.14
.13
-.10
-.22
.06
-.14
X7
-.04
.02
-.01
.18
.02
-.01
1.00
-.05
-.05
.09
-.04
-.04
.02
-.09
.02
-.09
.14
-.09
-.05
-.03
.12
.02
.14
.13
.08
-.10
-.01
.03
-.03
-.05
X8
.06
.04
.08
-.14
-.10
-.17
-.05
1.00
.05
-.02
-.04
-.01
-.18
-.03
.03
.03
-.05
.26
.02
.23
-.23
.12
.10
.00
-.09
-.16
.05
-.05
-.06
-.06
X9
.15
-.00
.16
.18
.06
-.01
-.05
.05
1.00
.08
.09
-.20
-.05
-.01
.00
-.18
.01
.10
-.09
.01
-.27
-.13
.05
-.13
-.08
-.06
.01
-.09
-.14
.16
X10
-.08
.01
-.04
-.12
.03
.00
.09
-.02
.08
1.00
.16
-.18
-.01
.04
.14
-.03
-.01
-.07
-.13
-.07
-.08
.02
.08
.06
-.14
.00
-.01
-.00
-.17
.03
X11
-.00
-.25
-.08
-.05
-.08
.03
-.04
-.04
.09
.16
1.00
-.23
.04
-.08
-.20
-.03
-.03
.10
.04
-.10
.04
-.13
.17
-.01
-.11
.13
.00
-.20
.00
-.11
X12
-.02
.05
-.02
-.03
.01
.13
-.04
-.01
-.20
-.18
-.23
1.00
.25
.09
.05
.09
.00
.08
.21
-.11
.20
-.06
.19
.07
.15
-.07
.08
-.07
-.01
.00
X13
-.03
-.14
-.08
-.09
-.02
.04
.02
-.18
-.05
-.01
.04
.25
1.00
-.10
-.17
.25
.02
-.00
.23
-.09
.09
-.15
-.11
-.11
.06
.01
.11
-.03
-.07
.03
X14
.00
.01
.04
.10
-.17
.02
-.09
-.03
-.01
.04
-.08
.09
-.10
1.00
-.02
-.01
.02
.10
.00
.15
-.02
.17
-.11
.01
.17
-.07
.09
.02
-.08
.16
X15
-.03
-.02
-.05
.15
.12
.03
.02
.03
.00
.14
-.20
.05
-.17
-.02
1.00
.12
.00
.01
.04
.03
-.17
.07
.03
.13
.01
.02
-.03
.02
.04
-.02
294
X1
X2
X3
X4
X5
X6
X7
X8
X9
X10
X11
X12
X13
X14
X15
X16
X17
X18
X19
X20
X21
X22
X23
X24
X25
X26
X27
X28
X29
X30
Materiale didattico statistica 3
X16
.08
.00
-.19
-.13
.05
.04
-.09
.03
-.18
-.03
-.03
.09
.25
-.01
.12
1.00
-.05
.02
.26
-.02
.20
-.12
-.01
.11
-.02
-.14
.06
-.12
.14
.08
X17
.20
-.04
.05
.06
-.08
-.13
.14
-.05
.01
-.01
-.03
.00
.02
.02
.00
-.05
1.00
.01
.10
.02
.20
-.20
-.08
.10
.16
-.15
-.05
-.02
-.11
.11
X18
-.02
-.06
.05
.03
-.03
-.13
-.09
.26
.10
-.07
.10
.08
-.00
.10
.01
.02
.01
1.00
-.01
-.11
-.16
.02
.01
.01
-.06
-.10
.14
.08
-.18
-.00
X19
.22
-.04
-.08
.02
.01
.19
-.05
.02
-.09
-.13
.04
.21
.23
.00
.04
.26
.10
-.01
1.00
-.03
.05
-.13
-.06
.10
.13
-.26
-.11
-.02
.00
-.05
X20
.19
-.04
.08
-.13
.01
-.06
-.03
.23
.01
-.07
-.10
-.11
-.09
.15
.03
-.02
.02
-.11
-.03
1.00
-.13
.07
.02
.03
-.10
.05
-.10
.10
.12
.07
X21
.03
.06
-.11
-.09
.10
.06
.12
-.23
-.27
-.08
.04
.20
.09
-.02
-.17
.20
.20
-.16
.05
-.13
1.00
.14
.01
-.00
.23
.11
.11
-.06
-.08
-.06
X22
-.18
-.03
.14
.01
.12
-.05
.02
.12
-.13
.02
-.13
-.06
-.15
.17
.07
-.12
-.20
.02
-.13
.07
.14
1.00
.04
-.01
.12
.11
-.06
.22
-.18
.02
X23
.04
-.13
.04
.05
.04
-.18
.14
.10
.05
.08
.17
.19
-.11
-.11
.03
-.01
-.08
.01
-.06
.02
.01
.04
1.00
.20
.05
-.20
-.16
.19
-.06
-.08
X24
-.05
.10
-.06
-.03
-.05
-.11
.13
.00
-.13
.06
-.01
.07
-.11
.01
.13
.11
.10
.01
.10
.03
-.00
-.01
.20
1.00
.08
-.12
.12
.04
-.15
.02
X25
.02
-.01
-.08
-.05
-.00
-.14
.08
-.09
-.08
-.14
-.11
.15
.06
.17
.01
-.02
.16
-.06
.13
-.10
.23
.12
.05
.08
1.00
-.08
.01
.13
-.24
-.04
X26
-.08
.16
-.12
-.01
.12
.13
-.10
-.16
-.06
.00
.13
-.07
.01
-.07
.02
-.14
-.15
-.10
-.26
.05
.11
.11
-.20
-.12
-.08
1.00
-.05
.04
.05
-.04
X27
.00
.07
-.08
-.09
-.12
-.10
-.01
.05
.01
-.01
.00
.08
.11
.09
-.03
.06
-.05
.14
-.11
-.10
.11
-.06
-.16
.12
.01
-.05
1.00
-.21
-.01
.07
X28
-.02
-.03
.03
-.03
.12
-.22
.03
-.05
-.09
-.00
-.20
-.07
-.03
.02
.02
-.12
-.02
.08
-.02
.10
-.06
.22
.19
.04
.13
.04
-.21
1.00
.02
-.13
X29
.09
-.02
-.07
-.04
-.13
.06
-.03
-.06
-.14
-.17
.00
-.01
-.07
-.08
.04
.14
-.11
-.18
.00
.12
-.08
-.18
-.06
-.15
-.24
.05
-.01
.02
1.00
.02
X30
.10
-.01
.13
-.17
.08
-.14
-.05
-.06
.16
.03
-.11
.00
.03
.16
-.02
.08
.11
-.00
-.05
.07
-.06
.02
-.08
.02
-.04
-.04
.07
-.13
.02
1.00
2002-3003 versione provvisoria
X1
X2
X3
X4
X5
X6
X7
X8
X9
X10
X11
X12
X13
X14
X15
X16
X17
X18
X19
X20
X21
X22
X23
X24
X25
X26
X27
X28
X29
X30
X1
1.00
-.07
-.03
-.13
.08
-.10
-.04
.06
.15
-.08
-.00
-.02
-.03
.00
-.03
.08
.20
-.02
.22
.19
.03
-.18
.04
-.05
.02
-.08
.00
-.02
.09
.10
X2
-.07
1.00
-.00
.03
.07
.07
.02
.04
-.00
.01
-.25
.05
-.14
.01
-.02
.00
-.04
-.06
-.04
-.04
.06
-.03
-.13
.10
-.01
.16
.07
-.03
-.02
-.01
X3
-.03
-.00
1.00
.14
-.09
-.02
-.01
.08
.16
-.04
-.08
-.02
-.08
.04
-.05
-.19
.05
.05
-.08
.08
-.11
.14
.04
-.06
-.08
-.12
-.08
.03
-.07
.13
X4
-.13
.03
.14
1.00
-.13
.07
.18
-.14
.18
-.12
-.05
-.03
-.09
.10
.15
-.13
.06
.03
.02
-.13
-.09
.01
.05
-.03
-.05
-.01
-.09
-.03
-.04
-.17
295
X5
.08
.07
-.09
-.13
1.00
.02
.02
-.10
.06
.03
-.08
.01
-.02
-.17
.12
.05
-.08
-.03
.01
.01
.10
.12
.04
-.05
-.00
.12
-.12
.12
-.13
.08
X6
-.10
.07
-.02
.07
.02
1.00
-.01
-.17
-.01
.00
.03
.13
.04
.02
.03
.04
-.13
-.13
.19
-.06
.06
-.05
-.18
-.11
-.14
.13
-.10
-.22
.06
-.14
X7
-.04
.02
-.01
.18
.02
-.01
1.00
-.05
-.05
.09
-.04
-.04
.02
-.09
.02
-.09
.14
-.09
-.05
-.03
.12
.02
.14
.13
.08
-.10
-.01
.03
-.03
-.05
X8
.06
.04
.08
-.14
-.10
-.17
-.05
1.00
.05
-.02
-.04
-.01
-.18
-.03
.03
.03
-.05
.26
.02
.23
-.23
.12
.10
.00
-.09
-.16
.05
-.05
-.06
-.06
X9
.15
-.00
.16
.18
.06
-.01
-.05
.05
1.00
.08
.09
-.20
-.05
-.01
.00
-.18
.01
.10
-.09
.01
-.27
-.13
.05
-.13
-.08
-.06
.01
-.09
-.14
.16
X10
-.08
.01
-.04
-.12
.03
.00
.09
-.02
.08
1.00
.16
-.18
-.01
.04
.14
-.03
-.01
-.07
-.13
-.07
-.08
.02
.08
.06
-.14
.00
-.01
-.00
-.17
.03
X11
-.00
-.25
-.08
-.05
-.08
.03
-.04
-.04
.09
.16
1.00
-.23
.04
-.08
-.20
-.03
-.03
.10
.04
-.10
.04
-.13
.17
-.01
-.11
.13
.00
-.20
.00
-.11
X12
-.02
.05
-.02
-.03
.01
.13
-.04
-.01
-.20
-.18
-.23
1.00
.25
.09
.05
.09
.00
.08
.21
-.11
.20
-.06
.19
.07
.15
-.07
.08
-.07
-.01
.00
X13
-.03
-.14
-.08
-.09
-.02
.04
.02
-.18
-.05
-.01
.04
.25
1.00
-.10
-.17
.25
.02
-.00
.23
-.09
.09
-.15
-.11
-.11
.06
.01
.11
-.03
-.07
.03
X14
.00
.01
.04
.10
-.17
.02
-.09
-.03
-.01
.04
-.08
.09
-.10
1.00
-.02
-.01
.02
.10
.00
.15
-.02
.17
-.11
.01
.17
-.07
.09
.02
-.08
.16
X15
-.03
-.02
-.05
.15
.12
.03
.02
.03
.00
.14
-.20
.05
-.17
-.02
1.00
.12
.00
.01
.04
.03
-.17
.07
.03
.13
.01
.02
-.03
.02
.04
-.02
296
X1
X2
X3
X4
X5
X6
X7
X8
X9
X10
X11
X12
X13
X14
X15
X16
X17
X18
X19
X20
X21
X22
X23
X24
X25
X26
X27
X28
X29
X30
Materiale didattico statistica 3
X16
.08
.00
-.19
-.13
.05
.04
-.09
.03
-.18
-.03
-.03
.09
.25
-.01
.12
1.00
-.05
.02
.26
-.02
.20
-.12
-.01
.11
-.02
-.14
.06
-.12
.14
.08
X17
.20
-.04
.05
.06
-.08
-.13
.14
-.05
.01
-.01
-.03
.00
.02
.02
.00
-.05
1.00
.01
.10
.02
.20
-.20
-.08
.10
.16
-.15
-.05
-.02
-.11
.11
X18
-.02
-.06
.05
.03
-.03
-.13
-.09
.26
.10
-.07
.10
.08
-.00
.10
.01
.02
.01
1.00
-.01
-.11
-.16
.02
.01
.01
-.06
-.10
.14
.08
-.18
-.00
X19
.22
-.04
-.08
.02
.01
.19
-.05
.02
-.09
-.13
.04
.21
.23
.00
.04
.26
.10
-.01
1.00
-.03
.05
-.13
-.06
.10
.13
-.26
-.11
-.02
.00
-.05
X20
.19
-.04
.08
-.13
.01
-.06
-.03
.23
.01
-.07
-.10
-.11
-.09
.15
.03
-.02
.02
-.11
-.03
1.00
-.13
.07
.02
.03
-.10
.05
-.10
.10
.12
.07
X21
.03
.06
-.11
-.09
.10
.06
.12
-.23
-.27
-.08
.04
.20
.09
-.02
-.17
.20
.20
-.16
.05
-.13
1.00
.14
.01
-.00
.23
.11
.11
-.06
-.08
-.06
X22
-.18
-.03
.14
.01
.12
-.05
.02
.12
-.13
.02
-.13
-.06
-.15
.17
.07
-.12
-.20
.02
-.13
.07
.14
1.00
.04
-.01
.12
.11
-.06
.22
-.18
.02
X23
.04
-.13
.04
.05
.04
-.18
.14
.10
.05
.08
.17
.19
-.11
-.11
.03
-.01
-.08
.01
-.06
.02
.01
.04
1.00
.20
.05
-.20
-.16
.19
-.06
-.08
X24
-.05
.10
-.06
-.03
-.05
-.11
.13
.00
-.13
.06
-.01
.07
-.11
.01
.13
.11
.10
.01
.10
.03
-.00
-.01
.20
1.00
.08
-.12
.12
.04
-.15
.02
X25
.02
-.01
-.08
-.05
-.00
-.14
.08
-.09
-.08
-.14
-.11
.15
.06
.17
.01
-.02
.16
-.06
.13
-.10
.23
.12
.05
.08
1.00
-.08
.01
.13
-.24
-.04
X26
-.08
.16
-.12
-.01
.12
.13
-.10
-.16
-.06
.00
.13
-.07
.01
-.07
.02
-.14
-.15
-.10
-.26
.05
.11
.11
-.20
-.12
-.08
1.00
-.05
.04
.05
-.04
X27
.00
.07
-.08
-.09
-.12
-.10
-.01
.05
.01
-.01
.00
.08
.11
.09
-.03
.06
-.05
.14
-.11
-.10
.11
-.06
-.16
.12
.01
-.05
1.00
-.21
-.01
.07
Inoltre nella tavola che segue sono riportati nella parte sinistra,
per ciascuna variabile, la minima e la massima correlazione lineare
rij ; nella parte destra si riporta per ciascuna variabile, il coefficiente
di determinazione multipla R2 che esprime la porzione di variabilità spiegata dalla regressione multipla (lineare) su tutte le altre 29
variabili:
X28
-.02
-.03
.03
-.03
.12
-.22
.03
-.05
-.09
-.00
-.20
-.07
-.03
.02
.02
-.12
-.02
.08
-.02
.10
-.06
.22
.19
.04
.13
.04
-.21
1.00
.02
-.13
X29
.09
-.02
-.07
-.04
-.13
.06
-.03
-.06
-.14
-.17
.00
-.01
-.07
-.08
.04
.14
-.11
-.18
.00
.12
-.08
-.18
-.06
-.15
-.24
.05
-.01
.02
1.00
.02
X30
.10
-.01
.13
-.17
.08
-.14
-.05
-.06
.16
.03
-.11
.00
.03
.16
-.02
.08
.11
-.00
-.05
.07
-.06
.02
-.08
.02
-.04
-.04
.07
-.13
.02
1.00
2002-3003 versione provvisoria
297
R2 (Var. Xi con tutte le
altre)
Min. rij
Max rij
X1
-.18
.22
X1
.249
X2
-.25
.16
X2
.211
X3
-.19
.16
X3
.164
X4
-.17
.18
X4
.336
X5
-.17
.12
X5
.222
X6
-.22
.19
X6
.288
X7
-.10
.18
X7
.183
X8
-.23
.26
X8
.364
X9
-.27
.18
X9
.306
X10
-.18
.16
X10
.259
X11
-.25
.17
X11
.427
X12
-.23
.25
X12
.434
X13
-.18
.25
X13
.380
X14
-.17
.17
X14
.303
X15
-.20
.15
X15
.280
X16
-.19
.26
X16
.367
X17
-.20
.20
X17
.301
X18
-.18
.26
X18
.271
X19
-.26
.26
X19
.384
X20
-.13
.23
X20
.265
X 21
-.27
.23
X 21
.442
X22
-.20
.22
X22
.355
X23
-.20
.20
X23
.419
X24
-.15
.20
X24
.253
X25
-.24
.23
X25
.296
X26
-.26
.16
X26
.352
X27
-.21
.14
X27
.252
X28
-.22
.22
X28
.344
X29
-.24
.14
X29
.320
X30
-.17
.16
X30
.261
298
Materiale didattico statistica 3
Ricordo che i valori critici di r ad un livello di significatività α
per un test bilaterale sono:
s
rα =
t2α
t2α + n − 2
essendo tα il valore critico ad un livello α per una t con n − 2
gradi di libertà.
Nel nostro caso, lavorando al 5
r
rα =
1.98452
= 0.197
1.98452 + 98
Per quanto riguarda R2 analogamente ricaviamo (dalla distribuzione F):
Rα2 =
kFα
kFα + n − k − 1
essendo k il numero dei regressori e Fα il valore critico ad un
livello α per una F di Snedecor con k ed n − k − 1 gradi di libertà.
Nel nostro caso:
Rα2 =
29x1.6294
= 0, 403
29x1.6294 + 70
Di seguito sono riportati anche gli autovalori ricavati dalle 30
variabili standardizzate:
2002-3003 versione provvisoria
299
C
omponenti principali
i
Autovalore
varianza
varianza cumulata
1
2.300
7.668
7.67
2
1.999
6.662
14.33
3
1.925
6.417
20.75
4
1.690
5.634
26.38
5
1.621
5.402
31.78
6
1.560
5.200
36.98
7
1.529
5.098
42.08
8
1.429
4.764
46.85
9
1.332
4.440
51.29
10
1.206
4.021
55.31
11
1.135
3.784
59.09
12
1.105
3.682
62.77
13
1.009
3.363
66.14
14
.968
3.227
69.36
15
.899
2.996
72.36
16
.885
2.949
75.31
17
.854
2.845
78.15
18
.824
2.745
80.90
19
.760
2.532
83.43
20
.740
2.466
85.90
21
.656
2.187
88.08
22
.583
1.945
90.03
23
.542
1.808
91.84
24
.527
1.756
93.59
25
.391
1.305
94.90
26
.380
1.267
96.16
27
.360
1.201
97.36
28
.323
1.078
98.44
29
.243
.811
99.25
30
.224
.747
100.00
300
9.3.2
Materiale didattico statistica 3
Esempi sulla regressione
\begin{fig} dati_reali\PUBTRAS_totale.STA
mostrare eventuali correlazioni spurie o insensate (nomi, cognomi, etc.)
dati_reali\correlazione_pubtras1.HTM
dati_reali\regmult_pubtras1.HTM
dati_reali\regmult_pubtras2.HTM
dati_reali\ese_regmul_pubtras1.RTF
dati_reali\REP_0011.STA dati cirpiet:
usare per non normalità provare anche a simulare l’estrazione di
campioni per far vedere la diversa influenza degli outlier.
\end{fig}
Capitolo 10
Stima dei parametri del
modello lineare (modelli a
rango non pieno):Analisi
della varianza
Per degli esempi di modelli lineari a rango non pieno è opportuno
rivedere la parte introduttiva sui modelli lineari, in particolare per
quanto riguarda le particolari configurazioni della matrice X .
10.1
Analisi della varianza
Se nel modello lineare la matrice X risulta a rango non pieno (perché
è stata volutamente strutturata in questo modo), per ottenere le stime dei parametri non si può procedere nel modo ordinario. Possibili
soluzioni:
Riparametrizzazione
link o riferimento
(vedere anche l’esempio che segue)
Aggiunta di altre equazioni (vincoli) sui parametri: ad esempio in
un modello di analisi della varianza ad una via in cui si è usata, per
comodità interpretativa, la parametrizzazione:
µj = µ + ηj ,
301
302
Materiale didattico statistica 3
si potrebbe aggiungere il vincolo:
µ=
k
X
µj nj /n
j=1
P
(che equivale a: kj=1 ηj nj = 0 );
Modifica della matrice X in modo da eliminare la singolarità
Uso dell’inversa generalizzata.
Inversa generalizzata
Questo approccio è utile da un punto di vista teorico per stabilire, se
possibile, il limite eventuale dell’analisi nel caso di rango non pieno
della matrice X .
Per far questo, indichiamo una delle soluzione dei minimi quadrati in modo generale, facendo ricorso all’inversa generalizzata:
b = (XT X)− XT y
tenendo presente che stavolta questa soluzione non è unica.
• In effetti dal punto di vista del calcolo non conviene ricorrere all’inversa generalizzata, piuttosto conviene aggiungere delle altre equazioni, o lasciare non specificati alcuni parametri
incogniti.
• tuttavia è una notazione qualche volta comoda, perché consente
di esaminare alcune proprietà degli stimatori.
• In questo corso di norma non verrà impiegato questo approccio,
importante tuttavia da segnalare.
Cenno alle funzioni stimabili
In effetti si può dimostrare che nei modelli a rango non pieno non
tutte le funzioni lineari dei parametri sono stimabili.
2002-3003 versione provvisoria
10.1.1
303
Analisi della varianza ad una via
Modelli ad effetti fissi:assunzioni di base
Il modello più semplice di analisi della varianza si ha per il modello
ad una via ad effetti fissi.
Per modello ad effetti fissi si intende un modello nel quale i
parametri incogniti, come fatto fino ad ora, rappresentano delle
costanti, sebbene non note.
In un modello ad effetti casuali invece i parametri, o almeno
alcuni di essi, sono delle realizzazioni di variabili casuali, per le
quali occorre ipotizzare un modello particolare.
Si ha un modello ad una via quando le n osservazioni sono suddivise in k gruppi secondo le k modalità di un criterio di classificazione
in generale qualitativo. Se il criterio di classificazione è quantitativo esiste la possibilità di effettuare analisi più forti di quelle che
vengono esposte in queste pagine, tenendo presenti le tecniche di
regressione lineare, come si vedrà più avanti.
Il modello per y :
yi = µj + εi i = 1, 2, . . . , n
Il modello per le medie:
µj = µ + ηj j = 1, 2, . . . , k
media gruppo j = media generale + effetto gruppo j Il modello
è detto a effetti fissi perché si suppone che le µj siano dei parametri
fissi, sebbene incogniti, relativi a k particolari gruppi.
In definitiva il modello per le osservazioni diventa:
yi = µ + ηj + εi µj = i = 1, 2, . . . , n; j = 1, 2, . . . , k
Osservazione = media generale + effetto gruppo j+errore accidentale
In effetti, per i motivi anticipati prima, occorre fissare un vincolo
sui parametri, dato che questa parametrizzazione (1 media generale
+ k effetti dei gruppi) ha introdotto un nuovo parametro; infatti
anche se i parametri adesso sono k +1 , in realtà la parte sistematica
304
Materiale didattico statistica 3
del modello è chiaramente dipende soltanto da k parametri degli
effetti medi.
Il vincolo che si impiega è:
µ=
k
X
µj nj /nequindi
j=1
k
X
ηj n j = 0
j=1
Non è una scelta univoca, ma presenta il vantaggio che, qualora
si ipotizzi assenza di effetti, la stima di µ sotto H0 coincide con
quella sotto H1 . Diversamente si potrebbe pensare ad un sistema di
vincoli più naturale, indipendente dalle ampiezze campionarie, con
pesi uguali:
µ=
k
X
j=1
µj /kequindi
k
X
ηj = 0.
j=1
Scopo dell’analisi è quello di fare inferenza sulle relazioni che
intercorrono fra le k medie delle popolazioni. In particolare si può
essere interessati a saggiare l’ipotesi che le k medie siano tutte uguali, contro un’alternativa generica che almeno una sia diversa dalle
altre: ipotesi di omogeneità:
H0 : µj = µj = 1, 2, . . . , k
(Le medie sono uguali ad un valore comune non specificato) equivalente a:
H0 : ηj = 0j = 1, 2, . . . , k,
(Gli effetti di gruppo sono tutti nulli)
questo tipo di impostazione, in termini di effetti, è utile in particolare con disegni di analisi della varianza a più vie.
P
In questo caso si ipotizza sempre un vincolo sui parametri: kj=1 ηj nj =
0 , in modo che questi risultino stimabili In questo modo si vede che
in entrambi i casi l’ipotesi nulla fissa k − 1 vincoli sui parametri.
L’ipotesi alternativa H1 consiste temporaneamente nella semplice
negazione di H0 . Impostato in questo modo il problema, si tratta
banalmente di un’estensione a k medie del test t per il confronto di
due medie mediante due campioni indipendenti.
Assunzioni fatte sulla componente accidentale; In corrispondenza delle ipotesi di base sulla distribuzione degli errori già fatte nel
contesto generale dei modelli lineari, si hanno le seguenti assunzioni
nell’analisi della varianza ad una via:
2002-3003 versione provvisoria
305
εi (N (0, σ 2 );
e quindi
yi (N (µj , σ 2 )conUi (Gj j = 1, 2, . . . , k
εi , εr indipendenti (sia se Ui e Ur appartengono allo stesso gruppo sia nel caso i gruppi siano diversi); è utile vedere adesso questa ipotesi generale di indipendenza scomposta in due assunzioni
particolari, con riferimento ai k campioni:
gli errori sono indipendenti all’interno dei k campioni (ciascun
gruppo è un campione casuale semplice);
i k campioni sono indipendenti.
Omoscedasticità;
Ipotesi di normalità.
(in effetti si potrebbe semplicemente assumere la non correlazione, e l’indipendenza scaturirebbe una volta fatta anche l’ipotesi di
normalità)
Si noti che le ultime due assunzioni (normalità e omoscedasticità)
riguardano esclusivamente le k popolazioni (o universi) teoriche e
non hanno relazione con il campionamento; le prime due assunzioni
riguardano invece le relazioni fra le unità e fra i campioni e sono
quindi collegati essenzialmente al meccanismo di acquisizione dei
dati. (in effetti, però, un qualche collegamento fra i due gruppi di
assunzioni esiste se per esempio si assume soltanto la non correlazione fra le osservazioni entro i campioni: se si assume anche la
normalità, questa implica l’indipendenza).
In pratica si sta ipotizzando che il modello da cui provengono i
dati è del tipo rappresentato nella figura che segue (se è vera l’ipotesi
nulla): Figura da inserire
FIG2000ANOVA1.STG
Se invece non vale l’ipotesi nulla di omogeneità delle medie, si
potrà avere una situazione come quella della figura che segue: Figura
da inserire
FIG2000ANOVA2H1.STG
In ogni caso si tratta di k popolazioni, normali, con la stessa varianza, per le quali l’eventuale effetto sperimentale (ossia l’appartenenza ad un particolare gruppo) comporta in sostanza semplicemente uno slittamento dell’intera distribuzione (o di più distribuzioni).
Figura da inserire
306
Materiale didattico statistica 3
FIG2000ANOVAH1.STG
Modelli ad effetti fissi:allontanamenti dalle assunzioni di base
In definitiva, come si è visto, se valgono le assunzioni di base, H0
consiste nell’ipotesi che le k popolazioni siano in tutto uguali, ossia
che i k campioni in realtà si possono considerare provenienti da
un’unica popolazione.
Se adesso supponiamo delle assunzioni meno rigide, possiamo ovviamente pensare di non far valere (o di rendere più flessibile) una
o più delle quattro ipotesi.
Qui esaminiamo soltanto alcune delle implicazioni poste dall’allontanamento dall’ipotesi di normalità o dall’ipotesi di omoscedasticità, lasciando ad altre sezioni la discussione sull’ipotesi di
indipendenza entro e fra i campioni.
Eteroscedasticità (varianze non omogenee) Evidentemente adesso, ammettendo comunque la normalità, anche se H0 è vera, le k popolazioni non saranno uguali; perché possono avere comunque delle
varianze differenti. Il problema di prova delle ipotesi più semplice,
ossia quello specificato da H0 , non implica più quindi l’uguaglianza
di k popolazioni, ma soltanto l’uguaglianza di k effetti medi.
Se il criterio di classificazione corrisponde a k trattamenti sperimentali, questa situazione corrisponde ad ammettere che i trattamenti possano provocare un alterazione nella variabilità fra i le
unità sperimentali.
In pratica il modello assunto è:
yi (N (µj , σj2 )conUi (Gj j = 1, 2, . . . , k
Ovviamente le varianze σj2 andranno stimate dai singoli campioni,
e costituiscono quindi degli ulteriori parametri di disturbo nell’inferenza sugli effetti medi; è noto inoltre che nella costruzione di un
test già nel caso di due campioni si ricade nel problema di Beherens
-Fisher. Figura da inserire
FIG2000ANOVA2.STG
Tuttavia è sempre possibile verificare preliminarmente l’adeguatezza dell’assunzione di omoscedasticità, per campioni costituiti da
osservazioni ripetute provenienti da k popolazioni normali. Più
2002-3003 versione provvisoria
307
avanti in questi appunti accenno il test più noto,il test di Bartlett,
basato sul rapporto fra le verosimiglianze.
Non normalità Occorrerebbe qua fare numerosissime distinzioni,
perché si hanno ovviamente infinite forme di allontanamento dalla
normalità. Qui elenco alcune delle situazioni più plausibili:
• k popolazioni non normali ma dello stesso tipo e tutte note
• k popolazioni non normali appartenenti alla stessa famiglia
parametrica, e dipendenti da uno o più parametri incogniti.
– Ad esempio le popolazioni potrebbero essere delle normali
di ordine p o delle uniformi
– Oppure potrebbero essere k distribuzioni gamma (con un
parametro da stimare)
– Oppure potrebbero essere k distribuzioni esponenziali
• k popolazioni non normali appartenenti ad un’unica famiglia
parametrica non nota.
• k popolazioni non normali appartenenti a diverse famiglie parametriche
10.1.2
Ipotesi di omogeneità delle medie: stimatori e test
corrispondenti.
Le stime di massima verosimiglianza dei parametri, in assenza di
vincoli sui parametri stessi ossia sotto H1 , si ottengono molto semplicemente considerando che i k campioni sono indipendenti e sono
costituiti da osservazioni indipendenti provenienti da universi normali. Quindi è ovvio che tali stimatori sono le medie aritmetiche Mj
delle nj osservazioni relative a ciascun campione (j = 1, 2, . . . , k) .
Tuttavia, se si vuole lavorare con la tecnica dei modelli lineari
generali, occorre considerare:
la matrice X , che è ora costituita dalle k colonne di appartenenza
delle n unità ai k gruppi:
308
Materiale didattico statistica 3











X=










1; 0; . . . ; 0

...;...;...;... 


1; 0; . . . ; 0



0; 1; . . . ; 0

...;...;...;... 



0; 1; . . . ; 0

...;...;...;... 



0; 0; . . . ; 1

...;...;...;... 

0; 0; . . . ; 1
la matrice XT X è chiaramente costituita da una matrice diagonale, con elemento generico sulla diagonale dato da nj (si riveda
lo schema del la matrice X riportato nell’introduzione dei modelli
lineari, e si verifichi tale relazione: si consideri che le colonne di X
sono ortogonali, per cui gli unici elementi non nulli nel prodotto
XT X , sono quelli corrispondenti agli elementi diagonali), per cui:


n1


X X = Diag(n1 , n2 , . . . , nk ) = 


T





n2
...
nk
Il vettore XT y è costituito dalle k somme delle osservazioni per
ciascun gruppo, ossia


n 1 M1


 ... 



XT y = (n1 M1 , n2 M2 , . . . , nk Mk )T = 
n
M
j
j




 ... 
n k Mk
per cui in definitiva si ha:
stime di massima verosimiglianza nell’analisi della varianza ad
una via:
b = (XT X)−1 XT y =
2002-3003 versione provvisoria
309
= Diag(n1 , n2 , . . . , nk )−1 (n1 M1 , n2 M2 , . . . , nk Mk )T =






−1
n1
n2





...
nk

n 1 M1


 ...

 n j Mj


 ...
n k Mk







M1


 ...

=
 Mj

 ...
Mk








La stima delle µj è dunque data dalle stime di massima verosimiglianza di ciascun campione Mj
La stima di massima verosimiglianza di σ 2 si ottiene nel modo
usuale con la tecnica generale adottata nei modelli lineari, ossia
dalla devianza residua (relativa al modello completo) diviso i gradi
di libertà corrispondenti.
M.Q . vincolati: Analisi della varianza ad una via .
La matrice X è composta da k colonne indicatrici dell’appartenenza
delle n unità a k gruppi disgiunti. La parametrizzazione più naturale
è quella in cui ogni parametro corrisponde al valor medio di Y in
ciascun gruppo:
β T = µ1 , . . . , µ j , . . . , µ k
L’ipotesi di interesse è:
H0 : β1 = β2 = . . . = βk
310
Materiale didattico statistica 3
Queste k − 1 uguaglianze corrispondono ad una scelta di C di k − 1
righe e k colonne:
vincolo
Gr.1 Gr.2 . . . Gr.J . . . Gr.K
1
1
0
...
0
...
−1
2
...
1
...
...
...
−1
0
0
...
0
0
−1
j
0
0
...
1
0
−1
...
...
...
...
...
...
−1
k−1
0
0
0
0
...
−1
...
C[k−1×k] =
con a = 0k−1
Scrivere ora Cβ = a è come scrivere:
µ1 − µk = µ2 − µk = . . . = µj − µk = . . . = µk−1 − µk = 0.
Che costituiscono (k − 1) vincoli sui parametri;
Occorre trovare la soluzione di massima verosimiglianza condizionatamente a tali vincoli (lineari)
In effetti per la stima dei parametri sotto H0 non conviene ricorrere alla tecnica generale di stima con vincoli lineari qualsiasi, ma
piuttosto ad un approccio diretto:
Infatti la matrice X nel modello specificato da H0 è composta da
una colonna di n valori uguali ad 1;


1


 1 



X=
.
.
.




 ... 
1
per cui è facile verificare che la soluzione è data da:
T
−1
b0 = (X X)
T
X y=
n
X
yi /n = M (Media generale)
i=1
D’altra parte è ovvio che sotto l’ipotesi nulla la stima di µ è data
dalla media generale, in quanto in questo caso l’ipotesi specifica che
la popolazione di provenienza è un’unica distribuzione normale, e
quindi deriva l’usuale risultato sullo stimatore di massima verosimiglianza. La stima di σ 2 sarà adesso costituita dalla devianza residua
sotto H0 , divisa per i gradi di libertà corrispondenti.
2002-3003 versione provvisoria
311
Scomposizione della varianza.
Secondo l’approccio generale scomponiamo la devianza della componente accidentale, R(β) . Si riveda eventualmente tale parte nei
modelli lineari.
Impiego qui la notazione yij per indicare la i -esima osservazione del j -esimo gruppo (diversa rispetto alla precedente convenzione, tuttavia questa notazione risulta più utile quando, come
adesso, un problema che è formalmente inquadrabile nell’ambito dei modelli lineari, è naturalmente interpretabile anche come
confronto fra k popolazioni diverse attraverso k campioni, da
cui l’esigenza del doppio indice, uno per le unità e l’altro per i
gruppi)
R(β) = R(b) + (b − β)T XT X(b − β)
Oppure :
(y − Xβ)T (y − Xβ) = (y − Xb)T (y − Xb) + (b − β)T XT X(b − β)
che nel nostro caso diventa:
nj
k X
X
j=1 i=1
2
(yij − µj ) =
nj
k X
X
2
(yij − Mj ) +
k
X
j=1 i=1
nj (µ − Mj )2
j=1
Con riferimento alle devianze residue si ha:
devianza residua sotto H1 :
R(b) =
nj
k X
X
(yij − Mj )2
j=1 i=1
devianza residua sotto H0 :
R(b0 ) =
nj
k X
X
(yij − M )2
j=1 i=1
e ricordando che b è costituito dal vettore delle k medie Mj e che
b0 è invece costituito dalla media generale M si ha:
312
Materiale didattico statistica 3
Scomposizione ricavata
dal caso di ipotesi di
vincoli lineari qualsiasi
della devianza sotto H0
(rivedere eventualmente)
devianza residua sotto
H1 .
devianza residua aggiuntiva dovuta ad H0
R(b0 ) = R(b)+(b−b0 )T XT X(b−b0 ) =
Pk Pnj
=
j=1
i=1 (yij −
2
Mj ) +
P
+ kj=1 nj (Mj − M )2
link o riferimento
VEDERE ANCHE TAVOLA RIPORTATA PIU’ AVANTI
Per la stima della varianza ovviamente si ha:
s2 (n − k)/σ 2 (χ2n−k
qualunque sia l’ipotesi vera
k
nj
devianzaentroigruppi X X
=
(yij − Mj )2 /(n − k)
s =
n−k
2
j=1 i=1
s2 è sempre una stima corretta della varianza
TAVOLA DI SCOMPOSIZIONE DELLA DEVIANZA EMPIRICA
(tavola dell’analisi della varianza)
2002-3003 versione provvisoria
FONTE
313
DEVIANZA
Pnj
2
j=1
i=1 (yij − M )
Pk Pnj
2
j=1
i=1 (yij − Mj )
Pk
2
j=1 nj (Mj − M )
Pk
TOTALE
ENTRO I GRUPPI
FRA I GRUPPI
g.d.l.
Valore atteso
Pk
j=1
n−1
n−k
k−1
(n − k)σ 2
P
(k − 1)σ 2 + kj=1 nj ηj2
devianza totale = devianza entro i gruppi+devianza fra i
Test F per la verifica dell’ipotesi di omogeneità delle medie:
Pk
nj (Mj −M )2
k−1
Pk Pnj
2
i=1 (yij −Mj )
j=1
n−k
j=1
gruppi
F =
Secondo quanto già visto nell’analisi del modello lineare generale,
sotto l’ipotesi nulla di omogeneità fra le medie, questo rapporto F
si distribuisce come una v.c. F di Snedecor con (k − 1) e (n − k)
gradi di libertà. La distribuzione di F sotto H1 é quella di una F
non centrale con (k − 1) e (n − k) gradi di libertà, e parametro di
P
non centralità kj=1 nj ηj2 .
E’ facile vedere che esiste una relazione fra questo rapporto F ed
2
il rapporto di correlazione, ηyx = σσmy
(o meglio il suo quadrato ηyx
y
) impiegato come indice per misurare, in una tavola di contingenza
con un carattere quantitativo y ed un carattere qualsiasi X , la
dipendenza in media della variabile quantitativa y dalla variabile
2 , che varia fra 0 ed
(qualitativa o quantitativa) X . L’indice ηyx
2
1, infatti é costruito come rapporto fra σmy varianza tra le medie
parziali di y e σy2 , varianza totale di y , ossia sempre quantità che
compaiono nella tavola di analisi della varianza.
Ricordando che:
2
σmy
=
k
X
j=1
2
nj (Mj − M )
/neσy2
=
nj
k X
X
j=1 i=1
(yij − M )2 /n
Stima della
Pnj
i=1
Pnn−
j
i=1 (
j=1
n−
Pk
j=1 nj (M
k−
Pk
314
Materiale didattico statistica 3
2
ηyx
2
σmy
= 2
σy
si ha:
Pk
nj (Mj −M )2
k−1
Pk Pnj
2
i=1 (yij −Mj )
j=1
n−k
j=1
F =
=
Pk
nj (Mj −M )2
k−1
Pk Pnj
P
(y
−M
)2 − kj=1 nj (Mj −M )2 ]
ij
i=1
j=1
n−k
j=1
=
=
Dividendo ora numeratore e denominatore per nσy2 , si ha subito:
F =
1−
2
σmy
(k−1)σy2
2 ;
σmy
/(k
σy2
=
− 1)
2
[n − k]ηyx
2 )
[k − 1](1 − ηyx
Pertanto, anche se non è molto rigoroso, si potrebbe vedere il
test F come un test per saggiare la significatività di un rapporto di
correlazione.
Formule per il calcolo Come già visto in altre occasioni, e come
è noto in generale per il calcolo dei momenti con origine la media
aritmetica, è possibile calcolare le tre devianze necessarie per la costruzione della tavola esprimendo le somme dei quadrati degli scarti
(momenti con origine la media) in funzione di somme di quadrati
(momenti con origine zero); riassumiamo di seguito tutte le formule
utili per il calcolo delle quantità necessarie nell’analisi della varianza
a una via.
Formule elementari per l’analisi della varianza ad una via
2002-3003 versione provvisoria
315
Numerosità totale
N=
j=1 nj ;
P
nj
yij
Mj = i=1
nj
Pk Pnj
yij
M j=1 N i=1
=
j = 1, 2, . . . , k
Pnj
(yij − M )2 =
j=1
Pk Pni=1
j
2
j=1
i=1 (yij − Mj ) =
Pk
2
j=1 nj (Mj − M )
Pnj 2
yij − N M 2
j=1
Pk Pnj i=1
Pk
2
2
j=1
j=1 nj Mj
i=1 yij −
Pk
2
2
j=1 nj Mj − N M
Media del gruppo j
Media generale =
Devianza TOTALE =
ENTRO I GRUPPI:
FRA I GRUPPI
Pk
Pk
Pk
Pk
Le tre quantità essenziali per il calcolo delle devianze interne sono
dunque:
nj
k X
X
2
yij
;
j=1 i=1
k
X
nj Mj2 =
j=1
nj
k
X
X
j=1
2
!
2
yij
/nj
i=1
NM = (
nj
k X
X
nj Mj
N
j=1
yij )2 /N
j=1 i=1
Chiaramente queste formule sono utili per il calcolo manuale delle devianze, mentre è ovvio, come già accennato altre volte, che
nella pratica si farà uso di software statistico, programmato da sé
o presente in software commerciale, con il quale presumibilmente
(e auspicabilmente) lo studente sarà già familiare, e che senz’altro
sarà indispensabile nella pratica quotidiana di soluzione di problemi
reali.
In effetti, per esperienza personale, suggerisco allo studente di
effettuare qualche esercizio di analisi della varianza (magari relativi
a data-set poco numerosi, con soltanto con qualche decina di dati)
316
Materiale didattico statistica 3
esclusivamente con una calcolatrice da tavolo, impiegando le formule
sopra riportate.
Sebbene io abbia volutamente trascurato volutamente di affrontare problemi di tipo numerico e/o computazionale, va detto che
le formule sopra riportate presentano il vantaggio di leggere i dati
una sola volta, il che risulta utile per insiemi di dati molto numerosi o registrati su supporti a bassa velocità di accesso; questa
maggiore velocità di calcolo viene compensata da una possibile
perdita in precisione numerica, dal momento che le somme di
quadrati conterranno numeri più grandi che non le somme di
quadrati di scarti.
Considerazioni simili valevano anche per il calcolo dei momenti bivariati (covarianze) necessari per il calcolo della matrice di
correlazione.
Un modo conveniente di memorizzare i dati è quello di scrivere in
una colonna tutte le osservazioni campionarie yij , ed in una colonna
affiancata un numero, una lettera o anche una sigla alfanumerica
identificativa del gruppo di appartenenza.
In effetti il più delle volte li si troverà già in questa forma, all’interno di databases con un numero di colonne anche molto
maggiore di due!!
INSERIRE ESEMPIO
INSERIRE ESEMPIO
INSERIRE ESEMPIO
L’analisi della varianza come confronto fra stime di varianze
Presentiamo in questo paragrafo un modo leggermente diverso di
impostare l’analisi della varianza ad una via, direttamente come
problema di confronto fra varianze campionarie, che mette in luce
il ruolo fondamentale dello studio della variabilità fra i gruppi per
analizzare l’eterogeneità di un gruppo di medie campionarie.
2002-3003 versione provvisoria
317
Se l’ipotesi nulla di omogeneità delle medie è vera posso stimare
la varianza in due modi diversi:
mediante le singole osservazioni, attraverso la solita quantità:
2
s =
nj
k X
X
(yij − M )2 /(n − k)
j=1 i=1
(che è una stima corretta della varianza anche sotto H1 ); mediante il campione di k medie (ma solo sotto H0 ); infatti supponiamo
per semplicità che i k campioni siano tutti di numerosità nj = m .
Allora ciascuna media Mj è una variabile casuale con distribuzione
normale di parametri µj e σ 2 /m . Se però H0 è vera le k medie
provengono tutte dalla stessa popolazione normale di parametri µ
e σ 2 /m , e quindi costituiscono un campione casuale semplice (di
ampiezza k ) da una normale, per cui si può stimare il parametro
σ 2 /m attraverso la varianza campionaria:
s2M =
k
X
(Mj − M )2 /(k − 1)
j=1
E’ facile vedere che ms2M è uno stimatore di σ 2 e che quindi il
rapporto
ms2M /s2
(che è proprio il rapporto F visto nelle pagine precedenti) si
distribuisce sotto l’ipotesi nulla di omogeneità fra le medie, come
una F di Snedecor, in quanto rapporto di due stimatori corretti (e
indipendenti) di σ 2 . Figura da inserire
fminoredi1.bmp
Valore di F inferiore ad uno.
E se il test F risulta inferiore ad 1? E’ un caso? Occorre fare qualche
considerazione particolare o ci limitiamo a dire che non c’è evidenza
contro H0 ?
A rigore non dovrebbe importare, perché la zona di rifiuto del test
è nella coda destra della distribuzione; tuttavia, per il ragionamento fatto nella sezione precedente, ciò significherebbe che la varianza
stimata attraverso le medie è molto più bassa di quella sperimentale, mentre dovrebbero essere sotto H0 al più dello stesso ordine
318
Materiale didattico statistica 3
di grandezza; in effetti nell’AOV la varianza sperimentale rappresenta il metro secondo cui giudichiamo la variabilità fra le medie.
In sostanza se F è minore di 1, o addirittura molto più piccolo, ciò
vuol dire che la variabilità misurata attraverso le medie degli effetti
è inferiore a quella sperimentale. Questo potrebbe essere un indizio
di cattiva pianificazione dell’esperimento. Oppure qualche fattore di
variazione è stato erroneamente trascurato, e la varianza sperimentale é sovrastimata, e quindi s2 non é un metro adatto per misurare
la variabilità fra le medie degli effetti.
10.1.3
Divergenza dalla linearità per fattori quantitativi
nell’analisi della varianza.
Figura da inserire box plot e introduzione generale al problema.
Riprendiamo in esame la tavola di analisi della varianza per un
criterio di classificazione qualitativo: TAVOLA DI SCOMPOSIZIONE DELLA DEVIANZA EMPIRICA
DEVIANZA
Pnj
2
j=1
i=1 (yij − M )
Pk Pnj
2
j=1
i=1 (yij − Mj )
P
k
2
j=1 nj (Mj − M )
Pk
TIPO
g.d.l.
TOTALE
n−1
ENTRO I GRUPPI
n−k
FRA I GRUPPI
k−1
Val. atteso
(n − k)σ 2
P
(k − 1)σ 2 + kj=1 nj ηj2
relazione fra il test F e il rapporto di correlazione (empirico: eyz
; teorico: ηyz )
Esistono casi in cui è possibile scomporre ulteriormente la devianza fra i gruppi?
− Mj )2
− M )2
i=1 (yij
j=1 nj (Mj
Pk
j=1
Pk
Pnj
DEVIANZA
Pnj
2
j=1
i=1 (yij − M )
Pk
F RAIGRU P P I
ENTRO I GRUPPI
TOTALE
TIPO
k−1
n−k
n−1
g.d.l
variabilità spiegabile dalla classificazione in k gruppi; è ancora
scomponibile se:il criterio di classificazione è a più entrate (AV a
più vie) oppure se il criterio di
classificazione è numerico;
variabilità residua:non riducibile
ulteriormente (a meno che non
vi siano variabile concomitanti, si
veda l’analisi della covarianza)
variabilità complessiva osservata
della variabile di risposta y , non
considerando l’esistenza di fattori
di classificazione.
2002-3003 versione provvisoria
319
320
Materiale didattico statistica 3
Se il criterio di classificazione è numerico, con livelli zj , si può
scomporre ulteriormente la devianza fra i gruppi,
k
X
nj (Mj − M )2 ,
j=1
per vedere quanta parte di essa è spiegata dalla regressione lineare
delle medie di yMj sui valori zj .
Se M̂j è il valore stimato dalla regressione lineare:
M̂j = byz zj
si può dimostrare che si può operare algebricamente la scomposizione:
Pk
j=1 nj (Mj
Fra i gruppi
− M )2 =
Pk
j=1 nj (Mj
− M̂j )2 +
Divergenza dalla linearita’
Pk
j=1 nj (M̂j
− M )2
Regressione lineare di
Y su z
(la somma dei doppi prodotti è nulla per le equazioni normali);
Si può applicare il teorema di Cochran (perché la somma dei gradi
di libertà coincide col totale) Quindi i due termini si distribuiscono
(sotto H0 ) secondo due v.c. χ2 indipendenti, con k − 2 e 1 grado di
libertà. In definitiva nel caso di un fattore quantitativo Z possiamo
scomporre la devianza totale in tre parti:
Tavola di scomposizione della devianza empirica di y per un
criterio di classificazione semplice con k livelli quantitativi zj
2002-3003 versione provvisoria
321
DEVIANZA
TIPO
g.d.l.
Proporzione di devianza totale
Pnj
2
j=1
i=1 (yij − M )
Pk Pnj
2
j=1
i=1 (yij − Mj )
P
k
2
j=1 nj (Mj − M̂j )
Totale
n−1
1
Entro i gruppi
n−k
1 − e2yz
yij − Mj
Divergenza dalla linearita’
k−2
e2yz
Mj − M̂j
Regressione lineare di y
su z
1
2
ryz
Pk
Pk
j=1 nj (M̂j
− M )2
yij− M
2
− ryz
Si può costruire il test per la verifica dell’ipotesi di linearità della
regressione:
F =
component
2
e2yz −ryz
k−2
1−e2yz
n−k
Figura da inserire Introdurre grafico (box plot possibilmente)
Differenza fra i test di omogeneità
2 saggia l’ipotesi che le k medie non varino, contro
Il test su ryz
l’alternativa che varino in modo lineare rispetto a z .
saggia l’ipotesi che βyz = 0 , contro l’alternativa che βyz 6= 0 ,
essendo comunque i valori attesi di
y
funzioni lineari di Z )
Il test con e2yz saggia l’ipotesi che le k medie non varino, contro
l’alternativa che varino in modo qualsiasi (anche non linearmente
rispetto a z ).
saggia l’ipotesi che µj = µr , contro l’alternativa che per almeno
due gruppi si abbia: µj 6= µr , essendo i k valori attesi di y funzioni
qualsiasi di Z )
In linea generale questi due test dovrebbero differire per quanto
riguarda il potere, dal momento che si riferiscono ad alternative
differenti.
2 saggia l’ipotesi che le k medie varino solo per
Il test su e2yz − ryz
effetto di una relazione lineare rispetto a z , contro l’alternativa che
varino in modo non lineare.
M̂j − M
322
Materiale didattico statistica 3
Per esempio, supponendo l’esistenza di una relazione polinomiale
di grado k − 1 dei valori attesi di y rispetto a Z .
E(yi ) =
k−1
X
βj zij :
j=0
saggia l’ipotesi che i k − 2 coefficienti dei termini di grado 2o e
superiore siano nulli,
H0 : β2 = β3 = . . . = βk−1 = 0; β0 , β1 qualsiasi
ossia l’ipotesi che la relazione sia lineare, contro l’alternativa che
almeno un coefficiente sia diverso da zero, ossia che la relazione sia
curvilinea.
10.2
Analisi della varianza a due vie
Analisi della varianza per due criteri di classificazione qualitativi:
Elementi del modello:
yijk = µij + εijk ;
assunzioni su ε
Modello per µij :
P
ARAMETRI
Media Riga i (fattore A)
i = 1, . . . , r
µi.
med
med
Media Colonna j (fattore B)
j = 1, . . . , c
µ.j
med
med
η λ ν ε Media generale
µ
media ponderata delle rc medie µij
. . . separabilità degli effetti;
definizione degli effetti di riga e di colonna:
2002-3003 versione provvisoria
323
effetto generale
µ
(un parametro)
effetto Riga (fattore A)
αi = µi. − µ
i = 1, . . . , r
effetto Colonna (fattore
B)
βj = µ.j − µ
j = 1, . . . , c
Modello additivo:
yijk = µ + αi + βj + εijk;
Discussione su additività:
esempio con una tavola 2x2
15
20
22
???
interazioni.
effetto interazione AxB
γ ij = µij − µi. − µ.j + µ
i = 1, . . . , r; j = 1, . . . , c
significato delle interazioni
Le interazioni possono essere viste come deviazioni dal modello additivo.
oppure differenze fra gli effetti di riga in corrispondenza dei diversi livelli di colonna
Effetti moltiplicativi per variabili quantitative
esempio con le variabili indicatrici
interpretazione degli effetti dei fattori in presenza di interazione:
effetti medi e non parziali
324
Materiale didattico statistica 3
ESEMPI:
B1
B2
Marg.
A1
12
8
100
A2
6
14
100
Marg.
9
11
10
Discussione sul numero di parametri indipendenti Impostazione
del modello lineare generale
Figura da inserire ALTRO MATERIALE
ESEMPI E GRAFICI (mathematica)
(SU INTERAZIONI COME EFFETTO MOLTIPLICATIVO:
E [y] = A + bx1 + cx2 + dx1 x2 )
Influenza della ripartizione delle n osservazioni nelle r × c celle sull’analisi
Possibili configurazioni delle ampiezze campionarie: (corrispondono
a configurazioni differenti della matrice del disegno Xn×(rc) )
nij proporzionali:
ni. n.j
nij =
n
Caso bilanciato; in particolare:
nij uguali:
nij = m
Si possono usare pesi uguali per la definizione degli effetti;
• con una sola osservazione per casella (m = 1) non sarà possibile
stimare nel modo ordinario la varianza σ 2 senza fare opportune
ipotesi sulle interazioni γ ij .
• con nij qualsiasi (frequenze non proporzionali)
• In questo caso Gli stimatori degli effetti di riga e di colonna
risultano non ortogonali.
2002-3003 versione provvisoria
325
• problema della scelta dei pesi per la definizione degli effetti riga
e di colonna;
• Problemi per la stima degli effetti;
• Problemi per la scomposizione della devianza e per i test.
scomposizione della devianza empirica
Analisi della varianza per due criteri di classificazione qualitativi:
Si scompone facilmente la devianza totale:
r X
c X
m
X
(yijk − M )2 =
i=1 j=1 k=1
Aggiungendo e sottraendo Mij , Mi. , M.j ed arrangiando opportunamente i termini:
r X
c X
m
X
[(yijk −Mij )+(Mij −Mi. −M.j +M )+(Mi. −M )+(M.j −M )]2 =
i=1 j=1 k=1
r X
c X
m
X
2
(yijk − Mij ) + m
(Mij − Mi. − M.j + M )2 +
i=1 j=1
i=1 j=1 k=1
+mc
r X
c
X
r
X
i=1
2
(Mi. − M ) + mr
c
X
(M.j − M )2
j=1
I doppi prodotti (nel caso bilanciato) sono tutti nulli.
326
Materiale didattico statistica 3
TAVOLA DI SCOMPOSIZIONE DELLA DEVIANZA EMPIRICA per due criteri di classificazione qualitativi con: nij = m; n =
rcm
DEVIANZA
Pc Pm
(yijk − M )2
Pri=1Pcj=1Pmk=1
(yijk − Mij )2
Pr i=1Pc j=1 k=1
m i=1 j=1 (Mij − Mi. − M.j + M )2
P
mc ri=1 (Mi. − M )2
P
mr cj=1 (M.j − M )2
Pr
fonte di variab.
g.d.l.
totale
rcm − 1
entro i gruppi
rc × (m − 1)
interazioni
(r − 1) × (c − 1)
righe
r−1
(
colonne
c−1
(
(r − 1) ×
2002-3003 versione provvisoria
327
Cenno alle formule semplificate per il calcolo delle devianze
La devianza totale è stata scomposta con:
DT=DE+DI+DR+DC
Posto: s2 = DE/gdl(DE)
è immediato ottenere i tre test (nel caso bilanciato, e quindi ortogonale (rivedere, se è il caso)) per la verifica delle ipotesi riguardanti:
Le interazioni:
DI
gdl(DI)s2
Gli effetti di riga:
DR
gdl(DR)s2
Gli effetti di colonna:
DC
gdl(DC)s2
Si distribuiscono sotto la corrispondente ipotesi nulla come delle
F con gli opportuni gradi di libertà
Significato dei test se le interazioni sono significativamente diverse da zero
Analisi della varianza a due vie
costruzione della matrice X per il caso con frequenze uguali
dimostrazione della ortogonalità
Figura da inserire Tavola della matrice X NELL’ AOV a 2 VIE
Orizzontale
effettuando il prodotto XT X si ottiene una matrice (simmetrica)
in 16 blocchi (4 gruppi di parametri x 4 gruppi di parametri);
riferendoci ancora solo al caso di numerosità uguale m nelle rc
caselle: n = mrc
µ
α
β
γ
(1) (r − 1) (c − 1) (r − 1)(c − 1)
XT X
=
n
0
0
0
µ
(1)
0
A
0
0
α
(r − 1)
0
0
B
0
β
(c − 1)
0
0
0
C
γ (r − 1)(c − 1)
328
Materiale didattico statistica 3






T
X X=




µ
α
β
γ
(1) (r − 1) (c − 1) (r − 1)(c − 1)
n
0
0
0
0
A
0
0
0
0
0
0
B
0
0
C











I quattro gruppi di parametri sono ortogonali
Risultano ortogonali anche se le frequenze sono proporzionali
nij = ni. n.j /n
Se le frequenze non sono proporzionali non sarà possibile stimare
in modo ortogonale gli effetti di riga e di colonna (cambierebbero
anche le stime di un gruppo di parametri di effetti in funzione dei
valori dell’altro gruppo di parametri)


2mc mc
mc




2mc
mc

Ar−1,r−1 = 

... 


2mc


2mr mr
mr



2mr
mr 


Bc−1,c−1 = 
... 


2mr
C = (Omettere);
ˆ a = Mi. − M
alf
i
ˆ
betaj = M.j − M
µ̂ = M
j = 1, . . . , c
i = 1, . . . , r
effetto interazione A × γ̂ij = Mij − Mi. − M.j + M i = 1, . . . , r; j = 1, . . . , c
B
effetto Colonna (fattore
B)
effetto Riga (fattore A)
effetto generale
Per cui è immediato vedere che (nel caso di frequenze uguali nij = m) si hanno i seguenti stimatori:
Per stimare i parametri conviene partire dalle definizioni dei parametri e dei vincoli. Infatti è ovvio che, nel modello
completo con rc parametri, si ha:
µ̂ij = Mij
2002-3003 versione provvisoria
329
330
10.2.1
Materiale didattico statistica 3
Analisi della varianza a due vie: altre problematiche
Disegni non bilanciati
caso in cui nij non sono proporzionali:
• la situazione è tipica di studi osservazionali, o indagini esplorative;
• qualche nij può anche essere nullo;
• per esempio anche in situazioni sperimentali se l’esperimento
associato a determinate combinazioni di fattori non può essere
condotto a termine.
• Le stime degli effetti interazioni e del residuo sono ortogonali
e sono anche ortogonali rispetto alle stime degli altri effetti
(scelto un opportuno sistema di pesi).
• Le stime degli effetti di riga non sono comunque ortogonali
rispetto alle stime degli effetti di colonna;
• (la matrice XT Xche si ottiene impostando l’opportuna matrice
X(n × rc) di variabili indicatrici, non è diagonale a blocchi.
Non è possibile scomporre la devianza nel modo visto per i piani
bilanciati Per stimare i parametri e per effettuare test si può ricorrere
alla teoria generale sui modelli lineari:
Si stimano i parametri e la devianza residua nel modo ordinario
dal modello con tutti i parametri;
Si stimano le porzioni di devianza attribuibili ai vari gruppi di
parametri (ed eventualmente si verificano delle ipotesi nidificate), in
sequenza: basta calcolare le stime dei parametri del modello imponendo gli opportuni vincoli, partendo dal gruppo delle interazioni,
e dopo gli effetti riga o colonna (procedura stepwise)
L’ordine di esecuzione della procedura per gli effetti riga e colonna
determina due tavole di scomposizione della devianza differenti e
stime differenti dei parametri (data la non ortogonalità)
Figura da inserire
ESEMPIO
2002-3003 versione provvisoria
331
Disegni bilanciati: una sola osservazione per casella (m = 1)
Se m = 1 non sarà possibile stimare nel modo ordinario la varianza
σ 2 senza fare opportune ipotesi sulle interazioni γ ij .
Infatti non vi sono gradi di libertà per la stima della varianza σ 2
della componente accidentale:
devianza entro i gruppi =
c X
m
r X
X
(yijk − Mij )2 = 0
i=1 j=1 k=1
(perchéyijk = Mij )
gradi di libertà = rc × (m − 1) = 0
Vi sono essenzialmente due possibilità (valide anche per modelli
a più vie):
1. Si assume γ ij = 0, ossia che il modello sia additivo, e si stima
la varianza attraverso:
s2I
=
r X
c
X
(Mij − Mi. − M.j + M )2 /((r − 1)(c − 1));
i=1 j=1
E(s2I )
r X
c
X
=σ +
γ 2ij /((r−1)×(c−1)) = σ 2 se si assume : γ ij = 0
2
i=1 j=1
(si riveda la scomposizione della devianza per il caso bilanciato)
2. Oppure si possono fare delle assunzioni sulle interazioni, in modo che le interazioni non abbiano (r-1)(c-1) gradi di libertà, ma
dipendano da un numero inferiore di parametri:
γ ij = gij (α, β, θ),
essendo θ un vettore di s < (r − 1)(c − 1).
Il modello in generale sarà non lineare nei parametri
Modelli moltiplicativi per le interazioni In effetti è opportuno
che s sia piccolo in modo da lasciare un numero di gradi di libertà
sufficiente per il residuo
In particolare (Tukey):
γ ij = θαi βj ,
332
Materiale didattico statistica 3
L’ipotesi moltiplicativa è la più semplice, e si dimostra che, sebbene il modello sia non lineare, si giunge ad una scomposizione additiva
conveniente che attribuisce a θ un grado di libertà e (r −1)(c−1)−1
gradi di libertà per la stima della varianza.
La validità delle ipotesi restrittive sulle interazioni può essere
giudicata anche attraverso un’opportuna analisi dei residui.
10.2.2
Analisi della varianza a più vie
Analisi della varianza a più vie
interazioni di ordine superiore al primo
Esempio con l’analisi della varianza per una classificazione completa a 3 vie (fattori A,B e C):
AC
BC
ABC
yijhk = µ + αi + βj + χh + γ AB
ij + γ ih + γ jh + γ ijh + εijhk;
µ+
+αi + βj + χh +
yijhk
effetto generale
effetti dei diversi livelli
dei tre fattori
AC
BC
+γ AB
ij + γ ih + γ jh + interazioni fra le cop=
pie di fattori (del primo
ordine)
+γ ABC
ijh +
interazioni del secondo
ordine
+εijhk
componente accidentale
Nel caso bilanciato l’analisi è simile a quella a due vie.
Piani 2k : Piani fattoriali completi e incompleti
si riveda in caso l’introduzione ai modelli lineari, con gli esempi relativi)
Mi dispiace! capitolo ancora da fare
Blocchi randomizzati; Quadrati latini
Mi dispiace! capitolo ancora da fare
2002-3003 versione provvisoria
10.2.3
333
Analisi della varianza con variabili concomitanti:
L’analisi della covarianza
Situazioni con variabili quantitative e qualitative (rivedere introduzione ai mod.lineari)
variabili concomitanti
Riduzione della devianza residua.
confronto fra k relazioni di regressione (lineare)
Introduzione del problema in generale
Interessi particolari:
Verificare la significatività degli effetti di uno o più fattori, eliminando l’influenza di variabili concomitanti (con riduzione della
devianza residua)
Verificare se l’influenza delle variabili quantitative è la stessa in
tutti i gruppi: confronto fra coeffiecienti di regressione lineare.
Assunzioni per l’analisi della covarianza semplificata
l’ipotesi di parallelismo
l’analisi della covarianza completa
l’ipotesi di linearità della relazione fra le medie delle variabili.
Matrice del disegno sperimentale per l’analisi della covarianza
con:
un fattore qualitativo a k livelli;
nj osservazioni per ogni trattamento o gruppo
una variabile concomitante quantitativa Z,
misurata come scarto dalla media del gruppo j:
nj
X
zij = 0; j = 1, 2, . . . , k
i=1
caso semplificato (rette parallele in tutti i gruppi)
in pratica si ipotizza assenza di interazione fra i due fattori:
334
Materiale didattico statistica 3
parametri da 1 a k
αj
termine costante della
regressione nel gruppo
j; j = 1, 2, . . . k.
parametro (k + 1)o
β
pendenza comune alle k
rette
Il vettore dei parametri è dato da:
θ T = {α1 , α2 , . . . , αk , β}
La matrice X (nell’impostazione a rango pieno) ha n righe e k +1
colonne:
i
RispostaosservataY
1
y1,1
1
0
...
...
...
...
...
n1
yn1,1
1
0
...
y1,2
0
1
...
...
0
...
...
yn2,2
0
1
...
...
...
...
yi,j
0
0
...
...
...
...
...
y1,k
0
0
...
...
0
0
...
ynk,k
0
0
...
n1 + n2
...
n1 + . . . + nj
n1 + . . . + nk
α1 cost.gruppo1 α2 cost.gruppo2 . . . αk
X=
2002-3003 versione provvisoria

1 0

 ... ...

 1 0


 0 1

 0 ...


 0 1

X=
 ... ...



 0 0


 ... ...

 0 0


 0 0
0 0
335
...
...
0
0

z1,1

... 

. . . 0 zn1,1 


. . . 0 z1,2 

... 0
... 


. . . 0 zn2,2 

... ... ... 




... 0
zi,j 


... ... ... 

. . . 1 z1,k 


... ... ... 
...
0
...
0
0
... ... ... ...
... ...
... ...
... ...
... ...
... ...
...
1
... ...
1
znk,k
Risposta osservata













Y=












y1,1


... 

yn1,1 


y1,2 

... 


yn2,2 

... 


yi,j 

... 


y1,k 

... 

ynk,k
Si vede che:

n1


X X=


T
0
0
0

...
0





0
nk
0
Pk Pnj 2
0
j=1
i=1 zij
336
Materiale didattico statistica 3



X y=


Pn1
i=1 yi1
...
T
Pnk
i=1 yik
P
nj
j=1
i=1 yij zij
Pk

1

... 

k 

k+1
Per cui le stime di massima verosimiglianza sono:
α̂j = Mj , j = 1, 2, . . . , k;
Pk
β̂ = b =
Pnj
i=1 yij zij
2
j=1
i=1 zij
j=1
Pk
Pnj
stima della pendenza comune:
β̂ = b è una media ponderata dei β̂j dei singoli gruppi.
La devianza residua è:
R(θ̂) =
nj
k X
X
∗
2
(yij −Mj −b zij ) =
j=1 i=1
=
nj
k X
X
j=1 i=1
nj
k X
X
2
(yij −Mj ) −b
j=1 i=1
2
(yij − Mj ) − [
nj
k X
X
nj
k X
X
2
zij
j=1 i=1
2
(yij − Mj )zij ] /
j=1 i=1
2
nj
k X
X
2
zij
=
j=1 i=1
=DevInt(y) − [Codev.Int(ZY )]2 /DevInt(Z)
(Riduzione di devianza residua, rispetto alla AOV, dovuta al
fattore concomitante)
Se l’ipotesi nulla impone k-1 vincoli:
H0 : α1 = α2 = . . . = αk (= α)
Il modo più semplice di procedere è quello generale di stimare i
parametri sotto H0 , e quindi sottrarre dalla devianza residua sotto
H0 quella residua non vincolata:
R(θ̂0 ) = DevT ot(y) − [Codev.T ot(ZY )]2 /DevT ot(Z)
R(θ̂0 ) è ricavata semplicemente dalla regressione di y su Z considerando i k gruppi come un unico campione.
Si tenga presente che in questo caso vanno considerati gli scarti di
Z dalla propria media generale, e non dalle medie dei singoli gruppi.
2002-3003 versione provvisoria
337
Per saggiare l’ipotesi si applica la tecnica generale dei modelli
lineari:
F =
R(θ̂0 )−R(θ̂)
k−1
R(θ̂)
n−k−1
Spiegare l’ipotesi in termini di differenza fra medie corrette
Tavola di scomposizione della di y nel caso di un fattore concomitante Z con pendenza uguale nei k gruppi:
DEVIANZA DI Y
SPIEGATA DALLA REGRESSIONE
tipo
SU Z g.d.l.
DevInt(y)
Codev.T ot(ZY )]2
DevT ot(Z)
Codev.Int(ZY )]2
DevInt(Z)
DevFraGruppi(y)
(2)-(4)
DevTot(y)
totale
n−2
entro i gruppi
n−k−1
fra i gruppi
k−1
La tecnica, in particolare nel caso di regressioni con pendenze
uguali entro le caselle, è generalizzabile al caso di un modello:
Y = Xθ + Zβ + ε
ove le colonne di Z sono costituite da s variabili concomitanti e
la matrice X (anche di rango non pieno) è la matrice di indicatori
associata ad una classificazione anche a più vie.
Caso generale: k coefficienti di regressione distinti La matrice X
sarà composta da 2k colonne, di cui le prime k sono come prima
costituite dagli indicatori di appartenenza ai gruppi:
338
Materiale didattico statistica 3









X1 = 








1
0
... ... ...
0

...
1
0
0
... ... ...
... ... ...
0
0

















... ... ... ... ... ...
0 0 ... 1 ... 0
... ... ... ... ... ...
0
0
...
0
...
1
0
0
0
0
...
...
0
0
... ...
... 1
Occorre ora affiancare altre k colonne:

z1,1

 ...

 zn1,1


 ...

X2 = 
 0

 ...

 0


 ...
0
... 0... ...
... ... ...
... 0... ...
...
...
...
zij
...
...
...
...
...
...
...
0
...
...
...
...
0
...

0

... 

0 


... 

0 


... 

zn1,k 


... 
znk,k
dato che ora il vettore di 2k parametri è:
θ T = α1 , . . . , αj , . . . , αk, β1 , . . . , βj , . . . , βk
la matrice X è costituita dalle colonne di X1 e X2 affiancate
Ipotesi di interesse:
H0 : β1 = . . . = βj = . . . = βk ;
rette di regressione parallele nei k gruppi.
H0 : β1 = . . . = βj = . . . = βk ; α1 = . . . = α = . . . = αk
rette di regressione uguali nei k gruppi.
E’ possibile (ed è più semplice) procedere per passaggi successivi
attraverso modelli nidificati (l’analisi non è ortogonale):
2002-3003 versione provvisoria
339
analisidellacovarianza
F onte
fonte
totale
DevT ot(y)
Pnj
2
j=1
i=1 (yij − aj − bj zij )
residuo
delle
k
regressioni entro i
gruppi
(pendenze
diverse)
Pk
residuo analisi semplificata (pendenze
uguali)
Pk
j=1
Fra i k gruppi (k
medie aggiust.)
10.3
i=1 (yij
− a∗j − b∗ zij )2
n−1
Res1
Pk
j=1
Pnj
i=1 (yij
n − 2k
Res2 n − k − 1
Res2 − Res1
Differenze fra le k
pendenze
residuo regressione
unica (trascurando
il fattore qualitativo)
Pnj
g.d.l.
− a∗ − b∗∗ zij )2 Res3
Res3 − Res2
k−1
n−2
k−1
Il problema dei confronti multipli nell’analisi della varianza
Affrontiamo adesso il problema dell’analisi ulteriore delle medie dei
campioni, nel caso in cui l’ipotesi di omogeneità sia stata rifiutata.
Resta inteso che nel caso in cui il test F risulti non significativo,
poco altro potrà essere detto sull’esperimento, se non uno studio
più approfondito relativo alla validità delle assunzioni di base.
Se invece F è risultato significativo l’ipotesi di omogeneità va
rifiutata; Possiamo indagare ulteriormente sull’eterogeneità dimostrata dalle medie dei gruppi?
Ci possiamo porre alcune domande:
• A quali medie è dovuto principalmente l’eterogeneità?
• Alcune di queste medie possono essere comunque considerate
simili?
340
Materiale didattico statistica 3
• E’ possibile dire qualcosa su particolari confronti fra combinazioni di medie?
In effetti,con riferimento all’ultimo punto, possiamo effettuare
diversi tipi di confronti fra medie; qui cito solo i principali:
Differenze fra medie:
µj − µs
Contrasti lineari generali:
ψ=
k
X
c j µj ,
j=1
con
k
X
cj = 0.
j=1
Quindi un contrasto lineare non è altro che una combinazione
lineare di medie con coefficienti a somma nulla. Di seguito sono
riportati alcuni esempi di contrasti lineari:
Contrasto
Valori dei coefficienti
µj − µs
cj = 1; cs = −1
(µ1 + µ2 )/2 − (µ3 + µ4 + µ5 )/3
Pk−1
j=1
Confronto fra gli effetti
medi di due campioni
Confronto fra gli effetti medi di due gruppi di
c1 = 1/2; c2 = 1/2
campioni
1
1
1
c3 = − ; c4 = − ; c5 = −
3
3
3
µj /(k − 1) − µk
c1 = c2 = . . . ck−1
10.3.1
Tipo di confronto
Confronto di k − 1 trattamenti, presi global= 1/(k−1)c
−1 un gruppo
k = con
mente,
di controllo (il k-esimo)
Confronti a priori e a posteriori
In effetti, dopo che il test F ha manifestato evidenza empirica contraria all’ipotesi di omogeneità, si potrebbe pensare di impiegare un
semplice test t sulle coppie di medie stimate Mj , per vedere quali sono significativamente diverse; tuttavia questa non è una procedura
2002-3003 versione provvisoria
341
corretta, in quanto non tiene conto del fatto che molto probabilmente le medie da mettere a confronto verranno scelte dopo avere
esaminato le k medie; inoltre questa procedura non garantisce il livello di significatività nominale nel caso si mettano a confronto più
coppie di medie: una cosa è confrontare due medie, un’altra cosa è
confrontare due medie scelte fra k medie osservate.
Il livello di significatività sarà in generale ??????????????????????????????????????????????????
• se i confronti sono pianificati (a priori), si può usare il test t,
usando come stima della varianza quella con più gradi di libertà
dell’AOV.
• se invece i confronti sono suggeriti dai dati (a posteriori), non
si può impiegare il test t
Alterazione del livello di significatività effettivo in caso di m test
indipendenti effettuati sugli stessi dati:
α∗ = 1 − (1 − α)m
test t su tutte le coppie.
i test da condurre sono in teoria k(k − 1)/2 (sebbene non tutti
indipendenti.
Inserire materiale
presente solo su lucido
e scrivere meglio
Fra i metodi per superare il problema dei confronti multipli a
posteriori, presento i due più noti ed utili nelle applicazioni:
• Il metodo di Tukey (importante per il confronto fra coppie di
medie)
• Il metodo di Scheffè, adatto a contrasti lineari generali, importante per la sua relazione col test F.
Altre tecniche particolari per effettuare test (o comunque per fare
inferenza) su confronti selezionati a posteriori:
• Test di Dunnett (specifico per il confronto rispetto ad un gruppo di controllo)
• Correzione di Bonferroni per il livello di significatività
• Test di Duncan
342
Materiale didattico statistica 3
Metodo di Tukey
Per ipotesi se è vera H0 le medie campionaria hanno tutte la stessa
distribuzione:
Mj (N (µ; σ 2 /m);
mentre se è vera H1 :
Mj (N (µj ; σ 2 /m);
m: ampiezza comune dei k campioni (n = km)
Definiamo prima una nuova variabile casuale:
il range studentizzato .
Sia X(i) la variabile casuale corrispondente all’osservazione di posto i-esimo in un campione casuale di ampiezza r estratto da una
N (µ, σ 2 ).
Sia s2 una stima corretta di σ 2 (stimata indipendentemente dal
campione) con ν gradi di libertà.
Il range studentizzato è la variabile casuale definita da:
Range studentizzato
range studentizzato
Zr,ν =
X(r) − X(1)
s
Questa variabile casuale (i cui percentili sono tabulati) ha una distribuzione che chiaramente dipende da:
r: ampiezza campionaria;
ν: gradi di libertà della stima della varianza
X −X
ma non dipende invece dai parametri µ, σ 2 (dato che (r) s (1) è
una quantità pivotale:
infatti la differenza X(r) − X(1) chiaramente non dipende da µ ed
il rapporto poi con s non dipende da σ 2
Figura da inserire Inserire tavola con i percentili (software di
calcolo?); vedere Biometria tables
•
Se indichiamo con qα,r,ν il valore critico di tale distribuzione (i
cui percentili sono tabulati) si ha chiaramente:
Prob Zr,ν = [X(r) − X(1) ]/s(qα,r,ν = 1 − α
ma anche:
Prob max |Xi − Xj |(sqα,r,ν = 1 − α
i6=j
2002-3003 versione provvisoria
Prob

\
343
[|Xi − Xj |(sqα,r,ν ]



=1−α

i6=j
E’ possibile adesso costruire degli intervalli di confidenza per le differenze fra medie (a posteriori), poiché sono stati introdotti tutti gli
strumenti tecnici necessari.
Torniamo alle medie dei k campioni:
Mj (N (µi ; σ 2 /m).
Si ha che le v.c. Mj − µi sono distribuite secondo una N (0; σ 2 /m);
possiamo quindi costruire un intervallo mediante i punti critici del
range studentizzato, simultaneamente per tutte le differenze fra medie:
√ Prob |(Mi − µi ) − (Mj − µj )|(sqα,r,ν / m] = 1 − α
Per cui l’intervallo di confidenza per una generica differenza è:
√
√
(Mi − Mj ) − sqα,r,ν / m(µi − µj ((Mi − Mj ) + sqα,r,ν / m.
Intervallo di confidenza di Tukey per una generica differenza di
medie, ad un livello di probabilità fiduciaria 1 − α; (r campioni
di ampiezza m)
Pertanto potremo dire che sono significativamente diverse (ad un
livello di significatività α) le medie per le quali tali intervalli (costruiti con un livello di probabilità fiduciaria 1 − α) non contengono
lo zero.
In tal modo è possibile costruire per un particolare esperimento,
dati m, k e α, la LSD (Least Significant Difference): se ad esempio
abbiamo 5 campioni di ampiezza 10, ad un livello di significatività
del 5
Il metodo è generalizzabile a contrasti lineari qualsiasi, sebbene
meno efficiente:
ψ=
k
X
j=1
c j µj ,
con
k
X
j=1
cj = 0
344
Materiale didattico statistica 3
la stima di ψ dal campione è:
ψ̂ =
k
X
c j Mj ;
j=1
|ψ̂ − ψ| = |
k
X
cj (Mj − µj )|(1/2
j=1
k
X
|cj | max |(Mj − µj ) − (Mi − µi )|
j=1
Per cui si ha, ricordando che:
√ Prob max |(Mi − µi ) − (Mj − µj )|(sqα,r,ν / m] = 1 − α


k

X
√ 
Prob ||ψ̂ − ψ| = 1/2
|cj |sqα,r,ν / m = 1 − α


j=1
ed infine l’intervallo per ψ:
ψ̂ − 1/2
k
X
k
X
√
√
|cj |sqα,r,ν / m
|cj |sqα,r,ν / m ≤ ψ(ψ̂ + 1/2
j=1
j=1
Intervalli di confidenza simultanei: Metodo di Scheffè:
Con la tecnica di Scheffè si adotta un approccio differente, basato
non sui confronti in coppia, ma direttamente su generici contrasti
lineari di tipo qualsiasi; si otterrà anche una relazione di tale tecnica
con il test F per la verifica dell’ipotesi di omogeneità delle medie.
Si è già visto che si può costruire una regione di confidenza per q
combinazioni lineari nei parametri del modello lineare, in modo che
sia 1 − α la probabilità fiduciaria:
n
o
T
T
−1 T −1
2
Prob (Cβ − Cb) ([C(X X) C ]) (Cβ − Cb) ≤ qs Fα,q,n−k = 1−α
Si sa anche che:
T
T
−1
(Cβ−Cb) ([C(X X)
T −1
C ])
[zT (Cβ − Cb)]2
(Cβ−Cb) = max T
z z C(XT X)−1 C T z
Figura da inserire dimostrazione sui lucidi scritti a mano
Rivedere l’argomento
per cui sostituendo nell’espressione di prima:
P robmax
z
[zT (Cβ − Cb)]2
(qs2 Fα,q,n−k = 1 − α
zT C(XT X)−1 CT z
2002-3003 versione provvisoria
345
P rob[zT (Cβ − Cb)]2 (zT C(XT X)−1 CT zqs2 Fα,q,n−k ∀z = 1 − α
Notiamo anche che
V (zT Cb) = σ 2 zT C(XT X)−1 CT z;
e quindi una stima corretta della varianza di zT (Cb) si ha sostituendo nell’espressione precedente a σ 2 la sua stima corretta s2
V̂ (zT (Cb)) = s2 zT C(XT X)−1 CT z;
Per cui si ha:
P rob[zT (Cβ − Cb)]2 (V̂ (zT Cb)qFα,q,n−k ∀z = 1 − α
Ed infine l’intervallo:
q
zT Cb( V̂ (zT Cb)qFα,q,n−k
conterrà zT Cβ con probabilità 1 − α, per qualsiasi valore zT
Applicando ora questo procedimento ai contrasti lineari nell’analisi della varianza si ha:
ψ=
k
X
cj µj , con
k
X
j=1
cj = 0
j=1
Per stimare ψ dal campione si ha:
ψ̂ =
k
X
c j Mj ;
j=1
per la stima della sua varianza:
V̂ (ψ̂) = s
2
k
X
c2j /nj ;
j=1
(si può ricavare per via diretta oppure dall’espressione generale di
V (zT Cb));
In definitiva l’intervallo per un contrasto lineare è dato da:
q
ψ̂ ∓ V̂ (ψ̂)qFα,q,n−k
Nell’analisi della varianza ad una via: q = k − 1.
346
Materiale didattico statistica 3
Relazione fra gli intervalli di confidenza di Scheffè e il test F
dell’AOV: Per il modo in cui è stato costruito è evidente che se
l’intervallo non contiene lo zero ciò equivale a rifiutare l’ipotesi nulla:
H0 : ψ = 0
Riconsideriamo il test F sull’omogeneità delle k medie:
E’equivalente a saggiare l’ipotesi che k-1 contrasti lineari (indipendenti) siano nulli. Questo implica che tutti i contrasti siano nulli,
dato che ogni contrasto è combinazione lineare dei primi k-1;
Quindi il test F saggia l’ipotesi che qualsiasi contrasto lineare
sia nullo; Quindi il test F risulta significativo se e solo se esiste un
contrasto lineare significativamente diverso da zero,
ossia se esiste un contrasto lineare il cui intervallo di confidenza non copra lo zero Ovviamente se F risulta significativo, non è
detto che il contrasto lineare significativo sia interessante o utile in
generale.
Tuttavia gli intervalli di Scheffè, sebbene forniscano dei test corrispondenti piuttosto conservativi (perché costruiti su tutti i possibili
contrasti lineari, e non su uno particolare), forniscono certamente
risultati coerenti col test F.
Altre tecniche:
tecniche più potenti per alternative particolari, uso di altri particolari range studentizzati
\begin{fig}
altro materiale sparso
lucidi scritti a mano
grafici ed esempi
Lucidi antichi
RIPORTARE LA TAVOLA SUL CONFRONTO FRA GLI INTERVALLI (LUCIDI A MANO)
\end{fig}
2002-3003 versione provvisoria
10.3.2
347
L’ipotesi di omogeneità delle varianze.
Il test di Bartlett
saggiare l’ipotesi che le varianze di k popolazioni normali (anche con
medie differenti) non siano diverse.
costruzione del rapporto fra le verosimiglianze.
correzione delle stime delle varianze.
correzione del test (per migliorare l’approssimazione alla distribuzione asintotica).
\begin{fig}
ALTRO MATERIALE
lucidi scritti a mano
da Statistica Matematica
\end{fig}
10.3.3
Il Potere del test F: distribuzioni non centrali.
Per potere valutare il potere del test F per particolari ipotesi alternative, o meglio la funzione del potere al variare delle alternative,
occorre fare ricorso alle distribuzioni non centrali.
Distribuzione χ2 non centrale.
La distribuzione χ2ν (centrale) è definita come la distribuzione della
somma di ν quadrati di variabili normali indipendenti standardizzate, ossia:
con valore atteso nullo
ed a varianza unitaria.
La distribuzione χ2 non centrale è invece definita come la distribuzione della somma di quadrati di variabili normali indipendenti,
sempre a varianza unitaria ma con media qualsiasi.
In pratica se Xi (N (µi , 1) allora la χ2 non centrale è definita da:
χ2 (ν, λ) =
n
X
X2i
i=1
i due parametri sono:
ν: gradi di libertà;
P
λ = ni=1 µ2i = parametro di non centralità
348
Materiale didattico statistica 3
Si può dimostrare che:
χ2 (ν, λ) = χ2 (ν − 1, 0) + χ2 (1, λ)
I primi due momenti sono:
E[χ2 (ν, λ)] = ν + λ
V [χ2 (ν, λ)] = 2(ν + 2λ)
Distribuzione F non centrale.
Una F non centrale con ν1 e ν2 gradi di libertà e parametro di non
centralità λ, è definita come la distribuzione del rapporto fra una
variabile casuale χ2 non centrale con ν1 gradi di libertà e parametro
di non centralità λ, ed una χ2 centrale con ν2 gradi di libertà (divisi
per i rispettivi gradi di libertà):
F (ν1 , ν2 , λ) =
χ2 [ν1 , λ]/ν1
χ2 [ν2 , 0]/ν2
Calcolo del potere del test
Applicazioni all’analisi della varianza
\begin{fig}
Altro materiale
Esempi e grafici
Noncentral1.nb)
Noncentral1_lucidi.nb)
\end{fig}
• Densità di una Chi-quadro non centrale con 1 grado di libertà
e parametro di non centralità 0,2 e 5:
• Densità di una Chi-quadro non centrale con 2 grado di libertà
e parametro di non centralità 0,2 e 5:
• Densità di una Chi-quadro non centrale con 3 gradi di libertà
e parametro di non centralità 0,2 e 5:
2002-3003 versione provvisoria
349
• Densità di una Chi-quadro non centrale con 20 gradi di libertà
e parametro di non centralità 0,2 e 5:
• Densità di una F non centrale con 3 e 20 gradi di libertà e
parametro di non centralità 0,2 e 5:
Potere del test F
Altro materiale
Esempi e grafici
Plot[{1-CDF[f[2,20,m],f95a],1-CDF[f[2,50,m],f95b]},{m,0,10},PlotPoints->15,
PlotRange->{0,1},PlotStyle->{RGBColor[1,0,0],RGBColor[0,1,0],RGBColor[0,0,1]}]
ContourPlot[1-CDF[f[2,20,10 e1^2+5 e2^2],f95a],{e1,-2,2},{e2,-2,2},PlotPoints->15
PlotRange->{0,1}]
f0[\veca_,\vecb_]:=
FRatioDistribution[\veca,\vecb]
f95=Quantile[f0[4,16],0.95]
3.006917279924345
Power2=Table[1-CDF[nc[4,v2,10],
Quantile[f0[4,v2],0.95]],{v2,5,30,5}]
{0.346645, 0.497816, 0.564506, 0.600651,
0.623077, 0.63828}
$$
f95=Quantile[f0[4,16],0.95];
Plot[1-CDF[nc[4,16,l],f95],{l,0,10},PlotPoints->15,
PlotRange->{0,1}]
Noncentral1.nb)
350
Materiale didattico statistica 3
Noncentral1_lucidi.nb)
Esempio con: k=3;n1=10;n2=5,n3=8
Plot[1-CDF[f0[(4+l)^2/(4+2 l),16],(4/(4+l)) f95]
,{l,0,10},PlotPoints->15,PlotRange->{0,1}]
Approssimazione di Patnaik
Powerexact=Table[1-CDF[nc[4,16,l],f95],{l,0,15}]
{0.05, 0.0911362, 0.138647, 0.190846, 0.246121,
0.303001, 0.360196, 0.41662, 0.471387,
0.52381, 0.573383, 0.619761, 0.662734,
0.702213, 0.7382, 0.770771}
$$
Kendall,II,24.33
Powerappr=Table[1-CDF[f0[(4+l)^2/(4+2 l),16],(4/(4+l)) f95]
,{l,0,15}]
{0.05, 0.0907828, 0.13731, 0.188238, 0.242288,
0.298216, 0.354857, 0.411159, 0.466217,
0.519281, 0.569762, 0.617224, 0.661374,
0.702045, 0.739176, 0.772798}
$$
\Abs[Powerexact/Powerappr-1]*100
-13
{2.22045 10
, 0.389324, 0.973844, 1.3856,
2002-3003 versione provvisoria
351
1.58217, 1.60448, 1.50474, 1.32797, 1.10872,
0.872079, 0.635576, 0.410955, 0.205655,
0.0239555, 0.132152, 0.26231}
$$
10.4
Modelli ad effetti casuali
Nella parte introduttiva sui modelli lineari e sulle caratteristiche degli elementi essenziali, abbiamo visto che il vettore β è un vettore di
parametri ; in questa sezione vediamo, ma solo per i casi più elementari, che in certe situazioni si giunge ad una modellizzazione ancora
di tipo lineare, ma in cui il vettore β è un vettore aleatorio,che avrà
una sua distribuzione, di cui occorrerà stimare i parametri, per cui si
parlerà di effetti casuali, in contrapposizione ai casi fin qui studiati
di analisi della varianza a effetti fissi.
Nella situazione più generale potremo fatalmente avere effetti sia
fissi che casuali, e parleremo allora di modelli misti.
Le parole chiave di questa sezione sono:
• Modello II di AOV;
• Modello a effetti casuali;
• componenti della varianza
In generale in un modello ad effetti casuali (soltanto casuali) il
vettore delle n osservazioni è dato da:
Y[n×1] = 1n θ + X[n×p] u[p×1] + ε[n×1]
L’analogia col modello lineare generale è in buona parte solo
formale;
Nel modello lineare generale (con effetti fissi) l’interesse primario
è lo studio del valore atteso di Y ;
Nei modelli a effetti casuali l’interesse primario è lo studio delle
componenti della varianza di Y e della media generale θ
352
Materiale didattico statistica 3
Caratteristiche essenziali degli elementi del modello:
Y
n elementi
Vettore aleatorio osservabile; È, come sempre, la variabile di
risposta di interesse
θ
1 elemento
Parametro incognito è l’effetto medio generale; è un parametro fisso ma incognito che in generale andrà stimato dai dati del
campione;
X
matrice n × p Matrice di costanti note.
sono, come prima, variabili non aleatorie osservate senza errori;
possibilmente si tratta di una matrice di indicatori associata ad una
classificazione ad una o più vie. U p elementi Vettore di variabili
aleatorie non osservabili sono p variabili aleatorie che contribuiscono
alla parte aleatoria di y; possono essere visti come dei coefficienti
(o effetti) casuali Si dovranno fare delle ipotesi sulla natura della
distribuzione di u che dipende in generale da un insieme di parametri (varianze) incogniti ε vettore n elementi Vettore aleatorio non
osservabile direttamente; Al solito si faranno delle ipotesi sulla natura della distribuzione di ε che dipende in generale da un insieme
di parametri incogniti
Le assunzioni usuali sono:
componente accidentale
E(ε) = 0n ,
V (ε) = σε2 In
ε è la componente accidentale additiva con componenti non correlati
e con stessa varianza. (stesse ipotesi di prima)
La varianza viene indicata con σε2 per distinguerla da quelle di
u p effetti casuali E(u) = 0p momento primo perché è stato isolato
l’effetto medio generale θ
V (u) = Σ momento secondo
σrj = 0 se r 6= j La matrice di varianza e covarianza degli effetti
casuali è diagonale con elementi diagonali σj2 qualsiasi. Si può in
particolare ipotizzare che queste varianze siano uguali a gruppi
Cov(u, ε) = 0
2002-3003 versione provvisoria
353
gli effetti casuali non sono correlati con la componente accidentale
V ar(uj ) = σj2 ; V ar(εi ) = σε2 ;
Cov(uj, ur ) = 0r 6= j; Cov(εi , εl ) = 0i 6= l; Cov(εi , uj ) = 0perogni(i, j)
Componenti della varianza:
L’attenzione non è, come nel modello lineare a effetti fissi, sui fattori
che influenzano i valori attesi di y , tramite
y = componente sistematica + componente accidentale,
ma sui fattori che compongono la varianza di y .
Ipotizziamo che le varianze siano uguali all’interno di k gruppi di
effetti, e che quindi vi siano k varianze distinte σj2 ;
conseguentemente suddividiamo u[p×1] in k sottovettori ciascuno
di lunghezza pj e la matrice X in k sottomatrici ciascuna di n righe
P
e pj colonne, essendo kj=1 pj = p.
Y = 1n θ +
k
X
Xj uj + ε
j=1
E [Y] = 1n θ, ossiaE(yi ) = θ
Per la varianza delle osservazioni si ha ora una diversa situazione.
Infatti si vede facilmente che, con le assunzioni fatte:
0
T
V [Y] = E(Y Y ) − 1n 1n θ =
k
X
T
σj2 Xj Xj + σε2 In
j=1
Oltre al parametro θ, i parametri di interesse sono le k+1 varianze
= 1, 2, . . . , k e σε2 ) (si assume che n(k + 1)
Per questo motivo il modello viene spesso chiamato modello a
componenti di varianza per l’analisi della varianza;
Novità fondamentale rispetto al modello a effetti fissi:
Le osservazioni sono in generale correlate (almeno a gruppi) perché la matrice V [Y] non è diagonale dato che le y sono combinazioni
lineari delle stesse variabili uj
Le osservazioni hanno lo stesso valore atteso Nel caso generale si
cercheranno stimatori non distorti dei parametri, costituiti da forme
quadratiche nelle osservazioni:
(σj2 j
σ̂j2 = yT Cs y.
Condizioni di esistenza di stimatori non distorti (cenno)
354
Materiale didattico statistica 3
AOV a una via: effetti casuali
La matrice X è la matrice di indicatori di appartenenza ai k gruppi;
supponiamo le k varianze degli effetti casuali uj tutte uguali;
supponiamo nj = m.
yij = µ + uj + εij ;
E(uj ) = 0E(εij ) = 0V ar(εi ) = σε2 ;
V ar(uj ) = σu2 ; varianza dei k effetti costante
Cov(uj, ur ) = 0r 6= j;
Cov(εi , εl ) = 0i 6= l; Cov(εi , uj ) = 0perogni(i, j)
Per quanto visto nel caso generale adesso si ha:
E(yij ) = µ;
V [Y] = σu2 XXT + σε2 In
La matrice XXT risulta composta da k blocchi (lungo la diagonale) formati da 1m,m .
Le osservazioni appartenenti ad uno stesso gruppo risultano correlate: intraclass-correlation.
V ar(yij ) = σu2 + σε2
Figura da inserire controllare sotto
corr(yij, ylj ) =
σu2
i 6= l;
σu2 + σε2
corr(yij, ylr ) =
σu2
j 6= r
σu2 + σε2
stima dei parametri
Massima verosimiglianza: si giunge, con un procedimento non immediato, alle equazioni (modificando i denominatori ):
µ̂ = M
σ̂ε2
=
k X
m
X
j=1 i=1
(yij − Mj )2 /k(m − 1)
2002-3003 versione provvisoria
355
Si vedrà dopo il perché di questi denominatori
σ̂ε2 + mσ̂u2 = m
k
X
(Mj − M )2 /(k − 1),
j=1
per cui:
σ̂u2
=
k
X
m(Mj − M )2 /m(k − 1) − σ̂ε2 /m
j=1
(può risultare negativo) → connessione con la correlazione entro
le classi.
Distribuzione degli stimatori:
µ̂ si distribuisce normalmente perché è combinazione lineare di un
v.a. normale:
µ̂ = 1Tn Y/nE(µ̂) = µ;
V (µ̂) = 10n V [Y] 1n /n2 = 1Tn [σu2 XXT + σε2 In ]1n /n2
sommando tutti gli elementi e ricordando che n = km:
= [σu2 m2 k + kmσε2 ]/k 2 m2 =
= σu2 /k + σε2 /km
µ̂(N (µ, σu2 /k + σε2 /km)
Per quanto visto prima:
Pk
2
j=1 m(Mj − M ) /(k − 1)mk è una stima di tale varianza.
Pk Pm
2
j=1
i=1 (yij − Mj ) si distribuisce come nel modello a effetti
fissi, perché gli scarti yij −Mj non dipendono né da µ né dagli effetti
casuali uj .
356
k
X
Materiale didattico statistica 3
2
m(Mj −M ) =
j=1
k
X
m(µ+uj +ε.j −(µ+u. +ε.. )2 = (ε.j , u. , ε.. sono medie)
j=1
k
X
2
m[(uj + ε.j ) − (u. + ε.. )] =
j=1
k
X
m[zj − M (z)]2
j=1
considerando le variabili (non correlate) zj = uj + ε.j
E(z) = 0;
V (z) = [σu2 + σε2 /m]Ik
dato che le uj e le ε sono non correlate. Data l’assunzione di
normalità: P
Pertanto kj=1 [zj − M (z)]2 è la somma di k quadrati di scarti di
v.a. indipendenti dalla propria media aritmetica e quindi:
k
X
m[(uj + ε.j ) − (u. + ε.. )]2 (m[σu2 + σε2 /m]χ2k−1
j=1
I due chi-quadro sono indipendenti.
Quindi:
E(σ̂u2 ) = E
k
X
m(Mj − M )2 /m(k − 1) − σ̂ε2 /m =
j=1
m[σ̂u2 + σε2 /m](k − 1)/[m(k − 1)]) − σε2 /m = σu2
Si può anche ricavare la varianza dello stimatore
per la distribuzione si hanno solo risultati approssimati.
Si possono costruire stimatori puntuali e per intervallo per varianze e rapporti di varianze.
La stima σ̂u2 può risultare negativa;
problemi connessi.
Capitolo 11
Allontanamento dalle
assunzioni di base nel
modello lineare e
nell’analisi della varianza.
11.1
Tipi di allontanamenti dalle assunzioni di
base
Studio degli effetti dell’allontanamento dalle assunzioni di base del
modello lineare sugli stimatori dei parametri, sulle stime di previsione e sui test.
Possibili allontanamenti dalle assunzioni di base:
• Nella componente sistematica:
– Per esempio:
– non linearità e/o non additività
– irrilevante solo nell’AOV a 1 via
– esclusione di variabili rilevanti (o di componenti polinomiali importanti)
– esclusione di effetti di interazione particolari
– esempio: AOV a due vie con m = 1
– errore nella scala di misurazione della y e/o delle x (trasformazioni non lineari delle variabili)
– (questi tipi di allontanamento hanno degli aspetti in comune)
357
358
Materiale didattico statistica 3
• nella componente accidentale:
– non additività fra componente sistematica e accidentale
– valore atteso non nullo (equivale alla non corretta specificazione del modello)
– non normalità
– esempio: errori distribuiti secondo una normale di ordine
p.
– oppure secondo un modello lineare generalizzato (GLM):
coinvolge anche gli altri aspetti
– sui momenti secondi:
– eteroscedasticità
– esempio: regressione ponderata; (varianze funzione dei valori attesi).
– correlazione fra le componenti
– esempio: dipendenza temporale; dipendenza territoriale.
– in generale V (ε) 6= σ 2 In .
effetti su:
• proprietà stimatori
• non distorsione
• efficienza relativa
• valori previsti
• proprietà test
• livello di significatività effettivo
• potere del test
2002-3003 versione provvisoria
359
11.1.1
Effetti della non normalità sulla distribuzione di F
11.1.2
Effetti della non indipendenza
11.1.3
Effetti della eteroscedasticità
11.1.4
Trasformazioni
11.1.5
Finalità delle trasformazioni nel modello lineare
11.1.6
Tecniche alternative: test non parametrici e semiparametrici nella AOV
11.1.7
Test non parametrici
11.1.8
Test di permutazione
11.1.9
Analisi dei residui:
Adeguatezza del modello (estensione dell’analisi per modelli di regressione più generali ).
Validità del legame funzionale ipotizzato.
Identificazione di eventuali fattori o variabili trascurati.
Eliminazione di variabili poco importanti.
identificazione di trasformazioni non lineari delle variabili, rispetto alle quali valgano le assunzioni di additività, normalità, indipendenza e omoscedasticità
Identificazione di allontanamenti dalle ipotesi di base per la distribuzione della componente accidentale
outlier (valore distante dalla maggioranza delle osservazioni) ?
==¿ campione eterogeneo, miscuglio di popolazioni
Aspetti peculiari dell’analisi dei residui:
Nella regressione: esame del legame funzionale fra la y e le X ;
esame del range (eventualmente multivariato) all’interno del quale
è plausibile l’ipotesi di linearità.
Nell’analisi della varianza: validità delle ipotesi riguardanti l’additività di effetti; identificazione delle particolari combinazioni di
livelli dei fattori che portano interazioni significative
L’adeguatezza di un modello di regressione Ω0 , può essere saggiata più formalmente considerando un modello più ampio Ω1 , che
fa ipotesi più generali sulla distribuzione degli errori e/o sul legame
funzionale della componente sistematica; Ω1 dovrebbe includere Ω0
360
Materiale didattico statistica 3
come caso particolare, fissando alcuni parametri di Ω1 e costruendo
i test relativi. ESEMPI
Si può costruire una differente famiglia di modelli e saggiarne
l’adeguatezza mediante criteri basati sulla log-verosimiglianza
La costruzione di una qualsiasi famiglia di modelli presuppone
che si abbiano delle idee precise sul tipo di allontanamento dalle
assunzioni di base.
Definizione generale di residuo.
In generale su in un modello di regressione si ipotizza:
Y = g(X, β, ε)
con g(·) qualsiasi (ingloba sia il legame di y con i parametri che
quello fra la componente sistematica e accidentale)
allora se β ∗ è lo stimatore di massima verosimiglianza, i valori
stimati di y sono:
y∗ = g(X, β ∗ , ε)
e quindi un residuo generale è:
r soluzione delle equazioni: Y = g(X, β ∗ , r)
In particolare si ha, con errori indipendenti:
ri soluzione dell’equazione:
yi = g(X(i) , β ∗ , ri )
Figura da inserire Esempio:
Caratteristiche dei residui empirici nei modelli lineari
Se si considerano i residui empirici nel modello lineare, si ha che,
indicando con e il vettore dei residui empirici:
e = y − Xb
se il modello è correttamente specificato Y =X β + ε ,
i residui empirici sono allora esprimibili come:
e = (y − Xb) = Xβ + ε − Xb;
2002-3003 versione provvisoria
361
e = ε + X(β − b).
e quindi:
Se invece in realtà vi è una generica distorsione δ, dipendente da
variabili escluse, da componenti non lineari trascurate, o comunque
da una errata specificazione del modello di varia natura, e quindi se:
Y = Xβ + ε + δ, allora ovviamente si ha:
e = ε + X(β − b) + δ.
Il residuo empirico è dunque composto sostanzialmente da tre
componenti (non separabili):
Residuo empirico =
e=
componente accidentale +
ε+
componente legata all’accuratezza degli stimatori +
X(β − b)+
componente legata alla non corretta specificazione del modello
δ
Se il modello è correttamente specificato comunque il residuo è
formato da due componenti: ε e X(β − b). Con queste limitazioni
il residuo empirico dà informazioni su ε
362
Materiale didattico statistica 3
Se valgono le assunzioni di base:
E(ε) = 0, V(ε) = σ 2 I,
allora:
E(e) = 0
peró, per la matrice di varianza e covarianza si ottiene:
V (e) = E(eeT ) = E[(y−X(XT X)−1 XT y)(y−X(XT X)−1 XT y)T ] =
= σ 2 (In − X(XT X)−1 XT )
Pertanto i residui empirici risulteranno in generale correlati e con
varianza teorica differente.
Se si vuole eliminare la diversa variabilità dei residui empirici si
possono standardizzare gli stessi mediante gli elementi σ 2 (1 − hii )
sulla diagonale principale della matrice definita sopra.
Residui standardizzati (o Residui studentizzati)
hii → 0 al crescere di n ?
casi particolari di matrice H
riprendere esempi su carta
esempio dell’AOV a una via
esempio della regressione semplice
grafici dei residui empirici
Il modo migliore per avere informazioni sulla plausibilità delle assunzioni fatte sulla distribuzione di è quello di esaminare la distribuzione dei residui empirici ei = yˆi − yi , pur con le avvertenze fatte
nei paragrafi precedenti: va ancora ricordato che la difficoltà fondamentale nel fare ipotesi sulle è che si tratta di variabili aleatorie
non osservabili.
In ogni caso se il modello è non distorto si ha per i residui empirici:
e=ε+
X(β − b)
| {z }
effetto accuratezza stimatore
2002-3003 versione provvisoria
363
e quindi le informazioni su ε sono sintetizzate in e a meno dell’effetto dovuto agli stimatori X (β -b ), in generale dell’ ordine
O(n−1/2 ). Per valori grandi di n tale effetto sarà trascurabile, come
visto a proposito della valutazione di Ve
Possiamo ottenere differenti tipi di grafici riassunti schematicamente nella tabella:
364
Materiale didattico statistica 3
ascissa
ordinata
impiego
valore predetto: yˆi
residuo: ei = yˆi − yi
allontanamenti di vario tipo dalle ipotesi di base
valore predetto: yˆi
(residuo)2 e2i = (yˆi − yi )2
evidenzia un’eventuale presenza di eteroschedasticità
(valore predetto)2 : yˆi
residuo: ei = yˆi − yi
serve per vedere eventualmente se è adeguata l’ipotesi di linearità
regressore j: xij
residuo: ei = yˆi − yi
serve per vedere eventualmente se vi sono indicazioni di non linearità rispetto
al regressore j-esimo
regressore j: xij
deleted residual: di
serve per vedere eventualmente se vi sono indicazioni di non linearità rispetto
al regressore j-esimo
residuo al tempo i − 1: ei−1
residuo: ei
evidenzia l’eventuale presenza di autocorrelazione
seriale (di intervallo 1)
anche non lineare
normal probability plot
(trasformata normale di
probabilità dei residui)
evidenzia l’allontanamento
dalla normalità se i punti
non si dispongono approssimativamente lungo una
retta
istogramma della distribuzione dei residui empirici,
per vedere se la distribuzione dei residui è ben approssimabile da una normale (andrebbe utilizzato
con un numero di residui
superiore a un centinaio)
2002-3003 versione provvisoria
365
E’ intuitivo che parte di questi grafici possono essere utili anche
nel caso di modelli non lineari (con errori additivi, se no occorreranno altri tipi di residui).
residui allineati su poche righe
Il grafico ottenuto rappresentando i residui in corrispondenza dei
valori predetti è costituito dai punti: Pi : (yˆi , yˆi − yi ).
Se le osservazioni yi assumono solo pochi valori distinti, diciamo
s valori distinti, con s < n nel grafico residui contro valori predetti
i punti si disporranno lungo s rette; infatti se abbiamo ad esempio
rj osservazioni per ciascuna modalità yi , i corrispondenti rj punti
Pi : (yˆi , yˆi − yi ) si disporranno lungo la retta di equazione:
f (z) = z − yi
Esempio
Nel grafico sono riportati i residui in funzione dei valori predetti della
regressione lineare multipla fra la variabile CRANIOCM(Circonferenza
cranica) e altre tre variabili antropometriche.
366
Materiale didattico statistica 3
Figura 11.1:
vai a indice figure
I punti si dipongono lungo 12 segmenti di rette parallele, perchè i
valori distinti della variabile dipendente CRANIOCM sono solo 12,
come riportato nell’istogramma.
2002-3003 versione provvisoria
367
Figura 11.2:
vai a indice figure
esempio residui allineati su poche righe
ESEMPI E GRAFICI
Con allontanamenti di tipo vario
esempio di pattern con punti allineati
almeno un grafico per ogni situazione
subsubsectionidentificazione di particolari allontanamenti
approcci grafici
approcci analitici
__________________________________
ALTRO MATERIALE
ESEMPI E GRAFICI
368
Materiale didattico statistica 3
LUCIDI SCRITTI A MANO
__________________________________
11.2
Stima dei parametri del modello lineare.
Allontanamento dalle assunzioni di base:Minimi
quadrati generalizzati
Si supponga che gli errori seguano una distribuzione con matrice di
varianza e covarianza V qualsiasi :
E [ε] = 0n
V (ε) = V.
Per impiegare il metodo della massima verosimiglianza, ipotizzando che la distribuzione di ε sia una normale a n componenti, assumendo nota V , occorre valutare la verosimiglianza campionaria,
data da:
1
L(β, σ 2 ; y) = (2π)−n/2 |V|−1/2 exp[− (y − Xβ)T V−1 (y − Xβ)]
2
Il massimo rispetto a β si ottiene minimizzando:
min R(b) = (y − Xb)T V−1 (y − Xb)
b
con:
−1
(y[n×1] − X[n×k] b[k×1] )
R(b) = (y[n×1] − X[n×k] b[k×1] )T V[n×n]
= yT V−1 y − 2b0 XT V−1 y + b0 (XT V−1 X)b
(Minimi quadrati generalizzati)
derivando R(b) rispetto al vettore b :
∂R
= −2XT V−1 y + 2(XT V−1 X)b
∂b
Uguagliandole a 0 (vettore nullo):
−2XT V−1 y + 2(XT V−1 X)b = 0;
(XT V−1 X)b = XT V−1 y;
b = (XT V−1 X)−1 XT V−1 y
2002-3003 versione provvisoria
369
soluzione unica avendo supposto X di rango k
(e quindi b è ancora una combinazione lineare delle y )
Le condizioni del secondo ordine, riguardanti l’Hessiano, sono
sempre soddisfatte, perchè:
∂ 2R
= 2(XT V−1 X)
∂b∂bT
definita positiva
Le più comuni applicazioni di questo approccio si hanno nei:
Modelli con errori eteroscedastici e nei
Modelli con errori correlati
Si puó ancora mostrare, con passaggi analoghi a quelli visti per i
minimi quadrati ordinari , che valgono le seguenti relazioni:
b = (XT V−1 X)−1 XT V−1 y =
= (XT V−1 X)−1 XT V−1 (Xβ + ε) =
= β + (XT V−1 X)−1 XT V−1 ε)
Per la speranza matematica di b si ha:
E(b) = β
(avendo assunto E(ε) = 0n ) Per la matrice di varianza e covarianza
di b si ha
V (b) = (XT V−1 X)−1 XT V−1 V [Y] V−1 X(XT V−1 X)−1 =
= (XT V−1 X)−1
avendo assunto stavolta: Σ(ε) = V
Per i residui empirici si ha:
R(b) = (y − Xb)T V−1 (y − Xb) =
= εT V−1 (In − X(XT V−1 X)−1 XT V−1 )ε
e la matrice (In − X(XT V−1 X)−1 XT V−1 ) risulta ancora idempotente.
370
11.2.1
Materiale didattico statistica 3
Minimi quadrati con matrice di varianze e covarianze qualsiasi
Se V è nota , non vi sono particolari problemi numerici.
Si può trovare una matrice Q tale che:
QT Q = V−1 ,
e poi posto
Z = QX e W = Qy
si ritorna ai Minimi Quadrati ordinari:
b = (Z 0 Z)−1 Z 0 W = (XT Q0 QX)−1 XT Q0 Qy;
poichè:
y = Xβ + ε, e premoltiplicando per Q :
Qy = QXβ + Qε
W = Zβ + Qε
Σ[Qε] = I
Minimi quadrati ponderati:
Vii = σi2 eterogeneità
Vij = 0(i 6= j)
in questo caso è possibile stimare i parametri β e σi2 con algoritmi
a due stadi.
Modelli con autocorrelazioni:
Vii = σ 2
Vij = σ 2 ρij
11.2.2
Minimi quadrati generalizzati: Errori autocorrelati
\begin{fig}
riscrivere controllando col file PDF
\end{fig}
2002-3003 versione provvisoria
371
Si supponga un processo di Markov che generi errori di tipo AR
(1) (componente autoregressiva del primo ordine).
εt = ρεt−1 + at (−1 ≤ ρ ≤ 1)
con:
E(at ) = 0
V (a) = σa2 In
Allora:
E(εt ) = ρE(εt−1 ) = 0
per la stazionarietà!!
[cov(εt−1 , at ) = 0]
σε2 = σa2 /(1 − ρ2 )
cov(εt , εt−1 ) = ρσε2
corr(εt , εt−1 ) =
e si dimostra facilmente che, per le autocorrelazioni di lag s vale
la relazione generale, nel modello AR(1):r
corr(εt , εt−s ) = ρ|s|
Pertanto la matrice di varianza e covarianza di ε è
seguente matrice:

1
ρ ρ2 . . . ρn−1

 ρ
1 ρ . . . ρn−2

 ρ2
ρ 1 . . . ρn−3

V = V (ε) = σε2 × = 
 ... ... ... ... ...

 ρn−2 . . . . . . 1
ρ

ρn−1 . . . . . . ρ
1
data dalla











per cui l’elemento generico di V è dato da:
vij = σε2 ρ|i−j|
Si supponga ora di avere un modello lineare in cui la componente accidentale si distribuisce secondo un processo di Markov
(autoregressivo del primo ordine)
Y = Xβ + εconV (ε) = V(Markov, AR(1))
372
Materiale didattico statistica 3
Si può riscrivere la t-esima osservazione yt nel modo seguente per
rendere esplicito il carattere autoregressivo del modello:
yt = xt β + εt = xt β + ρεt−1 + at =
= xt β + ρ(yt−1 − xt−1 β) + at
anche:
yt − ρyt−1 = (xt − ρxt−1 )β + at
in cui at rispetta le assunzioni fatte per il modello lineare ordinario.
Dalle relazioni precedenti è evidente che la trasformazione che
porta a residui non correlati induce una componente non lineare
(nei parametri) nella componente sistematica del modello, data dalla
presenza del fattore ρxt−1 β
Analogamente si può vedere che:
\begin{fig}
$$
\veca_t=\vecy_t -\vecx_t \beta -\rho
(\vecy_{t-1}-\vecx_{t-1}\beta=\epsilon_t-\rho\epsilon_{t-1}
$$
riscrivere controllando col file PDF
\end{fig}
La funzione di verosimiglianza è data da:
−1
2 log L = log |Vε | + [Y − Xβ]T Vε
[Y − Xβ]
Per il determinante di Vε si dimostra che:
n
|V (ε)| = σε2 (1 − ρ2 )n−1 =
=
σa2
(; 1 − ρ2
n
n
(1 − ρ2 )n−1 =
σa2
1 − ρ2
mentre per l’inversa di V si dimostra che in questo caso è data
da:
V (ε)−1 = (σε2 )−1 × R(ε)−1 =
2002-3003 versione provvisoria
373
1 − ρ2 1
σa2 1 − ρ2

1
−ρ
0
...
0

2
 −ρ 1 + ρ
−ρ
...
0

 0
−ρ
1 + ρ2
...
0


2
...
...
1 + ρ −ρ
 ...
0
0
...
−ρ
1








La forma quadratica nei residui è:
R(β, ρ, σ 2 ) = [Y − Xβ]T Vε − 1[Y − Xβ] =
avendo indicato con ei l’i-esimo residuo empirico:
ei = yi − yi ∗
Per ottenere l’espressione sopra indicata per R(β, ρ, σ 2 ) si tenga
presente che nella forma quadratica:
----------------------------------------------------------------------------qui mancano parecchie formule
controllare anche le versioni degli
anni passati
----------------------------------------------------------------------------tutti gli elementi Zij della matrice V−1 sono nulli se: |i − j| > 1
In definitiva:
2logL = nlogσa2 − log(1 − ρ2 )+
Se n è grande, l’influenza dei termini − log(1 − ρ2 ) e (1 − ρ2 )e21 ,
è trascurabile, per cui:
xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx
per cui le stime asintotiche di massima verosimiglianza per i parametri riguardanti le componenti della varianza dell’ errore sono
date da:
374
Materiale didattico statistica 3
Pn
r=
i=2 ei ei−1
P
n−1 2
i=1 ei
(avendo indicato con s2a e rrispettivamente le stime di σa2 e ρ)
dal momento che:
xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx
che si annulla quando:
xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx
11.2.3
Trasformazioni di variabili nell’analisi della varianza e nella regressione multipla
11.2.4
Effetti delle trasformazioni nei modelli lineari
Stabilizzazione varianza ⇔ linearizzazione
Assunzioni su εi ⇔ linearizzazione
Se per esempio : yi = f(x ; β) + εi con V(εi ) = σi2
se si trova una trasformazione g(.) che stabilizza la varianza:
g(yi ) ⇒ v(g(yi )) ≈ costante.
Allora, se f(.) era lineare, dopo la trasformazione in generale non
lo sarà più.
Additività e linearità:
Si supponga di avere un modello non lineare con errori di tipo
moltiplicativo omoscedastici:
y = eα+βx (1 + ε0 )
con σ 2 (ε0 ) = σ02
log(y) = α + βx + log(1 + ε0 )
per il valore atteso della trasformata si ha:
E [log(1 + ε0 )] ≈ E [ε0 ] = 0
(sviluppando in serie e troncando al primo termine).
Si ha allora che Var[log(1 + ε0 )] è indipendente da x.
...
Ma, se ε0 è normale, log(1 + ε0 ) non lo è, e viceversa.
2002-3003 versione provvisoria
375
Oppure se:
ε0
y=e
+ ε0 = e
1+
E [Y ]
ε0
log(y) = α + βx + log 1 +
= α + βx + z0
E [Y ]
α+βx
α+βx
con:
E [z0 ] ≈ 0
V ar(z0 ) = g[E [Y ]],
per cui la trasformazione linearizzante introduce una eteroscedasticità degli errori
Figura da inserire BLOCCO DI LUCIDI SCRITTI A MANO
Vantaggi e svantaggi degli approcci basati su trasformazioni
Trasformazioni normalizzanti:Trasformazioni di BOX-COX
Stabilizzazione della varianza: conteggi binomiali e di Poisson
anche da un notebook di mathematica.
376
Materiale didattico statistica 3
Elenco delle figure
2.1
2.2
2.3
tempi di arrivo delle onde sonore di un segnale a una
sequenza di sensori posti ad intervalli uguali sul terreno 21
esempio elettrosmog: controlli . . . . . . . . . . . . . 24
esempio elettrosmog: casi . . . . . . . . . . . . . . . 25
3.1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.3 grafico a matrice delle coppie di variabili:dati grezzi .
3.4 grafico a matrice delle coppie di variabili . . . . . . .
3.5 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.6 grafico a matrice delle coppie di variabili . . . . . . .
3.7 grafico a matrice delle coppie di variabili:scale logaritmiche per tutte le variabili . . . . . . . . . . . . . .
3.8 grafico a matrice delle coppie di variabili:valori giornalieri di 8 indici di 8 borse . . . . . . . . . . . . . .
3.9 grafico a matrice delle coppie di variabili trasformate:valori giornalieri dei rendimenti relativi degli 8 indici di 8 borse . . . . . . . . . . . . . . . . . . . . . .
3.10 grafico a matrice delle tre variabili antropometriche e
dell’età gestazionale: dati grezzi . . . . . . . . . . . .
3.11 grafico a matrice delle tre variabili antropometriche e
dell’età gestazionale: dati corretti (almeno in parte) .
3.12 esempio delle nascite: relazione fra altezza e peso dei
nati . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.13 esempio delle nascite: relazione fra peso dei nati e
durata della gestazione . . . . . . . . . . . . . . . . .
3.14 esempio delle nascite: relazione fra peso dei nati e
durata della gestazione . . . . . . . . . . . . . . . . .
3.15 esempio delle nascite: relazione fra peso dei nati e
durata della gestazione . . . . . . . . . . . . . . . . .
377
29
30
31
32
33
36
37
38
39
41
42
44
45
46
47
378
Materiale didattico statistica 3
3.16 esempio delle nascite: relazione fra peso dei nati e
durata della gestazione . . . . . . . . . . . . . . . . .
3.17 esempio delle nascite: relazione fra peso all’ingresso
e peso all’uscita . . . . . . . . . . . . . . . . . . . . .
4.1
4.2
4.3
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Matrice di correlazione delle 4 variabili dell’esempio
dei neonati . . . . . . . . . . . . . . . . . . . . . . . .
Retta di minima distanza (ortogonale!) dai punti
osservati:regressione principale . . . . . . . . . . . . .
48
50
67
68
76
5.1 densità di normali bivariate 1 . . . . . . . . . . . . . 80
5.2 densità di normali bivariate 2 . . . . . . . . . . . . . 81
5.3 intersezioni con la normale bivariata . . . . . . . . . . 83
5.4 intersezioni con la normale bivariata . . . . . . . . . . 84
5.5 intersezioni con la normale bivariata . . . . . . . . . . 85
5.6 densità di normali bivariate 1 . . . . . . . . . . . . . 95
5.7 densità di normali bivariate 2 . . . . . . . . . . . . . 96
5.8 distribuzioni condizionate in una normale multivariata 122
5.9 distribuzioni condizionate in una normale multivariatamatrice di varianze e covarianze e inversa . . . . . . 123
6.1
6.2
6.3
6.4
6.5
6.6
6.7
6.8
7.1
7.2
7.3
7.4
relazione fra due variabili in funzione del valore di
una terza variabile . . . . . . . . . . . . . . . . . . .
FIG2000REGR3.STG . . . . . . . . . . . . . . . . . .
distribuzioni condizionate normali . . . . . . . . . . .
campione da una normale bivariata . . . . . . . . . .
distribuzioni condizionate normali in corrispondenza
di valori fissati . . . . . . . . . . . . . . . . . . . . . .
box-plot con retta di regressione e spezzata di regressione . . . . . . . . . . . . . . . . . . . . . . . . . . .
interaz1.stg . . . . . . . . . . . . . . . . . . . . . . .
interaz2.stg . . . . . . . . . . . . . . . . . . . . . . .
grafico a matrice delle tre variabili antropometriche .
relazione fra Circonferenza toracica e altezza su 1519
ragazzi . . . . . . . . . . . . . . . . . . . . . . . . . .
relazione fra Circonferenza toracica, altezza e peso su
1519 ragazzi . . . . . . . . . . . . . . . . . . . . . . .
relazione fra Circonferenza toracica, altezza e peso su
1519 ragazzi . . . . . . . . . . . . . . . . . . . . . . .
144
193
194
194
195
196
197
198
200
202
204
205
2002-3003 versione provvisoria
7.5
7.6
7.7
7.8
7.9
8.1
relazione fra Circonferenza toracica, altezza e peso su
1519 ragazzi . . . . . . . . . . . . . . . . . . . . . . .
regressione dell’Altezza rispetto al peso: relazione fra
i residui e la variabile esplicativa peso . . . . . . . . .
regressione della Circonferenza toracica rispetto al
peso: relazione fra i residui e la variabile esplicativa
peso . . . . . . . . . . . . . . . . . . . . . . . . . . .
relazione fra i residui W1 della variabile torace e i
residui W2 della variabile altezza . . . . . . . . . . .
correlazioni fra le 3 variabili e i due residui . . . . . .
379
206
210
211
212
216
verosimiglianza rispetto a µ e σ 2 per un campione
proveniente da una normale e verosimiglianza profilo
su µ . . . . . . . . . . . . . . . . . . . . . . . . . . . 225
11.1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 366
11.2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 367
elenco figure