Modelli statistici lineari ed altro

Modelli statistici lineari ed altro...
Marcello Chiodi
2 aprile 2003
2
Materiale didattico statistica 3
Università degli Studi di Palermo
Facoltà di Economia
Corso di Laurea in Statistica e Informatica per la Gestione e
l’Analisi dei Dati
http://dssm.unipa.it/sigad
Traccia del Corso di
Statistica 3
a.a. 2002-2003; Corso di 36 ore di lezione e 24 di esercitazioni, 6
crediti universitari
Valido anche come modulo per il corso di Statistica 3 per il 3◦
anno Corso di Laurea in Scienze Statistiche ed Economiche.
Marcello Chiodi
Dipartimento di Scienze Statistiche e Matematiche Silvio Vianelli
Università degli studi di Palermo
Viale delle Scienze, 90128 Palermo-Italy
e-mail: [email protected]; http://dssm.unipa.it/chiodi
(tel. 39-0916626236; fax. 39-091485726)
2002-3003 versione provvisoria
0.1
3
analisi casi di studio
analisi casi di studio, problemi reali, possibilmente con grafici e
situazioni varie
—— importanza dei contesti applicativi
difficoltà della statistica applicata ——
0.2
Articolazione del corso
corso di lezioni teoriche e corso di esercitazioni ed esame di casi
pratici mediante software statistico.
0.2.1
Software utilizzato
Prevalentemente (nell’a.a. 2002-2003) gli studenti faranno uso di
Statistica, di R, e di excel (o di latro software free-domain);
Il materiale didattico è stato realizzato dal Prof.Chiodi anche con
altro software, fra cui Mathematica e Visual Basic (versione 6).
0.2.2
Requisiti di base (consigliati) per la frequenza del
corso:
Statistica 1; Statistica 2; Analisi Matematica; Algebra Lineare; Calcolo delle Probabilità; è consigliabile anche avere familiarità con un
personal computer, possibilmente avendo sostenuto almeno uno dei
moduli del laboratorio informatico-statistico (meglio tutti e due).
Modalità di svolgimento dell’esame:
L’esame è costituito da una prova pratica di un caso di studio e da
una prova orale.
0.3
Avvertenza per gli studenti dei miei corsi
• Presuppongo che lo studente che legge questi appunti o che
comunque segue il corso, abbia le necessarie conoscenze di inferenza statistica, che qui vengono date per scontate (proprietà
degli stimatori, stimatori di massima verosimiglianza, costruzione di test, ipotesi semplici, composte, parametri di disturbo,
intervalli e regioni di confidenza, etc.).
4
Materiale didattico statistica 3
• Il corso di esercitazioni va considerato a tutti gli effetti parte
integrante comunque del presente corso.
• In questo corso non viene dato particolare risalto agli aspetti
propriamente computazionali, nel senso che quando per esempio si dice di trovare gli stimatori di massima verosimiglianza
di certi parametri, sotto particolari ipotesi e assunzioni, si presuppone che questi stimatori siano calcolabili in forma esplicita o che siano comunque valutabili in modo numerico utilizzando convenienti algoritmi, che in questo corso non vengono
comunque affrontati.
0.4
Traccia corso
• impostazione generale: problemi reali e analisi della dipendenza
• relazioni fra variabili e linguaggio vettoriale e matriciale; approfondimento di alcuni strumenti tecnici di calcolo matriciale
utili per il resto del corso.
• Concetto di relazione di regressione
• regressione semplice e parziale
• richiamo della normale bivariata. La normale multivariata (cenni)
• Il modello lineare: utilità e cenno ai possibili impieghi
• Stima dei parametri e proprietà degli stimatori nella regressione
multipla.
• Analisi dei residui
• Multicollinearità e scelta di variabili
• Analisi della varianza a una e più vie e della covarianza
• Modelli lineari generali
• Modelli lineari generalizzati e regressione logistica.
2002-3003 versione provvisoria
0.5
5
Elenco di siti utili
Sul sito del Prof. Chiodi
http://dssm.unipa.it/chiodi
per scaricare il software di simulazione
http://dssm.unipa.it/chiodi/downloadsimul2000.htm
pagina del materiale didattico
http://dssm.unipa.it/chiodi/materialedidattico.htm
Altri siti utili:
Sito statlib (con numerosissimi indirizzi di siti di software e datasets statistici)
http://www.stat.unipg.it/pub/stat/statlib/index.html
sito ufficiale di R:
http://cran.r-project.org
Risorse didattiche di area matematica:
http://www.shu.edu/projects/reals/index.html
http://www.math.it
http://www.integrals.com
http://www.nist.gov
http://www.univie.ac.at/projects/reals/index.html
...
...
6
Materiale didattico statistica 3
Indice
0.1 analisi casi di studio . . . . . . . . . . . . . . . . . .
0.2 Articolazione del corso . . . . . . . . . . . . . . . . .
0.2.1 Software utilizzato . . . . . . . . . . . . . . .
0.2.2 Requisiti di base (consigliati) per la frequenza
del corso: . . . . . . . . . . . . . . . . . . . .
0.3 Avvertenza per gli studenti dei miei corsi . . . . . . .
0.4 Traccia corso . . . . . . . . . . . . . . . . . . . . . .
0.5 Elenco di siti utili . . . . . . . . . . . . . . . . . . . .
3
3
3
3
3
4
5
1 stampa parziale
13
2 Problemi introduttivi
2.1 Casi reali e insiemi di dati . . . . . . . .
2.1.1 Caratteristiche dei dati reali . . .
2.2 Elementi distintivi dei vari problemi . . .
2.2.1 Elementi comuni ai vari problemi:
.
.
.
.
15
15
16
25
26
.
.
.
.
.
.
.
.
.
.
.
.
.
27
28
28
28
29
30
33
33
33
34
37
40
40
40
3 Esempi reali e casi di studio
3.1 dati antropometrici . . . . . . . . . .
3.1.1 descrizione del problema . . .
3.1.2 Esempio di matrice dei dati .
3.1.3 Le variabili (solo alcune) . . .
3.1.4 Rappresentazioni grafiche . .
3.1.5 Campione del dataset . . . . .
3.1.6 Problematiche statistiche (solo
3.1.7 spunti teorici . . . . . . . . .
3.2 dati di bilanci aziendali . . . . . . . .
3.3 indici di 8 borse . . . . . . . . . . . .
3.4 dati antropometrici neonati . . . . .
3.4.1 descrizione del problema . . .
3.4.2 variabili rilevate . . . . . . . .
7
.
.
.
.
.
.
.
.
.
.
.
.
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
alcune!)
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
8
Materiale didattico statistica 3
3.4.3
3.4.4
3.4.5
3.4.6
3.4.7
3.4.8
3.4.9
3.5
Esempio di matrice dei dati . . . . . . . . . .
Rappresentazioni grafiche 1 . . . . . . . . . .
Rappresentazioni grafiche 2 . . . . . . . . . .
Campione del dataset . . . . . . . . . . . . . .
Problematiche statistiche (solo alcune!) . . . .
Alcuni problemi e spunti . . . . . . . . . . . .
Una relazione non lineare: regressione non parametrica . . . . . . . . . . . . . . . . . . . .
3.4.10 spunti teorici . . . . . . . . . . . . . . . . . .
Elementi distintivi dei vari problemi . . . . . . . . . .
3.5.1 Elementi comuni ai vari problemi: . . . . . . .
40
40
41
42
42
43
48
50
58
59
4 Variabili Statistiche Multiple
61
4.1 Calcoli statistici in notazione vettoriale . . . . . . . . 61
4.1.1 Definizione della matrice dei dati . . . . . . . 62
4.1.2 significato dei primi due momenti multivariati
empirici . . . . . . . . . . . . . . . . . . . . . 74
4.1.3 ACP per variabili statistiche osservate . . . . 75
5 La distribuzione normale multivariata.
5.1 Richiami sulla normale bivariata . . . . . . . . . . . .
5.2 La normale multivariata . . . . . . . . . . . . . . . .
5.3 Distribuzione di variabili normali indipendenti . . . .
5.4 Densità normale multivariata . . . . . . . . . . . . .
5.5 Densità della distribuzione normale multivariata . . .
5.5.1 Distribuzioni marginali e indipendenza . . . .
5.5.2 Combinazioni lineari di variabili normali . . .
5.5.3 Caratterizzazione della distribuzione normale
multivariata. . . . . . . . . . . . . . . . . . . .
5.6 Assi principali . . . . . . . . . . . . . . . . . . . . . .
5.7 Distribuzione di forme quadratiche . . . . . . . . . .
5.7.1 Esponente della normale multivariata. . . . .
5.7.2 Indipendenza di forme quadratiche e lineari .
5.7.3 Teorema di Cochran: . . . . . . . . . . . . . .
5.8 Distribuzioni condizionate . . . . . . . . . . . . . . .
5.8.1 Distribuzione condizionata nel caso generale
di un gruppo di componenti rispetto ad un
altro gruppo di componenti. . . . . . . . . . .
5.8.2 Significato degli elementi dell’inversa della matrice di varianza e covarianza. . . . . . . . . .
79
79
85
85
87
89
91
92
93
94
98
104
106
107
109
110
115
2002-3003 versione provvisoria
5.9 Utilità della distribuzione normale multivariata . . .
5.10 Regressioni per vettori aleatori qualsiasi . . . . . . .
5.10.1 Regressioni lineari approssimate . . . . . . . .
5.11 Informazioni ricavabili dai primi 2 momenti . . . . .
5.12 Stimatori di massima verosimiglianza dei parametri
di una normale multivariata . . . . . . . . . . . . . .
5.12.1 Un test di Multinormalità: cenni . . . . . . .
5.13 Inferenza sui parametri della normale multipla . . . .
5.14 Distribuzioni multivariate non normali . . . . . . . .
5.14.1 Beta Multivariata . . . . . . . . . . . . . . . .
9
123
124
127
129
133
138
139
140
140
6 Introduzione ai Modelli Lineari
143
6.1 Il modello lineare di dipendenza per variabili normali. 143
6.2 Funzioni di regressione . . . . . . . . . . . . . . . . . 146
6.3 I modelli statistici. . . . . . . . . . . . . . . . . . . . 147
6.4 Il modello lineare generale. . . . . . . . . . . . . . . . 147
6.4.1 componente sistematica e componente casuale. 150
6.4.2 Caratteristiche essenziali degli elementi del modello lineare . . . . . . . . . . . . . . . . . . . 152
6.4.3 Caratteristiche più dettagliate degli elementi
del modello: . . . . . . . . . . . . . . . . . . . 153
6.4.4 Versatilità del modello lineare . . . . . . . . . 157
6.5 Problemi di inferenza . . . . . . . . . . . . . . . . . . 158
6.5.1 Ipotesi sulle ε . . . . . . . . . . . . . . . . . . 159
6.6 La matrice delle X . . . . . . . . . . . . . . . . . . . 160
6.6.1 Osservazioni ripetute. . . . . . . . . . . . . . . 161
6.6.2 Disegni fattoriali . . . . . . . . . . . . . . . . 162
6.6.3 Regressione multipla. . . . . . . . . . . . . . . 167
6.6.4 Regressione polinomiale: . . . . . . . . . . . . 171
6.6.5 Regressori del tipo 0/1 (dummy variables) . . 175
6.6.6 Analisi della varianza ad effetti fissi ed un
criterio di classificazione . . . . . . . . . . . . 176
6.6.7 Analisi della varianza ad effetti fissi con due
criteri di classificazione . . . . . . . . . . . . . 181
6.6.8 Analisi della covarianza . . . . . . . . . . . . . 182
6.6.9 Rette o piani di regressione con pendenze diverse: termini polinomiali moltiplicativi . . . . 184
6.6.10 Modelli autoregressivi . . . . . . . . . . . . . 187
6.7 Generalizzazioni . . . . . . . . . . . . . . . . . . . . . 189
10
Materiale didattico statistica 3
7 Spunti tratti da casi reali per l’introduzione
menti teorici
7.1 La correlazione parziale . . . . . . . . . . . .
7.1.1 Cenno alla regressione multipla . . .
7.1.2 correlazione fra residui . . . . . . . .
7.1.3 derivazione di r12.3 . . . . . . . . . .
di argo199
. . . . . 199
. . . . . 202
. . . . . 207
. . . . . 212
8 Stima dei parametri del modello lineare
217
8.0.4 Assunzioni di base nel modello lineare . . . . 218
8.1 verosimiglianza . . . . . . . . . . . . . . . . . . . . . 220
8.1.1 MINIMI QUADRATI ORDINARI . . . . . . 228
8.1.2 Teorema di Gauss-Markov . . . . . . . . . . . 232
8.1.3 Distribuzione campionaria di b (minimi quadrati ordinari) . . . . . . . . . . . . . . . . . . 234
8.2 Distribuzione della devianza residua nei modelli lineari237
8.2.1 Devianza residua in funzione dei valori osservati237
8.3 Scomposizione della devianza . . . . . . . . . . . . . 241
8.3.1 Scomposizione di R(β) . . . . . . . . . . . . . 242
8.3.2 Test F per la verifica di ipotesi nel modello
lineare: distribuzione nulla . . . . . . . . . . . 244
8.3.3 Distribuzioni sotto H0 e sotto H1 . . . . . . . 247
8.3.4 Scomposizione della devianza e test nel caso
di gruppi di regressori ortogonali . . . . . . . 250
8.4 Configurazioni della matrice X e di XT X . . . . . . 254
8.5 Modello lineare: Verifica di ipotesi generali . . . . . . 256
8.5.1 Prove di ipotesi particolari nel modello lineare 262
8.6 Test e regioni di confidenza nei modelli lineari . . . . 263
9 Regressione Multipla
269
9.1 Introduzione . . . . . . . . . . . . . . . . . . . . . . . 269
9.1.1 Prova dell’ipotesi di coefficienti di regressione
nulli nella regressione multipla. . . . . . . . . 273
9.2 La multicollinearità nella regressione multipla. . . . . 279
9.2.1 Esempi (sulla collinearità e simili) . . . . . . . 288
9.3 La scelta delle variabili nella regressione lineare multipla. . . . . . . . . . . . . . . . . . . . . . . . . . . . 288
9.3.1 Esempio di correlazioni osservate fra molte variabili . . . . . . . . . . . . . . . . . . . . . . 292
9.3.2 Esempi sulla regressione . . . . . . . . . . . . 300
2002-3003 versione provvisoria
11
10 Analisi della varianza
301
10.1 Analisi della varianza . . . . . . . . . . . . . . . . . . 301
10.1.1 Analisi della varianza ad una via . . . . . . . 303
10.1.2 Ipotesi di omogeneità delle medie: stimatori e
test corrispondenti. . . . . . . . . . . . . . . . 307
10.1.3 Divergenza dalla linearità per fattori quantitativi nell’analisi della varianza. . . . . . . . . 318
10.2 Analisi della varianza a due vie . . . . . . . . . . . . 322
10.2.1 Analisi della varianza a due vie: altre problematiche . . . . . . . . . . . . . . . . . . . . . 330
10.2.2 Analisi della varianza a più vie . . . . . . . . 332
10.2.3 Analisi della varianza con variabili concomitanti: L’analisi della covarianza . . . . . . . . 333
10.3 Il problema dei confronti multipli nell’analisi della
varianza . . . . . . . . . . . . . . . . . . . . . . . . . 339
10.3.1 Confronti a priori e a posteriori . . . . . . . . 340
10.3.2 L’ipotesi di omogeneità delle varianze. . . . . 347
10.3.3 Il Potere del test F: distribuzioni non centrali. 347
10.4 Modelli ad effetti casuali . . . . . . . . . . . . . . . . 351
11 Allontanamento dalle assunzioni
357
11.1 Tipi di allontanamenti dalle assunzioni di base . . . . 357
11.1.1 Effetti della non normalità sulla distribuzione
di F . . . . . . . . . . . . . . . . . . . . . . . 359
11.1.2 Effetti della non indipendenza . . . . . . . . . 359
11.1.3 Effetti della eteroscedasticità . . . . . . . . . . 359
11.1.4 Trasformazioni . . . . . . . . . . . . . . . . . 359
11.1.5 Finalità delle trasformazioni nel modello lineare359
11.1.6 Tecniche alternative: test non parametrici e
semiparametrici nella AOV . . . . . . . . . . . 359
11.1.7 Test non parametrici . . . . . . . . . . . . . . 359
11.1.8 Test di permutazione . . . . . . . . . . . . . . 359
11.1.9 Analisi dei residui: . . . . . . . . . . . . . . . 359
11.2 Minimi quadrati generalizzati . . . . . . . . . . . . . 368
11.2.1 Minimi quadrati con matrice di varianze e covarianze qualsiasi . . . . . . . . . . . . . . . . 370
11.2.2 Minimi quadrati generalizzati: Errori autocorrelati . . . . . . . . . . . . . . . . . . . . . 370
11.2.3 Trasformazioni di variabili nell’analisi della varianza e nella regressione multipla . . . . . . . 374
12
Materiale didattico statistica 3
11.2.4 Effetti delle trasformazioni nei modelli lineari 374
Capitolo 1
stampa parziale
13
14
Materiale didattico statistica 3
Capitolo 2
Problemi introduttivi
I problemi e casi di studio che seguono derivano da esperienze reali
o da esempi riportati nella letteratura scientifica; sono funzionali all’introduzione al corso, e in parte costituiscono una selezione dei problemi reali che verosimilmente sono affrontabili con le metodologie
e le tecniche studiate in questo corso.
Alcuni, in una forma anche diversa, di solito semplificata, sono
poi ripresi durante le mie lezioni, o comunque utilizzati come spunto
per l’introduzione di problematiche specifiche, o sfruttati nel corso
di esercitazioni.
Complessivamente coprono buona parte degli argomenti del corso
di Statistica 3.
2.1
Casi reali e insiemi di dati
Alcuni insiemi di dati sono inseriti almeno in modo parziale, in queste pagine per prendere abitudine con dati e situazioni vere Altri
problemi, evidenziati nel testo, si riferiscono invece a situazioni e
a metodologie diverse (tipicamente per alcune tecniche speciali di
analisi multivariata) che verranno solo accennate in questo corso ed
affrontate con maggiore dettaglio in altri corsi.
15
16
Materiale didattico statistica 3
Disponibilità di dati per gli studenti
Alcuni insiemi di dati saranno a disposizione degli studenti con modalità che saranno chiarite durante le lezioni e le
esercitazioni
2.1.1
Caratteristiche dei dati reali
...
Molti insiemi di dati con cui si ha che fare nella realtà hanno
un difetto fondamentale: sono veri!!!!
Gli unici dati che si presentano puliti sono quelli simulati
oppure quelli artificiali.
I dati veri disgraziatamente hanno tanti inconvenienti:
• non sono quasi mai completi (vi sono dati mancanti);
• difficilmente costituiscono un campione casuale semplice da una
qualsiasi popolazione;
• sono spesso eterogenei (ossia provengono da diverse popolazioni);
• le osservazioni possono avere un grado di precisione delle misurazioni differente;
• qualche volta si guardano bene dal provenire esattamente da
famiglie esponenziali o da universi normali;
2002-3003 versione provvisoria
17
In ogni caso non mi occuperò in questo testo dei problemi connessi
con la misura delle variabili o con la quantificazione di osservazioni
reali o con la costruzione di scale di misura.
Presupporrò sempre in tutti gli esempi che le yi e le xij (o altri
simboli che userò) siano riferiti a variabili osservate la cui misurazione e quantificazione costituisce un fatto acquisito e da non
mettere in discussione.
Esempio agrario
In molti esperimenti agrari si vogliono mettere a confronto delle
varietà di una certa coltura o pianta; oppure si vogliono confrontare
dei concimi differenti o comunque confrontare tecniche diverse di
produzione.
esempio con numeri
e con grafici
prendere da fonti storiche
• Si vuole vedere (mediante un esperimento che conduca all’ottenimento di un campione di osservazioni) se la diversa varietà,
o concime o altro fattore distintivo influenza la quantità media
di raccolto per unità di area (a parità di altre condizioni)
• L’area ove si conduce l’esperimento viene suddivisa in lotti, e
le diverse varietà, e/o i concimi, vengono assegnati ai vari lotti.
• E’ comunque noto che se nei vari lotti vengono assegnate le
stesse varietà nelle stesse condizioni, il raccolto sarà comunque
diverso, anche in modo rilevante, da lotto a lotto.
• I lotti vicini avranno la tendenza ad avere livelli dei raccolti
simili, e potrebbero esserci altri effetti collegati con la posizione
fisica dei lotti.
• Se l’esperimento fosse condotto in un altro anno, presumibilmente il raccolto medio sarebbe sostanzialmente diverso da
quello di quest’anno, anche usando la stessa varietà o concime.
Problemi statistici:
18
Materiale didattico statistica 3
• Separare l’effetto imputabile alle differenze fra i fattori controllabili, ossia le varietà (o i concimi) dagli effetti dovuti ai fattori
non controllabili, ossia i diversi lotti ed altre fonti di variabilità
• Stabilire qual è la varietà migliore;
• stimare la produttività media.
• Come pianificare l’esperimento se si vogliono effettuare simultaneamente i confronti fra le varietà e quelli fra i concimi? Oppure è meglio fare un esperimento per le varietà ed un altro per
i concimi?
• Se esiste un concime migliore, è sempre lo stesso per tutte le
varietà?
Esempio diete suini
Si vogliono confrontare tre diete per l’alimentazione di suini. L’efficacia della dieta è misurata semplicemente dall’incremento di peso
medio settimanale: interessa trovare la migliore dieta.
Gli animali sono suddivisi in 6 recinti; all’interno vi sono 6 animali
(uno per ciascuna combinazione dei 2 sessi per le 3 diete))
Il peso iniziale dell’animale è certamente importante.
mettere l’esempio da Rao
pag.246 (prendere i dati)
rao1.htm
• Il peso iniziale dell’animale è certamente importante (perchè si
suppone che animali più grossi crescano di più)
• E’ presumibile che l’incremento di peso di un generico animale sia dovuto a diversi fattori più o meno controllabili, ma
comunque in parte misurabili.
• che effetto ha il sesso degli animali?
• l’allocazione in un determinato recinto è importante?
• Quali diete sono migliori?
• Quali sono senz’altro da scartare?
2002-3003 versione provvisoria
19
Esempio sull’esame ecografico
Nelle diagnosi prenatali è necessario spesso avere una valutazione
del peso del nascituro, perchè pesi al di sotto di un certo percentile
(il 5◦ o il 10◦ ), in relazione alla settimana di gestazione, sono indizio
di possibili patologie.
Per valutare il peso prima della nascita, non si può ricorrere a
misurazioni dirette:
Si può procedere però valutando alcune misure rilevabili attraverso l’esame ecografico; da queste misure viene poi stimato il peso
del nascituro mediante una relazione usualmente non lineare. Solo
a titolo di esempio ne riporto una (Shepard et al.) fra quelle più
utilizzate:
Log10 EF W = 1.2508+(0.166xBP D)+(0.046xAC)(0.002646xACxBP D)
dove:
EFW = estimated fetal weight (g)
BPD = biparietal diameter (cm)
AC = abdominal circumference (cm)
I parametri di tale relazione sono stati stimati sulla base di misurazioni effettuate di EFW, BPD e AC su neonati.
L’ equazione serve a stimare il peso quando dall’esame ecografico
prenatale sono disponibili le misure BPD e AC.
Esempio sulla capacità del cranio
E’ noto che la capacità della scatola cranica è essenzialmente funzione di tre lunghezze caratteristiche del cranio; (o meglio la relazione
lega i logaritmi di tali variabili)
• Sulla base di un campione di soggetti si vogliono determinare i
parametri di tale relazione.
• L’interesse principale potrebbe essere quello di stabilire una
relazione empirica che possa consentire una buona stima della massa cranica, tenuto conto che è possibile ottenere le tre
misure lineari attraverso esami quali la TAC o altro.
• L’interesse potrebbe essere di confrontare tali relazioni per diversi gruppi di soggetti.
20
Materiale didattico statistica 3
Esempio geosismico
In un esperimento geosismico si rilevano i tempi di arrivo delle onde
sonore di un segnale a una sequenza di sensori posti ad intervalli
uguali sul terreno.
2002-3003 versione provvisoria
21
Figura 2.1: tempi di arrivo delle onde sonore di un segnale a una sequenza di
sensori posti ad intervalli uguali sul terreno
vai a indice figure
• Occorre determinare la relazione che esiste fra i tempi di arrivo
e la posizione dei sensori
• Si sa che in condizioni ideali e sotto certe ipotesi relative alla natura del terreno sottostante (omogeneità, pendenza costante, etc.) questa relazione dovrebbe essere data da una
spezzata costituita da diversi segmenti consecutivi a pendenza
decrescente.
Quanti sono i segmenti ed in quali punti si hanno i cambi di
pendenza?
inserire figura
Esempio carriere studenti
Si consideri un archivio di dati costituito dalle carriere degli studenti. Questo archivio è ricostruibile a partire dai dati caricati dalle
22
Materiale didattico statistica 3
segreterie universitarie e può esser utilizzato per studiare ad esempio
la lunghezza media dei periodi di studio, la percentuale di studenti
che completano in corso il proprio corso di studi, la percentuale di
fuori corso per ogni anno accademico e cosı̀ via.
L’analisi delle carriere accademiche e ormai diventata un obbligo
di legge e viene impiegata per analizzare e valutare l’efficienza dei
diversi atenei; un punto importante della riforma universitaria in
fase di attuazione è che le facoltà devono cercare di far laureare gli
studenti entro gli anni previsti dal loro corso di studi, diversamente
le facoltà sono considerate in qualche modo inefficienti.
Evidentemente nello studio delle carriere degli studenti si potrà tener conto di diversi fattori per vedere se e quanto influiscono
sull’andamento degli studi o meglio, sulla loro durata; fra i vari fattori si potranno considerare variabili proprie di ciascun individuo ad
esempio residenza, sesso, data di nascita, oppure variabili collegate
con il profitto ossia numero di esami sostenuti, votazione e cosı̀ via.
L’analisi di tali dati risulta spesso molto particolare in quanto ai
fini degli studi delle carriere vanno esaminate coorti simili di studenti
ossia studenti che si sono immatricolati tutti nello stesso anno; la
norma di questi tipi di dati è di contenere molti dati mancanti o
comunque di risultare in qualche modo censurati o troncati: per
esempio di solito non tutti gli studenti presenti nell’archivio hanno
completato gli studi o perché ancora non si sono laureati per che
hanno abbandonato gli studi; probabilmente alcuni studenti iniziano
la loro carriera dal secondo anno accademico o dal terzo perché
provenienti da altri atenei oppure concludono la loro carriera senza
un abbandono e senza una laurea perché si trasferiscono in altri
atenei.
Per analizzare questo tipo di dati spesso si fa ricorso a tecniche implementate in contesti medici per l’analisi dei modelli di
sopravvivenza.
• Queste carriere differiscono in modo sensibile da Facoltà a Facoltà? (o all’interno dei vari corsi di laurea?)
• Le carriere degli studenti (in termini di durata) differiscono in
funzione di fattori quali l’età, il sesso, l’essere o meno fuori sede,
il tipo e il voto di maturità, etc.?
2002-3003 versione provvisoria
23
altri problemi (da discutere durante il corso)
Esempio autoregressione
Un ulteriore caso è quello di una serie temporale osservata:
• abbiamo una sola variabile rilevata a intervalli di tempo costanti
• siamo interessati a vedere se e come le osservazioni dipendono
dalle precedenti
Esempio sulla rilevazione dei tempi di lavoro
Un altro caso reale di studio è costituito dalla rilevazione dei tempi di
lavoro; per un periodo di alcune settimane sono stati rilevati i tempi
di esecuzione di diverse mansioni in alcune biblioteche dell’ateneo
palermitano; questi dati di durata verranno messi in correlazione con
la particolare biblioteca col tipo di mansione, col tipo di attività, con
la particolare persona che ha operato, etc. per separare le diverse
fonti di variabilità.
Esempio sull’esposizione a fonti inquinanti (elettrosmog)
Effetti dell’elettrosmog (esposizione a fonti inquinanti).
Nel grafico 2.2 sono riportate le dislocazioni delle abitazioni di
tutti i morti in una città in un certo intervallo di tempo.
Nel grafico 2.3 sono riportate le dislocazioni delle abitazioni dei
soli morti per una particolare causa (A) nella stessa città (e nello
stesso periodo).
Il punto di coordinate (0,0) corrisponde alla dislocazione di una
fonte di elettrosmog che è sospettata di essere responsabile di una
maggiore mortalità per la causa (A).
Il problema potrebbe essere riformulato in questo modo:
Le disposizioni territoriali dei punti (o la loro densità) nei due
grafici sono simili?
24
Materiale didattico statistica 3
Figura 2.2: esempio elettrosmog: controlli
vai a indice figure
2002-3003 versione provvisoria
25
Figura 2.3: esempio elettrosmog: casi
vai a indice figure
2.2
Elementi distintivi dei vari problemi
migliorare questa parte:
mettere riferimenti agli esempi
• Le variabili esplicative possono essere quantitative, qualitative
o miste.
• I dati possono provenire da esperimenti pianificati, in cui alcuni
fattori sono tenuti sotto controllo, o da studi osservazionali
in cui non è possibile tenere sotto controllo i fattori. E’ di
fondamentale importanza che lo statistico intervenga comunque
nella fase di pianificazione dello studio, prima della rilevazione
dei dati.
• Può interessare la verifica di una particolare ipotesi (o la costruzione di un intervallo o regione di confidenza) relativamente solo ad un gruppo di parametri, mentre altri parametri del
modello giocheranno il ruolo di parametri di disturbo. Svolge
26
Materiale didattico statistica 3
spesso il ruolo di fattore di disturbo la particolare distribuzione
di errori accidentali.
• La risposta che si vuole ottenere può essere soltanto di tipo
comparativo (qual è il migliore fertilizzante fra A, B e C), oppure assoluto (qual è l’effetto medio del farmaco A per pazienti
di un certo tipo?)
• Come attribuire i vari trattamenti alle singole unità?
2.2.1
Elementi comuni ai vari problemi:
Problema generale
In generale si vuole studiare (possibilmente sulla base di
un campione di osservazioni) la dipendenza di un fenomeno (espresso spesso da una variabile quantitativa) da una
molteplicità di fattori o variabili esplicative (quantitative e/o
qualitative)
Capitolo 3
Esempi reali e casi di studio
27
28
3.1
3.1.1
Materiale didattico statistica 3
dati antropometrici
descrizione del problema
In un’indagine antropometrica, si esamina un grosso campione di
ragazzi a cavallo dell’età puberale, su ciascuno dei quali vengono
rilevati diversi caratteri antropometrici.
3.1.2
Esempio di matrice dei dati
antropometrici1/esempiodati.htm
2002-3003 versione provvisoria
29
Figura 3.1:
vai a indice figure
3.1.3
Le variabili (solo alcune)
antropometrici1/descriptive.htm
30
Materiale didattico statistica 3
Figura 3.2:
vai a indice figure
3.1.4
Rappresentazioni grafiche
Rappresentazione delle sole 7 variabili antropometriche:
2002-3003 versione provvisoria
31
Figura 3.3: grafico a matrice delle coppie di variabili:dati grezzi
vai a indice figure
Alcune osservazioni, come si vede dal grafico a matrice, presentano valori dubbi per alcune delle variabili, presumibilmente dovuti
ad errori di trascrizione; sono stati considerati come dati mancanti
ed è stato rappresentato di nuovo il grafico
32
Materiale didattico statistica 3
Figura 3.4: grafico a matrice delle coppie di variabili
vai a indice figure
antropometrici1/correlations.htm
2002-3003 versione provvisoria
33
Figura 3.5:
vai a indice figure
3.1.5
Campione del dataset
3.1.6
Problematiche statistiche (solo alcune!)
Non tutte saranno affrontate nel corso!
• Come interagiscono le variabili?
• Le relazioni fra le variabili antropometriche sono di tipo lineare?
• Che relazione c’è fra le variabili antropometriche e l’età dei
soggetti?
• Un sottoinsieme di esse o loro combinazioni sarebbero sufficienti
per dare buone informazioni sintetiche?
• le relazioni fra le variabili cambiano per le diverse fasi puberali?
• Alcune combinazioni di variabili potrebbero descrivere sufficientemente bene la fase dello sviluppo puberale di ciascun
individuo?
3.1.7
spunti teorici
34
Materiale didattico statistica 3
3.2
dati di bilanci aziendali
I grafici che seguono sono tratti da archivi di dati reali, riguardanti
2835 aziende siciliane, operanti in Sicilia nel 1992.
I dati sono quelli relativi ai bilanci pubblicati per riguardano
soltanto le società di capitale. Le variabili presenti sono:
• La ragione sociale;
• La provincia;
• Il fatturato annuo;
• Il numero di dipendenti;
• L’utile;
• I mezzi forniti dai terzi;
• Il costo complessivo del lavoro;
• La codifica dell’attività svolta.
Come è ovvio, questo insieme di dati difficilmente può essere
considerato un campione di aziende: in effetti, a meno di qualche
errore materiale, si tratta di tutte le aziende siciliane costituite da
società di capitale che hanno presentato un bilancio nel 92. Pertanto
già per questo solo motivo è impensabile trattare questi dati come
un campione casuale semplice da una normale multivariata; inoltre
le particolari variabili rilevate sono intrinsecamente non normali:
è noto infatti che la distribuzione delle aziende secondo la dimensione o secondo il numero di addetti è tipicamente asimmetrica come pure la distribuzione del fatturato; tuttavia è presumibile
che alcune di queste variabili siano legate da correlazioni almeno
approssimativamente lineari.
aziende1/esempioaziende1.txtlink esterno ad esempioaziende
2002-3003 versione provvisoria
35
RKG
PROV
FATT92
6
PA
337782
9
PA
224650
20
23
AG
PA
41
DIPENDEN
UTILE
MEZZITER
COSTOLAV
ISTAT1
-67013
262558
91357
24
91
-88
5574
2693
51
113788
110926
396
211
-2330
-10707
23038
33657
18439
15925
45
61
RG
90297
36
617
22614
1306
51
64
PA
59578
39
56
15869
1609
15
69
73
RG
ME
55479
52885
17
273
565
-3926
7436
58978
364
16689
24
35
75
PA
52761
1
-90
16230
5451
51
95
102
PA
RG
42722
41364
28
34
893
735
38321
2574
1393
2574
15
50
109
AG
38937
309
7286
1088
51
127
130
PA
PA
33333
32823
255
35
827
65
3601
1355
13935
1265
74
63
136
CT
31756
53
160
2262
1914
51
147
...
PA
...
29987
...
5
...
9
...
1234
...
192
...
51
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
2699
...
RG
...
2124
...
6
...
56
...
347
...
136
...
52
2702
CT
2123
2
3
0
221
51
2703
2708
AG
PA
2122
2116
6
-246
-14
624
1150
82
250
52
45
2710
PA
2115
34
-564
684
1148
74
2715
2719
CL
CL
2108
2101
1
11
-10
-45
0
538
79
310
45
26
2735
PA
2086
3
89
45
52
2739
2748
2766
PA
PA
2083
2066
2
1
286
7
3179
0
178
24
74
51
CL
2054
6
37
132
220
52
2798
PA
2026
4
-11
54
198
63
36
Materiale didattico statistica 3
Figura 3.6: grafico a matrice delle coppie di variabili
vai a indice figure
Come si vede le distribuzioni sono molto asimmetriche e sono poco plausibili probabilmente le ipotesi di normalità delle distribuzioni
(come peraltro si può immaginare data la natura delle variabili) e
di linearità e omoscedasticità delle relazioni di regressione.
SOlo a scopo esplorativo riporto qui anche gli stessi grafici in
scala logaritmica: molte relazioni sembrano (ma è da veriverificare)
più facilmente approssimabili da rette.
2002-3003 versione provvisoria
37
Figura 3.7: grafico a matrice delle coppie di variabili:scale logaritmiche per tutte
le variabili
vai a indice figure
3.3
indici di 8 borse
Sono rappresentati nelle figure i grafici a matrice dei valori di chiusura giornaliera degli indici di 8 borse nell’arco di circa 20 anni,
xtj , t = 1, 2, . . . , 4959; j = 1, 2, . . . , 8
38
Materiale didattico statistica 3
Figura 3.8: grafico a matrice delle coppie di variabili:valori giornalieri di 8 indici
di 8 borse
vai a indice figure
Nel grafico successivo sono rappresentate le trasformate ytj di
questi stessi indici, ossia i rendimenti relativi giornalieri:
ytj =
xt+1,j − xtj
xtj
t = 1, 2, . . . , 4958; j = 1, 2, . . . , 8
2002-3003 versione provvisoria
39
Figura 3.9: grafico a matrice delle coppie di variabili trasformate:valori
giornalieri dei rendimenti relativi degli 8 indici di 8 borse
vai a indice figure
40
Materiale didattico statistica 3
3.4
3.4.1
dati antropometrici neonati
descrizione del problema
Rilevazione in un ospedale palermitano dei dati relativi alle nascite
o ai ricoveri in un reparto di neonatologie.
Le variabili rilevate sono tutte quelle previste dalla cartella clinica
da compilare per ogni parto o per ogni neonato entrato
3.4.2
variabili rilevate
• Una rappresentazione con una matrice di grafici è utile per
avere un’idea delle relazioni a due a due fra le variabili.
• Molti software hanno la possibilità di fare tale rappresentazione
direttamente, insieme con la possibilità di marcare alcuni punti
particolari in tutti i grafici
• Fino ad un numero di variabili non superiori ad una decina,
si tratta di una rappresentazione che fa cogliere molto delle
relazioni fra le p variabili
3.4.3
Esempio di matrice dei dati
3.4.4
Rappresentazioni grafiche 1
2002-3003 versione provvisoria
41
Figura 3.10: grafico a matrice delle tre variabili antropometriche e dell’età
gestazionale: dati grezzi
vai a indice figure
3.4.5
Rappresentazioni grafiche 2
42
Materiale didattico statistica 3
Figura 3.11: grafico a matrice delle tre variabili antropometriche e dell’età
gestazionale: dati corretti (almeno in parte)
vai a indice figure
3.4.6
Campione del dataset
3.4.7
Problematiche statistiche (solo alcune!)
• nelle rappresentazioni grafiche si sono riportate solo alcune variabili a titolo di esempio: non si è tenuto conto di molte variabili che influiscono su queste, quali il tipo di parto, l’età della
madre, etc.
• E’ possibile costruire degli standard di peso, altezza e circonferenza cranica alla nascita in funzione dell’età gestazionale?
• la relazione fra peso ed età gestazionale è lineare, o è meglio
espressa da un polinomio? e di che grado?
• Che incidenza hanno i diversi tipi di parto?
• Esistono patologie più frequenti in funzione di alcuni fattori?
• Lo status materno (essere fumatrice, tipo di parto, età della
madre, etc. influenza le caratteristiche del neonato?)
2002-3003 versione provvisoria
• Etc. etc. . . .
3.4.8
Alcuni problemi e spunti
Alcune delle relazioni fra variabili sono tipicamente non lineari:
43
44
Materiale didattico statistica 3
Figura 3.12: esempio delle nascite: relazione fra altezza e peso dei nati
vai a indice figure
2002-3003 versione provvisoria
45
Figura 3.13: esempio delle nascite: relazione fra peso dei nati e durata della
gestazione
vai a indice figure
46
Materiale didattico statistica 3
Figura 3.14: esempio delle nascite: relazione fra peso dei nati e durata della
gestazione
vai a indice figure
2002-3003 versione provvisoria
47
Figura 3.15: esempio delle nascite: relazione fra peso dei nati e durata della
gestazione
vai a indice figure
48
Materiale didattico statistica 3
Figura 3.16: esempio delle nascite: relazione fra peso dei nati e durata della
gestazione
vai a indice figure
regressione
Non si confonda la curva ottenuta dalle medie dei pesi dei nati
in funzione della durata della gestazione (che è una curva di regressione )con la curva di crescita (intrauterina) del peso per un singolo
neonato in funzione della settimana di gravidanza (che è una curva
di crescita individuale)
3.4.9
Una relazione non lineare: regressione non parametrica
Nella figura è riportata la relazione (per il dataset delle nascite) fra
peso all’ingresso e peso all’uscita (solo a titolo di esempio e trascurando tutte le altre variabili che consentirebbero di selezionare
meglio i casi)
• E’ evidente che la relazione fra le due variabili non è lineare.
• Infatti, come si vede anche dal grafico, si sa che il neonato
comunque non esce dal reparto se non ha raggiunto un certo
peso (parte sinistra del grafico); (nel grafico sono riportati tutti
2002-3003 versione provvisoria
49
i casi a prescindere dal numero di giorni di permanenza e a
prescindere dal numero di settimane di gestazione)
• E’ improbabile che sia utile adattare un’unica relazione di regressione: è meglio procedere per via esplorativa
50
Materiale didattico statistica 3
Figura 3.17: esempio delle nascite: relazione fra peso all’ingresso e peso all’uscita
vai a indice figure
Si può cercare di stimare una relazione di regressione non paregressione non parametri- rametrica come si vede dal grafico (è irrilevante qual’è la tecnica
ca
particolare usata) da un certo punto in poi, la relazione può essere
considerata senz’altro lineare.
E’ ovvio che un’unica relazione lineare sarebbe del tutto insoddisfacente
3.4.10
spunti teorici
Esempio sui farmaci
Si vuole verificare l’efficacia di due o più farmaci per la cura di una
certa patologia.
• Si tenga presente che presumibilmente individui distinti possono avere reazioni differenti a parità di tipo e di dose del
farmaco.
• La reazione ad un farmaco potrebbe dipendere in parte da caratteristiche del paziente, quali: sesso, età, ipertensione, presenza di altre patologie, etc.
2002-3003 versione provvisoria
51
Problemi di organizzazione dell’esperimento:
Lo stesso soggetto può ricevere somministrazioni differenti? (per
molte patologie ciò non sarà senz’altro possibile, lo sarà ad
esempio per l’emicrania, ma non per le cardiopatie)
• E’ opportuno prevedere un gruppo di controllo cui viene somministrato un placebo?
• La consapevolezza dei soggetti di far parte di un gruppo sperimentale in certi casi potrebbe alterare la risposta.
• Come misurare l’effetto nel caso della mancata somministrazione di un farmaco? (ossia lo stato del paziente in assenza
di cura?) Mediante placebo o mediante dati storici o di altri
esperimenti su altri soggetti?
• Cambia qualcosa se lo scopo è il confronto fra i due farmaci
oppure una valutazione della loro efficacia individuale?
Esempio cavie
In un esperimento farmacologico su un antidepressivo somministrato a delle cavie, si vuole verificare l’efficacia del farmaco in concomitanza con altri fattori, alcuni dei quali dipendenti dal fatto che
la madre della singola cavia avesse assunto o meno un certo altro
farmaco durante la gravidanza.
esempio
dai dati farmacologici
numeri e grafici
Molti fattori sono costituiti da mutabili dicotomiche (ossia
somministrazione o no del farmaco)
Viene organizzato un esperimento con diverse combinazioni dei
livelli dei fattori. Per ogni soggetto viene predeterminata una attitudine generale all’esperimento in assenza di farmaco.
52
Materiale didattico statistica 3
Esempio dosaggio farmacologico
In un esperimento farmacologico di dosaggio biologico, si vuole costruire la curva di risposta in funzione delle dosi di un certo farmaco
A.
esempio di biostatistica
curva sigmoidale
con approssimazione lineare
problemi statistici
• E’ noto che la risposta media individuale per dosi intermedie
è approssimativamente lineare, almeno in un range limitato di
valori delle dosi somministrate.
• Per intervalli più ampi si sa senz’altro che la risposta non è di
tipo lineare.
• Dosi troppo piccole (al di sotto di un certo valore di soglia) non
portano risposte misurabili.
• I sovradosaggi (ossia le dosi di farmaco superiori a un certo
livello di soglia) non portano benefici ulteriori, o addirittura
possono essere dannosi.
• Occorre stimare il livello di soglia minima e quello massimo.
• Si vuole stimare la forma dell’intera curva di risposta
• Si vogliono ottenere dei dosaggi particolari (corrispondenti al
50%, ossia al fatto che siano efficaci per il 50% dei soggetti)
Esempio estrazione minerali
In un esperimento industriale si vogliono mettere a confronto più
procedimenti per l’estrazione di un certo elemento da minerali grezzi.
• Interessa selezionare il procedimento complessivamente migliore, ossia che estrae la maggior parte di elemento a parità di
costo o di costo inferiore a parità di materiale.
• I minerali grezzi hanno caratteristiche differenti come proporzione di elemento presente.
2002-3003 versione provvisoria
53
Alcuni procedimenti potrebbero essere migliori con minerali con
un maggior grado di purezza.
Esempio lavorazione lastra
Si deve eseguire una lavorazione per deformazione plastica su una
lastra metallica.
• E’ noto che il processo risulta notevolmente influenzato sia da
parametri geometrici sia tecnologici.
• In fase di progettazione vengono fissati la forma e le dimensioni finali del pezzo, il suo spessore, e il tipo di materiale da
utilizzare.
• Il problema è quello di determinare il valore degli altri parametri che caratterizzano il processo, quali il raggio del punzone,
le condizioni di attrito iniziale, la pressione da esercitare, con
l’obiettivo di ottimizzare il processo di lavorazione.
Esempio sulla didattica nelle scuole
In uno studio sulla qualità didattica delle scuole elementari si vuole
vedere se l’apprendimento dei bambini è in qualche modo legato al
livello di scolarizzazione dei genitori.
mettere un esempio vero
• Si deve tenere conto dell’influenza della diversa scuola.
• Si deve tenere conto dell’influenza del diverso insegnante.
• Si possono tenere presenti altri fattori che possono influenzare
tale relazione.
Esempio emittente televisiva
mettere un esempio vero
Viene condotta per conto di un’emittente televisiva un’indagine (multiscopo) mediante questionario per studiare il gradimento delle trasmissioni, misurato sia attraverso una scala prestabilita sia mediante
54
Materiale didattico statistica 3
il numero degli spettatori (che ha seguito tutta la trasmissione o solo
una parte)
• I gradimenti saranno differenti per le diverse trasmissioni;
• Potrebbe esservi un’influenza di fattori quali: sesso, età, posizione geografica, preferenze degli altri componenti del nucleo
familiare, etc.
• L’orario di trasmissione e il tipo di programmi offerti simultaneamente dalla concorrenza avranno sicuramente un’influenza
sul numero medio di spettatori e/o sullo share.
Esempio su un indagine clinica
Si sta studiando una determinata patologia e si predispone un’indagine clinica in cui si esaminano due gruppi di soggetti, brevemente
identificati come malati e sani. Per ciascun soggetto si rileva una
molteplicità di fattori collegati con la sintomatologia, la fisiologia e
l’anamnesi del singolo paziente.
• Quanto differiscono, rispetto ai vari sintomi ed alle caratteristiche fisiologiche ed all’anamnesi, i pazienti malati da quelli
sani?
• E’ possibile dire se un individuo è sano o malato sulla base
dei soli sintomi e delle variabili ausiliarie, prima di effettuare
un’analisi specifica? Qual è la probabilità di sbagliare e quali
sono i sintomi o le caratteristiche che consentono di prendere
le decisioni migliori?
• Oppure si vuole stimare qual è la probabilità di contrarre la
malattia (in un determinato intervallo di tempo) in funzione
dei vari fattori.
Esistono alcuni sintomi o caratteristiche individuali che possono
fungere da variabili di screening ossia di discriminazione fra i due
gruppi?
2002-3003 versione provvisoria
55
Esempio del sito archeologico
In un sito archeologico vengono trovati diversi scheletri. Su ciascuno
scheletro vengono effettuate diverse misurazioni (larghezza scatola
cranica, lunghezza femore, etc, . . . )
Sulla base di queste misurazioni è possibile stabilire se si tratta
di un insieme omogeneo?
• Oppure l’insieme è eterogeneo e quindi è un sito in cui sono
presenti sia uomini, che donne e bambini?
• E’ un sito in cui si trovano solo uomini (e quindi forse è un
campo di battaglia)?
Esempio del magazzino di un ipermercato
Si deve ottimizzare l’allocazione delle risorse nel magazzino centrale
di una catena di ipermercati: l’ottimalità dell’allocazione coincide
con la minimizzazione dei tempi di evasione degli ordini.
• In realtà si vuole contemporaneamente tenere conto di altri
fattori importanti, quali la fragilità dei colli, o la loro diversa
forma, che non consente un perfetto riempimento della pedana, o ancora il grado di affinità tra i prodotti (per esempio al
magazziniere può risultare comodo trovare tutti i tipi di pasta
in posizioni limitrofe), o una certa correlazione tra i prodotti,
dovuta al fatto che questi spesso si trovano presenti contemporaneamente in un ordine, o infine, ma non per questo meno
importante, il diverso indice di rotazione della merce.
Come tenere conto simultaneamente di tutti questi fattori di cosı̀
diversa natura?
Esempio sulle onde sonore
Si hanno dei campioni di onde sonore, rappresentate da curve, prodotte da un campione di n soggetti nel pronunciare alcune parole
56
Materiale didattico statistica 3
prestabilite. In base a questa informazione campionaria, se si osservano nuove onde sonore, si è in grado di determinare a quali parole
corrispondono?
Esempio sulla pesate
Si hanno cinque oggetti: se ne vogliono determinare le masse disponendo di una bilancia.
• Occorre effettuare una pesata a vuoto per tarare lo strumento?
• E’ meglio pesare tutti gli oggetti insieme oppure singolarmente?
• E’ opportuno effettuare più pesate in tempi diversi?
• Quale precisione nel risultato si vuole ottenere?
• Il tipo di strumento è rilevante? (la bilancia di un laboratorio chimico ha caratteristiche diverse da quella del negozio
alimentare)
E’ rilevante nell’organizzazione dell’esperimento che le masse siano simili oppure fra loro molto differenti, ad esempio se fra i cinque oggetti vi sono un camion ed una rondella? (e per rispondere a questa domanda abbiamo fatto una sommaria valutazione
preliminare delle quantità che occorre stimare)
Esempio rete ferroviaria
Consideriamo la rete dei trasporti ferroviari italiana; in una situazione di completa omogeneità dovremo aspettarci dei tempi di percorrenza da una città all’altra esattamente proporzionali alle distanze
che. Euclidee fra le varie città. In effetti, si sa che ciò non si verifica quasi mai e potrebbe quindi essere interessante effettuare la
seguente applicazione di scaling multidimensionale.
Si considerino n città italiane; si rilevano i tempi di percorrenza
ferroviari secondo quanto riportato dagli orari ufficiali delle ferrovie,
convenendo di prendere ogni volta il tempo più breve per ogni itinerario. Se i tempi fossero proporzionali alle distanze, una tecnica
2002-3003 versione provvisoria
57
d i scaling multidimensionale che trovi due soli fattori dovrà riprodurre esattamente la disposizione geografica delle n città; a meno
di una rotazione ortogonale e trascurando l’effetto della curvatura
terrestre.
Dal momento che i tempi non sono in realtà proporzionali alle
distanze, l’estrazione dalla tabella dei tempi dei primi due fattori mediante una qualsiasi tecnica di scaling multidimensionale ci
permette di vedere in quale il grado di distorsione delle distanze
indotto dal nostro sistema di misurazione; in altri termini costruiremo una carta geografica immaginaria nella quale le distanze sono
proporzionali il più possibile ai tempi di percorrenza osservati.
Esempio delle prove dei Gran Premi
Come esempio minimo di modello di analisi della varianza gerarchico
con effetti misti, ossia effetti fissi e ed effetti casuali, prendiamo
un piccolo esempio tratto da avvenimenti sportivi; esaminiamo i
tempi di qualifica ottenuti dai vari piloti nei gran premi di formula
uno. Consideriamo i tempi di qualifica e non i risultati ottenuti
in gara perché questi ultimi sono perturbati da diversi fattori, ed
inoltre hanno una notevole percentuale di dati censurati o comunque
indeterminati perché molti piloti non concludono la corsa; i dati
relativi invece alle qualifiche sono in effetti più regolari anche perché
ottenuti in condizioni più controllate.
I dati sono classificabili secondo più criteri: un criterio di classificazione è il particolare circuito; questo certamente andrà considerato
come un effetto fisso la cui influenza va eliminata; un altro criterio
di classificazione la scuderia; un terzo criterio è costituito dai due
piloti di ciascuna squadra. Il disegno è gerarchico perché i piloti di
ciascuna scuderia sono sempre gli stessi. Potremmo chiederci:
• Qual è l’effetto medio di ciascun circuito?
• Quanto influente, o significativa, è la differenza fra le varie
squadre?
• All’interno di ciascuna squadra, le differenze fra i piloti sono
significative?
• Quale dei precedenti effetti è preponderante?
• È più ragionevole studiare i tempi o la velocità?
58
Materiale didattico statistica 3
• L’ipotesi di normalità è ragionevole? Su questo aspetto una
analisi dei residui empirici sarà di grande aiuto.
• Esiste interazione fra i circuiti e le squadre? È estremamente
difficile che i dati relativi alle sessioni di prova possano fornirci
tali informazioni, in quanto le repliche sono costituite dai tempi
migliori dei due piloti; non sono stati rilevati tempi diversi per
ciascun pilota.
3.5
Elementi distintivi dei vari problemi
migliorare questa parte:
mettere riferimenti agli esempi
• Le variabili esplicative possono essere quantitative, qualitative
o miste.
• I dati possono provenire da esperimenti pianificati, in cui alcuni
fattori sono tenuti sotto controllo, o da studi osservazionali
in cui non è possibile tenere sotto controllo i fattori. E’ di
fondamentale importanza che lo statistico intervenga comunque
nella fase di pianificazione dello studio, prima della rilevazione
dei dati.
• Può interessare la verifica di una particolare ipotesi (o la costruzione di un intervallo o regione di confidenza) relativamente solo ad un gruppo di parametri, mentre altri parametri del
modello giocheranno il ruolo di parametri di disturbo. Svolge
spesso il ruolo di fattore di disturbo la particolare distribuzione
di errori accidentali.
• La risposta che si vuole ottenere può essere soltanto di tipo
comparativo (qual è il migliore fertilizzante fra A, B e C), oppure assoluto (qual è l’effetto medio del farmaco A per pazienti
di un certo tipo?)
• Come attribuire i vari trattamenti alle singole unità?
2002-3003 versione provvisoria
3.5.1
Elementi comuni ai vari problemi:
Problema generale
In generale si vuole studiare (possibilmente sulla base di
un campione di osservazioni) la dipendenza di un fenomeno (espresso spesso da una variabile quantitativa) da una
molteplicità di fattori o variabili esplicative (quantitative e/o
qualitative)
59
60
Materiale didattico statistica 3
Capitolo 4
Variabili Statistiche
Multiple
In questa breve sezione introduciamo la notazione per insiemi di dati
multivariati, le cosiddette matrici di dati;
in questo contesto verranno rivisti i concetti di momento primo
e secondo di variabili statistiche multiple, per i quali spesso è utile
adottare un simbolismo compatto, e se ne vedrà il significato;
quindi si darà un’ interpretazione all’analisi delle componenti
principali valida quando si hanno variabili statistiche osservate e
non variabili casuali.
4.1
Calcoli statistici in notazione vettoriale
espressione della varianza di una variabile statistica
Se abbiamo un vettore di osservazioni x e il corrispondente vettore degli scarti z :




x1
z1




 z2 
 x2 




 .. 
 .. 
 . 
 . 


z=
x=
 z 
 x 
 i 
 i 
 . 
 . 
 .. 
 .. 




xn
zn
con
zi = xi − M (x)
i = 1, 2, . . . , n
61
62
Materiale didattico statistica 3
è facile vedere che:
nV [x] =
n
X
(xi − M (x))2 =
i=1





n
X

2
=
zi = {z1 , z2 , . . . , zi , . . . , zn } 


i=1



z1
z2
..
.
zi
..
.
zn






=





= zT z
In modo simile, abbiamo l’espressione della covarianza
espressione della media aritmetica
inserire esempi con matrice di correlazione
in notazione standard e matriciale
4.1.1
Definizione della matrice dei dati
Supponiamo di avere l’informazione relativa a n unità su cui sono
state rilevate p variabili statistiche.
in questa fase di definizione del simbolismo che adotteremo per
un insieme di dati multivariato, non ci preoccuperemo del fatto che queste unità costituiscano una popolazione completa o
piuttosto un campione (casuale semplice, stratificato, ragionato, etc): supponiamo che si tratti comunque dell’intera informazione disponibile dall’osservazione, comunque essa sia stata
effettuata.
L’informazione completa è in ogni caso costituita da una matrice
di dati X[n×p] :
La matrice X (n righe e p colonne), di elemento generico xij
è data dai valori osservati di p variabili (che per ora supporremo
quantitative), per ciascuna delle n unità statistiche:
2002-3003 versione provvisoria

X[n×p]







=







X1
63
X2
Xj

Xp

x11 x12 . . . x1j . . . x1p U1 


... ... ... ... ... ...



... ... ... ... ... ...

xi1 xi2 . . . xij . . . xip Ui 



... ... ... ... ... ...


... ... ... ... ... ...

xn1 xn2 . . . xij . . . xnp Un
Non si confonda adesso la matrice dei dati X , con un vettore
aleatorio X : sebbene abbia usato lo stesso simbolo, sarà sempre
chiaro dal contesto a cosa ci si riferisce.
Medie =
M1 M2 . . . Mj . . . Mp
L’informazione relativa ad una unità Ui è dunque costituita dalla
riga i-esima delle p osservazioni relative alle p variabili:
Ui = {xi1 ; xi2 ; . . . ; xij ; . . . ; xip }T ; i = 1, 2, . . . , n
L’ informazione (univariata) relativa alla j-esima variabile Xj è
contenuta nella j-esima colonna:
Xj = {x1j ; x2j ; . . . ; xij ; . . . ; xnj }T ; j = 1, 2, . . . , p
Non verranno prese in considerazione in questo momento le problematiche derivanti da matrici di dati incomplete, ossia in cui
alcune delle osservazioni xij relative ad uno o più casi ed ad
una o più variabili sono mancanti. Alcune di queste problematiche verranno riprese più avanti, in particolare nel corso di
esercitazioni.
64
Materiale didattico statistica 3
I momenti primi e secondi (multivariati) di una variabile statistica
multipla
Ritornando alle ordinarie matrici di dati a due vie, la media aritmetica di ciascuna variabile è data:
n
X
Mj =
xij /nj = 1, 2, . . . , p
i=1
Il vettore delle medie è costituito dalle p medie aritmetiche:


M1


 M2 


 .. 
 . 

M (X) = 
 M 
 j 
 . 
 .. 


Mp
Se consideriamo una rappresentazione geometrica delle n unità
statistica, la nostra matrice dei dati costituisce l’insieme delle coordinate di n punti in uno spazio p-dimensionale.
Il punto di coordinate M (X) è detto centroide dell’insieme multivariato di dati.
E’ facile vedere che in notazione matriciale possiamo esprimere
M (X) mediante la relazione:
M (X) = XT 1n /n
Da ora in poi indicheremo con 1k un vettore colonna di k elementi
tutti uguali ad 1:


1


 ... 



1k = 
 1  , kvolte


 ... 
1
Per i momenti del secondo ordine si ha:
la varianza della singola variabile Xj :
σj2
=
n
X
i=1
(xij − Mj )2 /nj = 1, 2, . . . , p
2002-3003 versione provvisoria
65
la covarianza fra la variabile Xj e la variabile Xk :
σjk =
n
X
(xij − Mj )(xik − Mk )/n
i=1
j = 1, 2, . . . , p
k = 1, 2, . . . , p
E’ noto che tali relazioni riguardanti momenti secondi centrali,
sono esprimibili in termini dei momenti primi e secondi con origine
lo zero:
σj2
=
n
X
x2ij /n − Mj2 j = 1, 2, . . . , p
i=1
σjk =
n
X
xij xik /n − Mj Mk j = 1, 2, . . . , p; k = 1, 2, . . . , p;
i=1
Matrice di varianze e covarianze

σ12
. . . σ1i . . . σ1p

 ...

V [X] = 
 σ1i

 ...
σ1p
... ... ... ...
. . . σi2 . . . σip







... ... ... ... 
. . . σip . . . σp2
Per gli elementi sulla diagonale principale di V [X], ossia per le varianze delle singole componenti, invece della notazione σii si impiega
la notazione σi2 per uniformità col simbolismo nel caso univariato.
Si può definire la matrice di correlazione di elemento generico: matrice di correlazione
rij = {R(X)}ij =
σij
σi σj
che, ovviamente, è simmetrica ed ha elementi diagonali tutti
uguali ad uno:
66
Materiale didattico statistica 3
Matrice di correlazione empirica di p variabili
statistiche
rij = {R(X)}ij =

1

 ...

R(X) = 
 r1i

 ...
r1p
σij
σi σj
. . . r1i . . . r1p


... ... ... ... 

. . . 1 . . . rip 


... ... ... ... 
. . . rip . . . 1
Misura le correlazioni lineari fra le coppie di variabili.
Vedere esempio
E’ essenziale anche come strumento esplorativo.
La matrice di correlazione uguale alla matrice di varianze e
covarianze delle corrispondenti variabili standardizzate
2002-3003 versione provvisoria
67
Figura 4.1:
vai a indice figure
68
Materiale didattico statistica 3
Figura 4.2: Matrice di correlazione delle 4 variabili dell’esempio dei neonati
vai a indice figure
E’ utile spesso fare riferimento alla matrice degli scarti Z , il cui
generico elemento è definito da:
zij = xij − Mj i = 1, 2, . . . , n
j = 1, 2, . . . , p
Evidentemente le nuove variabili Zj risultano a media nulla.
Indichiamo ciascuna colonna con zj
M (Z) = 0
Adesso possiamo esprimere in modo compatto la generica covarianza σjk (o meglio la codevianza) in funzione delle colonne zj e
zk :
n
n
X
X
nσjk =
(xij − Mj )(xik − Mk ) =
zij zik =
i=1
i=1


z1k
 . 
 .. 




= (z1j , . . . , zij , . . . , znj )  zik  =
 . 
 . 
 . 
znk
= zT
j zk
Con questa posizione di comodo, è facile ora vedere che la matrice
di varianze e covarianze p × p delle variabili Xj (o delle variabili Zj )
è esprimibile in forma matriciale compatta da:
2002-3003 versione provvisoria
69
V (X) = V (Z) = ZT Z/n
Si può anche vedere che:
Z = X − 1n M (X)T = X − 1n 1n T X/n == (I − 1n 1n T /n)X
V (X) = V (Z) = [XT − M (X)1n T ][X − 1n M (X)T ]/n =
= XT X/n − M (X)M (X)T
ricordando, per l’ultimo passaggio, che:
[XT −M (X)1n T ][1n M (X)T ]/n = 0eM (X)1n T X/n = M (X)M (X)T .
Oppure, dalla relazione prima vista:
Z = (In − 1n 1n T /n)X,
si ha:
T
ZT Z = XT (In − 1n 1n T /n/n)T (In − 1n 1n /n)X;
e considerando che la matrice (In − 1n 1n T /n) è simmetrica e idempotente, si ha infine:
nV (X) = nV (Z) = ZT Z = XT (In − 1n 1n T /n)T (In − 1n 1n T /n)X =
= XT (In − 1n 1n T /n)X;
Si vedrà a proposito anche l’espressione della devianza residua nell’analisi dei modelli lineari, che è formalmente analoga a questa
espressione.
Come si vede, si ottengono risultati già noti nel caso a una e
due variabili sui momenti primi e secondi; la notazione matriciale
permette di ottenere risultati anche mnemonicamente simili a quelli
più che noti del caso univariato.
E’ appena il caso di osservare che mentre la notazione matriciale
fornisce espressioni compatte ed è inoltre implementabile facilmente negli ambienti di programmazione che supportano operazioni matriciali, difficilmente fornisce gli algoritmi più efficienti
per il calcolo dei momenti multivariati.
I momenti di combinazioni lineari di variabili statistiche multipla Per i momenti di combinazioni lineari di una variabile multipla
70
Materiale didattico statistica 3
valgono ovviamente relazioni del tutto analoghe a quelle viste per
combinazioni lineari di vettori di variabili aleatorie:
costruiamo una nuova variabile statistica a k componenti, mediante una qualsiasi trasformazione lineare delle variabili Xj , colonne della matrice dei dati X :
Y = XAT + 1n cT
La matrice A[k×p] ha k righe e p colonne e per il resto è qualsiasi,
nel senso che il suo rango può anche essere inferiore a min(k, p).
Il vettore c[k×1] ha k elementi.
La nuova matrice di dati Y ha n righe e k colonne Con semplici
passaggi si vede come data la matrice A e il vettore c è possibile
ottenere tutti i momenti di Y in funzione di quelli di X :
T
M (Y) = M (X)A + c
T
V (Y) = V (XA + 1n cT ) = AV (X)AT
MOMENTI DI UNA TRASFORMATA LINEARE y DI UNA
VARIBILE STATISTICA MULTIPLA
Y = XAT + 1Tn
T
T
M (XA + 1n cT ) = M (X)A + c Speranza matematica
T
V (XA + 1n cT ) = AV (X)AT
Matrice di varianze e covarianze
In particolare se k = 1 allora A è un vettore riga bT , c è uno
scalare e Y è una v.c. semplice (ossia scalare) e si ha:
y = Xb + c
e quindi:
M (y) = bT M (X) + c = b1 µ1 + b2 µ2 + . . . + bp µp + c
V (y) = bT V [(X)] b = b21 σ12 +b22 σ22 +. . .+b2i σi2 +. . .++b2p σp2 +2b1 b2 σ12 +. . .+2bi bj σij ++ . . .
2002-3003 versione provvisoria
71
...
Una forma quadratica con matrice di coefficienti data da
una matrice di varianze e covarianze V [X] esprime sempre
la varianza di una combinazione lineare delle X :
bT V [(X)] b = V [X]
...
Una matrice di varianze e covarianze è sempre semidefinita
positiva.
essendo V [Y] ≥ 0 , in quanto una varianza è sempre non
negativa, allora:
tT V [X] t ≥ 0, ∀t, t 6= 0
Rango della matrice di varianza e covarianza
• Se una variabile statistica è combinazione lineare delle altre
p − 1, allora il rango della matrice di varianza e covarianza di
X risulta uguale a p − 1 ;
• in generale il rango di V [X] risulta uguale a p − k se k componenti sono ottenute attraverso combinazioni lineari (indipendenti) degli elementi di X.
• il rango di V [X] risulta uguale esattamente a p (ossia a rango pieno) se e solo se le componenti di X sono linearmente
indipendenti.
72
Materiale didattico statistica 3
...
La sola conoscenza del rango di una matrice di varianza e covarianza ci dice poco sul tipo di interrelazioni (eventualmente
lineari) esistenti fra le p componenti: ci dice solo se esistono
uno o più legami lineari esatti
Esempio su una coppia di variabili standardizzate con
!
1 r
V [X] =
r 1
Le due variabili sono esattamente collineari solo se |r| = 1
Richiamo su autovalori e autovettori (in particolare per matrici
simmetriche, e per matrici di varianze e covarianze)
Cenno alle componenti principali
se γ j è un autovettore di V [X], (normalizzato, ossia con γ T
j γj =
1 allora si ha:
T
V [X] = γ T
j λγ j =
= V Xγ j
Zj = Xγ j
j = 1, 2, . . . , p
prima componente principale
Si può dimostrare che la variabile Z1 è la combinazione lineare
delle X (a coefficienti normalizzati) di maggior varianza,
e va sotto il nome di prima componente principale
Sezione avanzata
Formule più complesse valgono per i momenti multivariati di ordine superiore al secondo, ma
è possibile ricavare tutti i momenti (multivariati) di grado k di Y , sia centrali che non centrali,
a partire dalla conoscenza della matrice di trasformazione A e dei momenti multivariati di grado
1, 2, . . . , kdiX.
Come per le variabili aleatorie semplici i momenti di ordine 3 e 4 forniscono degli indici di forma,
i momenti multivariati di ordine superiore al secondo forniscono degli indici di forma multivariati,
2002-3003 versione provvisoria
73
degli indicatori di allontanamento dalla multinormalità, indici di non linearità delle regressioni e di
eteroscedasticità.
Esempio
n = 20, p = 4
X[20,4]


36
1930
435
304























=






















36
2100
440
40
2920
470
36
2900
480
40
3000
480
34
2770
460
40
3400
495
40
3500
500
41
3430
500
40
3200
490
41
3530
500
40
3310
500
39
3650
505
40
2920
505
39
3120
510
36
3500
510
39
3540
515
41
3640
525
41
4160
550
40
4140
535

315 


321 

332 


335 

330 


330 

333 


325 

314 


350 

340 


345 


327 

340 


335 

342 


346 

370 

363

779


38.95





 64660 
 3233.00 




M (X) = X 120 /20 = 
/20 = 


 9905 
 495.25 
6697
334.85
T
V(X) = XT X/n− =
74

Materiale didattico statistica 3
30427
2532510
386525
261120



 2532510 215035800 32309200 21794920 
T


 386525 32309200 4921075 3323975  /20−M (X)M (X) =


261120 21794920 3323975 2247269

4.471053
737.000
38.17105
14.30789



 737.000000 315264.211 15070.26316 7553.63158 

= cov(X) = 

 38.171053 15070.263
822.30263
383.46053


14.307895
7553.632
383.46053
251.50263

1.0000000 0.6207622 0.6295256 0.4266773


 0.6207622 1.0000000 0.9359824 0.8482956
Cor(X) = 
 0.6295256 0.9359824 1.0000000 0.8432057

0.4266773 0.8482956 0.8432057 1.0000000





Sezione avanzata
E’ invalso di recente l’uso di indicare una matrice dei dati X come matrice a due vie (unità ×
variabili) per distinguerla dalle cosiddette matrice a tre vie (unità × variabili × occasioni) in cui
per esempio l’elemento xijk rappresenta l’osservazione della j-esima variabile nell’i-esimo individuo
nell’occasione k, se per esempio lo stesso insieme multivariato è stato osservato in diverse occasioni,
o in diverse località; evidentemente in questo caso potremo fare diverse sezioni a due vie dei dati,
ma non è un argomento che trattiamo adesso.
4.1.2
significato dei primi due momenti multivariati empirici
Resta inteso che il significato da attribuire ai momenti primi e
secondi multivariati empirici è diverso secondo che si supponga:
1. di avere un campione proveniente da una distribuzione normale
multivariata
2. oppure solo un insieme di dati da una popolazione non specificata
Nel primo caso i momenti primi e secondi empirici sono proprio gli
stimatori di massima verosimiglianza dei parametri di una normale
multivariata (gli unici parametri di tale distribuzione);
2002-3003 versione provvisoria
75
Nel secondo caso i momenti avranno soltanto un valore sintetico
o descrittivo e non è detto che siano le migliori misure di media e
dispersione multivariata per i dati in esame.
4.1.3
ACP per variabili statistiche osservate
Vale la pena di ricordare che l’analisi delle componenti principali
può essere ancora vista come un problema di determinazione delle
combinazioni lineare (non correlate) di massima varianza di variabili statistiche effettivamente osservate, piuttosto che di variabili
aleatorie multiple (oppure come problema di determinazione della
combinazione lineare,vincolata, di varianza minima!); oppure come problema di determinazione di un nuovo spazio di riferimento
ortogonale.
Si ottengono comunque, se si prendono tutti gli autovettori, le
componenti per la rotazione della matrice dei dati che determinano
un nuovo insieme di variabili non correlate.
Nel caso di variabili statistiche multiple esiste un’altra possibilità
di interpretazione, più vicina alla logica della regressione lineare.
Si supponga di avere una matrice n × p di dati Z relativa a p
variabili centrate (ossia a medie nulle): 1Tn Z = 0p ; possibilmente le variabili sono standardizzate (diversamente l’analisi sarebbe
influenzata dalle diverse scale e unità di misura delle variabili).
Problema:
Trovare una retta r1 (nello spazio p-dimensionale definito dalle
variabili originali) di coseni direttori y1 , che minimizzi la somma delle distanze dei punti originali Pi dalle rispettive proiezioni ortogonali Qi1 su r1 gli n punti proiettati avranno coordinate
qi1 (i = 1, 2, . . . , n); il vettore di tali coordinate, ossia il vettore dei
valori assunti dalla nuova variabile si ottiene ovviamente mediante
la proiezione q1 = Zy1 . il vincolo di normalizzazione: y1T y1 = 1 , è
ovvio dato che y1 è un vettore dei coseni direttori.
76
Materiale didattico statistica 3
Figura 4.3: Retta di minima distanza (ortogonale!)
ti:regressione principale
dai punti osserva-
vai a indice figure
Si noti dalla figura che il quadrato della distanza euclidea di ogni
singolo punto Pi dall’origine O (baricentro, o centroide, è coincide
con il vettore delle medie delle p variabili), può essere espresso come:
2
2
OPi = OQi + Pi Qi
2
e si ha anche palesemente:
2
2
OPi = OH + Pi H
2
Uguagliando i secondi membri di tali relazioni pitagoriche, ed
esprimendo in termini di coordinate centrate, (ossia a media nulla)
2002-3003 versione provvisoria
77
nel caso generale di p coordinate si ha:
p
X
2
zij
= qi2 + Pi Qi
2
j=1
essendo:
p
n X
X
2
zij
=
i=1 j=1
p X
n
X
2
zij
n
X
n
X
i=1
= Dev(q) +
j=1 i=1
p
X
qi2 +
2
Pi Qi ;
i=1
n
X
2
Pi Qi ;
i=1
Dev(Zj ) = Dev(q) +
j=1
n
X
2
Pi Qi .
i=1
In questa relazione la somma delle devianze delle variabili originarie (che è anche uguale alla somma delle distanze dei punti dal
centroide) è ovviamente invariante rispetto a qualsiasi scelta della
retta e pertanto è una costante. Se indichiamo con q la nuova variabile, massimizzare Dev(q) , funzione obiettivo dell’ACP, corrisponde
P
a minimizzare ni=1 Pi Qi Quindi r1 è la retta che minimizza la somma delle distanze dei punti dalle loro proiezioni ortogonali sulla retta
stessa. Chiaramente la soluzione del problema di determinazione di
combinazioni lineari di massima varianza (e non correlate) è sempre
fornita dagli autovettori della matrice di varianze e covarianze delle
variabili originarie:
ZT Z
n
(che è anche la matrice di correlazione, se le variabili sono standardizzate).
r1 va anche sotto il nome di retta di regressione principale.
E’ intuitiva la spiegazione geometrica delle componenti successive, come rette, ortogonali alle precedenti.
S=
è possibile anche un’interpretazione in funzione delle distanze
euclidee fra coppie di punti, che per brevità e compattezza di
impostazione, ometto
78
Materiale didattico statistica 3
Capitolo 5
La distribuzione normale
multivariata.
5.1
Richiami sulla normale bivariata
79
80
Materiale didattico statistica 3
Figura 5.1: densità di normali bivariate 1
vai a indice figure
2002-3003 versione provvisoria
81
Figura 5.2: densità di normali bivariate 2
vai a indice figure
images/multinormani1.gifDensità della normale bivariata al variare di ρ images/multinormani2.gifDensità della normale bivariata
al variare di ρ images/multinormani3.gifDensità della normale bivariata al variare di ρ images/multinormani4.gifDensità della normale
bivariata al variare di ρ
ARGOMENTO DA COMPLETARE
La densità di una variabile aleatoria X = (X1 , X2 ) con distribuzione normale bivariata è data da:
f (x1 , x2 ) =
1
p
(5.1)
2πσ1 σ2 1 − ρ2
(
"
2 2 #)
1
x 1 − µ1
(x1 − µ1 )(x2 − µ2 )
x 2 − µ2
exp −
−2ρ
2(1 − ρ2 )
σ1
σ1 σ2
σ2
Ho riportato la coppia di variabili (X1 , X2 ), (e non (X,Y) perchè
questo renderà più semplice poi il passaggio alla normale multivariata;
tuttavia ho mantenuto la parametrizzazione con la correlazione
ρ piuttosto che con la covarianza σ12 .
82
Materiale didattico statistica 3
I primi due momenti identificano completamente la distribuzione,
in quanto si ha:
E [X1 ] = µ1 E [X2 ] = µ2
V [X1 ] = σ12
V [X2 ] = σ22
CovX1 , X2 = ρσ1 σ2
in termini matriciali:
E [X] =
µ1
!
V [X] =
µ2
σ12
ρσ1 σ2
ρσ1 σ2
σ22
!
per cui la correlazione lineare è data da ρ, infatti:
corr(X1 , X2 ) =
covX1 , X2
=ρ
σ1 σ2
Si ha l’importantissima proprietà:
Correlazione ⇐⇒ indipendenza nella normale
bivariata
In una normale bivariata:
X1 ⊥ X2 ⇐⇒ ρ = 0
ossia l’assenza di correlazione lineare implica l’indipendenza,
per due variabili con distribuzione normale bivariata.
2002-3003 versione provvisoria
Figura 5.3: intersezioni con la normale bivariata
vai a indice figure
83
84
Materiale didattico statistica 3
Figura 5.4: intersezioni con la normale bivariata
vai a indice figure
2002-3003 versione provvisoria
85
Figura 5.5: intersezioni con la normale bivariata
vai a indice figure
5.2
La normale multivariata
La distribuzione normale multipla può essere introdotta in numerosi
modi, ed espressa con diverse caratterizzazioni.
Qui viene introdotta come la distribuzione congiunta di combinazioni lineari di variabili normali.
5.3
Distribuzione di variabili normali indipendenti
Sia X un vettore di variabili casuali a p componenti indipendenti:
X = {X1 , X2 , . . . , Xi , . . . , Xp }T
ciascuna distribuita secondo una normale standardizzata.
La densità di tale distribuzione, data l’indipendenza, è data da:
86
Materiale didattico statistica 3
...
Densità congiunta di p variabili normali standardizzate e
indipendenti.
fX (x) =
p
Y
f (xi ) =
i=1
−p/2
= (2π)
exp[−
p
X
x2i /2] =
i=1
= (2π)−p/2 exp[−xT x/2]
La funzione caratteristica è:
1 T
φX (t) = exp − t t
2
Ovviamente i primi due momenti di X , per le ipotesi fatte,
sono:
E [X] = 0p ,
V (X) = Ip
E’ noto, ed è facile comunque vederlo attraverso la funzione caratteristica, che una singola combinazione lineare Z del vettore aleatorio X si distribuisce secondo una normale univariata, con media e varianza ricavabili dalle relazioni già viste per i momenti di
combinazioni lineari di vettori aleatori qualsiasi.
Infatti se: Z = bT X + c, allora i primi due momenti di Z sono
dati da:
E(Z) = bT E(X) + c = c
V (Z) = bT Σ(X)b = bT b = b21 + b22 + . . . + b2i + . . . + b2p
e si ha anche:
2002-3003 versione provvisoria
87
Z ∼ N (E(Z), V (Z)).
funzione caratteristica della combinazione lineare
...
Adesso occorre però studiare la distribuzione congiunta di p
combinazioni lineari di variabili normali indipendenti.
5.4
Densità della distribuzione congiunta di p
combinazioni lineari di p variabili normali
indipendenti
Consideriamo allora il vettore aleatorio Y, trasformazione lineare
del vettore aleatorio X, definito dalla relazione:
Y = AT X + µ
essendo:
A una matrice quadrata di dimensione p e rango pieno;
µ un vettore di p elementi;
Per ora abbiamo posto la condizione che A sia a rango pieno p,
sarà poi possibile generalizzare a trasformazioni X ⇒ Y anche
singolari, ossia a rango non pieno;
(rispetto alla notazione ordinaria si è indicata la trasformazione
mediante una matrice trasposta, perché di solito si dà un significato
geometrico alle colonne di A , ed ogni componente di Y corrisponde ad una colonna di A ; inoltre è irrilevante ai fini del risultato
partire da p variabili standardizzate Xi oppure a varianza qualsiasi:
l’importante è che siano indipendenti)
Per le proprietà sui momenti di trasformate lineari di v.a. i
momenti di Y sono dati da:
88
Materiale didattico statistica 3
E(Y) = AT E(X) + µ = µ
V (Y) = AT V (X)A = AT A
Per ricavare la densità di Y è conveniente esplicitare la trasformazione inversa.
Dalla relazione diretta:
Y = AT X + µ,
si ottiene subito la relazione inversa:
X = BT [Y − µ], avendo posto: B = A−1
Pertanto, applicando la regola per le densità di trasformazioni di
variabili aleatorie, la densità di Y è data da:
fY (y) = fX (BT [y − µ])J =
1
−p/2
T
T
= J(2π)
exp − [y − µ] BB [y − µ]
2
essendo J lo Jacobiano della trasformazione da Y a X , ossia la
matrice ∂Y
∂X , che ovviamente è dato da J = mod|B|, per cui si ha:
−p/2
fy (y) = mod|B|(2π)
1
exp − [y − µ]T BBT [y − µ]
2
(5.2)
Questa è la densità richiesta, tuttavia è meglio parametrizzare
questa distribuzione in modo che sia esplicito, se possibile, il legame
con i momenti di Y .
Indichiamo con Σ la matrice di varianza e covarianza di Y, ossia
V (Y), che abbiamo già visto essere uguale a AT A.
Se vogliamo esprimere V (X) in funzione di V (Y) si ha:
V (X) = BT V (Y)B = BT ΣB.
Per ipotesi abbiamo però che V (X) = Ip , per cui:
BT ΣB = Ip
chiarire
citazione
e quindi la matrice B diagonalizza Σ, per cui ha colonne proporzionali agli autovettori di Σ
2002-3003 versione provvisoria
89
divisi per le radici dei rispettivi autovalori (si rivedano eventualmente i teoremi relativi alla diagonalizzazione di matrici, agli
autovalori ed agli autovettori).
Inoltre, prendendo in esame la relazione BT ΣB = I, premoltiplicando ambo i membri per B e postmoltiplicando per BT , si
ottiene:
BBT ΣBBT = BBT
Postmoltiplicando (o premoltiplicando) ora ambo i membri per
(BBT )−1 (che esiste sempre essendo B, e quindi anche BBT , a rango
pieno p) si ha:
BBT ΣBBT (BBT )−1 = BBT (BBT )−1 e quindi:
BBT Σ = I.
Per cui in definitiva si ha:
BBT = Σ−1
e quindi nella forma quadratica ad esponente nell’espressione
(5.2) di fY (y) potremo sostituire BBT con Σ−1 .
Per potere ottenere il determinante di B che compare in fY (y),
basta applicare le note regole sui determinanti delle trasposte, dei
prodotti e delle inverse, per vedere che:
1
1
1
kBk = kBT k = kBBT k 2 = kΣ−1 k 2 = kΣk− 2
Inoltre essendo Σ definita positiva, il suo determinante è certamente
positivo.
5.5
Densità della distribuzione normale multivariata
In conclusione, sostituendo nella densità di y:
1
fY (y) = kB|(2π)−p/2 exp[− [y − µ]T BBT [y − µ]]
2
abbiamo:
90
Materiale didattico statistica 3
...
Densità della distribuzione normale non singolare
multivariata di parametri µ e Σ :
1
1
fY (y) = kΣk− 2 (2π)−p/2 exp[− [y − µ]T Σ−1 [y − µ]]
2
o anche:
1
1
fY (y) =
− [y − µ]T Σ−1 [y − µ]
p exp
1
2
|Σ| 2 (2π) 2
oppure
1
−1
− 12 [y−µ]T Σ [y−µ]
e
|Σ| (2π)p
fY (y) = p
I primi due momenti multivariati sono (come già visto prima
senza alcun bisogno di effettuare integrazioni p-dimensionali):
E [Y] = µ
V (Y) = Σ
e la funzione caratteristica (applicando la regola per le
trasformazioni lineari di variabili aleatorie) è data da:
1
φY (t) = exp[itT µ − tT Σt]
2
Ricordo che i momenti possono essere eventualmente ricavati
dalle opportune derivate di φY (t), valutate in t = 0.
Dalle espressioni della densità riportate sopra, è evidente l’analogia con l’espressione della densità della distribuzione normale
univariata.
Si vede quindi, in analogia al caso univariato, che la distribuzione normale multivariata dipende soltanto dai primi due momenti
(multivariati) di Y.
Inoltre è possibile far vedere, rifacendo a ritroso i passaggi pre-
2002-3003 versione provvisoria
91
cedenti, che qualsiasi vettore aleatorio Y la cui densità è data da:
1
2
−p/2
fY (y) = kC| (2π)
1
exp −
2
[y − µ]C
(5.3)
(con C definita positiva di rango p ) è distribuito secondo una
normale multivariata di parametri µ e Σ = C−1 .
Esiste inoltre una trasformazione lineare di Y che conduce ad un
vettore aleatorio X a componenti standardizzate e indipendenti:
X = BT [Y − µ], in cuiBè tale che : BT ΣB = I
5.5.1
Distribuzioni marginali e indipendenza
Inoltre è evidente che l’indipendenza fra tutte le componenti di Y
si può avere solo quando la fY (y) è fattorizzabile nelle rispettive
densità marginali, il che può avvenire se (e solo se) Σ è diagonale, ossia con covarianze nulle, e quindi correlazioni lineari semplici
nulle, il che porta un’altra fondamentale proprietà della normale
multivariata:
Un vettore aleatorio Y con distribuzione normale multivariata,
è a componenti indipendenti se (e solo se) le correlazioni lineari
fra le sue componenti prese a due a due sono nulle, ossia se la
matrice di varianza e covarianza è diagonale.
Quindi, se due variabili sono congiuntamente normali, l’assenza
di correlazione implica l’indipendenza.
La distribuzione marginale di un qualsiasi sottoinsieme di componenti di un vettore aleatorio distribuito secondo una normale multivariata è ancora distribuito secondo una normale multivariata con
parametri uguali ai corrispondenti sottoinsiemi di µ e Σ: il risultato si dimostra facilmente, ad esempio prendendo la funzione
caratteristica.
Infatti se il vettore Y è suddiviso in due sottovettori [Y1 , Y2 ] ,
corrispondentemente suddividiamo il vettore delle medie e la matrice
di varianza e covarianza:
µ=
µ1
µ2
!
92
Materiale didattico statistica 3
Σ=
Σ11 Σ12
!
ΣT12 Σ22
Posta ora, corrispondentemente alla partizione di Y , una partizione
t = {t1 , t2}, come si sa la funzione caratteristica di Y1 si ottiene da
quella di Y ponendo t2 = 0:
1 T
φY1 (t1 ) = φY (t1 , 0) = exp[itT
1 µ1 − t1 Σ11 t1 ]
2
che è la funzione caratteristica di una normale di parametri µ1 e
Σ11 .
In particolare tutte le distribuzioni marginali delle singole componenti sono normali univariate.
Come corollario è facile vedere che Y1 e Y2 (vettori aleatori
normali) sono indipendenti se e solo se Σ12 = 0.
5.5.2
Distribuzione di combinazioni lineari di variabili normali qualsiasi.
Mediante la funzione caratteristica è possibile vedere ora che qualsiasi combinazione lineare di un vettore aleatorio distribuito secondo una qualsiasi normale multivariata si distribuisce ancora secondo
una distribuzione normale multivariata:
Infatti dal momento che se Y = AZ , si ha:
φY (t) = φZ (AT t),
se Z(Np (µZ , ΣZ ) allora:
1 T
T
φZ (t) = exp it µZ − t ΣZ t
2
e quindi :
1 T
T
T
φY (t) = φZ (A t) = exp iA µZ − t AΣZ A t
2
T
per cui è immediato vedere che questa è ancora la funzione caratteristica di una normale multivariata di parametri AµZ e AΣZ AT
.
2002-3003 versione provvisoria
5.5.3
93
Caratterizzazione della distribuzione normale multivariata.
Le proprietà viste prima sulla distribuzione congiunta di combinazioni lineari di variabili normali costituiscono addirittura una caratterizzazione della distribuzione normale multivariata.
Infatti si ricorda una importante proprietà che caratterizza la
distribuzione normale multivariata (di cui non si fornisce la dimostrazione) (Mardia, 1970):
citazione
...
X , vettore aleatorio a p componenti, è distribuito secondo
una normale multivariata se e solo se bT X è distribuito secondo una normale (univariata) per qualsiasi vettore b di p
componenti.
E’ appena il caso di dire che il calcolo delle probabilità integrali
su domini rettangolari della normale multivariata è estremamente
complesso, e comunque non riconducibile a trasformazioni semplici
di integrali unidimensionali, se le variabili sono correlate.
citare software
Ancora va chiarito, sulla genesi della normale multivariata utilizzata in queste righe, che questa è una impostazione utile per ricavare
la distribuzione di combinazioni lineari di variabili normali indipendenti: nell’analisi di fenomeni reali ovviamente non è quasi mai ragionevole pensare che delle variabili osservate correlate siano state
effettivamente ottenute come combinazione di fattori o variabili non
correlate, anche se ovviamente è possibile, come si vede nell’analisi
delle componenti principali, operare una rotazione per ricavare variabili non correlte, che non necessariamente corrispondono però a
variabili osservabili o dotate di significato
94
Materiale didattico statistica 3
5.6
Assi principali degli ellissoidi di equiprobabilità
E’ immediato vedere che le curve con densità f (y) costante per
la normale multivariata di parametri µ e Σ sono, in uno spazio p
-dimensionale, degli ellissoidi di centro in µ , e di equazione:
1
kΣk− 2 (2π)−p/2 exp(−[y − µ]T Σ−1 [y − µ]/2) = k0
e quindi:
[y − µ]T Σ−1 [y − µ] = k1
essendo k1 e k2 due costanti positive qualsiasi.
• E’ facile vedere quindi che al variare del livello costante k ,
cambia solo il volume dell’ellissoide, ma le proporzioni fra gli
assi restano inalterate;
• le equazioni degli assi principali di tali ellissoidi sono date dagli
autovettori di Σ ;
• i quadrati delle lunghezze degli assi principali di tali ellissoidi
sono proporzionali agli autovalori di Σ.
• Se Σ è diagonale, gli ellissoidi hanno assi paralleli agli assi
coordinati e lunghezza proporzionale agli scarti quadratici medi
delle singole componenti.
• Si può fare vedere che gli autovettori danno le direzioni degli
assi principali impostando ancora un problema di massimo, ossia cercando i due punti sulla superficie dell’ellisse che hanno
distanza massima.
...
Fissato un qualsiasi valore di k1 , esiste una corrispondenza biunivoca fra ellissoidi in <p e distribuzioni normali
multivariate non singolari.
2002-3003 versione provvisoria
Figura 5.6: densità di normali bivariate 1
vai a indice figure
95
96
Materiale didattico statistica 3
Figura 5.7: densità di normali bivariate 2
vai a indice figure
Esempi e grafici sulla normale trivariata
Normale trivariata a media nulla con Matrice di varianze e covarianze:
\begin{fig}
{parametric_ellissoide1_gr_3.gif}
Con autovalori:
parametric_ellissoide1_gr_5.gif
\end{fig}
Ellissoidi di equidensità
(sono due sezioni tridimensionali della densità (a 4D)
Scalato in modo tale che la probabilità che un punto risulti interno all’ellissoide risulti del 90%.
2002-3003 versione provvisoria
97
\begin{fig}
parametric_ellissoide1_gr_11.gif
\end{fig}
Scalato in modo tale che la probabilità che un punto risulti interno all’ellissoide è del 50%
\begin{fig}
parametric_ellissoide1_gr_14.gif
\end{fig}
Normale trivariata a media nulla con Matrice di varianze e covarianze:
\begin{fig}
parametric_ellissoide1_gr_17.gif
Con autovalori:
parametric_ellissoide1_gr_19.gif
\end{fig}
Ellissoidi di equidensità (sono due sezioni tridimensionali della
densità (a 4D)
Scalato in modo tale che la probabilità che un punto risulti interno all’ellissoide sia del 90%.
\begin{fig}
parametric_ellissoide1_gr_25.gif
\end{fig}
Scalato in modo tale che la probabilità che un punto risulti interno all’ellissoide sia del 50%.
\begin{fig}
parametric_ellissoide1_gr_27.gif
\end{fig}
\begin{fig}
parametric_ellissoide1_gr_34.gif
\end{fig}
98
Materiale didattico statistica 3
Dalla figura a fianco si vedono le caratteristiche della distribuzioni
condizionate.
Normale trivariata a media nulla con Matrice di varianze e covarianze:
\begin{fig}
parametric_ellissoide1_gr_41.gif
Ellissoide di equidensità
(è una sezione tridimensionale della densità (a 4D)
Scalato in modo tale che la probabilità che un punto
risulti interno all’ellissoide è del 50%
parametric_ellissoide1_gr_49.gif
\end{fig}
5.7
Distribuzione di forme quadratiche in variabili normali standardizzate e indipendenti.
In questa sezione affrontiamo il problema della distribuzione di particolari forme quadratiche in variabili normali, indipendenti e non: la
finalità sarà chiara quando si studieranno le proprietà degli stimatori e dei test nei modelli lineari (modelli di regressione di analisi della
varianza etc.); si tratta molto semplicemente di generalizzare alcuni
risultati noti sulla v.c. χ2 : è ragionevole aspettarsi che forme quadratiche in variabili normali multivariate siano talora riconducibili
a variabili χ2 .
Sia X un vettore di variabili casuali a p componenti indipendenti,
ciascuna distribuita secondo una normale standardizzata, ossia
X(Np (0p , Ip ).
E’ noto che:
p
X
X2i ∼ χ2p, (oppureXT X(χ2p ).
i=1
In effetti questa è proprio la definizione di una variabile casuale
di tipo chi-quadrato con p gradi di libertà, che risulta avere una
2002-3003 versione provvisoria
99
distribuzione gamma di parametro di forma c = p/2 e parametro di
scala λ .
Più in generale ci si potrebbe chiedere se si può ricavare la distribuzione di una forma quadratica qualsiasi in variabili normali
standardizzate, ossia
Q = XT AX,
e per quali matrici A questa forma quadratica risulta ancora
distribuita come una chi-quadrato.
E’ facile vedere che la forma quadratica Q = XT AX
P
si distribuisce come pi=1 λi χ21 ,
ove i λi sono gli autovalori di A ;
Q = XT AX ∼
p
X
λi χ21
i=1
Questo risultato si ricava facilmente dalla decomposizione spettrale della matrice A , in quanto si può scrivere:
A = ΓΛΓT ,
per cui: Q = XT ΓΛΓT X,
e il vettore aleatorio W = ΓT X è ovviamente normale a componenti standardizzate e indipendenti, data l’ortogonalità di Γ (una
rotazione ortogonale di una iper-sfera conduce sempre ad una ipersfera!). Quindi segue facilmente in modo naturale il risultato scritto
prima. Esprimendo in modo più formale si ha:
posto W = ΓT X , essendo le colonne di Γ gli autovettori (ortogonali: ΓT Γ = I ) di A , si ha per i momenti di W :
E(W) = ΓT E(X) = 0
V (W) = ΓT V (X)Γ = ΓT Ip Γ = Ip
Il vettore aleatorio W è dunque composto da p variabili normali,
standardizzate e indipendenti.
Tornando ora alla forma quadratica Q si ha:
T
T
T
T
Q = X AX = X ΓΛΓ X = W ΛW =
p
X
λi Wi2
i=1
Le componenti Wi2 sono chiaramente distribuite come delle chiquadrato (indipendenti) con un grado di libertà.
100
Materiale didattico statistica 3
Pertanto Q è distribuita come una combinazione lineare di p variabili casuali chi-quadrato indipendenti con un grado di libertà, con
coefficienti dati dagli autovalori di A.
In ogni caso è possibile calcolare i momenti di Q in quanto
combinazione lineare di v.c. χ21 indipendenti:
E(Q) =
p
X
λi E(χ21 )
V (Q) =
λi
i=1
i=1
p
X
=
p
X
λ2i V (χ21 )
=2
p
X
λ2i
i=1
i=1
Se (e solo se) gli autovalori di A sono tutti uguali a 0 o a 1,
ossia se (e solo se) A è idempotente,
Q = XT AX si distribuisce come una variabile casuale χ2r
per la proprietà additiva delle v.c. χ2 , essendo r il rango di A,
ossia il numero degli autovalori λi uguali ad uno
Infatti si vede immediatamente che, se A è idempotente di rango
r , si ha:
λ1 = λ2 = . . . = λr = 1;
λr+1 = λr+2 = . . . = λp = 0;
per cui:
p
X
λi χ21
=
i=1
r
X
1 (χ21
i=1
+
p
X
0 (χ21
=
i=r+1
r
X
χ21 ∼ χ2r
i=1
Per dimostrare che l’idempotenza di A è condizione necessaria
e sufficiente perhcè Q sia distribuita come una chi-quadrato (prima abbiano visto che l’idempotenza di A è condizione sufficiente),
conviene ricorrere alla funzione caratteristica di Q , che è data da:
T
φQ (t) = Eexp(itX AX) = Eexp(it
p
X
λi X2i ) =
i=1
=
p
Y
i=1
Eexp(itλi X2i )
p
Y
1
=
(1 − 2itλi )− 2
i=1
2002-3003 versione provvisoria
101
(dato che X2i è distribuito come una chi-quadrato con un grado di
libertà, l’ultimo passaggio deriva dalla funzione caratteristica della
v.c. chi-quadrato).
Ancora si può osservare che 1−2itλi è un autovalore della matrice:
I − 2itA e quindi la produttoria di tali autovalori (1 − 2itλi ) è
uguale al determinante della suddetta matrice:
p
Y
1
1
φ(t) =
(1 − 2itλi )− 2 = kI − 2itA|− 2
i=1
Perché Q sia distribuita come una chi-quadrato, occorre che la
sua funzione caratteristica φQ (t) sia identicamente uguale a quella
di una v.c. χ2 per qualsiasi valore dell’argomento t .
È la funzione caratteristica di una v.c. χ2 con ν gradi di libertà
è data da:
φχ2 (t) = (1 − 2it)−ν/2 ,
mentre per la funzione caratteristica di Q si è visto che:
p
Y
1
φQ (t) =
(1 − 2itλi )− 2 .
i=1
Per avere φχ2 (t) = φQ (t) per qualsiasi t , occorre che i coefficienti
λi siano o zero o uno, di modo che i corrispondenti termini della
produttoria in φQ (t) siano uguali ad uno (se λi = 0 ) oppure a
1
(1 − 2it)− 2 (se λi = 1 ); se sono r (rango di A ) quelli uguali ad
uno, si avrà in definitiva:
φQ (t) = (1 − 2it)−r/2 ,
che è la funzione caratteristica di una chi-quadrato con r gradi di
libertà.
Esempio
Ad esempio si consideri la matrice seguente:
!
16/25 12/25
A=
12/25 9/25
Tale matrice simmetrica risulta idempotente di rango 1, come è
facile verificare effettuando il prodotto AA , oppure verificando che
λ 1 = 1 e λ2 = 0 .
102
Materiale didattico statistica 3
Supponendo di avere un vettore aleatorio X costituito da due
variabili casuali normali standardizzate e indipendenti, X1 e X2 la
forma quadratica Q = XT AX risulta data da:
Q = a11 X12 + a22 X22 + 2a12 X1 X2 = (16X12 + 9X22 + 24X1 X2 )/25,
e infine:
Q = [(4/5)X1 + (3/5)X2 ]2
E’ immediato verificare che Q si distribuisce secondo una chiquadrato con un grado di libertà, senza bisogno di applicare il teorema generale sulla distribuzione delle forme quadratiche. Infatti la
variabile:
Z = (4/5)X1 + (3/5)X2
è distribuita normalmente (in quanto combinazione lineare di
variabili normali) con media zero e varianza unitaria.
Infatti:
E[Z] = (4/5)E[X1 ] + (3/5)E[X2 ] = 0
V ar[Z] = (4/5)2 V ar[X1 ] + (3/5)2 V ar[X2 ] = 16/25 + 9/25 = 1
(Cov[X1 , X2 ] = 0 per l’indipendenza).
Quindi Q è uguale al quadrato di una normale standardizzata, e
quindi segue una distribuzione chi-quadrato con un grado di libertà.
Forme quadratiche idempotenti: somma dei quadrati degli scarti dalla
media.
Prendiamo ora in esame una forma quadratiche già nota, ossia la
somma dei quadrati degli scarti dalla propria media aritmetica di
n variabili casuali normali indipendenti Xi . Tipicamente le variabili
saranno quelle corrispondenti ad un campione a n componenti i.i.d.(e
quindi il vettore aleatorio è al solito X = {X1 , X2 , . . . , Xi , . . . , Xn }T ).
Interessa dunque la distribuzione della quantità:
Q=
n
X
i=1
(Xi − M )2
2002-3003 versione provvisoria
103
avendo indicato con M la variabile casuale media aritmetica delle n
componenti Xi :
M=
n
X
Xi /n
i=1
che si può anche scrivere:
M=
1n T X
,
n
essendo 1n un vettore di n elementi uguali ad uno.
Allora la somma dei quadrati degli scarti si può scrivere in notazione vettoriale con semplici passaggi:
Q=
n
X
(Xi − M )2 = [X − 1n M ]T [X − 1n M ] =
i=1
= [X −
1n 1n T X
1n 1n T X T
] [X −
]=
n
n
XT [I −
1n 1n T T
1n 1n T
] [I −
]X
n
n
T
Posto ora U = 1n 1nn , è facile vedere che U è idempotente e
simmetrica di rango 1: è composta da n × n elementi tutti uguali
a n1 ; quindi sono idempotenti (ma di rangon − 1 ) anche I − U , e
[I − U]T [I − U] , per cui possiamo scrivere:
Q=
n
X
(Xi − M )2 = XT [I − U]X
i=1
e Q è distribuita secondo una χ2n−1 .
Esempio numerico
Con n = 5 si supponga di avere le 5 osservazioni xi : 3, 5, 8, 9, 10,
con media aritmetica M = 7.
La somma dei quadrati degli scarti (osservati!) è data da:
Q=
n
X
i=1
(xi − M )2 = 16 + 4 + 1 + 4 + 9 = 34.
104
Materiale didattico statistica 3
E’ facile vedere che la matrice

0, 2 0, 2

 0, 2 0, 2

U=
 0, 2 0, 2

 0, 2 0, 2
U è data da:
0, 2 0, 2 0, 2


0, 2 0, 2 0, 2 

0, 2 0, 2 0, 2 


0, 2 0, 2 0, 2 
0, 2 0, 2 0, 2 0, 2 0, 2
Indicato quindi con x il vettore delle 5 osservazioni, si verifichi il
risultato fornito dal prodotto xT [I − U]x :
xT [I − U]x =

=
0, 8
−0, 2 −0, 2 −0, 2 −0, 2

3


−0, 2 0, 8 −0, 2 −0, 2 −0, 2   5




3 5 8 9 10 
 −0, 2 −0, 2 0, 8 −0, 2 −0, 2   8


 −0, 2 −0, 2 −0, 2 0, 8 −0, 2   9
−0, 2 −0, 2 −0, 2 −0, 2 0, 8
10
= 32 × 0, 8 + 52 × 0, 8 + . . . + 102 × 0, 8 − 2 × 0, 2 × 3 × 5 − . . . = 34
5.7.1
La distribuzione dell’esponente della distribuzione
normale multivariata.
Sappiamo già che il doppio dell’esponente della distribuzione norma2
le univariata, (X−E[X])
V (X) , si distribuisce secondo una variabile casuale
χ2 . Vediamo come si generalizza questo risultato nel caso normale
multivariato.
Sia Y un vettore di variabili casuali a p componenti, distribuito
secondo una normale multivariata qualsiasi, ossia
Y ∼ (Np (µ, Σ)
Si può dimostrare che la variabile casuale corrispondente alla forma
quadratica che figura al numeratore dell’esponente della funzione di
densità, ossia:
Q = (Y − µ)T Σ−1 (Y − µ),
segue una distribuzione chi-quadrato con p gradi di libertà.




=



2002-3003 versione provvisoria
105
Infatti il risultato si mostra facilmente ricorrendo ad una opportuna trasformazione lineare (già impiegata in questo capitolo)
X = BT [Y − µ],
in cui B è tale che:
BT ΣB = I, eΣ−1 = BBT .
e quindi:
V (X) = BT V (Y − µ)B = BT ΣB = I
Pertanto:
Q = (Y − µ)T Σ−1 (Y − µ) = (Y − µ)T BBT (Y − µ) =
= [(Y − µ)T B][BT (Y − µ)] = XT X ∼ χ2p
Per cui Q si distribuisce come la somma dei quadrati di p variabili
normali standardizzate e indipendenti, ossia come una chi-quadrato
con p gradi di libertà.
In definitiva:
se Y ∼ (Np (µ, Σ) , allora
(Y − µ)T Σ−1 (Y − µ) ∼ χ2p
Esempio numerico
Y ∼ (N2 (0, Σ),
!
2 1
conΣ =
1 1
e matrice di correlazione:R =
1
√1
2
√1
2
1
!
e quindi
Σ−1 =
1
−1
−1
2
!
;
pertanto la forma quadratica:
!
1
−1
Q = YT
Y = y12 + 2y22 − 2y12 y22 ∼ χ22
−1 2
106
Materiale didattico statistica 3
segue una distribuzione chi-quadro con due gradi di libertà.
eventualmente dimostrarlo per via
diretta nell’esempio
5.7.2
Indipendenza di forme quadratiche e combinazioni
lineari di variabili normali.
Sia X un vettore di variabili casuali a p componenti indipendenti,
ciascuna distribuita secondo una normale standardizzata, ossia
X ∼ Np (0p , Ip ).
Valgono alcuni teoremi sull’indipendenza fra forme quadratiche
in X e combinazioni lineari in X , che si basano sulle proprietà dei
vettori dei coefficienti che determinano le forme quadratiche e le
combinazioni lineari.
eventualmente mettere in
forma di schema
Si abbiano due forme quadratiche in variabili normali indipendenti X :
Q1 = XT A1 XeQ2 = XT A2 X
Le due forme quadratiche Q1 e Q2 sono indipendenti se e solo se
A1 A2 = 0(pxp)
(essendo ovviamente A1 e A2 matrici quadrate simmetriche, ed
essendo 0(p×p) una matrice quadrata composta di zeri);
Si abbia la forma quadratica
Q = XT AT X,
e la combinazione lineare Z = bT X
La forma quadratica Q e la combinazione lineare Z sono indipendenti
se e solo se Ab = 0p
(essendo b un vettore di p elementi e 0p il vettore nullo di p
componenti)
2002-3003 versione provvisoria
5.7.3
107
Teorema di Cochran:
Supponiamo di avere una somma di quadrati di p variabili normali
standardizzate e indipendenti, ossia:
Q = XT X
o, più in generale, una forma quadratica
Q = XT AX,
con A idempotente di rango p . In questo caso il numero delle
componenti di X potrà essere in generale maggiore di p; il punto
essenziale è che Q abbia una distribuzione chi-quadrato con p gradi
di libertà.
Supponiamo di saper scomporre algebricamente Q nella somma
di k forme quadratiche:
Q = XT X =
k
X
XT Ai X =
i=1
k
X
Qi ,
i=1
avendo posto : Qi = XT Ai X , ed essendo per ipotesi:
Q(χ2p
Il teorema di Cochran stabilisce delle relazioni di importanza
fondamentale in merito alle caratteristiche delle distribuzioni delle
singole componenti Qi .
...
TEOREMA DI COCHRAN Una qualsiasi delle seguenti tre
condizioni implica le altre due:
1. la somma dei gradi di libertà delle forme quadratiche deve
eguaglire p:
k
X
ρ(Ai ) = p = ρ(A)
i=1
(in generale la somma dei ranghi delle singole componenti deve
eguagliare il rango di A )
108
Materiale didattico statistica 3
2. tutte le k forme quadratiche Qi = XT Ai X hanno una distribuzione χ2
che corrisponde a :
tutte le Ai devono essere idempotenti;
3. tutte le k forme quadratiche Qi = XT Ai X sono a due a due
indipendenti,
che corrisponde a: Ai Aj = 0 per qualsiasi coppiai 6= j .
...
L’importanza di tale teorema nell’ambito della teoria normale sui modelli lineari è cruciale; in generale a ciascuna delle
k componenti si farà corrispondere una particolare fonte di
variabilità o un gruppo di parametri.
Ai fini pratici se per esempio se si vuole applicare ad una particolare scomposizione la proprietà 2, per poi dedurne la 1 e la 3, non
è necessario esplicitare le singole matrici Ai , ma è sufficiente sapere
che si è scomposta Q in forme quadratiche nelle variabili aleatorie
Xi .
Sezione avanzata
In effetti esiste una formulazione ancora più generale del teorema, che prende in considerazione
distribuzioni χ2 non centrali, ossia forme quadratiche in variabili normali con speranza matematica
diversa da zero, utile per la generalizzazione alla distribuzione di determinate quantità test non solo
sotto H0 ma anche sotto H1 . Per non appesantire questi appunti non riporto questa generalizzazione:
ne farò cenno più avanti soltanto quando sarà necessario.
Esempio. Come esempio si rifletta sulla nota scomposizione per
la somma dei quadrati di n variabili normali standardizzate indipendenti:
n
n
X
X
2
Xi =
(Xi − M )2 + nM 2
i=1
i=1
Per applicare il teorema di Cochran è sufficiente far vedere che i
due addendi sulla destra sono forme quadratiche in variabili normali
di rango n − 1 e 1: è immediato
verificarlo senza bisogno di espliPn
citare le matrici, perché i=1 (Xi P
− M )2 è palesemente una forma
quadratica con un vincolo lineare ( ni=1 (Xi − M ) = 0 ), mentre M 2
2002-3003 versione provvisoria
109
ha ovviamente un solo grado di libertà, quindi i due termini sono
indipendenti e distribuiti come delle v.c. χ2 con i rispettivi gradi di
libertà.
5.8
Distribuzioni condizionate nella normale multivariata
Una proprietà fondamentale della normale, che oltretutto la caratterizza, riguarda le distribuzioni di un gruppo di componenti
condizionatamente ai valori di un altro gruppo di componenti.
Questo argomento viene trattato adesso, senza limitarci ad esporre i risultati fondamentali, ma anzi entrando con un certo dettaglio,
per tre ordini di ragioni:
1. La peculiarità delle caratteristiche delle distribuzioni condizionate nella normale multivariata, che ne rappresenta un aspetto
fondamentale;
2. La possibilità di dare un significato statistico autonomo agli elementi dell’inversa della matrice di correlazione di una variabile
multipla normale;
3. Come premessa indispensabile ai modelli lineari che tratteremo
ampiamente in questo corso;
Come si vedrà nelle pagine successive, la distribuzione di un gruppo di variabili YA condizionata ad un particolare valore yB assunto
da un altro gruppo di YB è:
1. ancora normale ed inoltre:
2. La funzione di regressione di una componente yA rispetto alle
altre componenti è lineare
3. La distribuzione ha una matrice di varianze e covarianze che
non dipende dai valori della componente condizionante (omoscedasticità).
I risultati esposti in queste pagine generalizzano le proprietà note
per distribuzioni normali bivariate, in cui le due funzioni di regressione di ciascuna delle due variabili rispetto all’altra sono lineari, ed
inoltre le distribuzioni condizionate sono normali e omoschedastiche.
In effetti ci porremo il problema nella forma più generale della
distribuzione di un gruppo di variabili normali condizionatamente
110
Materiale didattico statistica 3
ad un altro gruppo di variabili normali, nota la loro distribuzione
congiunta.
Significato degli elementi dell’inversa della matrice di varianza e covarianza .
Sarà anche possibile dare un significato agli elementi dell’inversa
di Σ in termini di distribuzioni condizionate.
Infatti si dimostrerà che se C = Σ−1 , allora:
teorema 5.8.1 In una normale multivariata, cij = 0 è condizione
necessaria e sufficiente perché le variabili Yi e Yj siano indipendenti
condizionatamente alle altre p − 2 variabili.
5.8.1
Distribuzione condizionata nel caso generale di un
gruppo di componenti rispetto ad un altro gruppo
di componenti.
Nella versione breve del corso studiare solo i risultati finali
Supponiamo di avere un vettore Y di p componenti, con distribuzione normale multivariata, suddiviso nel caso più generale in due
sottovettori [YA , YB ] , con corrispondente suddivisione del vettore
delle medie e della matrice di varianze e covarianze:
!
YA
Y=
YB
!
µA
µ=
µB
!
ΣAA ΣAB
Σ=
ΣT
AB ΣBB
I due insiemi di indici A e B costuituiscono una partizione dell’insieme di indici I = 1, 2, . . . , p cosı̀ che:
A∪B =I
A∩B =∅
A 6= ∅B 6= 0∅
per il resto A e B sono costituiti da sottoinsiemi di indici qualsiasi
(con la restrizione che esistano le inverse delle matrici di varianze e
covarianze che si richiederanno nel seguito).
2002-3003 versione provvisoria
111
In effetti i casi più rilevanti, che tratteremo specificatamente,
sono quelli in cui A = i, per lo studio della distribuzione di una
variabile condizionatamente alle altre e A = i, j, per lo studio della distribuzione condizionata di due variabili, in particolare per lo
studio della dipendenza condizionata.
Ci chiediamo qual è la funzione di regressione di YA su YB ,
ossia la speranza matematica di YA condizionata ad un particolare
valore yB di YB :
E[YA kYB = yB ] =??
In generale ci chiediamo direttamente qual è la distribuzione di
YA condizionata ad un particolare valore yB di YB .
Per trovare la funzione di regressione nel caso generale, ricaviamo prima la densità della distribuzione di YA condizionata ad un
particolare valore yB assunto da YB .
Per comodità lavoriamo con variabili XA , XB con speranze
matematiche nulle, ponendo:
XA = YA − µA
XB = YB − µB
Ovviamente la matrice di varianze e covarianze di X è uguale a
quella di Y:
V (X) = V (Y)
E’ opportuno richiamare le formule per la semplificazione degli elementi dell’inversa della matrice partizionata delle varianze e
covarianze di y :
Σ−1 =
Σ−1
AA.B
−1
−Σ−1
AA.B ΣAB ΣBB
!
−1
−1
T
−1
−1
−Σ−1
AA.B ΣAB ΣBB ΣBB [ΣAB ΣAA.B ΣAB ΣBB + I]
avendo posto:
T
ΣAA.B = ΣAA − ΣAB Σ−1
BB ΣAB .
Indichiamo con ΣIJ il blocco corrispondente al posto di ΣIJ (I =
A, B; J = A, B) nell’inversa Σ−1 , cosı̀ che l’inversa sia data da:
!
ΣAA ΣAB
Σ=
T
ΣAB
ΣBB
112
Materiale didattico statistica 3
ΣAA = Σ−1
AA.B ;
−1
ΣAB = −Σ−1
AA.B ΣAB ΣBB ;
T
ΣBA = −Σ−1
BB ΣAB Σ−1AA.B ;
BB
Σ
=
Σ−1
BB
h
−1
ΣTAB Σ−1
AA.B ΣAB ΣBB
i
+I .
Non si confonda ad esempio ΣAA (blocco dell’inversa Σ−1 corrispondente agli indici AA ) con Σ−1
AA (inversa del blocco di Σ
corrispondente agli indici AA) (coincidono solo se ΣAB = 0 )
Ricaviamo dai noti teoremi del calcolo delle probabilità la densità
della distribuzione condizionata di XA :
fXA |XB =xB (xA kXB = xB ) =
fXA XB (xA , xB )
fXB (xB )
E’ più comodo lavorare sui logaritmi ed in particolare su −2 log f
(in modo da trasformare solo le forme quadratiche a numeratore
dell’esponente nella densità normale), indicando per brevità con K
la costante di normalizzazione, che si può determinare dopo:
−2 log[f (xA , xB )/f (xB )] =
−1
= K + xT Σ−1 x − xT
B ΣBB xB =
−1
AA
= K + xT
xA + 2xTA ΣAB xB + xTB ΣBB xB − xT
AΣ
B ΣBB xB =
(sostituendo gli opportuni blocchi di Σ−1 )
−1
−1
T −1
= K + xT
A ΣAA.B xA − 2xA ΣAA.B ΣAB ΣBB xB +
h
i
T T −1
T
−1
−1
+xTB Σ−1
Σ
Σ
Σ
Σ
+
I
xB − xT
AB
B ΣBB xB =
BB
AA.B AB BB
−1
−1
T −1
= K + xT
A ΣAA.B xA − 2xA ΣAA.B [ΣAB ΣBB xB ]+
2002-3003 versione provvisoria
113
T
−1
−1
+[xTB Σ−1
BB ΣAB ]ΣAA.B [ΣAB ΣBB xB ] =
= K + xA − ΣAB Σ−1
BB xB
T
−1
Σ−1
AA.B xA − ΣAB ΣBB xB
Per cui è chiaro dall’ultima forma quadratica, che si tratta del
numeratore dell’esponente di una distribuzione normale di parametri:
µXA kXB =xB = ΣAB Σ−1
BB xB
T
AA −1
ΣXA kXB =xB = ΣAA.B = ΣAA − ΣAB Σ−1
)
BB ΣAB = (Σ
(La costante K è ricavabile dalla condizione di normalizzazione, ma si può comunque verificare effettuando il rapporto fra i termini costanti delle due densità, tenendo presente che per matrici
partizionate si ha:
T
kΣk = kΣAA − ΣAB Σ−1
BB ΣAB kkΣBB k = kΣAA.B kkΣBB k
Per cui la distribuzione condizionata è:
XA|xB ∼ N ΣAB Σ−1
x
;
Σ
B
AA.B
BB
114
Materiale didattico statistica 3
e quindi si ha:
Distribuzioni condizionate nel caso generale di vettori aleatori
normali:
YA kYB = yB ∼ N µA + ΣAB Σ−1
BB (yB − µB ); ΣAA.B
La distribuzione condizionata è normale multivariata con
parametri:
E YA kYB = yB ) = µA + ΣAB Σ−1
BB (yB − µB
la funzione di regressione (speranza matematica condizionata) è
lineare in yB
T
AA −1
V (YA kYB = yB ) = ΣAA.B = ΣAA −ΣAB Σ−1
)
BB ΣAB = (Σ
la matrice di varianze e covarianze condizionate non dipende da
yB (omoscedasticità) i vettori casuali:
YA − (µA + ΣAB Σ−1
BB [YB − µB ])eYB
(oppure YA − ΣAB Σ−1
BB YB e YB )
T )
risultano indipendenti (si verifica subito calcolndo E(YA YB
link o riferimento
(vedere anche → )(figure varie)
Esempio numerico: Si consideri la matrice 3×3 di varianza e covarianza relativa ad una distribuzione normale multivariata
a tre componenti:
Esempio

2 1 1



Σ= 1 2 1 
1 1 1
Consideriamo la distribuzione della variabile 1 condizionatamente alla 2 e alla 3. La matrice di varianze e covarianze va quindi
partizionata seguente modo:
2002-3003 versione provvisoria
115

2 1 1



Σ= 1 2 1 
1 1 1
Mentre
ΣBB =
2 1
!
1 1
controllare
inserire lucidi manuali ed esercizio
completare
5.8.2
Significato degli elementi dell’inversa della matrice
di varianza e covarianza.
E’ possibile dare anche un significato agli elementi dell’inversa di
Σ , in termini di distribuzioni condizionate, nel caso in cui Σ sia
la matrice di varianza e covarianza di variabili aleatorie normali;
si vedrà come tali concetti possano essere estesi al caso di variabili
aleatorie non normali o, meglio, nell’analisi di dati multivariati, al
caso di variabili statistiche osservate.
Gli elementi non diagonali dell’inversa: la correlazione parziale
Intanto, con riferimento ad una distribuzione normale multivariata
con matrice di varianze e covarianze Σ , si può dimostrare che se
C = Σ−1 , allora:
teorema 5.8.2 cij = 0 è condizione necessaria e sufficiente perché
le variabili Yi e Yj siano indipendenti condizionatamente alle altre
p − 2 variabili YB .
Si può giungere al risultato in due modi:
Dalla densità normale multivariata si vede direttamente che:
se e solo se cij = 0 si ha la fattorizzazione:
f (y) = f (yi , yB )f (yj , yB )
che è una condizione necessaria e sufficiente per l’indipendenza
condizionata di due variabili aleatorie qualsiasi dotate di densità.
Infatti, ponendo YA = (yi , yj )T e indicando con YB tutte le
altre componenti, avendo indicato con C l’inversa della matrice di
varianza e covarianza opportunamente partizionata:
116
Materiale didattico statistica 3

cii cij
cTiB


C =  cij cjj cTjB 
ciB cjB CBB

si ha:
f (y) = f (yi , yj , yB ) = K × exp[−(yT Cy)/2] =
T
K×exp[−(cii yi2 +cjj yj2 +2cij yi yj +2yi cTiB yB +2yj cTjB yB +yB
CBB yB )/2]
Se ora cij = 0 allora si può facilmente operare su f (y) :
T
CBB yB )/2] =
f (y) = K×exp[−(cii yi2 +cjj yj2 +2yi cTiB yB +2yj cTjB yB +yB
T
= K×exp[−(cii yi2 +2yi cTiB yB +yB
CBB yB )/2]×exp[−(cjj yj2 +2yj cTjB yB )/2]
z
}|
{
g(yi , yB ) × g(yj , yB )
in modo da ottenere la fattorizzazione desiderata in due funzioni,
in cui non compaiono simultaneamente termini in yi e yj
Per una interpretazione in generale del significato dei termini
dell’inversa, e non solo per il caso estremo cij = 0 , conviene riferirsi
alle distribuzioni condizionate.
Dalla distribuzione di YA condizionata a YB = yB , ponendo
YA = (yi , yj )T (e quindi nella notazione della sezione precedente
A è uguale alla coppia di indici i, j e B all’insieme degli altri p − 2
indici) si ricava che essendo la distribuzione condizionata di YA
ancora normale, l’indipendenza condizionata si ha se e solo se yi , yj
risultano non correlati, condizionatamente a YB = yB .
Si è visto che:
−1 T
AA −1
V (YA kyB ) = Σ−1
)
AA.B = ΣAA − ΣAB ΣBB ΣAB = (Σ
cioè la varianza condizionata di YA è uguale all’inversa del blocco
di elementi corrispondenti ad YA nell’inversa di Σ .
Nel caso di due variabili i e j , occorre invertire la matrice 2 × 2
di elementi:
2002-3003 versione provvisoria
117
AA
Σ
=
!
cii cij
cij cjj
e quindi:
(ΣAA )−1 =
cjj
−cij
−cij
cii
!
/(cii cjj − c2ij )
pertanto yi e yj sono non correlati condizionatamente alle altre p − 2 variabili, e quindi indipendenti data la normalità della
distribuzione condizionata, se e solo se cij = 0 .
Dagli elementi di (ΣAA )−1 è possibile calcolare l’indice di correlazione lineare fra yi e yj condizionatamente a YB :
−cij
−σ ij
=√
corr(yi , yj kYB = yB ) = √
cii cjj
σ ii σ jj
(essendo σ ij il cofattore di σij in Σ )
indice di correlazione lineare parziale ossia correlazione fra due
variabili eliminata l’influenza delle altre p − 2 variabili
Esempi sulla differenza fra l’indipendenza condizionata e l’indipendenza marginale
L’indipendenza condizionata e l’indipendenza marginale sono due
concetti diversi, e nessuno dei due implica l’altro.
Per chiarire la differenza fra indipendenza marginale e indipendenza condizionata, ricorro qui ad un esempio relativo alla distribuzione congiunta di tre variabili dicotomiche A,B e C.
Si ha una tavola 2 × 2 × 2 di tre mutabili A,B, e C. Le
due tavole A × B condizionate ai valori di C sono:
Esempio
C = c1
b1
b2
tot.
C = c2
b1
b2
tot.
a1
0, 24 0, 06
0, 30
a1
0, 12 0, 28
0, 4
a2
0, 56 0, 14
0, 70
a2
0, 18 0, 42
0, 6
tot.
0, 80 0, 20
1, 00
tot.
0, 30 0, 70
1, 00
In queste distribuzioni condizionate A e B sono indipendenti;
118
Materiale didattico statistica 3
se P(C=c1 )= P(C=c2 )= 12 la tavola marginale A × B è:
Ctot.
citazione
b1
b2
tot.
a1
0, 18 0, 17 0, 35
a2
0, 37 0, 28 0, 65
tot.
0, 55 0, 45 1, 00
Nella distribuzione marginale A e B non sono indipendenti.
Si può presentare il caso opposto, di caratteri indipendenti marginalmente e associati condizionatamente (paradosso di Simpson).
Si ha un’altra tavola 2×2×2 di tre mutabili A,B, e C. Le due tavole
A × B condizionate ai valori di C sono ora:
C = c1
b1
b2
tot.
C = c2
b1
b2
tot.
a1
0, 5
0
0, 5
a1
0
0, 5
0, 5
a2
0
0, 5
0, 5
a2
0, 5
0
0, 5
1
tot.
0, 5 0, 5
tot.
0, 5 0, 5
1
In queste distribuzioni condizionate A e B sono associati (addirittura sono massimamente associati)
Infatti se P(C = c1 )= P(C=c2 )= 12 la tavola marginale A × B è:
Ctot.
b1
b2
tot.
a1
0, 25 0, 25 0, 5
a2
0, 25 0, 25 0, 5
tot.
0, 5
0, 5
1
Nella distribuzione marginale A e B sono indipendenti (addirittura equidistribuite)
Gli elementi diagonali dell’inversa: la correlazione multipla
Anche gli elementi sulla diagonale principale di Σ−1 sono interpretabili tenendo conto delle distribuzioni condizionate, ma in termini
di variabilità di una variabile spiegata da tutte le altre, concetto che
rivedremo poi nel caso di modelli lineari generali.
Infatti se ora consideriamo l’insieme YA costituito da una sola
variabile yi (e quindi nella notazione adottata finora A è uguale
all’indice i e B all’insieme degli altri p−1 indici), si ha per la varianza
di yi condizionata ai valori delle altre p − 1 variabili:
2002-3003 versione provvisoria
119
Tenendo conto che ΣAA = cii si ha:
V (yi kyB ) = (ΣAA )−1 = 1/cii = kΣ|/σ ii
Quindi l’inverso di un elemento diagonale dell’inversa della matrice di varianze e covarianze esprime la varianza della variabile di posto corrispondente condizionatamente alle altre p − 1
variabili.
max(
1
) = σi2
cii
min(cii ) =
1
σi2
Il massimo di questa quantità è proprio la varianza della componente
i -esima, ossia σi2
Se Σ è una matrice Z di correlazione, allora 1/cii indica la variabilità di yi non spiegata dalle altre p − 1 variabili, per cui si può
costruire il coefficiente di determinazione multipla:
2
Ri.B
= 1 − kZ|/z ii = 1 − 1/cii = 1 −
V (yi kkYB )
V (yi )
Misura quanta parte della variabilità di Yi è spiegata dalle altre
p-1 variabili del vettore aleatorio yB
In generale l’indice di correlazione lineare multipla è dato da:
s
Ri.B =
1−
|Σ|
=
σi2 σ ii
q
1 − 1/(σi2 cii )
\begin{fig}
Esempio Date le rilevazioni di $p=7 $ misure antropometriche
su un insieme di $n=1432 $ bambini,
si è calcolata la matrice di correlazione $\mZ $ che segue:
\mZ=
\end{fig}
120
Materiale didattico statistica 3
Ad esempio la correlazione lineare (marginale, ossia senza tenere
conto della presenza delle altre variabili) fra le prime due variabili è
di 0,719.
Figura da inserire Da questa matrice di correlazione si è calcolata
l’inversa C: C =
e quindi si è calcolata la matrice A che ha come elemento generico:
−cij
rij.B = √
cii cjj
correlazione parziale fra due variabili, Xi e Xj , tenute costanti le
altre 5:
Figura da inserire P=
(ovviamente in questa matrice gli elementi diagonali non vanno
considerati Si vede che la correlazione lineare (parziale, o meglio
condizionata, ossia tenute costanti le altre variabili) fra le prime due
variabili è di 0,245. Buona parte quindi della correlazione marginale
è indotta dall’influenza delle altre 5 variabili, ossia la covariazione
delle prime due variabili insieme alle altre 5.
Se invece trasformiamo gli elementi diagonali di C , mediante la
relazione:
kZ|
1
2
Ri.B
= 1 − ii = 1 −
z
cii
otteniamo i 7 indici di determinazione multipla, di ciascuna variabile
condizionatamente alle altre 6:
0.827137, 0.896544, 0.848327, 0.297231, 0.722443, 0.756753, 0.82098
Si noti che la matrice di correlazione ha 7 autovalori dati da:
λT = 5.06451, 0.674288, 0.635871, 0.245914, 0.207684, 0.105888, 0.06584
La successione di tali valori indica chiaramente la presenza di correlazioni lineari fra combinazioni lineari di variabili molto forti.
Impiego delle informazioni dell’inversa C nell’analisi di dati multivariati.
Come si è visto, l’analisi degli elementi dell’inversa della matrice
di correlazione può fornire degli elementi utili per indagare sulla dipendenza fra variabili sia in termini marginali che in termini
condizionati.
2002-3003 versione provvisoria
Esempio di variabili condizionatamente non correlate
121
122
Materiale didattico statistica 3
Figura 5.8: distribuzioni condizionate in una normale multivariata
vai a indice figure
2002-3003 versione provvisoria
123
Figura 5.9: distribuzioni condizionate in una normale multivariatamatrice di
varianze e covarianze e inversa
vai a indice figure
5.9
Utilità della distribuzione normale multivariata
In effetti quanto visto finora riguarda solo il modello teorico della
normale multivariata, ossia le caratteristiche delle distribuzioni di
vettori aleatori normali multivariati, che riassumo brevemente (e
solo per le proprietà più rilevanti)
• dipende solo dai primi due momenti multivariati;
• ha contorni iper-ellissoidali;
• ha distribuzioni marginali normali multivariate;
• ha distribuzioni condizionate (o parziali) normali multivariate
omoschedastiche e con funzioni di regressione lineari;
• combinazioni lineari di sue componenti sono ancora normali
multivariate;
124
Materiale didattico statistica 3
• è unimodale;
xxxxxxxxxxxxxxxxxxxxxxxxxxxx
\item si ottiene come distribuzione
limite di processi multivariati
come teorema limite centrale multivariato
Non ci stiamo per ora ponendo
il problema di adattare una tale
distribuzione a dati osservati.
In effetti in questo corso questo
problema non verrà affrontato,
se non marginalmente: l’importanza
del modello normale multivariato
per questo corso sta nel fatto
che è un modello utile per la
definizione di
relazioni di dipendenza in
media esattamente lineari ed
omoschedastiche, che
xxxxxxxxxxxxxxxxxxxxxxxxxxxxx
5.10
Regressioni approssimate per vettori aleatori qualsiasi
In generale se abbiamo un vettore aleatorio Z a p componenti con
distribuzione qualsiasi,


Z1


 Z2 


 .. 
 . 

Z=
 Z 
 i 
 . 
 .. 


Zp
possiamo essere interessati a misurare in qualche modo la dipendenza di una componente dalle altre, diciamo per semplicità per ora la
dipendenza di Z1 da tutte le altre componenti, Z2 , . . . , Zp ; in altre
parole vogliamo vedere se e come si modifica la distribuzione di Z1 ,
condizionata a particolari valori z2 , . . . , zp assunti dalle altre p − 1
variabili, al variare dei valori condizionanti z2 , . . . , zp .
2002-3003 versione provvisoria
125
Per semplicità supponiamo che la distribuzione condizionata di
Z1 esista sempre e sia dotata di densità per qualsiasi insieme di
valori z2 , . . . , zp .
Siamo quindi interessati allo studio della distribuzione condizionata di Z1 di densità:
fZ1 (z1 |Z2 = z2 , . . . , Zp = zp )
al variare dei valori z2 , . . . , zp .
Tale densità (univariata) è ovviamente data da:
fZ1 (z1 |Z2 = z2 , . . . , Zp = zp ) =
fZ (z1 , z2 , . . . , zp )
fZ2 ,...,Zp (z2 , . . . , zp )
Come esprimere adesso la dipendenza di Z1 dai valori z2 , . . . , zp
in modo sintetico, possibilmente senza considerare l’intera distribuzione condizionata?
Una soluzione del tutto naturale è quella di considerare una funzione g(·) (matematica, non aleatoria), dei valori z2 , . . . , zp che sintetizzi al meglio la distribuzione di densità fZ1 (z1 |Z2 = z2 , . . . , Zp = zp ).
Vogliamo quindi sostituire alla variabile aleatoria Z1 |Z2 = z2 , . . . , Zp = zp ,
una funzione g(z2 , . . . , zp ) in modo tale che sia minimo la perdita
di informazione . Se adottiamo un criterio di perdita quadratico,
dobbiamo minimizzare quindi il valore atteso:
E ((Z1 |Z2 = z2 , . . . , Zp = zp ) − g(z2 , . . . , zp ))2
(5.4)
in corrispondenza di ciascuna combinazione di valori z2 , . . . , zp .
Con questa impostazione, ossia una funzione di perdita quadratica, è evidente che il valore che minimizza la (5.4) è il valore atteso
della distribuzione condizionata di Z1 ossia:
g(z2 , . . . , zp ) = E [(Z1 |Z2 = z2 , . . . , Zp = zp )]
Tale funzione va sotto il nome di funzione di regressione di Z1 su
Z2 , . . . , Z p
La bontà di tale funzione di regressione nel sintetizzare la distribuzione condizionata di Z1 è valutabile attraverso la funzione di
varianza condizionata:
V [Z1 |Z2 = z2 , . . . , Zp = zp ] = E ((Z1 |Z2 = z2 , . . . , Zp = zp ) − g(z2 , . . . , zp ))2
126
Materiale didattico statistica 3
L’analisi di questa funzione mostra se le varianze sono costanti o
meno e come variano in funzione dei valori z2 , . . . , zp .
La funzione di regressione ovviamente, tranne che in casi particolari, è una funzione qualsiasi: può essere lineare, polinomiale,
esponenziale o altro.
Ci possiamo porre ancora un altro problema:
invece della funzione di regressione esatta, usiamo una funzione parametrica h(z2 , . . . , zp ; β), che dipenda da un numero ridotto
di parametri β . Anche stavolta vorremo minimizzare la perdita
quadratica:
E ((Z1 |Z2 = z2 , . . . , Zp = zp ) − h(z2 , . . . , zp ; β))2
(5.5)
Vediamo subito che relazione c’è fra questa perdita e quella minima realizzata con la funzione di regressione: non v’è dubbio che il
minimo della quantità in (5.5) sarà superiore al valore ottimo (5.4),
perchè nella (5.5) si minimizza rispetto ad una particolare funzione
parametrica.
Si può poi vedere che:
E ((Z1 |Z2 = z2 , . . . , Zp = zp ) − h(z2 , . . . , zp ; β))2 =
= E [({(Z1 |Z2 = z2 , . . . , Zp = zp ) − E [Z1 |Z2 = z2 , . . . , Zp = zp ]}]+ E [Z1 |Z2 = z2 , . . . , Z
= E ({(Z1 |Z2 = z2 , . . . , Zp = zp ) − E [Z1 |Z2 = z2 , . . . , Zp = zp ]})2 + E [Z1 |Z2 = z2 , . . .
-
2E [{(Z1 |Z2 = z2 , . . . , Zp = zp ) − E [Z1 |Z2 = z2 , . . . , Zp = zp ]}] {E [Z1 |Z2 = z2 , . . . , Zp =
E’ facile vedere che il doppio prodotto è nullo, dato che:
2E [{(Z1 |Z2 = z2 , . . . , Zp = zp ) − E [Z1 |Z2 = z2 , . . . , Zp = zp ]}] {E [Z1 |Z2 = z2 , . . . , Zp =
= 2 {E [Z1 |Z2 = z2 , . . . , Zp = zp ] − h(z2 , . . . , zp ; β)} E [{(Z1 |Z2 = z2 , . . . , Zp = zp ) − E [Z
perchèE [{(Z1 |Z2 = z2 , . . . , Zp = zp ) − E [Z1 |Z2 = z2 , . . . , Zp = zp ]}] = 0.
In definitiva abbiamo, utilizzando una notazione più sintetica ma
altrettanto chiara:
2002-3003 versione provvisoria
127
E ((Z1 |z2 , . . . , zp ) − h(z2 , . . . , zp ; β))2 =
= E ({(Z1 |z2 , . . . , zp ) − E [Z1 |Z1 |z2 , . . . , zp ]})2 + E [Z1 |Z1 |z2 , . . . , zp ] − h(z2 , . . . , zp ; β)2
Questa relazione è molto importante per due motivi:
1. La funzione di perdita
E ((Z1 |z2 , . . . , zp ) − h(z2 , . . . , zp ; β))2
relativa alla funzione h(z2 , . . . , zp ; β) può essere scomposta in
due componenti:
• la funzione di varianza condizionata:
E [(] {(Z1 |z2 , . . . , zp ) − E [Z1 |Z1 |z2 , . . . , zp ]})2
• e la cosiddetta divergenza dalla funzione h():
E [(] {(h(z2 , . . . , zp ; β) − E [Z1 |Z1 |z2 , . . . , zp ]})2
2. dal momento che la varianza condizionata non dipende dalla
funzione h(z2 , . . . , zp ; β), per ottenere il valore ottimo di β ,
invece di minimizzare la (5.4) possiamo minimizzare rispetto a
β la quantità:
E [(] {(h(z2 , . . . , zp ; β) − E [Z1 |Z1 |z2 , . . . , zp ]})2
trovare esempi semplici di
regressioni teoriche non lineari.
e mettere dei grafici
5.10.1
Regressioni lineari approssimate per vettori aleatori qualsiasi
Come visto prima, vettori aleatori con distribuzioni qualsiasi, o variabili statistiche osservate,avranno funzioni di regressione di forma
qualsiasi (anche non lineare) e con varianze diverse (eteroscedasticità).
Accenniamo adesso al caso della distribuzione condizionata di
un numero qualsiasi di componenti: In generale se Z è un vettore
aleatorio con distribuzione qualsiasi, e ZA e ZB sono due vettori
ottenuti dalle componenti di Z , allora:
128
Materiale didattico statistica 3
la funzione di regressione di ZA su ZB è la
speranza matematica di ZA condizionatamente a particolari valori
di ZB :
funzione di regressione
• E(ZA kZB = zB ) (se esiste) è una funzione di zB di forma
qualsiasi (in generale non lineare).
• la distribuzione (condizionata) di ZA , con densità fZA (zA kZB =
zB ) è in generale non normale.
• tale distribuzione dipende in generale dai particolari valori fissati di zB . In particolare quindi può essere con varianze V (ZA kZB =
zB ) non costanti.
Tuttavia se si considerano le regressioni parziali lineari approssimate (ossia le relazioni lineari che approssimano, secondo i minimi
quadrati, le curve di regressione) si ritrovano le stesse espressioni
(come funzioni della matrice di varianza e covarianza) che abbiamo
trovato per la normale multivariata.
Nel caso normale però queste relazioni sono esatte.
Le relazioni di regressione lineare approssimate in generale si
trovano minimizzando rispetto alla matrice W la quantità:
tr[V (ZA − WZB )]
(equivalente a E(ZA − WZB )2 se si lavora con vettori aleatori a
media nulla).
Si ottiene comunque:
W = ΣAB Σ−1
BB
Le regressioni però saranno esattamente lineari e omoscedastiche
solo nel caso normale multivariato. Figura da inserire
(figure varie)
link o riferimento
(vedere anche rightarrowregressione parziale e condizionata )
Analisi delle correlazioni lineari presenti in data set osservati
forse è il caso di metterlo dopo
Sezione avanzata
2002-3003 versione provvisoria
129
E’ il caso di fare comunque delle considerazioni sui momenti del secondo ordine quando si opera
con variabili che non seguono una normale multivariata, o quando si ha a disposizione un insieme di
dati per il quale non si può ipotizzare che si tratti di un campione proveniente da una distribuzione
normale multivariata.
Per esempio quando si utilizzano delle relazioni lineari approssimate secondo quanto visto in
precedenza, si sta implicitamente ipotizzando, oltre la linearità, l’uguaglianza fra le varianze delle
distribuzioni parziali e l’uguaglianza fra le correlazioni e le covarianze delle distribuzioni parziali, indipendentemente dai particolari valori fissati per le variabili indipendenti (o condizionanti).
Si stanno cioè ipotizzando relazioni parziali che non cambiano forma al variare delle condizioni.
Supponiamo per esempio di avere in un insieme di dati (n unità ×p variabili) relativo a p variabili
Xi , in cui le n unità sono suddivise in kZ gruppi secondo le modalità zh (h = 1, 2, . . . , kZ ) di una
ulteriore variabile Z , supponendo quindi di avere delle osservazioni ripetute in corrispondenza di
ciascuna delle kZ modalità di Z . Possiamo allora calcolare le varianze delle p variabili Xi e le loro
correlazioni in coppia per ciascuno dei kZ gruppi. Se per esempio osserviamo che le varianze di una
o più variabili cambiano in modo sostanziale da un gruppo ad un altro oppure se le correlazioni
fra alcune variabili cambiano in modo marcato in corrispondenza delle varie modalità di Z, questo
può essere un indizio del fatto che l’approssimazione dei minimi quadrati delle vere regressioni non
sarà appropriata e che quindi i dati presentano caratteristiche diverse da quelle di una normale
multivariata, per cui questo può essere indizio di assenza di multinormalità. In questi casi occorrerà
ricorre ad altre approssimazioni, non lineari, o eteroscedastiche, che tengano eventualmente in conto
momenti diversi dai primi due.
5.11
Sintesi delle informazioni sui vari tipi di
correlazione e dipendenza lineare ricavabile dai primi 2 momenti multivariati
I momenti multivariati primo e secondo, ossia il vettore delle speranze matematiche e la matrice di varianze e covarianze contengono
tutte (e sole) le informazioni che servono per la quantificazione e
l’analisi di tutti i tipi di dipendenza e correlazioni lineari relative a
coppie o gruppi di variabili, sia nelle distribuzioni marginali che in
quelle condizionate (si veda a proposito anche la sezione 5.8).
Riassumo nella tavola che segue le relazioni lineari e loro connessione con i momenti primi e secondi, secondo quanto fin qui studiato,
per variabili multiple X a p componenti e con momenti primi nulli
(quindi si tratta di variabili centrate):
X = {X1 , X2 , . . . , Xi , . . . , Xp }T
E [X] = 0
Ho indicato con Σ la matrice di varianze e covarianze e matrice
di correlazione R , i cui elementi sono al solito dati da:
chiarire
130
Materiale didattico statistica 3
rij =
σij
σi σj
con σi2 si è indicata la varianza della i -esima componente, ossia l’elemento i -esimo della diagonale di Σ , di modo che σi è lo
scostamento quadratico medio della i -esima variabile.
In effetti se con D indichiamo una matrice diagonale i cui elementi
sono le varianze delle singole componenti, per cui dij = 0 se i 6= j
e dii = σi2 , si può esprime la matrice di correlazione in termini
matriciali:
1
1
R = D− 2 ΣD− 2 ,
Secondo il simbolismo già adottato, con C , di elemento generico
cij , si è indicata l’inversa di Σ , esprimibile al solito in termini dei
cofattori σ ij degli elementi di posto i, j della matrice Σ :
cij = σ ij /kΣ|
...
relazioni lineari e loro connessione con i momenti primi e
secondi di una variabile X
Significato
statistico-probabilistico
espressione in termini di elementi
di Σ
varianza di una componente Xi
σi2
varianze e covarianze di una
combinazione lineare Y = A X
AΣAT
varianza di tutte le componenti
tr(Σ)
2002-3003 versione provvisoria
Significato
statistico-probabilistico
131
espressione in termini di elementi
di Σ
varianza generalizzata (di Wilks)
kΣ|
correlazione lineare semplice fra
due variabili Xi , Xj
coefficiente di regressione lineare semplice di una variabile Xi
rispetto ad un’altra, Xj
correlazione multipla: correlazione fra una variabile Xj ed una
combinazione lineare (la migliore, nel senso dei minimi quadrati!)
delle altre p − 1 variabili, che sono le componenti vettore aleatorio
XB ,
con
B
=
1, 2, . . . , j − 1, j + 1, . . . , p
dipendenza lineare di una variabile dalle altre p−1 variabili (combinate linearmente nel miglior modo
possibile).
frazione della varianza di Xi
spiegata dalle altre p-1 variabili.
frazione della varianza della distribuzione di Xi condizionatamente
a XB
rij =
bi,j =
σij
σj2
Ri.B =
=
q
σij
σi σj
q
1 − kΣ|/[σi2 σ ii ]
1 − 1/(σi2 cii ) = 1−
V (Xi kXB )
V (Xi )
V (Xi kXB )
V (Xi )
132
Significato
statistico-probabilistico
matrice di varianze e covarianze della regressione lineare di un
gruppo di variabili XA in dipendenza di una latro gruppo
di variabili XB (per il simbolismo sulle matrici partizionate
si veda la sezione sulla normale
multivariata)
correlazione parziale fra due variabili, Xi e Xj , tenute costanti le
altre p-2
combinazioni lineari a coefficienti
normalizzati di massima varianza
(e retta di minima distanza
dall’insieme di dati multivariato)
Materiale didattico statistica 3
espressione in termini di elementi
di Σ
T
AA −1
ΣAA −ΣAB Σ−1
)
BB ΣAB == (Σ
−cij
rij.B = √
cii cjj
Si ricavano dagli autovettori di Σ
varianza massima di una combinazione lineare delle Xi (a
coefficienti normalizzati)
λ1
varianza minima di una combinazione lineare delle Xi (a
coefficienti normalizzati)
λp
varianze delle componenti principali (combinazioni lineari delle Xi
(a coefficienti normalizzati)
λ : vettore degli autovalori di Σ
combinazioni lineari di gruppi di
variabili con correlazione massima.
Analisi delle correlazioni
canoniche
solo accennata
Per l’analisi di relazioni di tipo non lineare (o di regressioni lineari
per esempio eteroscedastiche), occorre far ricorso ad altri momenti
multivariati oltre il secondo. Si faranno degli esempi nell’ambito
dell’ analisi dei residui nella regressione multipla lineare.
In effetti si vedrà che anche nel modello lineare generale, l’analisi
2002-3003 versione provvisoria
133
della dipendenza lineare e delle proprietà degli stimatori, sotto certe
ipotesi semplificatrici è legata solo alla struttura delle varianze e
delle covarianze fra variabili dipendenti e indipendenti.
5.12
Stimatori di massima verosimiglianza dei
parametri di una normale multivariata
Supponiamo di avere un campione(multivariato) casuale di ampiezza
n estratto da una normale multivariata a p componenti, ossia una
matrice Xn × p di dati, le cui righe sono delle determinazioni di una
variabile normale multipla:

x11 x12

 x21 x22

 . . . . . .

X = 
 xi1 xi2

 . . . . . .

xn1 xn2

. . . x1j . . . x1p


. . . x2j . . . x2p 


... ... ... ... 



. . . xij . . . xip 


... ... ... ... 

. . . xnj . . . xnp
In analogia al caso univariato, i momenti primi e secondi calcolati
sul campione multivariato sono le stime di massima verosimiglianza
dei corrispondenti parametri della distribuzione di provenienza; in
134
Materiale didattico statistica 3
sintesi:
Lo stimatore di massima verosimiglianza del vettore delle speranze matematiche µ di una variabile normale multipla è dato
dal vettore M (X) delle medie aritmetiche di un campione multivariato x di n osservazioni i.i.d. estratto dalla corrispondente
distribuzione.
Tale stimatore, come nel caso univariato, è corretto, ossia non
distorto.
Lo stimatore di massima verosimiglianza della matrice di varianze
e covarianze Σ di tale variabile è dato dalla matrice delle varianze
e covarianze empiriche calcolata su un campione multivariato di
n osservazioni i.i.d. estratto dalla corrispondente distribuzione.
Tale stimatore, come nel caso univariato, è invece distorto.
E’ possibile costruire uno stimatore corretto moltiplicando sia le
n
varianze che le covarianze empiriche per il fattore correttivo n−1
,
ottenendo quindi lo stimatore:
Σ̂ = V [X] = V [Z] =
ZT Z
n
In effetti, dal momento che gli unici parametri della distribuzione normale multivariata sono il vettore delle medie e la matrice di
varianza e covarianza, per ottenere gli stimatori di massima verosimiglianza (puntuali!) di tutte le quantità necessarie per calcolare le
distribuzioni congiunte, marginali, condizionate e per le componenti
principali da un campione proveniente da una normale multivariata,
si impiegheranno le stesse formule già viste per la distribuzione teorica, sostituendo ai momenti primi e secondi teorici quelli empirici
stimati dal campione, dal momento che lo stimatore di massima verosimiglianza di una funzione dei parametri g(θ) è dato dalla stessa
funzione dello stimatore di Massima verosimiglianza, g(θ̂)
2002-3003 versione provvisoria
135
Dimostrazione
È opportuno a questo punto richiamare e rivedere le proprietà
viste precedentemente sulla derivazione di forme quadratiche di
determinanti e di matrici inverse.
Sezione avanzata
Per ricavare gli stimatori di massima verosimiglianza dei parametri di una normale multivariata costruiamo come sempre la verosimiglianza, o meglio il suo logaritmo, supponendo di avere n
osservazioni indipendenti ciascuna con p componenti.
Per comodità e perché questo facilita i passaggi successivi, consideriamo come parametri gli
elementi cij di C , l’inversa della matrice Σ di varianze e covarianze, oltre ovviamente al vettore
delle speranze matematiche µ.
Sappiamo dalle proprietà degli stimatori di massima verosimiglianza che la parametrizzazione
è irrilevante ai fini della determinazione degli stimatori puntuali.
Costruiamo la quantità:
−2 log L(µ; C)
(essendo L(µeC) la verosimiglianza campionaria (rispetto a µ e C), sulla base di un campione
di n osservazioni indipendenti (si riveda la parte iniziale sulla normale multivariata, per questa
parametrizzazione, in particolare l’equazione 5.3):
l(µ, C; X) = −2logL(µ, C; X) = k − nlog|C| +
n
X
T
(xi − µ) C(xi − µ)
i=1
essendo xi il vettore ( p -variato) osservato relativo all’i-esima osservazione. Procedendo a
derivare prima rispetto al vettore µ si ha:
n
n
X
X
∂l(µ, C; X)
= −2
C(xi − µ) = −2C
(xi − µ)
∂µ
i=1
i=1
E’ immediato vedere che
∂l(µ,C;X)
∂µ
si annulla se:
2C
n
X
(xi − µ̂) = 0
i=1
ossia (dato che C è di rango pieno!) solo quando:
n
X
(xi − µ̂) = 0,
i=1
ed infine:

M1
 ...


xi = nµ̂µ̂ =
xi /n(= M (X) =  Mj

i=1
i=1
 ...
Mp
n
X
n
X







Per quanto riguarda invece le derivate rispetto agli elementi di C conviene distinguere gli
elementi diagonali cjj da quelli fuori dalla diagonale cjk (k 6= j) :
∂
n ∂|C|
∂l(µ, C; X)
=−
+
∂cjj
|C| ∂cjj
Pn
i=1 (xi
− µ)T C(xi − µ)
j = 1, 2, . . . , p
∂cjj
Per il primo addendo a secondo membro ricordiamo il risultato generale per i determinanti di
matrici simmetriche:
∂|C|
= Cii
∂cjj
essendo Crs il cofattore di crs in C ,
136
Materiale didattico statistica 3
mentre per il secondo addendo ovviamente si tratta di termini lineari in C , per cui basterà
nella sommatoria selezionare solo le componenti opportune dei vettori (xi − µ) , ossia solo quelle
che moltiplicano cjj :
n
X
∂l(µ, C; X)
Cjj
2
= −n
+
(xij − µj ) .
∂cjj
|C|
i=1
Si vede subito che:
Cjj
2
= σj
|C|
dal momento che C = Σ−1 e quindi Σ = C−1 e gli elementi di un’inversa sono proprio dati
dai rapporti fra cofattori e determinante.
Per trovare le espressioni degli stimatori σ̂j2 occorre annullare le precedenti derivate, avendo
sostituito alle speranza matematiche µj gli stimatori di massima verosimiglianza Mj . Pertanto:
n
X
∂l(µ, C; X)
Cjj
2
= 0 → −n
+
(xij − Mj ) = 0;
∂cjj
|C|
i=1
e quindi:
Pn
2
i=1 (xij
σ̂J =
− Mj )2
n
Deriviamo adesso rispetto agli elementi non diagonali cjk (k 6= j ):
∂
∂l(µC; X)
n ∂|C|
=−
+
∂cjk
|C| ∂cjk
Pn
i=1 (xi
− µ)T C(xi − µ)
j, k = 1, 2, . . . , p; k 6= j
∂cjk
Procediamo come prima, e per il primo addendo a secondo membro ricordiamo il risultato
generale per i determinanti di matrici simmetriche:
∂|C|
= 2Cjk
∂cjk
cofattore di cjk in C, k 6= j.
Mentre per il secondo addendo selezioniamo le componenti dei vettori (xi − µ) che moltiplicano
cjk :
n
X
Cjk
∂l(µ, C; X)
= −2n
+2
(xij − µj )(xik − µk )
∂cjk
|C|
i=1
Ancora si ha:
Cjk
= σjk
|C|
e per trovare le espressioni degli stimatori σ̂jk occorre annullare le precedenti derivate, avendo
sostituito alle speranze matematiche µj gli stimatori di massima verosimiglianza Mj . Pertanto:
n
X
∂l(µ, C; X)
Cjk
= 0 ⇒ −2n
+2
(xij − Mj )(xik − Mk ) = 0;
∂cjk
|C|
i=1
e quindi:
Pn
σ̂jk =
i=1 (xij
− Mj )(xik − Mk )
n
e quindi in definitiva il risultato prima anticipato:
T
Σ̂ = V (X) = V (Z) = Z Z/n
essendo X il campione multivariato originario e Z la matrice degli scarti
2002-3003 versione provvisoria
137
Inferenza nel caso normale sugli autovalori:
Sebbene solitamente si impieghino le tecniche di analisi delle componenti principali a scopo esplorativo, è interessante accennare al caso
in cui si abbia a disposizione un campione multivariato estratto da
una distribuzione normale; abbiamo infatti già visto come per una
distribuzione normale multivariata gli autovalori e gli autovettori
assumano dei significati ben precisi.
Evidentemente gli stimatori di massima verosimiglianza degli autovalori e degli autovettori sono forniti dagli autovalori e dagli autovettori della matrice di varianza e covarianza campionaria (che è
lo stimatore di massima verosimiglianza della matrice di varianza
e covarianza teorica); dal momento che per gli stimatori delle varianze e delle covarianze per campioni provenienti da una normale
valgono della proprietà di regolarità e dei teoremi che forniscono
le distribuzioni campionarie e che garantiscono la consistenza degli
stimatori insieme con loro correttezza asintotica, dobbiamo aspettarci che anche per gli autovalori e gli autovettori ricavati da tali
matrici campionarie valgano delle proprietà di consistenza e di correttezza asintotica. In effetti qui mi limito a riportare un risultato
asintotico che riguarda la distribuzione degli autovalori per campioni
provenienti da una distribuzione normale multivariata.
Asintoticamente gli lj , stime campionarie dei veri autovalori λj ,
ottenute da un campione di n osservazioni estratto da una normale
multivariata, si distribuiscono secondo una normale multivariata a
componenti indipendenti:
con valore atteso: E[lj ] = λj
e varianza campionaria :
V ar[lj ] =
2λ2j
n−1
(si ricordi il caso particolare di matrici di varianze e covarianze
diagonali: questi risultati coincidono con quelli classici della distribuzione di una varianza campionaria!)
Casi interessanti:
H0 : λj = 1, j = 1, 2, . . . , p
che corrisponde al caso di indipendenza fra le variabili (standardizzate).
138
Materiale didattico statistica 3
È da intendersi che questi risultati sono semplicemente delle approssimazioni ma danno delle indicazioni sull’ordine di grandezza
dell’errore campionario.
5.12.1
Un test di Multinormalità: cenni
Quando si ha a disposizione un campione di dati multivariato, molto
spesso è necessario verificare se è plausibile l’ipotesi di provenienza
da un universo normale multivariato.
Un modo semplice per verificare la normalità di un campione
di osservazioni multivariate, consiste ovviamente nell’effettuare dei
test di normalità su ciascuna delle distribuzioni univariate.
Ricordo che la normalità delle distribuzioni marginali è una condizione necessaria ma non sufficiente per la normalità multivariata: pertanto i test sulla normalità delle distribuzioni marginali costituiscono uno sbarramento preliminare, nel senso che se danno
esito negativo possiamo senz’altro scartare l’ipotesi di multinormalità, altrimenti occorrerà procedere col saggiare l’ipotesi di normalità
multivariata con test basati sulla distribuzione congiunta.
Se l’insieme in esame è costituito da molte variabili non sarà
possibile utilizzare i normali test di bontà dell’adattamento; tuttavia
è possibile ottenere delle informazioni eventualmente anche grafiche
trasformando opportunamente l’insieme di dati multivariato.
Come si è visto infatti nel capitolo sulla distribuzione normale
multivariata, la forma quadratica ad esponente della densità normale ha una distribuzione proporzionale a quella di una χ2 con p
gradi di libertà.
Infatti se:
Y(Np (µ, Σ),
si è già visto prima che la variabile casuale
Q = (Y − µ)T Σ−1 (Y − µ)(χ2p
Pertanto se trasformiamo ognuno degli n vettori osservati xi a
p componenti secondo la stessa relazione, dovremo aspettarci che
questi n valori trasformati qi seguano ciascuno una distribuzione χ2
con p gradi di libertà:
qi = (xi − µ)T Σ−1 (xi − µ) ∼ χ2p
(le n trasformate qi risultano indipendenti per l’indipendenza
ipotizzata dei vettori osservati xi )
2002-3003 versione provvisoria
139
Quindi, se è valida l’ ipotesi di multinormalità, il vettore delle n
trasformate qi costituisce un campione casuale semplice estratto da
una distribuzione χ2 con p gradi di libertà. In effetti le quantità che
si usano effettivamente per il calcolo delle qi sono gli stimatori di µ
e Σ , M e S , e non i parametri veri (usualmente incogniti); questo
fa sı̀ che le quantità:
q̂i = (xi − M )T S−1 (xi − M )
seguono una distribuzione χ2p solo approssimativamente; l’approssimazione è soddisfacente per campioni grandi.
In effetti, un’informazione utile si ricava dalla rappresentazione
grafica di tali valori trasformati in corrispondenza dei percentili teorici di una variabile χ2 ; un altro elemento di cui si potrebbe tenere
conto nella costruzione di un test di normalità è dato dagli angoli che
i vettori osservati formano con il centroide del campione; tuttavia
adesso per semplicità non vedremo quest’ulteriore possibilità.
Esempio:
Questo esempio è tratto dall’insieme di dati antropometrici di cui si
è fatto cenno in capitoli precedenti (1432 casi x 7 variabili).
\begin{fig}
in ese2000_correlaz1.nb
\end{fig}
Inserire grafici sulle distribuzioni normali condizionate
5.13
Inferenza sui parametri della normale multipla
Mi dispiace! capitolo ancora da fare
140
Materiale didattico statistica 3
5.14
Esempi di distribuzioni multivariate non
normali
Sezione avanzata
Saltare nella versione breve del corso.
L’estensione al caso multivariato di distribuzioni non-normali a componenti non indipendenti
è sempre ardua, perché le possibilità di estensione di sistemi di curve univariate non normali al
caso multivariato possono essere di diversa natura, mentre dalla distribuzione normale univariata si
può arrivare alla sua estensione multivariata con diverse impostazioni giungendo sempre alla stessa
forma multivariata; ad esempio:
• dalla densità o dalla funzione caratteristica, sostituendo ad un quadrato una forma quadratica;
• se xT a è normale per qualsiasi a , allora x è normale multivariato.
• come distribuzione di x = µ + Ay(con y a componenti indipendenti)
• da distribuzioni condizionate normali e omoscedastiche con funzioni di regressione lineari.
5.14.1
Una particolare distribuzione beta multivariata (distribuzione di Dirichlet)
La distribuzione di Dirichlet a k componenti, che costituisce una particolare generalizzazione multivariata della distribuzione Beta, è definita come segue:
• si considerino k + 1 v.a. indipendenti Xi (i = 0, 1, 2, . . . , k) , ciascuna con distribuzione
Gamma con lo stesso parametro di scala λ e di parametri di forma ci ;
Pk
• indicata con S la loro somma, S =
i=0 Xi , la distribuzione di Dirichlet è la distribuzione
congiunta delle k nuove variabili definite dalle relazioni:
yi = Xi /Si = 1, 2, . . . , k.
La densità di tale distribuzione è data da:
f (y1 , y2 , . . . , yk ) =
k
Y
ci−1
yi
i=1
[1 −
k
X
yi ]
c0−1
i=1
Γ(
k
X
ci )/
i=0
k
Y
Γ(ci ),
i=0
ed è definita sul simplesso:
yi (0, i = 1, 2, . . . , k;
k
X
yi ≤ 1.
i=1
Questa distribuzione è importante ad esempio per la descrizione della distribuzione simultanea
di rapporti di composizione; si vedano nelle figure che seguono, per il caso bivariato, alcuni esempi
di densità per diverse combinazioni dei parametri c0 , c1 e c2 .(indicati nel seguito con a, b, c nel caso
bivariato)
Se ci (1(i = 0, 1, . . . ., k) , la densità ha sempre un massimo unico in corrispondenza di:
∗
yi = (ci − 1)/
k
X
(ci − 1), (i = 1, 2, . . . , k).
i=0
• Tutte le distribuzioni marginali univariate sono delle distribuzioni Beta.
• Le distribuzioni condizionate sono ancora delle Beta
• Nella distribuzione bivariata (indicando le due componenti con X ,y , e i parametri con a,b,c))
la distribuzione di y condizionata a X =x è proporzionale ad una variabile con distribuzione
Beta univariata. In particolare si dimostra che:
• y/(1 − x)kX = x si distribuisce come una Beta[b, c]
• per cui E [y] varia linearmente con x, ma anche V [y] varia con x
2002-3003 versione provvisoria
141
Esempi di densità di distribuzioni di Dirichlet: Figura da inserire
in bivar1.nb
c0 = 1, 2
c0 = 1, 2
c0 = 3
c1 = 0, 9
c1 = 1, 3
c1 = 4
c2 = 0, 9
c2 = 1, 8
c2 = 5.
\begin{fig}
FIG2000REGR_ETERO1.STG
\end{fig}
Altri esempi di distribuzioni multivariate non normali
Distribuzione Logistica Doppia di densità:
F (x, y) = 1/(1 + Exp[−x] + Exp[−y])
\begin{fig}
in bivar1.nb
\end{fig}
Distribuzione Esponenziale Bivariata $(a=0,7)$
$$
F(\vecx,\vecy)=
(1-Exp[-\vecx])(1-Exp[-\vecy])( (1+a Exp[-\vecx-\vecy])
$$
\begin{fig}
in bivar1.nb
\end{fig}
Distribuzione Bivariata Dirichlet
(\mBeta-bivariata) $a=1,5;
\vecb=1,6; c=2,1$
\begin{fig}
in bivar1.nb
\end{fig}
Distribuzione Bivariata Dirichlet
(\mBeta-bivariata) $a=4;
\vecb=4; c=3$
\begin{fig}
142
Materiale didattico statistica 3
in bivar1.nb
\end{fig}
Distribuzione Bivariata Dirichlet
(\mBeta-bivariata) $a=1,1;
\vecb=1,1; c=0,9$
\begin{fig}
in bivar1.nb
\end{fig}
Sezione avanzata
costruzione di variabili correlate
Uno schema generale di costruzione di variabili aleatorie correlate da p+1 variabili aleatorie indipendenti Xj (j=0,1, . . . ,p), è quello di considerare p variabili aleatorie sommando a tutte la componente
X0 . In dettaglio otteniamo ora un nuovo vettore aleatorio Y a p componenti, ponendo:


y1 = X0 + X1


...




 yj = X0 + Xj 




...
yp = X0 + Xp
In pratica la componente X0 è quella che determina la covarianza fra le componenti di Y .
E’ facile calcolare i momenti di Y da quelli di X , mentre può essere in generale arduo calcolare
la distribuzione di Y (è spesso è complicato integrare rispetto a X0 nella densità congiunta di X0 ,
X1 , . . . , Xp , ).
Come esercizio si calcoli la correlazione e la covarianza fra due generiche componenti di Y o,
direttamente, la matrice di varianze e covarianze e la matrice di correlazione di Y .
V (yj ) = V (X0 ) + V (Xj ); Cov(yj , yk ) = V (X0 )
costruzione di variabili correlate
Uno schema generale di costruzione di variabili aleatorie correlate da p+1 variabili aleatorie indipendenti Xj (j=0,1, . . . ,p), è quello di considerare p variabili aleatorie sommando a tutte la componente
X0 . In dettaglio otteniamo ora un nuovo vettore aleatorio Y a p componenti, ponendo:
In pratica la componente X0 è quella che determina la covarianza fra le componenti di Y .
E’ facile calcolare i momenti di Y da quelli di X , mentre può essere in generale arduo calcolare
la distribuzione di Y (è spesso è complicato integrare rispetto a X0 nella densità congiunta di X0 ,
X1 , . . . , Xp , ).
Come esercizio si calcoli la correlazione e la covarianza fra due generiche componenti di Y o,
direttamente, la matrice di varianze e covarianze e la matrice di correlazione di Y .
V (yj ) = V (X0 ) + V (Xj ); Cov(yj , yk ) = V (X0 )
Capitolo 6
Introduzione ai Modelli
Lineari
Figura da inserire
FIG2000REGR1.STG
FIG2000REGR2.STG
FIG2000REGR3.STG
6.1
Il modello lineare di dipendenza per variabili normali.
143
144
Materiale didattico statistica 3
Figura 6.1: relazione fra due variabili in funzione del valore di una terza variabile
vai a indice figure
Per quanto visto nelle lezioni sulla normale multivariata, la distribuzione di un numero qualsiasi di componenti condizionatamente a valori qualsiasi Z2 di altre componenti del vettore aleatorio
normale è normale, con valore atteso che è funzione lineare di Z2
, e matrice di varianze e covarianze indipendente dai particolari valori condizionanti; quindi le regressioni sono tutte lineari e
omoscedastiche.
Pertanto se si ha a disposizione un campione casuale semplice
da una normale multivariata, non esiste alcun problema di identificazione del modello, né di scelta della funzione, perché tutte le
distribuzioni condizionate sono note.
2002-3003 versione provvisoria
145
Tuttavia sono rari i casi in cui nello studio della dipendenza di
uno o più fenomeni, si può ragionevolmente ipotizzare di avere un
campione casuale semplice da una distribuzione normale multipla,
perché spesso ci si trova in altre situazioni, fra cui essenzialmente si
hanno le seguenti:
• I dati costituiscono un campione casuale semplice proveniente
da una distribuzione multivariata non normale.
• I dati non costituiscono un campione casuale semplice ma, per
esempio, i valori delle variabili indipendenti sono stati opportunamente selezionati o predisposti
• oppure si ha un campione non probabilistico o comunque un
archivio di dati che non costituisce un campione.
• Il modello da cui si possono selezionare i dati è effettivamente
una distribuzione normale multivariata (almeno approssimativamente normale), e si può estrarre un campione casuale semplice, tuttavia l’interesse dell’analisi è limitato allo studio della
distribuzione di una delle componenti y condizionatamente a
valori particolari o estremi delle altre componenti X : è noto anche nell’analisi della regressione semplice, che l’inferenza
è migliore (ossia le bande di confidenza della relazione di regressione sono più strette) se si selezionano unità con valori
estremi delle componenti condizionanti X più vicine a quelle di
interesse.
spostare questo paragrafo
Ovviamente restano rinviati (ma solo per poche pagine!) i problemi relativi alla stima dei parametri sulla base di un campione di
osservazioni p-variate, che verranno affrontati estendendo opportunamente le tecniche impiegate quando si studia la dipendenza
di una variabile y da una variabile indipendente x .
In effetti anche nel caso di campioni casuali semplici da distribuzioni non normali multivariate, si possono cercare le migliori (nel
senso dei minimi quadrati) relazioni lineari fra le speranze matematiche di y e particolari valori di X . In ogni caso, come si apprestiamo
a discutere diffusamente, i valori delle x possono anche non essere
146
Materiale didattico statistica 3
delle determinazioni di variabili casuali, ma valori anche scelti in
modo non casuale.
Nei paragrafi che seguono verranno affrontati diversi aspetti reversatilità del modello li- lativi alla versatilità del modello lineare ed alle diverse possibilità
neare
interpretative del modello e dei suoi parametri: alcuni dei concetti
fondamentali relativi a particolari modelli lineari vengono introdotti
fra breve, prima che vengano affrontati gli aspetti inferenziali.
6.2
Funzioni di regressione
questo pezzo va agganciato
con il pezzo sulla regressione
per vettori aleatori.
Supponiamo di avere un vettore aleatorio di p + 1 componenti:
(Y, Z1 , Z2 , . . . , Zp )
l’approccio alla misura della dipendenza di una componente Y di
un vettore aleatorio dalle altre componenti, può essere affrontato in
termini di funzione di regressione, ossia della funzione di dipendenza
della speranza matematica di Y da particolari configurazioni di Z :
E [Y ] = f (z)
Ovviamente questo concetto può essere esteso al caso in cui abbiamo n osservazioni relative a p + 1 variabili statistiche, e si vuole
studiare come varia una (o meglio le sue medie) in funzione delle
altre.
L’approccio tecnico scelto in questo corso ci consentirà di affrontare in modo simile gli aspetti inferenziali relativi alla regressione
multipla, all’analisi della varianza, della covarianza; inoltre costituirà una buona base per alcuni tipi di GLM (Generalized linear
models) sia per l’interpretazione dei parametri che per l’inferenza.
2002-3003 versione provvisoria
6.3
147
I modelli statistici.
Prima di iniziare lo studio del modello lineare, che ci accompagnerà
per tutto (o quasi) il corso) vale la pena di fare una citazione:
Utilità dei modelli statistici
All models are wrong, but some are useful
(G.E.P. Box)
(Tutti i modelli (statistici) sono sbagliati, ma alcuni sono
utili)
6.4
Il modello lineare generale.
Per modello lineare in generale si intende un modello nel quale una
variabile di risposta osservabile Y è spiegata da una combinazione
lineare di k variabili esplicative Xj , secondo dei parametri incogniti
βj , più una componente accidentale ε (non osservabile) , secondo
la generica relazione lineare:
...
y = X1 β1 + X2 β2 + . . . + Xk βk + ε
148
Materiale didattico statistica 3
...
In generale si può avere:
y = g(X1 , . . . , Xk , β, ε)
In particolare comunque ci occuperemo di modelli lineari di dipendenza nei quali le Xj non sono variabili casuali, ma costanti note,
che assumono n valori in <k (tutti distinti oppure con ripetizioni,
questo si vedrà meglio in seguito).
A differenza di quanto visto nelle lezioni precedenti, non ci stiamo
occupando della distribuzione simultanea di k + 1 variabili aleatorie,
perché le Xj sono variabili i cui valori possono addirittura essere
prefissati ed assegnati.
La generica osservazione i -esima è quindi caratterizzata da un
particolare vettore di valori delle k variabili Xj , indicato con:


xi1


 ... 



xi = 
x
 ij 


 ... 
xik
Eventualmente le x potranno essere dei valori particolari (fissati!) di variabili casuali, nel caso in cui studiamo le distribuzioni
condizionate della variabile aleatoria Y , condizionatamente agli
n valori di k variabili aleatorie Xj , e ipotizzeremmo in quel caso
l’esistenza di k+1 variabili aleatorie osservabili. Anche in questa
situazione però non ci occuperemmo della distribuzione congiunta delle Xj , ma solo di f (Y|Xnxk ) , ossia la distribuzione di Y
condizionatamente a particolari valori delle x.
2002-3003 versione provvisoria
149
E’ più opportuno allora fornire l’equazione per la variabile casuale
yi corrispondente alla generica i-esima osservazione:
...
Yi = xi1 β1 + xi2 β2 + . . . + xik βk + εi = xTi β + εi
Il vettore delle n osservazioni può essere quindi cosı̀ espresso
formalmente:
MODELLO LINEARE GENERALE
Y[n×1] = X[n×k] β [k×1] + ε[n×1]
L’ equazione deve essere lineare nei parametri β .
Rappresentando i dati in blocchi si ha:
Figura da inserire
BLOCCHI
Y[n×1] = X[n×k] β [k×1] + ε[n×1]

y1












 
...   ...
...
 


...
...   ...
 
yi  =  xi1 β1 + xi2 β2 +
 

... 
...
  ...
 
...   ...
...
yn
xn1 β1 + xn2 β2 +



ε1
 
 
 
 
 
 
+xik βk  + 
 

... 
 
 
...  
+xnk βk
...
...
x11 β1 + x12 β2 + . . . +x1k βk
...
...
...
...
...
...
...
...








εi 

... 


... 
εn
150
Materiale didattico statistica 3
...
L’utilità e la versatilità di tale modello per la descrizione di
fenomeni reali risiede nella possibilità di dare un significato
agli elementi di X e di β .
Il nome lineare presuppone in generale che il modello sia
lineare nei parametri βj
6.4.1
componente sistematica e componente casuale.
Possiamo interpretare le due componenti fondamentali del modello
che forniscono la risposta Y come:
Xβ la componente sistematica del modello;
ε
la componente accidentale, che qui sto supponendo additiva, per semplicità, e per comodità
interpretativa.
Se:
E [ε] = 0n
(come è ovvio assumere se ε è effettivamente una componente accidentale additiva) allora:
E [Y] = Xβ,
e quindi il modello è schematizzabile come:
Y = E [Y] + ε
In questo caso quindi possiamo vedere la variabile Y come una
variabile casuale, di cui abbiamo un campione di n osservazioni, la
cui speranza matematica è funzione lineare di k variabili Xj secondo
la relazione:
E [yi ] =
k
X
xij βj
i = 1, 2, . . . , n
j=1
questa proprietà è in stretta relazione con l’ipotesi di additività
della componente accidentale.
L’assunzione E [ε] = 0n presuppone la validità del modello per le
speranze matematiche e quindi implicitamente si ipotizza:
2002-3003 versione provvisoria
151
• che la componente accidentale (che ha un effetto additivo) sia a
media nulla: questo in effetti è quasi scontato quando parliamo
di errori accidentali additivi;
• che le k variabili siano le uniche rilevanti ai fini della spiegazione
della speranza matematica di Y , o meglio della spiegazione di
sue variazioni.
• Il modello per la parte sistematica non è distorto, perchè: E [Y] =
Xβ .
In ogni caso non si sta implicitamente assumendo l’esistenza di
relazioni di causa effetto fra le X e la Y , ma semplicemente
che la conoscenza delle X può spiegare meglio la variabilità del
fenomeno Y (nel senso che ne diminuisce la variabilità).
Ricordo inoltre che non è necessario ipotizzare modelli distributivi per le Xj , perché, almeno per ora, si sta supponendo che
siano dei termini fissati, secondo differenti possibili schemi che
vengono adesso esaminati
Ad esempio nella regressione lineare semplice si ipotizza:
Yi = β0 + xi β1 + εi
con
E [Yi ] = β0 + xi β1
Sezione avanzata
Adesso occorre citare e studiare opportunamente gli esempi della lezione introduttiva, che in
buona parte sono tutti suscettibili di essere posti in questa forma.
152
6.4.2
Materiale didattico statistica 3
Caratteristiche essenziali degli elementi del modello
lineare
Elemento e Dimensioni
Caratteristiche
Y
vettore
elementi
Vettore aleatorio osservabile;
è la variabile di risposta di interesse, ossia quella di
cui si cerca di studiare (e di spiegare) la variabilità;
n
X
matrice n × k
elementi
Matrice di costanti note.
Le k componenti (vettori di n elementi) sono
variabili non aleatorie osservate senza errori
Sono le k variabili esplicative che si pensa
influenzino la risposta Y .
Si vedranno dopo alcune delle numerose configurazioni che può assumere la matrice X.
β
vettore
elementi
k
Vettore di parametri incogniti;
β andrà stimato dai dati del campione.
In generale sono dei parametri fissi; in certi modelli,
che tratteremo in questo corso solo marginalmente,
alcuni dei coefficienti sono considerati come effetti
casuali, e quindi come variabili aleatorie.
ε
vettore
elementi
n
Vettore aleatorio non osservabile direttamente;
In funzione delle diverse ipotesi fatte sulla natura
della distribuzione di ε (che può dipendere in generale da un insieme di parametri θ ) si possono avere
differenti stime dei parametri incogniti del modello.
2002-3003 versione provvisoria
6.4.3
153
Caratteristiche più dettagliate degli elementi del modello:
ElementoCaratteristiche
Y
Vettore aleatorio osservabile;
vettore n elementi
• è la variabile di risposta di interesse, ossia quella di cui
si cerca di studiare (e di spiegare) la variabilità;
• è una variabile quantitativa;
• solo in casi speciali si considerano Y qualitative (ad
esempio presenza/assenza; oppure successo/insuccesso).
In questo corso non affronteremo, almeno non queste
tecniche, casi di risposte y qualitative non dicotomiche.
• Ci stiamo occupando essenzialmente di modelli nei quali
la risposta yi è univariata; diversamente, con risposte
multiple, abbiamo modelli multivariati.
• Si considera la distribuzione di Y come vettore aleatorio,
perché si pensa che questa distribuzione possa per qualche aspetto (media, varianza, etc.) variare in funzione
delle Xj .
• Il modello è multiplo se si hanno diverse colonne nella
matrice X
• con y indichiamo il vettore dei valori osservati
• Di solito è utile vedere (preliminarmente) se la variabilità
osservata della Y è dovuta solo alla variabilità naturale
o anche a fattori sistematici (ossia la dipendenza dalle
X ).
• Le n unità dovrebbero essere gli elementi di un campione
casuale; tuttavia questo modello viene utilizzato anche
per analisi esplorative su dati osservazionali o comunque
non provenienti da un campione (leggere discussione di
Cox su int.stat.rev.)
154
Materiale didattico statistica 3
ElementoCaratteristiche e Dimensioni
X
Matrice di costanti note.
matrice n × k elementi
• Le k componenti (vettori di n elementi) sono variabili
non aleatorie osservate senza errori
• o comunque con un eventuale errore di ordine di
grandezza molto inferiore rispetto a quello di Y .
• I valori delle x potrebbero essere n valori particolari assunti da un vettore aleatorio p-dimensionale. In questo
caso studiamo la distribuzione condizionata di y per quei
particolari valori di X.
• Le Xj sono le k variabili esplicative che si pensa
influenzino la risposta Y .
Le configurazioni di X possono essere numerose:
• quantitative
• variabili indicatrici (0/1 o -1/1)
• variabili miste
2002-3003 versione provvisoria
155
La matrice delle X (o meglio l’intero insieme dei dati) può
provenire da:
• studi osservazionali: in cui si scelgono le k variabili, ma
gli n valori di ciascuna variabile sono quelli osservati
negli n individui scelti, per cui non è possibile in generale
pianificare particolari combinazioni degli n × k valori.
• esperimenti pianificati: in cui si scelgono non solo le k
variabili, ma anche tutto lo schema degli n × k valori,
per cui è possibile stabilire in anticipo quali valori verranno utilizzati per ciascuna delle k variabili ed inoltre
quali combinazioni di valori dei fattori (o delle variabili)
verranno impiegate insieme.
• dati ricavati da statistiche ufficiali o archivi e/o databases o dati prelevati da archivi remoti in rete: possibilmente si tratta di dati raccolti non per finalità statistiche
e pertanto potrebbero essere poco affidabili, di qualità
non nota e molto probabilmente non costituiscono nè un
campione casuale nè una popolazione completa. 1
1 Ovviamente
questa considerazione riguarda l’intero dataset osservato, compresa la y .
156
Materiale didattico statistica 3
ElementoCaratteristiche
β
Vettore di parametri incogniti ;
vettore di k elementi:
β = {β1 , β2 , . . . , βj , . . . , βk }T
β andrà stimato dai dati del campione
• Ciascun parametro esprime la dipendenza (lineare) dalla
corrispondente variabile esplicativa.
• In generale gli elementi di β sono dei parametri fissi, se
non precisato diversamente;
• in certi modelli alcuni dei coefficienti sono considerati
come effetti casuali, e quindi come variabili aleatorie.
• Ciascun parametro esprime la dipendenza (lineare) dalla
corrispondente variabile esplicativa.
• Pertanto βj misura l’incremento medio della risposta Y
in corrispondenza di un incremento unitario della j-esima
variabile Xj .
• Se Xj è una variabile indicatrice (0/1) della presenza di
una certa caratteristica (non quantitativa), allora βj misura l’effetto medio della presenza di tale caratteristica
sulla risposta Y .
In generale:
βj =
∂E [Yi ]
∂xij
se il modello è lineare però vale anche:
xij =
∂E [Yi ]
∂βj
2002-3003 versione provvisoria
157
Elemento
Caratteristiche
ε
Vettore aleatorio non osservabile direttamente;
vettore di n elementi
I n funzione delle diverse ipotesi fatte sulla natura della
distribuzione di ε (che può dipendere in generale da un
insieme di parametri θ ) si hanno differenti stimatori dei
parametri incogniti del modello.
• Rappresenta la componente accidentale, che viene
supposta additiva, in modo tale che se è anche
con speranza matematica nulla (come spesso si può
ipotizzare) si ha:
E [Y] = Xβ
• In effetti ε a rigore dovrebbe essere una variabile aleatoria non dipendente da variabili esterne, che esprime semplicemente l’errore sperimentale, o l’errore di
misurazione
• nel caso in cui il modello non sia correttamente specificato, ε finirà per inglobare le variabili ed i fattori non esplicitati nella parte sistematica, e quindi
perderà la sua natura di componente accidentale.
6.4.4
Versatilità del modello lineare
La formulazione di tale modello per la speranza matematica di una
v.a., sebbene molto semplice, permette di trattare diversi tipi di
situazioni e di risolvere differenti problemi di inferenza.
In funzione di particolari configurazioni che può assumere la matrice X, si può adattare questa impostazione a situazioni particolari.
Ad esempio:
• per l’analisi della regressione lineare multipla, se le colonne
della matrice x sono n osservazioni di k variabili quantitative,
• per l’analisi della regressione polinomiale, se le colonne della
matrice X sono le potenze di una o più variabili quantitative,
• oppure per l’analisi della varianza se le k colonne di x so-
158
Materiale didattico statistica 3
no delle variabili dicotomiche indicatrici (dummy variables) di
appartenenza ad un gruppo;
• per l’analisi della covarianza;
• per particolari analisi di disegni sperimentali a più vie con
interazioni fino ad un ordine massimo fissato.
• Analisi di superfici di risposta
• Analisi discriminante
• Analisi dei modelli di crescita
soltanto alcune di queste problematiche verranno trattate in
questi appunti;
si rivedano comunque gli esempi tratti dalla sezione di problemi
introduttivi
6.5
Problemi di inferenza
In generale in un modello lineare possiamo avere diversi problemi di
inferenza, in particolare di stima e di prova delle ipotesi, in funzione
della natura dei dati e del tipo di problema. Ad esempio:
• stimare il vettore dei parametri β nel caso generale;
• stimare il vettore dei parametri β nel caso in cui vengono imposti dei vincoli su alcune delle sue componenti (alcune componenti nulle o uguali, per esempio)
• Il valore del vettore dei parametri β è uguale ad un certo valore
β0 ?
• Costruzione di una regione di confidenza per il vettore dei
parametri β ;
• Costruzione di un intervallo di confidenza per una delle componenti di β ; (o per una combinazione lineare delle componenti
di β , ad esempio β1 − (β2 + β3 )/2 ).
2002-3003 versione provvisoria
159
• Inferenza su r componenti di β ; le altre k − r componenti
di β non interessano e svolgono però il ruolo di parametri di
disturbo.
• Gli effetti di alcune variabili Xj sono uguali? Ossia alcuni dei
parametri sono uguali?
• Alcuni dei parametri sono uguali subordinatamente al valore di
altre variabili Xj ?
• Qual è la combinazione di fattori che fornisce la risposta media
Y più elevata?
• Subordinatamente al fatto che alcuni effetti siano significativamente diversi da zero, quali hanno condotto alla significatività?
• Una o più fra le variabili Xj può essere eliminata, senza che
questo riduca in modo sostanziale la spiegazione della variabile
di risposta? Eliminare una variabile esplicativa Xj dal modello
corrisponde ad ipotizzare βj = 0.
• Anche se βj è significativamente diverso da zero, può comunque
convenire lavorare con un modello ridotto anche se distorto?
6.5.1
Ipotesi sulle ε
Per potere dare una risposta, anche approssimativa, ad alcune di
queste domande, e quindi per la costruzione di stimatori e test, e
per fare in generale inferenza (almeno muovendosi in un contesto
parametrico), occorrerà fare ovviamente delle ipotesi, più o meno
restrittive, sulla distribuzione di ε . Questa distribuzione dipenderà
in generale da un vettore di parametri θ :
ε ∼ φ(θ).
E’ ovvio che, anche ammettendo di conoscere la forma funzionale φ
, occorrerà stimare il vettore di parametri θ .
160
Materiale didattico statistica 3
...
Va tenuto presente che ε non è direttamente osservabile, come
accade invece, ad esempio, quando si osserva un campione
proveniente da una normale univariata di parametri incogniti
µ (costante) e σ 2 .
θ svolge in generale il ruolo di parametro di disturbo.
Ovviamente il numero dei parametri incogniti θs non dovrà essere
elevato, diversamente non sarà possibile stimarli.
ESEMPIO: se si suppone ε ∼ N (0, Σ) non possono essere incogniti emphtutti gli elementi della matrice di varianza e covarianza
Σ (perchè sarebbero n(n + 1)/2 parametri)
Quanto interagiscono la stima di θ e quella di β ? E’ possibile in
qualche modo verificare a posteriori la validità delle ipotesi fatte
sulla distribuzione delle ε ?
Le possibili scelte verranno analizzate successivamente alla discussione sul significato della parte sistematica.
6.6
La matrice delle X
La struttura ed il metodo di scelta delle Xj , insieme con la parametrizzazione scelta determina in parte il tipo di analisi.
Sostanzialmente le Xj (tutte o alcune) possono provenire da:
studi osservazionali Questo caso si presenta quando non è possibile in generale stabilire a priori la matrice X : si sceglieranno solo le k particolari variabili da analizzare e le n unità
che costituiscono il campione. Eventualmente potremo, entro
certi limiti, operare alcune trasformazioni sulle x in modo da
ricondurci a schemi particolari.
esperimenti pianificati con: variabili controllabili
in cui alcune variabili ( h ), e tutto lo schema degli n × h
valori corrispondenti della matrice X , vengono pianificati in
anticipo, per cui si stabilisce in partenza il range di valori di
ciascuna variabile esplicativa e le combinazioni di valori delle
2002-3003 versione provvisoria
161
variabili esplicative che si vogliono osservare, in funzione delle risposte che si vogliono ottenere dall’esperimento. Con un
esperimento mal pianificato, in cui ad esempio non sono previste alcune combinazioni di livelli di variabili, non si potranno
per esempio condurre tutti i test che si possono effettuare con
dati provenienti da un esperimento ben pianificato.
variabili note ma il cui valore non è pianificabile Ad esempio
vengono selezionati alcuni soggetti in base al sesso ed alla condizione lavorativa, per cui si stabilisce in anticipo quante osservazioni fare per tutte le combinazioni sesso x condizione lavorativa mentre per le altre variabili non è possibile pianificare
dei valori particolari.
Figura da inserire
ESEMPI VARI
6.6.1
Osservazioni ripetute.
Alcune delle righe della matrice X potrebbero essere (volutamente o
per caso) replicate. Nel caso di presenza di osservazioni ripetute per
ciascuna combinazione di fattori, l’analisi potrà anche dire qualcosa
di più:
• sulla bontà delle assunzioni fatte sulla distribuzione degli errori
• sulla forma funzionale della relazione (se lineare o meno).
• Sulla variabilità della componente accidentale per ciascuna combinazione di fattori.
Figura da inserire AMPLIARE
162
Materiale didattico statistica 3
citazione
Figura da inserire fig2000regr5.stg INSERIRE ESEMPIO E GRAFICO a 2D e 3D
6.6.2
Disegni fattoriali
Un disegno si dice fattoriale se vengono pianificate le osservazioni di
tutte le possibili combinazioni dei livelli dei k fattori.
Pertanto se ogni fattore Xj può assumere mj livelli (j = 1, 2, . . . , k),
si avranno:
Q
C = kj=1 mj distinte combinazioni,
ciascuna delle quali può essere replicata, per ottenere la matrice
X.
Esempio:
In un esperimento farmacologico si vuole stimare l’effetto di un
farmaco (tre dosi: una nulla, una media, una alta) su pazienti con
una particolare patologia. Si vuole verificare anche l’effetto su pazienti sani, e vedere se il sesso del paziente influenza il tipo di risposta. Complessivamente si hanno i seguenti fattori e corrispondenti
livelli:
Fattore
livelli (o modalità qualitative)
dosi di un farmaco
3 livelli quantitativi di dose
Sesso
2 livelli
Condizione sperimentale
2 livelli: malati e sani
Totale:
12 combinazioni
Le 12 possibili combinazioni sono dunque:
2002-3003 versione provvisoria
163
DOSE
SESSO
CONDIZIONE
1
Alta
F
Sano
2
Alta
F
Malato
3
Alta
M
Sano
4
Alta
M
Malato
5
Media
F
Sano
6
Media
F
Malato
7
Media
M
Sano
8
Media
M
Malato
9
Bassa
F
Sano
10
Bassa
F
Malato
11
Bassa
M
Sano
12
Bassa
M
Malato
Se si conviene di assegnare i seguenti valori numerici:
DOSE
Valore
Alta
+1
Media
0
Bassa
-1
SESSO
Valore
CONDIZIONE
Valore
M
+1
Sano
+1
F
-1
Malato
-1
Si ottiene la seguente matrice X dei regressori:
164
Materiale didattico statistica 3
DOSE
SESSO
CONDIZIO
1
+1
+1
+1
2
+1
+1
-1
3
+1
-1
+1
4
+1
-1
-1
5
0
+1
+1
6
0
+1
-1
7
0
-1
+1
8
0
-1
-1
9
-1
+1
+1
10
-1
+1
-1
11
-1
-1
+1
12
-1
-1
-1
Se i livelli sono quantitativi ed equispaziati (come in questo esempio), l’analisi risulta ortogonale
Anche nell’esempio che segue si ha un disegno bilanciato:
LIVELLI; X2 e X3 con 3 livelli
X1: 5
2002-3003 versione provvisoria
LIVELLI ORIGINALI
X1
X2
X3
1
0
0
2
0
0
3
0
0
4
0
0
5
0
0
1
1
0
2
1
0
3
1
0
4
1
0
5
1
0
1
2
0
2
2
0
3
2
0
4
2
0
5
2
0
1
0
1
2
0
1
3
0
1
4
0
1
5
0
1
1
1
1
2
1
1
3
1
1
4
1
1
5
1
1
1
2
1
2
2
1
3
2
1
4
2
1
5
2
1
1
0
2
2
0
2
3
0
2
4
0
2
5
0
2
1
1
2
2
1
2
3
1
2
4
1
2
5
1
2
1
2
2
2
2
2
3
2
2
4
2
2
5
2
2
165
SCARTI DALLE MEDIE
Z1
Z2
Z3
-2
-1
-1
-1
-1
-1
0
-1
-1
1
-1
-1
2
-1
-1
-2
0
-1
-1
0
-1
0
0
-1
1
0
-1
2
0
-1
-2
1
-1
-1
1
-1
0
1
-1
1
1
-1
2
1
-1
-2
-1
0
-1
-1
0
0
-1
0
1
-1
0
2
-1
0
-2
0
0
-1
0
0
0
0
0
1
0
0
2
0
0
-2
1
0
-1
1
0
0
1
0
1
1
0
2
1
0
-2
-1
1
-1
-1
1
0
-1
1
1
-1
1
2
-1
1
-2
0
1
-1
0
1
0
0
1
1
0
1
2
0
1
-2
1
1
-1
1
1
0
1
1
1
1
1
2
1
1

90

ZT Z =  0
0
0
0


30 0 
0 30
166
Materiale didattico statistica 3
link o riferimento
(vedere anche più avanti)
• Anche se non si riesce a costruire un disegno fattoriale, perché troppo oneroso, sarà opportuno di solito ricorrere a disegni
ortogonali , ossia schemi di disegni sperimentali con variabili
indipendenti non correlate.
• L’opportunità di avere l’ortogonalità dei fattori (ossia variabili
non correlate) è pienamente giustificata solo nell’ambito della
teoria normale completa sui minimi quadrati.
• Comunque è ragionevole fare in modo che i fattori non siano
correlati (se possibile).
• In un esperimento a molti fattori sarà opportuno che siano
bilanciate in corrispondenza a ciascuna coppia di fattori, le
possibili combinazioni di coppie di livelli.
ESEMPIO di DISEGNO FATTORIALE completo E INCOMPLETO Figura da inserire
FATTORIALI12.bmp
FATTOR2.STG
link o riferimento
(vedere anche → esempi e grafici qualitativi e quantitativi)
Disegni 2k
Un caso particolare di disegno fattoriale si ha nel caso di k fattori
qualitativi dicotomici, per cui le variabili assumeranno il valore 1 o
0 secondo che la caratteristica è presente o assente; è conveniente
anche utilizzare i valori 1 e -1, in modo che in un piano fattoriale
completo le variabili risulteranno centrate (ossia con media nulla) e
con varianza unitaria.
Per esaminare tutte le combinazioni (senza repliche) occorre prevedere 2k osservazioni.
Disegno fattoriale completo 4 fattori a due livelli -1,1.
farmaco si/no;
sesso M/F;
malato si/no;
ospedalizzato si/no;
Esempio
2002-3003 versione provvisoria
24
167
Si ottiene una matrice (centrata, ossia con medie nulle) con 16 =
righe:
Z1
Z2
Z3
Z4
1
1
1
1
1
2
1
1
1
-1
3
1
1
-1
1
4
1
1
-1
-1
5
1
-1
1
1
6
1
-1
1
-1
7
1
-1
-1
1
8
1
-1
-1
-1
9
-1
1
1
1
10
-1
1
1
-1
11
-1
1
-1
1
12
-1
1
-1
-1
13
-1
-1
1
1
14
-1
-1
1
-1
15
-1
-1
-1
1
16
-1
-1
-1
-1

16 0 0 0

 0 16 0 0
ZT Z = 
 0 0 16 0

0 0 0 16
6.6.3






Regressione multipla.
L’informazione campionaria, relativa a n unità, è costituita da:
• Un vettore di n valori osservati y della variabile di risposta
quantitativa Y .
168
Materiale didattico statistica 3
• La matrice X ( n righe e k colonne) è data dai valori di k
regressori quantitativi, noti, per ciascuna delle n osservazioni
Figura da inserire blocchi
y[n×1] , X[n×k]
Le n unità osservate sono quindi costituite da k + 1 variabili e
sono schematizzabili nelle n righe:

y1
x11 x12 . . . x1k






(y|X) = 






...
...
... ...
...
...
... ...
yi
xi1
xi2 . . .
...
...
... ...
...
...
... ...
yn xn1 xn2 . . .


... 


... 

xik 


... 

... 

xnk
La dipendenza (del valore atteso) di y dalle Xj è espressa quindi
dalla relazione:
k
X
E [yi ] = α +
xij βj
j=1
abbiamo quindi k coefficienti di regressione incogniti βj che esprimono la dipendenza media (parziale) della risposta da ciascun regressore.
In generale nel modello si considera anche un termine noto incognito α , che esprime la risposta media corrispondente a valori nulli
dei regressori;
α di solito non è oggetto di particolare interesse ed usualmente
svolge il ruolo di parametro di disturbo.
La relazione è analoga, almeno formalmente, alla relazione di
regressione lineare che studia la dipendenza della speranza matematica di una variabile aleatoria rispetto ai valori (fissati!) di altre k
variabili aleatorie.
Non si confonda la regressione multipla (una variabile di risposta
e molti regressori) con la regressione multivariata (molte variabili di
risposta e uno o più regressori).
2002-3003 versione provvisoria
169
Relazione di regressione in termini di scarti
Per comodità interpretativa, e per motivi più tecnici che si vedranno
al momento di affrontare i problemi di stima, convenzionalmente si
può porre:
la prima colonna (j = 0) composta tutta da 1 (in modo da
prevedere la presenza di un termine noto);
le altre colonne costituite dagli scarti semplici rispetto alla media
di ciascuna variabile.
Con la posizione:
zij = xij − M (Xj )
i = 1, 2, . . . , n;
j = 1, 2, . . . , k
la matrice X può essere messa

1 z11

 ... ...

X=
 1 zi1

 ... ...
nella forma più conveniente:

. . . z1j . . . z1k

... ... ... ... 

. . . zij . . . zik 


... ... ... ... 
1 zn1 . . . znj . . . znk
Media variabile: 1 0 . . . 0 . . . 0
Per i parametri si ha:
β T = {β0 , β1 , . . . , βj , . . . , βk }







β=





β0 Termine noto

β1 Coefficiente di regressione parziale variabile 1












... ......
βj variabile j
... ......
... ......
βk variabile k
Quindi la matrice dei regressori e il vettore dei coefficienti risultano partizionati in:
X = [1n |Z]
β T = [β0 |β1,k ]
170
Materiale didattico statistica 3
Il legame lineare è ora dato da:
E(yi ) =
k
X
zij βj
j=0
Per cui la risposta viene vista come somma di:
• un effetto generale, β0 , corrispondente a livelli nulli degli scarti
zij , e quindi a livelli medi dei regressori originari xij
• k singoli effetti proporzionali agli scarti dei singoli regressori
dalla propria media.
Dal punto di vista interpretativo, la riscrittura in termini di scarti
consente di dare un significato logico, ed utile per i confronti, al
termine noto.
Rispetto alla parametrizzazione originaria si ha:
E(yi ) =
k
X
j=0
zij βj = β0 +
k
X
zij βj = β0 −
j=1
k
X
M (Xj )βj +
j=1
k
X
xij βj
j=1
Quindi:
i coefficienti di regressione sono sempre uguali (si sono solo effettuate delle traslazioni di assi!)
Per il termine noto:
α = β0 −
k
X
M (Xj )βj
j=1
L’utilità teorica e pratica di queste posizioni sarà chiarita nella
parte relativa all’inferenza nella regressione lineare. In ogni caso
continuerò ad indicare la matrice del disegno o dei regressori con
X , precisando eventualmente se si tratta di scarti o di variabili
originarie.
L’ ipotesi nulla che più spesso si vuole verificare (almeno preliminarmente) è:
H0 : β1 = β2 = . . . = βk = 0; conβ0 qualsiasi.
Ossia che il valore atteso della variabile dipendente sia costante
ed indipendente dai regressori.
Figura da inserire ESEMPIO
2002-3003 versione provvisoria
6.6.4
171
Regressione polinomiale:
Dal momento che la linearità va intesa rispetto ai parametri, e non
rispetto alle Xj , il modello lineare comprende anche la regressione
polinomiale in una o più variabili:
Regressione polinomiale di grado k in un regressore Z se
E [yi ] =
k
X
βj zij ;
i = 1, 2, . . . , n
j=0
Ci si riporta al caso generale del modello lineare ponendo:
xij = zij βj ;
i = 1, 2, . . . , n;
j = 0, 1, . . . , k.
Anche in questo caso si continua a parlare di modelli lineari,
pochè il termine lineare si riferisce sempre ai parametri e non ai
regressori.
Si noti come però i regressori risultino in generale correlati, a meno che non si faccia ricorso a particolari trasformazioni del modello
polinomiale basate sui polinomi ortogonali.
Figura da inserire esempio
Polinomi in più variabili e superfici di risposta
E’ immediata la generalizzazione alle superfici polinomiali di grado
k in p regressori.
Regressione polinomiale di grado k in p regressori Zh
E(yi ) =
k
X
j=0
···
k
X
j=0
βj1,j2,...,jp
Y
P
(zih )jh ; i = 1, 2, . . . , n
jh =j
In particolare se k = 2 e se i coefficienti dei termini di secondo
grado in ciascun regressore sono nulli, si possono convenientemente
quantificare ed inserire nel modello degli effetti di interazione moltiplicativi del tipo βhr zih zir (interazione del primo ordine fra il regressore r-esimo ed h-esimo; Termini moltiplicativi che coinvolgono
k regressori sono relativi ad effetti di interazione di grado k − 1
link o riferimento
(vedere anche più avanti )
172
Figura da inserire
FIG2000REGPOLIN1.STG
Materiale didattico statistica 3
2002-3003 versione provvisoria
173
Figura da inserire
FIG2000REGSPLINE1.STG
Regressione parametrica e non parametrica
In questo corso ci occuperemo prevalentemente di regressione parametrica, ossia modelli di dipendenza nei quali è specificata la forma
di dipendenza funzionale della variabile di risposta o meglio della
sua speranza matematica, dalle variabili esplicative.
In effetti, di solito supponiamo anche che sia nota la forma distribuzionale della componente accidentale, a meno di qualche parametro di disturbo (per esempio nella regressione lineare semplice
supponiamo usualmente che gli errori siano distribuiti normalmente
con varianza uguale ma incognita).
Nella regressione non parametrica invece, si evita il più possibile
di fare delle ipotesi in merito alla forma funzionale della dipendenza;
queste tecniche, che non affronteremo in modo particolare nel nostro
corso, sono tipiche di una fase esplorativa dell’analisi dei dati quando
non si sa, almeno con buona approssimazione, qual è la forma della
relazione che lega la variabile dipendente al regressore.
Sostanzialmente si cerca direttamente di approssimare la funzione
di regressione localmente, per ciascun valore di x:
ŷ(x) ≈ E [y|x]
evidentemente nel caso in cui si ha una sola variabile esplicativa
il modo più conveniente di ottenere informazioni sul tipo di relazione è quello di effettuare una analisi grafica; chiaramente questo
strumento è disponibile anche nel caso di due variabili esplicative.
Un caso molto comodo si ha per esempio quando sono disponibili
nj osservazioni ripetute in corrispondenza dello stesso valore di xj :
in questo caso, infatti, la linea spezzata che congiunge le medie
aritmetiche della variabile di risposta in corrispondenza dei diversi
valori della xj , costituisce una base per la stima della vera relazione
funzionale fra la speranza matematica della variabile risposta e la
variabile esplicativa (o le variabili esplicative).
Pnj
yij
ŷ(xj ) = i=1
nj
Nel caso in cui non si abbiano osservazioni ripetute per la stessa variabile esplicativa, sarà necessario ricorrere ad approssimazioni
174
Materiale didattico statistica 3
analitiche: alcune delle tecniche si basano su opportune generalizzazioni di tipi di medie mobili o su adattamenti mediante particolari
funzioni kernel; un metodo molto generale, senza bisogno di entrare
in grande dettaglio, è dato da una media ponderata delle yi :
Pn
w(xi − x)yi
ŷ(x) = i=1
w(xi − x)
ove i pesi w(xi − x) sono delle funzioni decrescenti di xi − x; ad
esempio:
w(xi − x) = e−
(xi −x)2
2h2
essendo h un parametro di lisciamento.
Se si cercano approssimazioni sufficientemente regolari uno strumento tecnico molto utile è costituito dalle funzioni splines, particolarmente utili sia nel caso univariato sia nel caso bivariato.
Le funzioni splines sono delle particolari funzioni ottenute dalla
composizione di r segmenti di polinomi fj (x), j = 1, 2, . . . , r in modo
tale che la curva risulti sufficientemente liscia e regolare senza punti
di discontinuità in corrispondenza dei cambi di segmento.
Uno degli approcci per trovare i parametri dei segmenti di polinomio (se r = n) consiste nell’imporre alcuni vincoli alle funzioni
e ad alcune loro derivate in corrispondenza ai punti d’incontro dei
segmenti (nodi), zj , j = 1, 2, . . . , r:
fj (zj ) = fj+1 (zj );
fj (zj ) = fj+1 (zj );
fj (zj ) = fj+1 (zj );
j = 1, 2, . . . , r
Sufficienti requisiti di regolarità si ottengono operando con segmenti di polinomi di 3◦ grado.
Un altro approccio consiste nel cercare una curva composta da
segmenti polinomiali che risulti adattarsi abbastanza bene ai dati
(con r < n) mantenendo comunque una regolarità della curvatura
della curva complessiva.
In ogni caso queste tecniche di regressione non parametrica sono
suscettibili di applicazione:
-nella fase esplorativa della ricerca di una relazione di dipendenza
fra variabili
-oppure a scopo interpolatorio, quando un’approssimazione polinomiale localmente regolare è preferibile ad una relazione lineare o
comunque ad una relazione che sia della stessa forma e con gli stessi
parametri in tutto il campo di variazione della X .
2002-3003 versione provvisoria
6.6.5
175
Regressori del tipo 0/1 (dummy variables)
Esiste un modo formale di esplicitare la matrice X in modo da trattare anche variabili esplicative di tipo qualitativo. Vediamo come
prima con un esempio relativo ad una situazione nota.
Si supponga la situazione classica del confronto delle medie µ1 e
µ2 di due popolazioni normali con uguale varianza sulla base delle
informazioni di due campioni casuali semplici indipendenti.
Per la speranza matematica della variabile casuale associata alla
generica osservazione abbiamo:
E(Yi ) = µj perj = 1, 2,
secondo se l’unità i-esima appartiene al primo o al secondo campione.
Possiamo indicare sinteticamente:
E(Yi ) = xi1 µ1 + xi2 µ2
introducendo due regressori con la convenzione che per le unità
del primo campione si ha: xi1 = 1 e xi2 = 0 , per le unità del secondo
campione si ha invece: xi1 = 0 e xi2 = 1 .
Oppure si può parametrizzare con:
E(Yi ) = µ1 + xi2 (µ2 − µ1 )
e l’ipotesi da verificare sarà:
H0 : δ = (µ2 − µ1 ) = 0
con µ1 qualsiasi.
(oppure si vorranno costruire intervalli di confidenza per δ )
L’aspetto essenziale di questo esempio è che anche questa
situazione standard è riconducibile ad un modello lineare.
Esempio: Si hanno due campioni indipendenti di 14 osservazioni
relative ad una variabile quantitativa, suddivise in due gruppi A e
B, rispettivamente di numerosità 6 e 8.
A
2; 3; 3,1; 4; 5; 5,3.
B
3; 4,1; 4,3; 4,8; 6, 6,5; 7; 7,2.
176
Materiale didattico statistica 3
Potremmo pensare di avere rilevato 3 variabili su 14 individui nel
modo che segue:
y
xA
xB
2
1
0
3
1
0
3,1
1
0
4
1
0
5
1
0
5,3
1
0
3
0
1
4,1
0
1
4,3
0
1
4,8
0
1
6
0
1
6,5
0
1
7
0
1
7,2
0
1
Sarà bene che da ora in poi lo studente si abitui a questa impostazione, in particolare per problemi con più variabili, perché riuslta
estremamente comoda in particolare per le situazioni complesse;
(per la situazione dell’esempio, ossia test t a due campioni, non
v’è alcun motivo pratico di ricorrere a tale formulazione, perché
l’impostazione standard è quella più uitile)
6.6.6
Analisi della varianza ad effetti fissi ed un criterio
di classificazione
La versatilità del modello lineare, almeno da un punto di vista formale, si coglie per situazioni apparentemente lontane da quelle della
2002-3003 versione provvisoria
177
regressione multipla, ossia per lo studio della dipendenza in media di una variabile quantitativa da una qualitativa (o più variabili
qualitative).
Si supponga di avere n osservazioni suddivise in k gruppi indipendenti secondo le k modalità di un criterio di classificazione semplice
(o mutabile sconnessa).
Si suppone che i gruppi siano internamente omogenei, ma che le
medie dei gruppi possano essere in generale diverse:
E(Yi ) = µj
La matrice X è ora composta da k colonne costituite dagli n
indicatori dell’appartenenza delle unità ai gruppi:
(MATRICE del disegno sperimentale)

i


1


...



n1








n1 + n2


X=




 n + n + ... + n
2
j
 1





n1 + n2 + . . . + nk
Gr.1 Gr.2 . . . Gr.J . . . Gr.K
1
0
0
0
...
0
...
...
...
0
1
0
...
...
...
0
0
1
...
...
...
0
0
...
...
...
...
0
0
1
...
...
...
0
...
...
...
...
...
...
0
0
...
1
...
0
...
...
...
...
...
...
0
0
...
0
...
1
0
0
...
0
...
...
0
0
...
0
...
1





























178
Materiale didattico statistica 3

1 0

 ... 0 ...

 1 0 ...


 0 1 ...

 0 ... ...


 0 1 ...
X=
 ... ... ...


 0 0 ...

 ... ... ...


 0 0 ...

 0 0 ...

0 0 ...
0
... ...
...
...
...
...
...
1
...
0
0
0
0
0
1
...





... 0
n1



... 0


... 0



... 0
n1 + n2


... ...



... 0

. . . . . . n1 + n 2 + . . . + n j 



... 1


... ...

. . . 1 n1 + n2 + . . . + nk
µ1


 ...

β=
 µj

 ...
µk








2002-3003 versione provvisoria
179
Si ha:
nj osservazioni per ogni trattamento o gruppo:
nj =
n
X
xij ; j = 1, 2, . . . k.
i=1
ogni unità Ui appartiene ad un solo trattamento:
k
X
xij = 1; i = 1, 2, . . . , n
j=1
xij = 1 se e solo se l’unità Ui appartiene al j -esimo trattamento
β T = µ1 , . . . , µ j , . . . , µ k
L’ ipotesi nulla di interesse è di solito quella di omogeneità:
H0 : β1 = β2 = . . . = βk
oppure
H0 : β1 − βk = β2 − βk = . . . = βk−1 − βk = 0
Con questa parametrizzazione X ha rango pieno k , ma l’ipotesi
nulla di omegenità far le medie impone k − 1 vincoli
Altro modo di impostare l’ analisi della varianza a una via:
βj = µj − µ
βk+1 = µ
effetto del trattamento
(o
del
gruppo)
j; j = 1, 2, . . . k.
media generale;
e stavolta la matrice del disegno è:
180
Materiale didattico statistica 3

i
eff. gr.1 eff. gr.2


1
1
0


...
...
...



n1
1
0


0
1



0
...


n1 + n2
0
1



X=
...
...



0
0

 n + n + ... + n
...
...
2
j
 1


0
0


0
0

n1 + n2 + . . . + nk
0
0














X=













. . . eff. gr.j . . . eff. gr.k effetto g
0
0
...
...
0
...
1
0
...
0
0
1
...
0
1
...
...
...
...
1
...
...
...
0
1
...
...
...
0
1
...
...
...
0
..
...
...
...
0
1
...
...
...
...
..
...
1
...
0
1
...
...
...
...
..
...
0
...
1
1
...
0
...
...
..
...
0
...
1
1
eff. gr.1 eff. gr.2 . . . eff. gr.j . . . eff. gr.k effetto generale
1
...
0
...
0
...
1
1
...
...
0
1
...
...
...
...
...
...
0
0
1
...
1
...
...
...
0
1
...
0
...
0
...
...
...
1
...
...
...
0
...
1
...
...
...
...
...
...
...
0
0
0
0
...
...
0
0
...
...
1
...
1
...
0
0
...
0
...
1
1




























2002-3003 versione provvisoria
181


µ1 − µ


...

 µ −µ=
 j
β=

...

 µ −µ
 k
µ










H0 : β1 = β2 = . . . = βk = 0 e µ qualsiasi ( k vincoli)
In questo caso però x ha una colonna linearmente dipendente
dalle altre, per cui ha rango k invece di k + 1 .
6.6.7
Analisi della varianza ad effetti fissi con due criteri
di classificazione
E’ possibile estendere il disegno precedente all’analisi della varianza
a due vie, per la quale si può impostare un modello lineare con rs
colonne, con:
Xijm = 1 se Ui appartiene al j -esimo trattamento di riga e all’
m -esimo trattamento di colonna.
Oppure si può partire da una matrice del disegno sperimentale
semplificata con r + s + 1 colonne x e Z , tali che:
xi0 = 1 effetto generale;
xij = 1 se Ui appartiene al j -esimo trattamento di riga
zim = 1 se Ui appartiene all’ m -esimo trattamento di colonna
e introdurre nel modello di descrizione dei dati dei termini moltiplicativi (che saranno 1 solo se Ui appartiene ad una riga e ad una
colonna) per considerare l’effetto di interazione:
yijk = β0 +
r
X
j=1
αj xij +
s
X
m=1
ηm zimj +
r X
s
X
γjm xij zim + εijk
j=1 m=1
In pratica si considerano le due matrici di appartenza ai gruppi
per i due criteri di classificazione separatamente; se nel modello occorre tener conto dell’appartenza simultanea (termini di interazione)
si farà riferimento ai termini moltiplicativi xij zim , che sono uguali ad 1 solo per le unità che appartengono alla modalità j -esima
del primo criterio di classificazione ed alla modalità m -esima del
secondo criterio di classificazione.
Le ipotesi da verificare sono quelle usuali (si vedranno in dettaglio nella parte inferenziali relativa all’analisi della varianza a due
182
Materiale didattico statistica 3
vie); con questa parametrizzazione però, peraltro molto comoda e
naturale, il modello ha parametri ridondanti (rango = rs ; parametri
1 + r + s + rs ).
In modo analogo si possono impostare modelli a più vie.
Figura da inserire ESEMPIO
6.6.8
Analisi della covarianza
(L’utilità dell’analisi della covarianza verrà esaminata più avanti)
Supponendo di avere n osservazioni suddivise in k gruppi secondo un criterio di classificazione semplice e relative ad una variabile
di risposta y e ad una singola variabile concomitante x ci si può
ricondurre al modello lineare generale ponendo:
zij = xij − Mj (x)j = 1, 2, . . . , k
ove Mj (x) è la media di x per le sole osservazioni del gruppo j .
La matrice X sarà composta da 2k colonne, di cui le prime k
sono date da:

z1,1
... 0... ...








X1 = 








...
...
...
...
zn1,1 . . . 0 . . . . . .
... ... ... ...
0
...
zij
...
...
0
...
...
...
0
...
...
...
...
...
...
0
...
0
...
0


... 

0 


... 

0 


... 

zn1,k 


... 
znk,k
mentre le altre k colonne sono costituite dalla matrice di appar-
2002-3003 versione provvisoria
183
tenenza ai gruppi:









X2 = 








1
0
... ... ...
0

...
1
0
0
... ... ...
... ... ...
0
0

















... ... ... ... ... ...
0 0 ... 1 ... 0
... ... ... ... ... ...
0
0
...
0
...
1
0
0
0
0
...
...
0
0
... ...
... 1
per cui la matrice X è costituita dalle colonne di X1 e X2 affiancate ossia:
X = X1 |X2 ,
e i 2k parametri sono:
β T = β1 , . . . , βj , . . . , βk , α1 , . . . , αj , . . . , αk
Ipotesi di interesse:
H0 : β1 = . . . = βj = . . . = βk ; α1 = . . . = α = . . . = αk
con β1 , α1 qualsiasi ( 2k − 2 vincoli)
rette di regressione uguali nei k gruppi.
In generale si possono costruire disegni più complessi, con più
variabili concomitanti e con più regressori, considerando un modello
lineare del tipo:
Y = X1 β1 + X2 β2 + ε
in cui:
X1 è una matrice a più regressori,
X2 è una matrice di indicatori per più criteri di classificazione,
β1 è il vettore dei parametri che esprimono la dipendenza della
variabile di risposta dalle variabili concomitanti
β2 è il vettore dei parametri che esprimono la dipendenza della
variabile di risposta dai fattori di classificazione.
184
6.6.9
Materiale didattico statistica 3
Rette o piani di regressione con pendenze diverse:
termini polinomiali moltiplicativi
Una relazione polinomiale con termini lineari e termini misti di
2◦ grado può esprimere la presenza di effetti di interazione in un
modello lineare:
Esempio 1:
Si supponga una dipendenza in media della risposta y da due
fattori quantitativi secondo la relazione:
E(yi ) = xi1 β1 + xi2 β2 + xi1 xi2 β12
Se il parametro β12 fosse uguale a zero avremmo un classico piano
di regressione: E(yi ) = xi1 β1 + xi2 β2 , in cui parametri sarebbero
interpretabili nel modo già visto (modello additivo).
Se invece tale parametro è diverso da zero, è presente un effetto
di interazione fra i regressori X1 e X2 : infatti per esempio la dipendenza di y dal regressore X1 , per ciascuno dei possibili livelli di X2 ,
è sempre lineare, ma l’inclinazione, e quindi la forza della dipendenza di y da X1 , dipendono dal particolare livello assunto da X2 . Il
parametro β1 non misura più la dipendenza parziale di y da X1 ,
per qualsiasi livello di X2 , ma solo la dipendenza media rispetto a
tutti i livelli di X2 .
Esempio di polinomio di secondo grado per effetto interazione:
Supponiamo per esempio
β1 = 1,
β2 = 3,
β12 = 2,
per cui:
E [yi ] = xi1 1 + xi2 3 + xi1 xi2 2
2002-3003 versione provvisoria
185
L’effetto interazione fra X1 e X2 è tale da modificare anche il disegni ortogonali
tipo di dipendenza di y da X1 (da negativa a positiva)
Si vedano nel grafico seguente le tre rette di regressione ottenute
per tre diversi valori di X2 (-1;0;+1)
186
Materiale didattico statistica 3
Esempio 2: (confronto fra due rette) Pendenza diversa come effetto interazione fra un fattore (o regressore) quantitativo e un fattore
qualitativo:
Si supponga che la relazione di una risposta y da un regressore
X1 dipenda anche da una variabile dicotomica: In questo caso la differenza di pendenza può essere inserita nel modello lineare mediante
l’introduzione di un termine moltiplicativo, che non altera la linearità delle relazioni parziali, ma consente l’interpretazione dell’interazione fra i due fattori. ( X1 può essere formato da un gruppo di regressori: l’esempio resta sostanzialmente inalterato) Per semplicità
possiamo considerare la variabile dicotomica X2 con due livelli:-1 e
+1, per cui ci riportiamo formalmente al caso precedente:
E(yi ) = β0 + xi1 β1 + xi2 β2 + xi1 xi2 β12 =
= (β0 + xi2 β2 ) + xi1 (β1 + xi2 β12 )
e quindi:
(
E [yi ] =
(β0 − β2 ) + xi1 (β1 − β12 ) sexi2 = −1
(β0 + β2 ) + xi1 (β1 + β12 ) sexi2 = +1
Da cui risulta evidente, ed utile da un punto di vista interpretativo, che β2 rappresenta un effetto (medio) del fattore X2 sul livello medio di yi , mentre β12 rappresenta l’effetto (medio) del fattore X2 sulla relazione fra y e X1, per cui rappresenta un effetto di
interazione (di primo ordine).
Risulta quindi irrilevante o comunque poco interessante dal punto
di vista pratico, con questa interpretazione dei parametri, un test
costruito per la verifica dell’ipotesi: H0 : β1 = 0 , perché questo
misurerebbe l’effetto marginale del primo regressore, senza tenere
conto del livello dell’altro regressore (o meglio per un livello nullo,
o medio, del secondo fattore). Se per esempio il fattore dicotomico
X2 fosse il sesso (M=-1;F=+1), tale effetto marginale sarebbe di
nessun interesse, perché ogni soggetto sarà o M o F, e quindi anche se
risultasse β1 = 0, in effetti la dipendenza della risposta dal regressore
X1 sarebbe −β12 per i maschi e +β12 per le femmine. Eventualmente
occorrerebbe prima saggiare l’ipotesi: H0 : β12 = 0
Termini moltiplicativi con più termini possono servire per quantificare effetti di interazione di ordine superiore al primo.
2002-3003 versione provvisoria
187
Abbiamo già fatto cenno a questo argomento quando abbiamo
parlato di distribuzioni condizionate nella normale multivariata; ricordo infatti che in una distribuzione normale multivariata la correlazione fra due variabili condizionata ai valori singoli di un’altra
variabile o di più variabili è sempre la stessa, indipendentemente dai
livelli assunti dalla III variabile. In altri termini nella distribuzione
normale multivariata si è già visto che la dipendenza di y da x non
varia in funzione dei livelli di una terza variabile z : questo è analogo
al concetto di assenza di interazione, con l’avvertenza che in effetti
il concetto di interazione può essere introdotto senza la necessità di
riferirsi ad un modello probabilistico multivariato.
Esempio di piano fattoriale 2k
Supponendo di avere quattro fattori dicotomici X1 , X2 , X3 e X4 con
livelli standardizzati -1 e 1, (vedere paragrafo sui disegni fattoriali),
il modello seguente:
E [yi ] = β0 + xi1 β1 + xi2 β2 + xi3 β3 + xi4 β4 +
+xi1 xi2 β12 + xi1 xi3 β13 + xi2 xi3 β23 +
+xi1 xi2 xi3 β123 .
esprime una dipendenza della risposta dai livelli dei quattro regressori; mentre il fattore X4 non interagisce con nessun altro fattore, gli altri 3 fattori interagiscono sia presi a due a due (interazioni
di primo ordine) che tutti e tre insieme (interazione di secondo ordine). Dal punto di vista interpretativo: l’effetto del 4◦ fattore è
separabile rispetto a tutti gli altri; l’effetto degli altri 3 invece non
è separabile neanche a coppie.
6.6.10
Modelli autoregressivi
Un caso speciale è costituito dall’osservazione di una serie temporale, cioè si dispone di n osservazioni eseguite ad intervalli di tempo
uguali.
Si può pensare, in assenza di informazioni esterne o comunque di
altre variabili, di volere studiare la dipendenza della serie dalla stessa
serie spostata di uno o più unità temporali; in pratica si ipotizza che
Yt , osservazione al tempo t, o meglio, la sua speranza matematica
E [Yt ], dipenda linearmente dall’osservazione precedente yt−1 .
188
Materiale didattico statistica 3
Supponiamo quindi di volere spiegare la variabilità di una serie
mediante i soli valori della serie stessa in tempi precedenti; sarà in
realtà opportuno fare delle ipotesi sul processo stocastico che ha
generato la serie (ossia che sia stazionario), per cui la serie non ha
certamente componenti di trend.
Possiamo, prima di ipotizzare particolari processi stocastici che
possono avere generato la serie, adottare un approccio analogo alla
regressione lineare, cercando la relazione di regressione che fa dipendere Yt da Yt−1 . In pratica impostiamo un modello di regressione
(detto modello autoregressivo ) nel quale la serie originaria svolge
il ruolo della variabile di risposta, mentre la Yt−1 svolge il ruolo di
regressore o variabile esplicativa.
serie originaria serie arretrata di una unità temporale


y2





y3



..



 .
yt



yt+1




..


.




yn





























y1





y2



..



 .
yt−1



 yt



..


.




yn−1



























Evidentemente questo approccio presuppone serie
equiintervallate
Ovviamente la dipendenza da valori precedenti può essere estesa
anche a valori distanziati di più di un intervallo temporale:
Si può proseguire il ragionamento pensando che yt sia influenzato
non solo dalla precedente determinazione yt−1 ma anche da yt−2 e
dalle precedenti osservazioni fino a yt−k .
2002-3003 versione provvisoria
serie originaria


yk+1





yk+2



..



 .
yt



yt+1




..


.




yn
6.7



























189
serie yt−1
serie yt−2


yk





yk+1



..



 .
yt−1



yt




..


.




yn−1


yk−1





yk



..



 .
yt−2



yt−1




..


.




yn−2



























...














...













serie yt−k














y1
y2
..
.
yt−k



yt−k+1




..


.




yn−k



























Generalizzazioni e modelli non lineari (cenni)
Possiamo pensare che la speranza matematica della risposta sia una
funzione qualsiasi dei parametri e delle variabili indipendenti Xj :
Modello non lineare con errori additivi.
Y = f (X, β) + ε
con:
E [ε] = 0
f (·) vettore di funzioni non lineari.
Modello non lineare con legame qualsiasi fra componente accidentale
e sistematica.
Y = g(X, β, ε)
Modello non lineare con errori moltiplicativi.
Yi = fi (X; β) × εi
GLM: Generalized Linear Models
E [Y] = h(Xβ)
Modelli Lineari Generalizzati:
η(E [Y]) = Xβ
controllare e fare anche su dispensa2003d1.tex
190
Materiale didattico statistica 3
La speranza matematica della variabile di risposta è funzione (h(.)
non lineare) del predittore lineare X β .
Si tratta ancora di modelli non lineari, ma con la particolarità
che la dipendenza dalle Xj è scomposta in due parti:
• la funzione di legame (unica)
• un predittore lineare xT
i β
Questa impostazione consente di attribuire alla matrice X e al
vettore di parametri β significati simili a quelli assunti nei modelli
lineari.
Una sottoclasse di GLM molto impiegata nelle applicazioni è
quella in cui la distribuzione della componente accidentale appartiene alla famiglia di distribuzioni esponenziale.
Si avrà in sostanza:
$$
f(\vecy_i)=
$$
Regressione logistica
La probabilità del verificarsi di un evento (variabile di risposta)
dipende dalle variabili Xj .
Regressione piecewise
Una relazione di regressione può essere individuata da una spezzata, ossia da una retta che cambia inclinazione in corrispondenza dei
livelli delle variabili esplicative. Nel caso in cui i punti di cambio dell’inclinazione non siano noti, il problema è configurabile nell’ambito
dei modelli non lineari (non lineari rispetto ai parametri !)
Approssimazione di modelli non lineari
Eventualmente un modello lineare può essere visto come approssimazione del primo ordine di un modello non lineare
Regressione non parametrica
La forma funzionale f (X, β) non è precisata:viene stimata direttamente E [Yi |xi ] (in modo non parametrico), ed eventualmente dopo
si cerca di valutare f (.) . Nel caso k = 1, 2 questo può servire come
2002-3003 versione provvisoria
191
indizio per la scelta del tipo di funzione, o per la scelta del tipo di
polinomio, etc.
192
modello autoregressivo
Materiale didattico statistica 3
2002-3003 versione provvisoria
Figura 6.2: FIG2000REGR3.STG
vai a indice figure
193
194
Materiale didattico statistica 3
Figura 6.3: distribuzioni condizionate normali
vai a indice figure
Figura 6.4: campione da una normale bivariata
vai a indice figure
2002-3003 versione provvisoria
195
Figura 6.5: distribuzioni condizionate normali in corrispondenza di valori fissati
vai a indice figure
196
Materiale didattico statistica 3
Figura 6.6: box-plot con retta di regressione e spezzata di regressione
vai a indice figure
2002-3003 versione provvisoria
Figura 6.7: interaz1.stg
vai a indice figure
197
198
Materiale didattico statistica 3
Figura 6.8: interaz2.stg
vai a indice figure
Capitolo 7
Spunti tratti da casi reali
per l’introduzione di
argomenti teorici
7.1
La correlazione parziale
Si prenda in considerazione il caso relativo a dati antropometrici
esposto nel grafico 3.3.
Restringiamo per semplicità per ora la nostra attenzione a tre
variabili:
TORACE
ALTEZZA
PESO
e riguardiamo il grafico a matrici delle sole tre variabili che usiamo
per questo esempio.
199
200
Materiale didattico statistica 3
Figura 7.1: grafico a matrice delle tre variabili antropometriche
vai a indice figure
...
Vogliamo vedere se e come si modifica la relazione (lineare)
fra due variabili, quando si vuole tenere conto dell’influenza
che una terza variabile ha su di loro.
Come eliminare quest’influenza e come misurare poi la
relazione?
Esaminiamo la relazione fra torace e altezza (senza considerare
altre variabili).
E’ una relazione crescente (prescindendo dal fatto che sia lineare o
no: assumiamo per semplicità per ora di approssimare le relazioni di
regressione con funzioni lineari, che nel nostro caso danno comunque
una buona idea generale della relazione di regressione)
TORACECM = 7.7185+0.4475*ALTEZZA: retta di regressione
lineare
2002-3003 versione provvisoria
r=0.58 indice di correlazione lineare semplice
201
202
Materiale didattico statistica 3
Figura 7.2: relazione fra Circonferenza toracica e altezza su 1519 ragazzi
vai a indice figure
Questa relazione non tiene conto della presenza di altre variabili.
Dal momento che si sa che esistono altre variabili che influenzano
sia x che y, ci poniamo adesso una domanda un po’ diversa:
che relazione esiste fra la circonferenza toracica e l’altezza a parità
di altre condizioni, per ora diciamo semplicemente a parità di peso?
Oppure, che relazione esiste fra la circonferenza toracica e l’altezza dei soggetti con lo stesso peso?
Ci chiediamo: cosa succede considerando esplicitamente una terza variabile?
7.1.1
Cenno alla regressione multipla
Adesso i punti vanno rappresentati in uno spazio a tre dimensioni.
Dobbiamo adattare un piano di regressione
z=Torace
y=peso
x=altezza
Il piano di regressione
z = a + bx + cy
minimizza la somma dei quadrati degli scarti dei punti osservati
2002-3003 versione provvisoria
203
dal piano (misurati in verticale, ortogonalmente rispetto al piano xy
e parallelamente a z)
(è irrilevante in questo contesto come venga calcolato)
204
Materiale didattico statistica 3
Figura 7.3: relazione fra Circonferenza toracica, altezza e peso su 1519 ragazzi
vai a indice figure
Sono riportate altre due punti di vista della nuvola di punti
tridimensionale:
2002-3003 versione provvisoria
205
Figura 7.4: relazione fra Circonferenza toracica, altezza e peso su 1519 ragazzi
vai a indice figure
206
Materiale didattico statistica 3
Figura 7.5: relazione fra Circonferenza toracica, altezza e peso su 1519 ragazzi
vai a indice figure
2002-3003 versione provvisoria
207
...
• Avendo utilizzato una relazione lineare (ossia l’equazione
di un piano) per approssimare la relazione di regressione
che fa dipendere z da x e y, piani paralleli intersecheranno il piano di regressione formando rette con la stessa
pendenza
• In particolare un qualsiasi piano con y costante (ossia
y = k e quindi parallelo al piano X-Z) interseca il piano
di regressione z = a + bx + cy formando una retta di
regressione di equazione:
z = a + ck + bx
il coefficiente b è quindi un coefficiente di regressione
parziale
• L’ipotesi di linearità della regressione multipla, implica
quindi regressioni parziali con la stessa pendenza: non
è detto che questa sia un’ipotesi sempre realistica, ma
costituisce un’approssimazione comoda.
• Si osservi ora che nel nostro caso l’intersezione del piano
di regressione col piano torace- altezza (ossia a parità di
peso) è una retta con pendenza negativa.
7.1.2
Correlazione parziale come correlazione fra residui
Proviamo comunque ad eliminare l’influenza della variabile peso ricorrendo solo agli strumenti tecnici della regressione lineare semplice.
208
Materiale didattico statistica 3
...
Come eliminare l’infuenza della terza variabile sulle prime
due?
Esiste un modo molto semplice per operare, che conduce agli
stesi risultati che otterremo in altroi capitoli anche per altra via:
calcoliamo le regressioni lineari della variabile altezza, X1 , e della
variabile torace , X2 , sulla variabile peso, X3 .
Su ciascuna relazione calcoliamo i residui:
wi1 = xi1 −(a13 +b13 xi3 )
e
wi2 = xi2 −(a23 +b23 xi3 ) i = 1, 2, . . . , n
ovviamente la nuova variabile W1 (residui Altezza) non è correlata con X3 (peso); anche la variabile W2 (residui Torace ) non è
correlata con X3 (peso).
2002-3003 versione provvisoria
209
coefficiente di regressione
parziale
210
Materiale didattico statistica 3
Figura 7.6: regressione dell’Altezza rispetto al peso: relazione fra i residui e la
variabile esplicativa peso
vai a indice figure
...
Le due variabili W1 e W2 sono state depurate dalla
dipendenza dalla variabile X3
Questa eliminazione dell’influenza di X3 è rappresentabile graficamente rappresentando nel piano le n coppie di punti (wi1 , wi2 ), i =
1, 2, . . . , n insieme con la retta di regressione lineare.
2002-3003 versione provvisoria
211
Figura 7.7: regressione della Circonferenza toracica rispetto al peso: relazione
fra i residui e la variabile esplicativa peso
vai a indice figure
La retta di regressione fra il torace e l’altezza, eliminata l’influenza della variabile peso, ha cambiato inclinazione ed è ora a pendenza
negativa!
Possiamo esprimere questo risultato dicendo che, per soggetti
con lo stesso peso, la circonferenza toracica in media diminuisce
all’aumentare dell’altezza.
Possiamo adesso direttamente misurare la correlazione fra le cinque variabili fin qui usate:
X1=ALTEZZA
X2=TORACE
X3=PESO
W1=resa ltp eso(residuidell0 altezzarispettoalpeso)W2=rest oracep eso(residuidelT oracerispetto
212
Materiale didattico statistica 3
Figura 7.8: relazione fra i residui W1 della variabile torace e i residui W2 della
variabile altezza
vai a indice figure
La correlazione fra le due variabili residue W1 e W2 è:
rW 1,W 2 = −0.25 Correlazione fra torace e altezza a parità di peso
Questo indice va sotto il nome di indice di correlazione lineare
parziale fra le variabili X1 e X2, tenuta costante X3 e si indi con
r12.3 .
Nella sezione seguente ricaviamo analiticamente r12.3 ()se non è
già noto al lettore), in funzione delle correlazioni lineari semplici.
Faccio notare soltanto che l’approccio seguito adesso per definire
la correlazione parziale tenendo costante l’influenza di una variabile,
è perfettamente estendibile alla correlazione parziale fra due variabili
tenuta costante l’influenza di altre k variabili. Occorrerà soltanto
calcolare i residui dalle regressioni multiple di X1 e X2 rispetto alle
altre k variabili e poi considerarne la correlazione.
7.1.3
derivazione di r12.3
Per derivare r12.3 con questa impostazione, occorre richiamare soltanto alcuni risultati
della regressione lineare semplice.
Intanto ricaviamo i valori dei residui wi1 , wi2 in funzione dei
valori originali xi1 , xi2 , xi3 .
2002-3003 versione provvisoria
213
Sappiamo dalla regressione lineare semplice che:
Pn
j=1 xj1 xj3
xi3
wi1 = xi1 − (a13 + b13 xi3 ) = xi1 − Pn
2
j=1 xj3
(con x indico lo scarto da M, media aritmetica di X)
E’ più comodo adesso passare alla notazione vettoriale, per cui
con xr (r = 1, 2, 3) indico il vettore (colonna) degli scarti relativi
alla r−esima variabile:


x1r − Mr


 x2r − Mr 




..


.

xr = 
,
(r = 1, 2, 3)
 x −M 
 jr
r 


..


.


xnr − Mr
Tornando all’espressione dei residui abbiamo:
Pn
j=1 xj1 xj3
xi3
2
j=1 xj3
wi1 = xi1 − (a13 + b13 xi3 ) = xi1 − Pn
=
xT
3 x1
x3 T x3
Adesso riesprimiamo l’intero vettore dei residui w1 , ottenendo:
= xi1 − xi3
w1 = x1 − (a13 + b13 x3 ) == x1 − x3
xT
3 x1
=
x3 T x3
(mettendo in evidenza a destra il vettore x1 )
x3 xT
3
= I− T
x1
x3 x3
T
(si noti che x3 xT
3 è una matrice (n × n), mentre x3 x3 è uno
scalare)
i
h
x3 xT
3
E’ utile notare anche che la matrice I − xT x è idempotente
3
3
link da creare
A questo punto applichiamo questa formula anche alla colonna
dei residui dell’altra variabile w2 (residui della relazione di dipendenza lineare di X2 da X3 ):
214
Materiale didattico statistica 3
x3 xT
3
x2
w2 = I − T
x3 x3
Adesso finalmente costruiamo l’indice di correlazione lineare parziale:
w2T w1
q
=
T
T
w1 w1 w2 w2
r12.3 = correlazione lineare (W1 , W2 ) = q
ih
i
h
x3 xT
x3 xT
3
3
I
−
x1
xT
I
−
2
xT
xT
3 x3
3 x3
r
=r h
ih
i
h
ih
x3 xT
x3 xT
x3 xT
T
3
3
3
I−
x
x
I
−
I
−
xT
I
−
1
2
1
xT x
xT x
xT x
3
3
3
3
3
3
x3 xT
3
xT
3 x3
i
x2
(ricordando tutte le proprietà
h viste in
i questa sezione ed applicando
T
l’idempotenza della matrice I − xx3Txx3 )
3
3
h
i
x3 xT
3
xT
I
−
x1
2
xT
3 x3
r
=r h
i
h
x3 xT
T
T
3
x1 I − xT x x1 x2 I −
3
3
x3 xT
3
xT
3 x3
i
x2
Per farla breve, si vede che le quantità a denominatore sono le
radici quadrate delle devianze residue (cosa che si sapeva già dalla
costruzione
dell’indice di correlazione), per cui sono proporzionali a
q
2 j = 1, 2.
1 − rj3
A numeratore esplicitiamo il prodotto:
T
r12.3
T x3 x3
xT
x1
2 x1 − x2 xT
3 x3
= ... = √
=
√
2√
2√
1 − r13 1 − r23 DevX1 DevX2
√
√
√
√
√
√
3 r23 DevX2 DevX3
r12 DevX1 DevX2 − r13 DevX1 DevX
DevX3
q
q
=
=
√
√
2
2
1 − r13 1 − r23 DevX1 DevX2
(semplificando tutte le devianze)
r12 − r13 r23
q
2
2
1 − r13 1 − r23
q
2002-3003 versione provvisoria
inserire poi discorso su correlazione multipla
in funzione della correlazione
parziale
215
216
Materiale didattico statistica 3
Figura 7.9: correlazioni fra le 3 variabili e i due residui
vai a indice figure
Capitolo 8
Stima dei parametri del
modello lineare (modelli a
rango pieno)
Adesso, dopo avere visto alcuni dei più importanti impieghi del modello lineare per la descrizione di relazioni statistiche di natura varia,
e le diverse interpretazioni dei parametri e delle variabili del modello,
passiamo ad affrontare i problemi di stima.
L’approccio che seguiremo, di tipo parametrico, è fondato interamente sulla verosimiglianza e viene esposto prima con riferimento
ad un modello generico a rango pieno; una volta esposte le caratteristiche fondamentali dell’inferenza per il caso generico, si passerà
ad esaminare problemi relativi a modelli particolari, principalmente
per l’analisi della regressione multipla e per l’analisi della varianza.
217
218
Materiale didattico statistica 3
Si supponga che:
y[n×1] = X[n×k] β[k×1] + ε[n×1]
essendo :
y[n×1]
il vettore dei valori osservati
X[n×k] una matrice nota (i valori
osservati dei regressori)
β[k×1]
il vettore di parametri da
stimare in generale completamente incognito.
ε[n×1]
un vettore di variabili casuali non osservabili, la
cui distribuzione dipende
in genere da un vettore θ
incognito di parametri di
disturbo.
Ovviamente per potere stimare i parametri β e θ mediante il
metodo della massima verosimiglianza occorre fare delle ipotesi sulla
distribuzione congiunta delle componenti di ε .
In ogni caso sarà necessario fare tale ipotesi se si vuole calcolare
la verosimiglianza rispetto ai parametri per problemi di stima, di
test e di costruzione di intervalli di confidenza di vario tipo.
In questa prima parte considereremo esclusivamente approcci di
tipo parametrico.
8.0.4
Assunzioni di base nel modello lineare
Le ipotesi semplificatrici che classicamente vengono fatte nell’approccio parametrico sono:
2002-3003 versione provvisoria
219
a
E [ε] = 0n , momento primo
per cui E[Y] =
Xβ
X β è la componente sistematica ed ε è
la componente accidentale additiva.
b
V [ε] = σ 2 In
momento secondo
La matrice di varianza e covarianza della componente accidentale è diagonale con elementi
uguali, ossia
b1) gli errori sono non correlati;
b2) gli errori hanno la stessa varianza (ipotesi di omoscedasticità);
c
ε ∼ Nn (0; σ 2 In )
distribuzione
Nel caso di normalità degli errori,
le assunzioni a) e
b) che specificano i
primi due momenti
multivariati, identificano in modo univoco la distribuzione della componente
accidentale ε .
Con queste ipotesi si vedrà che il metodo della massima verosimiglianza conduce al metodo dei minimi quadrati.
Altre implicazioni delle ipotesi di base:
• Data l’assunzione di normalità, la non correlazione fra le componenti di ε implica l’indipendenza delle componenti.
220
Materiale didattico statistica 3
• In caso di validità della b1) e della b2) non solo si ha l’indipendenza, ma la distribuzione di ciascuna yi dipende solo dalla
corrispondente componente accidentale εi .
• Sono quindi esclusi, con questa restrizione, i modelli autoregressivi e in generale i modelli ARMA sia per l’analisi di dati
temporali che di dati spaziali o territoriali.
• Le assunzioni a,b e c implicano che le εi abbiano la stessa
distribuzione, che quindi non dipende in alcun modo né dai
particolari valori xij , né dai valori dei parametri βj.
• L’ additività fra componente accidentale e sistematica implica
che non vi sia collegamento fra l’assegnazione delle varie unità
e gli errori accidentali.
8.1
La funzione di verosimiglianza nel modello
lineare.
In un primo momento costruiamo la verosimiglianza del modello lineare in funzione dei parametri beta ed in funzione della varianza
(o dei parametri da cui dipende la matrice di varianze e covarianze).
È inutile per ora precisare se questa verosimiglianza ci servirà per
costruire degli stimatori puntuali, o degli stimatori per intervallo,
o per costruire dei test. In ogni caso per fare inferenza in senso
lato, l’analisi della verosimiglianza è essenziale, perché ci permette di costruire un criterio per la plausibilità di determinati valori
parametrici alla luce dell’evidenza campionaria.
Con le assunzioni a), b) e c) fatte prima siamo in grado di costruire la verosimiglianza campionaria, dal momento che abbiamo
un campione y di n osservazioni estratto da una distribuzione normale di parametri (o comunque una osservazione da una normale
multivariata a n componenti):
E [Y] = (Xβ);
V [Y] = σ 2 In ;
quindi in definitiva:
Y ∼ N (Xβ, σ 2 In )
per cui la verosimiglianza campionaria è data da:
2002-3003 versione provvisoria
221
Verosimiglianza del modello lineare
n
L(β, σ 2 ; y) = (2π)− 2 |V [Y] |−1/2 ×
1
T
−1
× exp − (y − Xβ) [V [Y]] (y − Xβ)
2
(y − Xβ)T (y − Xβ)
2 − n2
= (2πσ ) exp −
2σ 2
Funzione di verosimiglianza campionaria per il modello
lineare con le ipotesi semplificatrici.
Rispetto alla notazione precedente il vettore θ di parametri della
componente accidentale è composto dal solo σ 2 , in quanto chiaramente la distribuzione di ε dipende solo da σ 2 .
Il logaritmo della verosimiglianza campionaria per i k + 1 parametri del modello, ossia le k componenti di β e σ 2 è quindi dato,
trascurando la costante −( n2 )Log(2π) , da:
logL(β, σ 2 ; y) = −nlog(σ 2 )/2 −
(y − Xβ)T (y − Xβ)
2σ 2
Log Verosimiglianza per un modello lineare con l’assunzione di
normalità, indipendenza e omoscedasticità
(anche uguale a:
Pn
2
−nlog(σ )/2 −
i=1 (yi
Pk
2
j=1 xij βj )
)
2σ 2
−
Con altre ipotesi su V [Y] si giunge a differenti funzioni di verosimiglianza e differenti stimatori.
Derivando nella rispetto a σ 2 otteniamo:
∂logL[β, σ 2 |y])
n
(y − Xβ)T (y − Xβ)
=
−
+
∂σ 2
2σ 2
2(σ 2 )2
222
Materiale didattico statistica 3
Uguagliando a zero e risolvendo rispetto a σ̂ 2 si ottiene facilmente
il valore σ̂ 2 (β) che massimizza la verosimiglianza:
(y − Xβ)T (y − Xβ)
n
Stima di Max. ver. di σ 2 in funzione degli altri parametri β
per un modello con errori indipendenti e omoscedastici. (anche
uguale a:
Pn
Pk
2
i=1 [yi −
j=1 xij βj ]
2
σ̂ (β) =
n
σ̂ 2 (β) =
Si vede dunque che con queste ipotesi la verosimiglianza campionaria dipende dalle osservazioni campionarie solo attraverso
la somma dei quadrati degli scarti fra valori osservati e valori
previsti.
Si vedrà più avanti il caso di osservazioni ancora distribuite normalmente ma con matrice di varianze e covarianze qualsiasi:
sotto queste ipotesi più generali la verosimiglianza sarà funzione dei dati ancora attraverso una forma quadratica, ma difficilmente, o perlomeno solo in alcuni casi particolari, sarà possibile ottenere delle soluzioni esplicite per gli stimatori di massima
verosimiglianza.
Tornando al nostro caso semplificato, con errori non correlati e
con varianze uguali, è immediato trovare lo stimatore di massima
verosimiglianza della varianza.
Si vedranno poi le caratteristiche di questo stimatore, distorsione,
efficienza, etc., anche in funzione del fatto che β sia noto o sia da
stimare.
Verosimiglianza profilo rispetto a β
Sostituendo ora nella verosimiglianza campionaria tale valore di σ̂ 2 β
al valore incognito del parametro di disturbo σ 2 , otteniamo una
quantità che è funzione solo del vettore β dei parametri di interesse
2002-3003 versione provvisoria
223
(ossia la verosimiglianza profilo di β )
L(β, σ̂ 2 (β); y) =
2π
2
σ̂ (β)
− n2
(y − Xβ)T (y − Xβ)
2σ̂ 2 (β)


 (y − Xβ)T (y − Xβ) 
exp −
(y−Xβ )T (y−Xβ ) 

2
exp[−
− n2
(y − Xβ)T (y − Xβ)
= cost.×
n
n
In definitiva si ha:
n
n
L(β, σ̂ 2 (β); y) = costante × exp(− ) × σ̂ 2 (β)− 2 =
2
− n2
n (y − Xβ)T (y − Xβ)
= costante × exp(− )
2
n
verosimiglianza profilo rispetto a β.
E’ evidente che questa espressione è massima quando:
y − Xβ T y − Xβè un minimo.
Analogamente per il logaritmo di tale verosimiglianza profilo si ha:
n
n
− ( )Logσ̂ 2 (β) =
2
2
n
(y − Xβ)T (y − Xβ)
= kost − ( ) log
2
n
log L(β, σ̂ 2 (β); y) = log(costante) −
(avendo posto kost = log(costante) − n2 )
Log-verosimiglianza profilo rispetto a β
verosimiglianza profilo normalizzata=rapporto delle verosimiglianze
La verosimiglianza profilo è uno strumento tecnico utile per fare
inferenza nel caso generale di presenza di parametri di disturbo; nel
nostro caso l’interesse preminente dell’inferenza è per i parametri β
: il parametro σ 2 è soltanto un parametro di disturbo, nel senso che
non è necessariamente oggetto dell’inferenza ma comunque è necessario stimarlo dai dati per fare inferenza sul parametro di interesse
(multiplo) β .
Ancora vediamo che la verosimiglianza profilo è funzione dei dati
solo attraverso la forma quadratica già vista: è evidente che la possibilità di ricavare la verosimiglianza profilo in modo cosı̀ semplice
rispetto a β , è stata determinata dal fatto che esiste lo stimatore
224
Materiale didattico statistica 3
di massima verosimiglianza della varianza in forma esplicita, con le
assunzioni semplificatrici fatte in questo caso.
È evidente il collegamento fra verosimiglianza profilo e test basati sul rapporto delle verosimiglianze, come si vedrà fra poco; se
si ricorda il metodo di costruzione del rapporto verosimiglianza si
noterà come sia a numeratore sia a denominatore i parametri di disturbo vengono sostituiti dai valori massimizzano la verosimiglianza
ossia dai valori più plausibili alla luce dei dati osservati.
La figura 8.1 riportata qui sotto chiarisce il significato e l’utilità
dei vari tipi di verosimiglianza:
2002-3003 versione provvisoria
225
Figura 8.1: verosimiglianza rispetto a µ e σ 2 per un campione proveniente da
una normale e verosimiglianza profilo su µ
vai a indice figure
La superficie rappresenta la verosimiglianza normalizzata per un
campione estratto da una distribuzione normale standardizzate; tale
verosimiglianza è rappresentata sull’ asse z mentre sugli assi x e y
sono rappresentati i due parametri di posizione di scala o meglio
di posizione e di varianza di una distribuzione normale. Il punto
di massimo è raggiunto ovviamente in corrispondenza della media
campionaria e della varianza campionaria.
La curva rappresentata nel piano xy, per comodità rappresentata sopra la superficie, rappresenta la relazione fra lo stimatore di
massima verosimiglianza di sigma quadro e il parametro di posizione.
La curva in grassetto rappresentata sulla superficie è data dai
valori della verosimiglianza standardizzata in corrispondenza dello
stimatore ottimale della varianza. Questa è la verosimiglianza profilo rispetto al parametro medio; la curva rappresentata sul piano xz
vera proiezione della verosimiglianza profilo che è funzione soltanto
del parametro medio.
E’ da considerare che nel caso di un modello lineare generale non
226
Materiale didattico statistica 3
sarà possibile una tale rappresentazione grafica poiché abbiamo k
parametri da stimare, ossia le componenti di; tuttavia la relazione
che lega la varianza stimata ai parametri della parte sistematica è
sempre la stessa, ossia di tipo quadratico.
Verosimiglianza di un campione da una normale, insieme con la
verosimiglianza profilo
Costruzione del test LR
E’ facile già da queste espressioni della verosimiglianza e in particolare della verosimiglianza profilo, costruire i rapporti di verosimiglianza per la verifica di particolari ipotesi sugli elementi di β ,
in quanto la verosimiglianza profilo è funzione soltanto di σ̂ 2 (β) e
quindi solo di (y − Xβ)T (y − Xβ) . Infatti vogliamo verificare ad
esempio l’ipotesi
H0 : β = β0
contro l’alternativa generica:
H1 : β 6= β0
Indichiamo con β̂ la stima di massima verosimiglianza di β sotto H1 , costruiremo il test LR (Likelihood Ratio) rapportando la
verosimiglianza massima sotto H0 e quella massima sotto H1 . Sotto H0 non vi sono parametri di disturbo da stimare (tranne σ 2 la
cui influenza è stata eliminata in quanto stiamo lavorando con la
verosimiglianza profilo su β );
sotto H1 a parte σ 2 va stimato il vettore β
Per cui otteniamo la relazione:
LR =
=
max L(β, σ 2 ; y|H0 )
max L(β, σ 2 ; y|H1 )
L(β0 , σ̂ 2 (β0 ); y)
L(β̂, σ̂ 2 (β̂); y)
=
σ̂ 2 (β0 )
! n2
σ̂ 2 (β̂)
! n2
(y − Xβ̂)T (y − Xβ̂)
(y − Xβ0 )T (y − Xβ0 )
=
Come è noto valori alti di LR (vicini ad uno) indicheranno la plausibilità dell’ipotesi nulla; ci preoccuperemo dopo della costruzione
effettiva dei test e della loro distribuzione campionaria.
2002-3003 versione provvisoria
227
In generale comunque se vogliamo saggiare una generica ipotesi
nulla H0 contro una più generale H1 , essendo H0 un caso particolare di H1 , possiamo pensare ciascuna ipotesi Hi (i = 1, 2) come un
sistema di vincoli gi (β) imposti sugli elementi di β .
Ad esempio g0 (β) potrebbe consistere del fatto che una superficie
sia di primo grado, mentre g1 (β) potrebbe essere l’alternativa che
la superficie sia di secondo grado (ma non un polinomio di grado
superiore).
Indicando ora con β̂ i la stima di massima verosimiglianza di β
sotto Hi , possiamo nel caso generale costruire il test:
LR =
max L(β, σ 2 ; y|g0 (β))
max L(β, σ 2 ; y|g1 (β))
L(β̂ 0 , σ̂ 2 (β̂ 0 ); y)
L(β̂ 1 , σ̂ 2 (β̂ 1 ); y)
=
(
y
y
σ̂ 2 (β̂ 0 )
σ̂ 2 (β̂ 1 )
T
− Xβ̂ 1 y
T
− Xβ̂ 0 y
− n2
=
− Xβ̂ 1
) n2
− Xβ̂ 0
Il criterio del rapporto della verosimiglianza conduce ad un test
sensibile e ad uno strumento generalmente molto utile per l’inferenza statistica sebbene non possegga almeno per piccoli campioni le
proprietà ottimali che un test dovrebbe avere secondo la teoria di
Neyman-Pearson. Il problema della verifica di ipotesi, ossia della costruzione di un test di significatività, si può riassumere come segue:
sulla base dei dati osservati la famiglia di distribuzioni dell’ipotesi
alternativa H1 si adatta significativamente meglio ai dati della famiglia parametrica rappresentata dall’ipotesi nulla H0 ? Rifiutiamo
H0 a favore di H1 se questo miglioramento è significativo.
Sebbene questo test non possegga tutte le proprietà ottimali richieste, risponde comunque ai requisiti fissati da Fisher per la verifica di ipotesi nell’indagine scientifica: lo scopo dei test è di attestare
l’evidenza che i dati forniscono in merito a certe ipotesi più o meno
definite; criteri di ottimalità quali potenza, ampiezza, non distorsione, sono importanti ma non sono necessariamente la cosa più
importante nelle applicazioni.
228
Materiale didattico statistica 3
Dalla costruzione del test del rapporto delle verosimiglianze per
i parametri di un modello lineare con l’ipotesi di normalità, eteroscedasticità, non correlazione, si vede che tale rapporto dipende
esclusivamente dai rapporti fra le varianze stimate sotto le diverse
ipotesi;
• una varianza è quella relativa all’ipotesi più generale cioè quella
che impone meno vincoli sui parametri che sarà più piccola
nell’ambito della famiglia parametrica considerate;
• la varianza relativa alla verosimiglianza del numeratore è quella calcolata sotto l’ipotesi di esistenza di qualche vincolo sui
parametri.
È quindi evidente che l’ipotesi di normalità implica che le quantità sufficienti per fare inferenza sono le varianze stimate.
8.1.1
MINIMI QUADRATI ORDINARI
Per trovare dunque il massimo incondizionato della verosimiglianza
occorre trovare β̂ che da ora in poi indico per comodità di notazione
con b .
Minimi quadrati
Va trovato il minimo di (y − Xb)T (y − Xb) ossia il minimo
della somma dei quadrati degli scarti fra: valori osservati y e
valori calcolati Xb . (indicati con yi∗ )
Minimi Quadrati Ordinari. (Ordinary Least Squares: OLS) In
forma matriciale:
min R(b),
b
con:
R(b) =
n
X
i=1
(yi −
k
X
j=1
2
xij βj ) =
n
X
(yi − yi∗ )2
i=1
= (y[n×1] − X[n×k] bT
[k×1] )(y[n×1] − X[n×k] b[k×1] ) =
2002-3003 versione provvisoria
229
= yT y − 2bT XT y + bT (XT X)b
essendo yi∗ l’ i -esimo valore stimato.
Derivando R(b) ( = yT y − 2bT XT y + bT (XT X)b ) rispetto al
vettore b si ottiene:
∂R(b)
= −2XT y + 2(XT X)b
∂b
Uguagliandole a 0 (vettore nullo):
−2XT y + 2(XT X)b = 0;
Occorre risolvere, in b , il sistema:
(XT X)b = XT y
Sistema di equazioni normali
Temporaneamente imponiamo la restrizione che X sia di rango
k , e quindi esiste, ed è unica, l’inversa di XT X .
Diversamente potremmo ricorrere ad una riparametrizzazione
oppure all’uso dell’inversa generalizzata
SOLUZIONE GENERALE DEI MINIMI
QUADRATI NEI MODELLI LINEARI A RANGO
PIENO
(Sono stimatori di massima verosimiglianza con le ipotesi
semplificatrici)
b = (XT X)−1 XT y
la soluzione esiste unica avendo supposto X di rango k
e fornisce certamente il minimo di (y − Xb)T (y − Xb)
230
Materiale didattico statistica 3
Si tratta certamente di un minimo, in quanto le condizioni del
secondo ordine, riguardanti l’Hessiano, sono sempre soddisfatte, è:
∂R(b)
= −2XT y + 2(XT X)be
∂b
∂ 2 R(b)
= 2(XT X)
T
∂b∂b
che è sempre definita positiva e quindi il punto di stazionarietà
fornisce il minimo assoluto della funzione.
inserire dimostrazione senza derivate ispirata a Rao
Minimizzazione di R(β)senzausodiderivate
Possiamo ricavare il valore b che minimizza R(β) anche senza fare
uso di derivate (e addirittura senza neppure la necessità di ipotizzare
che X sia di rango pieno).
Procediamo come segue, analogamente alla dimostrazione della
seconda proprietà della media aritmetica
n
X
2
(yi − My ) leq
i=1
n
X
(yi − a)2
∀yi , a
i=1
Sia b tale che:
XT Xb = XT y
Trasformiamo ora la quantità da minimzzare (devianza teorica)
R(β) = εT ε
R(β) = (y − Xβ)T (y − Xβ) =
( anche uguale a: (Y − E [Y])T (Y − E [Y]) )=
(Aggiungendo e sottraendo Xb )
= [(y − Xb) + (Xb − Xβ)]T [(y − Xb) + (Xb − Xβ)] =
sviluppiamo il prodotto in cui compare il binomio formato dai
due termini: (y − Xb)e(Xb − X)
= [y − Xb]T [y − Xb]+
+[Xb − Xβ]T [Xb − Xβ]+
+2[Xb − Xβ]T [y − Xb]
2002-3003 versione provvisoria
231
Nell’ultimo termine in [Xb − Xβ] si mette in evidenza X ottenendo
2[b − β]T XT [y − Xb] =
=
2[b − β]T [XT y − XT Xb] = 0
l’ultimo termine è nullo per l’ipotesi fatta su b .
In definitiva si ha (indicando qq[y − Xb] con R(b)):
R(β) = (y − Xβ)T (y − Xβ) =
= [y − Xb]T [y − Xb] + [Xb − Xβ]T [Xb − Xβ] =
= R(b) + [Xb − Xβ]T [Xb − Xβ] ≥ R(b)
dal momento che [Xb − Xβ]T [Xb − Xβ] ≥ 0.
Pertanto è dimostrato che b minimizza R(β) = (y − Xβ)T (y −
Xβ)
Abbiamo ipotizzato all’inizio: XT Xb = XT y
A questo punto se supponiamo X a rango pieno possiamo esplicitare la soluzione (perchè esiste allora l’inversa di XT X):
SOLUZIONE GENERALE DEI MINIMI
QUADRATI NEI MODELLI LINEARI A RANGO
PIENO
(Sono stimatori di massima verosimiglianza con le ipotesi
semplificatrici)
b = (XT X)−1 XT y
la soluzione esiste unica avendo supposto X di rango k
e dà il minimo di (y − Xb)T (y − Xb)
232
Materiale didattico statistica 3
Il metodo dei minimi quadrati ordinari (OLS: Ordinary Least
Squares) COINCIDE con il metodo della massima verosimiglianza se e solo se: la distribuzione di ε è una normale a n variabili
a componenti indipendenti e con uguale varianza σ 2 (altrimenti
occorre impiegare metodi diversi da quello dei minimi quadrati)
Pertanto gli stimatori dei minimi quadrati godranno delle proprietà asintotiche ottimali degli stimatori M.V. soltanto nel caso
gaussiano, diversamente saranno soltanto i migliori stimatori lineari
non distorti.
8.1.2
Teorema di Gauss-Markov
Date le assunzioni a) e b), ossia errori a media nulla, non correlati ed
a varianze uguali, gli stimatori dei minimi quadrati hanno comunque
una proprietà ottimale:
In un modello lineare, con le assunzioni ricordate sopra, gli stimatori dei minimi quadrati di un qualsiasi insieme di funzioni lineari
dei parametri βj sono a varianza minima nella classe degli stimatori non distorti e lineari nelle yi In effetti si può anche dimostrare
che sono gli stimatori con la minima varianza generalizzata.
In effetti questo teorema non dimostra affatto la superiorità assoluta degli stimatori dei minimi quadrati, è può considerarsi una
proprietà sufficiente per rendere inutile l’assunzione di normalità:
infatti il teorema asserisce solo che sono i migliori fra gli stimatori
lineari nelle osservazioni non distorti.
Intanto non è detto che la non distorsione sia una proprietà in assoluto necessaria, ma fondamentalmente nulla obbliga a restringersi
agli stimatori lineari.
Assumere la linearità nelle osservazioni equivale ad assumere la
normalità.
Ad esempio nella derivazione della normale:
imponendo la condizione che dato un campione di n osservazioni
2002-3003 versione provvisoria
233
indipendenti il miglior stimatore di E(X ) sia la media aritmetica
delle osservazioni, Gauss dimostrò che la distribuzione degli errori è
normale.
MINIMA VARIANZA E MINIMA VARIANZA GENERALIZZATA.
234
Materiale didattico statistica 3
Variabili a media zero (regressione in termini di scarti)
Se X è posta nella forma conveniente vista prima, ossia prima
colonna tutta uguale ad 1, e k colonne di scarti dei regressori dalle
rispettive medie, X avrà un totale di k + 1 colonne, supposte linearmente indipendenti (dal momento che il rango di X è in questo caso
k + 1 ).
Questa forma della matrice dei regressori viene utilizzata quando
si vuole esplicitamente inserire un’ordinata all’origine β0 fra i parametri del modello e per semplificare alcune scomposizioni successive:
Si vede facilmente che in questo caso:
!
T
n
0
k
XT X =
0k nSX
(XT X)−1 =
XT y =
1/n
0T
k
0k (SX )−1 /n
!
nMy
!
ncov(X, y)
avendo indicato:
con SX matrice delle varianze e covarianze dei k regressori e
cov(X, y) vettore delle covarianze fra la y e le x .
In questo modo è possibile separare la stima del termine noto da
quella dei coefficienti di regressione:
!
b0 = M y
b=
bk = S1X cov(X, y)
8.1.3
Distribuzione campionaria di b (minimi quadrati ordinari)
In ogni caso, qualunque sia la scelta della X , comunque di rango k
(e k colonne), lo stimatore b è dato in generale da:
b = (XT X)−1 XT y;
Per ipotesi Y = Xβ + ε;
e quindi b è una combinazione lineare delle y per cui potremmo direttamente applicare le regole per il calcolo dei momenti di
combinazioni lineari di variabili casuali.
2002-3003 versione provvisoria
235
Per la speranza matematica di b si ha:
E(b) = E[(XT X)−1 XT Y] =
= E[(XT X)−1 XT (Xβ + ε)] =
= E[(XT X)−1 XT Xβ] + E[(XT X)−1 XT ε] =
= E(β) + (XT X)−1 XT E(ε) =
=β
Momento primo di b
E [b] = β
(b è uno stimatore corretto di β ) Per ottenere il risultato è
stato sufficiente assumere soltanto: E(ε) = 0n .
Quindi perché b sia corretto per β è sufficiente che il modello
lineare sia non distorto.
Per la matrice di varianze e covarianze campionarie di b si ha
V [b] = (XT X)−1 XT V [Y] X(XT X)−1 =
= (XT X)−1 XT σ 2 In X(XT X)−1 =
= σ 2 (XT X)−1 XT X(XT X)−1 =
= σ 2 (XT X)−1
236
Materiale didattico statistica 3
Momento secondo di b
V (b) = σ 2 (XT X)−1
avendo assunto oltre a E(ε) = 0n :
V(ε) = σ 2 In
(omoscedasticità e non correlazione)
qualunque sia la forma della distribuzione delle εi
Quindi la struttura della matrice di varianze e covarianze di b
dipende dalla struttura della matrice (XT X)−1 e quindi dalla
struttura delle matrici (XT X) e X . Se la matrice X è una
matrice di scarti dalle medie aritmetiche (e le variabili indipendenti sono numeriche in senso stretto), allora XT X è la matrice
di devianze e codevianze dei k regressori; pertanto la struttura
dei primi due momenti multivariati della distribuzione di b non
dipende solo dalle assunzioni su ε ma anche dalla struttura della
matrice X.
Questo è uno degli aspetti di cui occorre tenere maggiormente
conto tutte le volte che è possibile scegliere, in tutto o in parte,
come costruire la matrice delle x.
Se (e solo se) le Xj sono tutte non correlate i bj saranno tutti non
correlati; Se la matrice (XT X ) risulta a blocchi (ossia gruppi
di variabili internamente correlate ma non fra gruppi diversi),
allora è a blocchi anche V (b), ossia i corrispondenti gruppi di
stimatori dei coefficienti saranno internamente correlati ma fra
gruppi diversi vi sarà assenza di correlazione.
Si rivedranno in contesti particolari alcuni di questi aspetti
2002-3003 versione provvisoria
237
Distribuzione di b
Se, inoltre, vale l’assunzione di normalità, allora:
b segue una distribuzione normale multivariata (in quanto
combinazione lineare delle y )
b è lo stimatore di massima verosimiglianza (come peraltro
abbiamo già ottenuto)
b(N (β; σ 2 (XT X)−1 )
Si possono quindi costruire eventualmente delle regioni di confidenza per i parametri (se σ 2 è noto) che risulteranno in questo caso
ellissoidali. Occorrerà distinguere il caso in cui σ 2 sia noto (poco
plausibile) dal caso in cui venga stimato. In effetti anche senza assumere la normalità della componente accidentale, sotto condizioni
non troppo restrittive sulla matrice delle x la distribuzione dello
stimatore dei minimi quadrati tende alla normale al divergere di n .
Si rivedrà questa proprietà quando si parlerà dell’allontanamento
dalle ipotesi di normalità.
Introdurre qui discussione sull’assunzione di normalità
(verrà poi ripresa nella parte relativa all’analisi dei residui
ed agli allontanamenti dalle assunzioni di base)
8.2
8.2.1
Distribuzione della devianza residua nei modelli lineari
Devianza residua in funzione dei valori osservati
Indichiamo ancora con b = (XT X)−1 XT y lo stimatore di massima verosimiglianza di β in un modello lineare (di rango pieno),
supponendo la validità delle ipotesi semplificatrici sulla componente
accidentale:
ε ∼ Nn (0; σ 2 I)
Trasformiamo la devianza residua R(b), ossia la somma dei quadrati degli scarti fra valori della variabile di risposta osservati e stimati (che è la quantità minimizzata mediante il metodo dei minimi
238
Materiale didattico statistica 3
quadrati); l’importanza di tale quantità (e della sua distribuzione
campionaria!) è evidente alla luce di quanto abbiamo visto sui test
basati sui rapporti di verosimiglianze.
Il vettore y − Xb è detto vettore dei residui (empirici). R(b) è
quindi la devianza dei residui empirici
Esprimiamo la devianza residua in funzione delle osservazioni:
R(b) =
Pn
i=1 (yi
− yi∗ )2
= (y
Pn
i=1 (yi
− Xb)T (y
−
Pk
2
j=1 xij bj )
=
− Xb) =
(sostituendo a b il valore
trovato XT X)−1 XT y)
= (y − X(XT X)−1 XT y)T (y − X(XT X)−1 XT y) =
= [(In − X(XT X)−1 XT )y]T [(In − X(XT X)−1 XT )y] mettendo in evidenza y
= yT (In − X(XT X)−1 XT )T (In − X(XT X)−1 XT )y
ed infine:
R(b) = yT (In − X(XT X)−1 XT )y
devianza residua
(In −X(XT X)−1 XT ) è simmetrica ed idempotente di rango n−k
(infatti una qualsiasi matrice X(XT X)−1 XT è idempotente di rango
k, come si è visto nella parte iniziale)
R(b) è una forma quadratica nelle y
Inoltre:
(In − X(XT X)−1 XT )X = 0n×k
e quindi i residui empirici risultano non correlati con le X è:
Cov(y − Xb, X) = [y − Xb]T X = 0
si ricava direttamente dalle equazioni normali.
( y − Xb ha media nulla).
Devianza residua in funzione della componente accidentale ε :
Esprimiamo ora R(b) in funzione della componente accidentale ε :
2002-3003 versione provvisoria
239
Dall’espressione precedente:
R(b) = yT (In − X(XT X)−1 XT )y =
(operando sul terzo fattore, esprimendo y come Xβ + ε, secondo
quanto ipotizzato)
= yT (In − X(XT X)−1 XT )(Xβ + ε) =
aprendo la parentesi a destra
= yT (In − X(XT X)−1 XT )Xβ + yT (In − X(XT X)−1 XT )ε =
e dato che (In − X(XT X)−1 XT )X = 0 , ed effettuando le stesse
operazioni sul termine yT , si ha:
= yT 0n×k β + (Xβ + ε)T (In − X(XT X)−1 XT )ε =
aprendo la parentesi a sinistra
= 0 + β T XT (In − X(XT X)−1 XT )ε + εT (In − X(XT X)−1 XT )ε =
= 0 + 0 + εT (In − X(XT X)−1 XT )ε.
240
Materiale didattico statistica 3
In definitiva si ha l’ulteriore espressione per la devianza residua:
R(b) = εT (In − X(XT X)−1 XT )ε
La devianza residua R(b) è quindi una forma quadratica nelle
ε
Quindi si può vedere facilmente che, essendo E(εi εj ) = 0(i 6= j)
, sviluppando i termini della forma quadratica si ha:
E(R(b)) = tr(In − X(XT X)−1 XT )σ 2 edinf ine :
E[R(b)] = (n − k)σ 2
avendo ipotizzato soltanto:
E(ε) = 0eV (ε) = σ 2 In
(anche senza l’assunzione di normalità); quindi:
2
s = R(b)/(n − k) =
n
X
(yi − yi∗ )2 /(n − k)
i=1
è sempre una stima corretta della varianza.
Distribiuzione della devianza residua
Se vale l’ assunzione di normalità,
R(b) = (y − Xb)T (y − Xb) = εT (In − X(XT X)−1 XT )ε
si distribuisce come σ 2 χ2n−k ,
2002-3003 versione provvisoria
241
perché è una forma quadratica in variabili normali indipendenti
a media zero e varianze uguali (ε) , con matrice dei coefficienti
(In − X(XT X)−1 XT ) idempotente di rango n − k .
8.3
Scomposizione della devianza nel modello
lineare e verifica di ipotesi.
Effettuiamo alcune scomposizioni delle diverse somme di quadrati
(e forme quadratiche in generale) che abbiamo incontrato (fra cui
ad esempio: R(b), R(β) , yT y ).
La scomposizione della somma dei quadrati yT y
Operiamo sulla devianza di y , (o più precisamente sulla somma dei
quadrati yT y ) partendo ancora da una delle relazioni trovate per
R(b):
R(b) =
n
X
(yi − yi∗ )2 = (y − Xb)T (y − Xb) =
i=1
= yT (In − X(XT X)−1 XT )y =
aprendo la parentesi
= yT y − yT X(XT X)−1 XT y =
sostituendo b alla espressione (XT X)−1 XT y
= yT y − (yT X)b =
Ricordiamo che, trasponendo il sistema di equazioni normali si ha:
yT X = bT XT X
= yT y − bT XT Xb;
242
Materiale didattico statistica 3
ed infine (risolvendo rispetto a yT y ):
T avola Di Scomposizione Della Devianza Empirica (Somme Dei Quadrati)
FORMA QUADRATICA
FONTE DI VARIABILITA’
yT y =
Somma dei quadrati di y
(devianze se y è a media
nulla)
(y − Xb)T (y − Xb)+
bT XT Xb
8.3.1
devianza residua
Somma dei quadrati spiegata dalla regressione
Scomposizione di R(β)
Per potere costruire dei test, trasformiamo ora la devianza teorica
R(β) = εT ε
R(β) = (y − Xβ)T (y − Xβ) =
( anche uguale a: (Y − E [Y])T (Y − E [Y] )=
(Aggiungendo e sottraendo Xb )
= [(y − Xb) + (Xb − Xβ)]T [(y − Xb) + (Xb − Xβ)] =
sviluppiamo il prodotto in cui compare il binomio formato dai due termini: (y−Xb)e(Xb−
X)
2002-3003 versione provvisoria
= (y − Xb)T (y − Xb)
243
=R(b)
+
(Xb − Xβ)T (Xb − Xβ)
si mette in evidenza X sia
a sinistra che a destra e si
ottiene (b − β)T XT X(b −
β)
+
(y
− Xb)T (Xb − Xβ)
= 0 perché (y − Xb)T X =
0 dalle equazioni dei minimi quadrati
=
R(b) + (b − β)T XT X(b − β)
Si può interpretare tale scomposizione in modo leggermente diverso, ponendo l’enfasi non su b , stimatore di β , bensı̀ su Xb ,
stimatore lineare ottimale del valore atteso E [Y] . Pertanto
244
Materiale didattico statistica 3
In definitiva quindi si ha:
R(β) = R(b) + (b − β)T XT X(b − β)
Oppure :
(y−Xβ)T (y−Xβ) = (y−Xb)T (y−Xb)+(b−β)T XT X(b−β)
Possiamo rivedere questa relazione in termini di contributi alla
devianza teorica di ε :
(y − Xβ)T (y − Xβ) =
(y − Xb)T (y − Xb)+
(b − β)T XT X(b − β)
devianza teorica complessiva di ε (rispetto al modello
vero)
devianza residua
devianza delle stime
Questa scomposizione è basilare anche perché possiamo vedere
che il rapporto delle verosimiglianze costruito in precedenza per
saggiare l’ipotesi nulla H0 : β = β0 , contro l’alternativa generica
H1 : β 6= β0 , è funzione di queste quantità. Infatti:
n
max[L(β, σ 2 ; y)|H0 ]
[y − Xb)T (y − Xb)] 2
LR =
==
=
max[L(β, σ 2 ; y)|H1 ]
[y − Xβ0 )T (y − Xβ0 )]
n
R(b) 2
=
R(β0 )
avendo ora indicato con b lo stimatore di massima verosimiglianza prima indicato con β̂ .
8.3.2
Test F per la verifica di ipotesi nel modello lineare:
distribuzione nulla
Per esaminare la distribuzione nulla del rapporto delle verosimiglianze, o di una sua trasformazione monotona, riprendiamo in esame la
2002-3003 versione provvisoria
245
scomposizione di base di R(β) , e dividiamo tutti i termini per σ 2 :
R(β)
R(b) (b − β)T XT X(b − β
=
+
σ2
σ2
σ2
con le ipotesi che abbiamo fatto, compresa ovviamente quella di
normalità, possiamo vedere che i tre termini si distribuiscono come
delle χ2 , per cui si può applicare il teorema di Cochran; infatti:
R(β)
:
σ2
(A) si distribuisce come una χ2 con n gradi di libertà in quanto
somma dei quadrati di n v.c. normali standardizzate:
Pn 2
R(β)
εT ε
i=1 εi
=
=
σ2
σ2
σ2
R(b)
:
σ2
(B) si distribuisce come una χ2 con n-k gradi di libertà (come si
è visto) in quanto:
R(b) = (y − Xb)T (y − Xb) =
= εT (In − X(XT X)−1 XT )ε
si distribuisce come σ 2 χ2n−k
essendo (In − X(XT X)−1 XT ) idempotente di rango n − k
[b − β]T XT X[b − β]
σ2
(C)
si distribuisce come una χ2 con k gradi di libertà in quanto è il
numeratore dell’esponente della densità di una normale multivariata:
b ∼ N (β; σ 2 (XT X)−1 )
Quindi si può applicare il teorema di Cochran ed i termini (B) e
(C) risultano indipendenti.
In definitiva la quantità:
F =
[b−β ]T XT X[b−β ]
k
[y−Xb]T [y−Xb]
n−k
=
[b − β]T XT X[b − β]
ks2
246
Materiale didattico statistica 3
essendo il rapporto fra due variabili casuali χ2 indipendenti divise
per i rispettivi gradi di libertà, si distribuisce secondo una F di
Snedecor con k ed n − k gradi di libertà, essendo β il vero valore
del vettore dei parametri.
Pertanto, per saggiare l’ipotesi nulla:
H0 : β = β0 , contro l’alternativa generica
H1 : β 6= β0 ,
possiamo impiegare la quantità:
F =
[b−β0 ]T XT X[b−β0 ]
k
[y−Xb]T [y−Xb]
n−k
che sotto H0 si distribuisce secondo una variabile aleatoria F di
Snedecor con k ed n − k gradi di libertà.
La regione di rifiuto sarà costituita dai valori elevati di F, superiori
ad Fα,k,n−k . (ossia situati sulla coda destra della corrispondente
variabile F di Snedecor)
Infatti valori osservati di F elevati danno evidenza contraria ad
H0 .
F è funzione monotona del rapporto delle verosimiglianze LR
costruito in precedenza. Infatti:
F =
[b−β0 ]T XT X[b−β0 ]
k
[y−Xb]T [y−Xb]
n−k
F =
R(β0 )−R(b)
k
R(b)
n−k
=
=
R(β0 )
n−k
F =
−1
=
R(b)
k
1
n−k
F =
−1
LR
k
Statistiche sufficienti nel modello lineare.
b e s2 costituiscono un set di stimatori congiuntamente sufficienti
per β e σ 2 .
2002-3003 versione provvisoria
247
Infatti partendo dalla verosimiglianza del modello lineare, introdotta prima, con le ipotesi semplificatrici fatte, e con le scomposizioni ora viste si può giungere ad una fattorizzazione:
L(β, σ 2 ; y) =
(y − Xβ)T (y − Xβ)
2σ 2
n
R(β)
= (2πσ 2 )− 2 exp[−
2σ 2
n
= (2πσ 2 )− 2 exp[−
n
= (2πσ 2 )− 2 exp[−
R(b) [b − β]T XT X[b − β]
−
]=
2σ 2
2σ 2
(n − k)s2
[b − β]T XT X[b − β]
]
exp[−
].
2σ 2
2σ 2
Quindi la verosimiglianza campionaria rispetto a β e σ 2 dipende
dalle osservazioni solo attraverso le statistiche b e s2 .
n
= (2πσ 2 )− 2 exp[−
Matrice di informazione
Dalla verosimiglianza è anche immediato vedere che l’informazione
di Fisher su β è ancora funzione della matrice X .
Infatti:
2
XT X
∂ log L(β, σ 2 ; y)
=
−
I(β) = E
σ2
∂β∂β T
- (La matrice delle derivate seconde comunque è costante)
Vinf (b) = −I −1 (β).
Per cui il valore asintotico della matrice di varianze e covarianze
di b coincide con il valore già trovato per via diretta per n qualsiasi.
8.3.3
Distribuzioni sotto H0 e sotto H1 .
Va sottolineato che nella scomposizione vista prima la quantità(B)
ossia:
R(b)
(y − Xb)T (y − Xb)
=
σ2
si distribuisce sempre come una v.a. χ2 con n − k gradi di libertà, sia sotto H0 che sotto H1 ; (fatta ovviamente l’assunzione di
normalità)
248
Materiale didattico statistica 3
e quindi la stima della varianza:
2
s = R(b)/(n − k) =
n
X
(yi − yi∗ )2 /(n − k)
i=1
ha sempre una distribuzione proporzionale a quella di una χ2 con n−
Quindi:
k gradi di libertà
s2 (n − k)/σ 2 ∼ χ2k
qualunque sia l’ipotesi vera
Infatti R(b) dipende solo dai valori osservati e non dipende dai
particolari valori delle componenti del vettore dei parametri β .
Si noti inoltre che la distribuzione di s2 non dipende dalla particolare configurazione (scelta a priori o osservata) della matrice X ,
se non attraverso le sue dimensioni, n e k .
Diversamente la forma quadratica definita dalla quantità (C)
ossia:
(b − β)T XT X(b − β)/σ 2
si distribuisce come una χ2 con k gradi di libertà solo se β è il vero
valore del parametro; Pertanto la forma quadratica a numeratore del
test F divisa per i gradi di libertà k
s21 = (b − β0 )T XT X(b − β0 )/k
è uno stimatore corretto di σ 2 solo sotto H0 perché:
(b − β0 )T XT X(b − β0 )
si distribuisce come σ 2 χ2k soltanto se è vera H0
Infatti la distribuzione di s21 dipende dal vero valore assunto dai
parametri componenti del vettore β .
Inoltre, come si vede nelle pagine successive e come si intuisce dalle formule di queste pagine, la distribuzione di s21 nel caso generale
(ossia sotto H1 !) dipende anche dalla configurazione della matrice
X (scelta a priori o osservata) attraverso il prodotto XT X . Pertanto è intuibile, sebbene non tratteremo tale argomento in dettaglio,
che la scelta del particolare disegno della matrice X , quando possibile, potrebbe influenzare la distribuzione di s21 sotto H1 , e quindi
il potere del test.
2002-3003 versione provvisoria
249
In altre parole se per la costruzione di test in particolari contesti
sperimentali è necessario operare con certi valori del potere del test,
questo obiettivo può essere raggiunto agendo anche sugli elementi
della matrice X , ossia sulla configurazione del disegno sperimentale.
In generale se β0 è il valore specificato dall’ipotesi nulla e se β è il
vero valore, allora possiamo calcolare il valore atteso della quantità
(b − β0 )T XT X(b − β0 ) , effettuando alcune manipolazioni della
forma quadratica:
E(b − β0 )T XT X(b − β0 )=
Aggiungendo e sottraendo
β
= E[(b − β) − (β0 − β)]T XT X[(b − β) − (β0 − β)] =
sviluppiamo il prodotto in
cui compare il binomio formato dai due termini: (b −
β) e (β0 − β)
= E(b − β)T XT X(b − β)
= kσ 2 perché la forma quadratica si distribuisce come σ 2 χ2k essendo β il vero
valore
+
E(β0 − β)T XT X(β0 − β)
é la speranza matematica
di una costante
2(β0
− β)T XT X(b − β)
=
=0 perché é una combinazione lineare del vettore
aleatorio b−β , che é a media nulla perché: E(b) =
β
=
kσ 2 + (β0 − β)T XT X(β0 − β)
Il grafico qui sotto riporta un esempio di distribuzione nulla con
due alternative: si tratta di tre densità di F non centrali con 3 e 10
gradi di libertà: la distribuzione nulla è quella corrispondente ad un
parametro di non centralità nullo. La linea verticale corrisponde al
valore critico per α =0,05
Distribuzione nulla e due alternative per il test F(3,10);
α = 0, 05; λ = 2, 5
250
Materiale didattico statistica 3
\begin{fig}
noncentral1_lucidi.nb
\end{fig}
Riassumendo in una tavola questi ultimi risultati:
Quantità
Espressioni esplicite
(y
Interpretazione
Speranza matematica
Distribuzione
R(β0 ) − R(b)
R(b)
− Xb)T (y
− Xb)
Devianza residua
Scostamento
nulla
dall
H0 : β = β0
(n − k)σ 2
kσ 2
H1 : β 6= β0
(n − k)σ 2
kσ 2 + (β0 − β)T XT
β)
H0 : β = β0
σ 2 χ2n−k
σ 2 χ2k
H1 : β 6= β0
σ 2 χ2n−k
σ 2 χ2 (k, λ)
centrale;λ:parametr
di
non
ce
T
T
λ = (β0 −β) X X(
Risulta evidente che E(F (H1 ) > E(F (H0 ) e la regione di rifiuto
del test va fissata sulla coda destra della distribuzione di F.
8.3.4
(b − β0 )T XT X(b −
Scomposizione della devianza e test nel caso di gruppi di regressori ortogonali
Se r gruppi di variabili indipendenti sono ortogonali (ossia risultano
non correlati linearmente se si tratta di regressori scartati dalla media) la matrice XT X risulta composta da r blocchi disposti lungo la
diagonale (r ≥ 2) :
ciascun blocco è composto da un numero qualsiasi kj di variabili,
P
in modo tale che: rj=1 kj = k ;
2002-3003 versione provvisoria
251
Per esempio, termine noto e regressori, r = 2, k1 = 1 ;
In particolare se tutti i kj sono uguali ad uno, vuol dire che tutte
le variabili risultano ortogonali
eventualmente gli indici delle variabili sono permutati in modo
che le variabili di uno stesso gruppo siano consecutive


XT1 X1
0
0
0
0
0


TX


0
X
0
0
0
0
2
2




0
0
.
.
.
0
0
0


T
X X=

T


0
0
0
X
X
0
0
j
j




0
0
0
0
...
0


T
0
0
0
0
0 Xr Xr
Ad esempio tutte le variabili del 1◦ blocco sono ortogonali a tutte
quelle del j -esimo gruppo; all’interno di ciascun gruppo le variabili
non sono ortogonali (o comunque non tutte). In corrispondenza a
questi r blocchi suddividiamo il vettore dei parametri β e quello
delle stime b .
T
T
T
β T = (β T
1 , β2 , . . . , βj , . . . , βr )
T
T
T
bT = (bT
1 , b2 , . . . , bj , . . . , br )
Il vantaggio per l’inferenza è che i gruppi di stimatori dei corrispondenti parametri saranno a blocchi non correlati (indipendenti
data l’assunzione di normalità):
Cov(bj , bl ) = 0(j 6= l)
Dal punto di vista numerico, ciascun gruppo di stime è ricavabile
da un sottoinsieme di equazioni normali:
(XTj Xj )bj = XTj yequindi :
bj = (XTj Xj )−1 XTj y
è la matrice (XT X)−1 risulta ora diagonale a blocchi:

0
0
0
(XT1 X1 )−1


0
(XT2 X2 )−1 0
0


0
0
...
0

(XT X)−1 = 

0
0
0 (XTj Xj )−1


0
0
0
0

0
0
0
0
0
0

0
0
0
0
0
0










...
0
0
(XTr Xr )−1
252
Materiale didattico statistica 3
La matrice di varianze e covarianze di b è data da:
V (b) = σ 2 (XT X)−1 ,
Per cui possiamo scrivere, moltiplicando (XT X)−1 per lo scalare σ 2
:


V (b1 )
0
0
0
0
0


 0
V (b2 ) 0
0
0
0 


 0
0
...
0
0
0 


V (b) = 

 0
0
0 V (bj ) 0
0 


 0
0
0
0
...
0 


0
0
0
0
0
V (br )
In generale è possibile scomporre semplicemente la forma quadratica (b−β)T XT X(b−β) in r forme quadratiche (due o più) mutuamente indipendenti, se e solo se la matrice X può essere partizionata
in r gruppi di regressori non correlati nel modo visto.
Possiamo in questo caso esprimere la forma quadratica:
Q(b − β) = (b − β)T XT X(b − β) =
=
r
X
(bj − β j )T XT
j Xj (bj − β j ) =
j=1
r
X
Q(bj − βj );
j=1
Evidentemente le singole forme quadratiche si distribuiscono come delle variabili aleatorie χ2 con kj gradi di libertà moltiplicate
per σ 2 e sono indipendenti;
Ovviamente sono anche indipendenti rispetto a R(b)
per cui le scomposizioni viste prima in questo caso si estendono
ulteriormente, scomponendo ciascun termine in r termini.
Si possono quindi costruire dei test Fj con numeratori indipendenti, mettendo a denominatore sempre s2 (stima corretta della varianza) ed a numeratore l’opportuna forma quadratica Q(bj − βj )
divisa per i rispettivi gradi di libertà kj :
Fj =
[bj −βj ]T XTj Xj [bj −βj ]
kj
[y−Xb]T [y−Xb]
n−k
=
Q(bj −βj )
kj
s2
I rapporti Fj si distribuiscono secondo una F di Snedecor con kj
ed n − k gradi di libertà
Pertanto, per saggiare un’ipotesi nulla:
H0 : β = β0 ,
2002-3003 versione provvisoria
253
contro l’alternativa generica
H1 : β 6= β0 ,
nel caso di r blocchi ortogonali, si può considerare anche per il
vettore β0 la stessa suddivisione in blocchi:
T
T
T
T
T
β0 = β10 β20 . . . βj0 . . . βr0
Per cui l’ipotesi nulla può essere suddivisa in r ipotesi,
Hj0 : βj = βj0 j = 1, 2, . . . , r
per saggiare ciascuna delle quali possiamo impiegare i test:
Fj =
[bj −βj0 ]T XTj Xj [bj −βj0 ]
kj
,j
(y−Xb)T (y−Xb)
n−k
= 1, 2, . . . , r;
ognuno dei quali sotto H0 si distribuisce secondo una variabile
aleatoria F di Snedecor con kj ed n − k gradi di libertà.
Questi test sono indipendenti. E’ possibile che l’ipotesi nulla
specifichi solo alcuni gruppi di parametri, e non tutti.
Es. H0 : βs = βs0 ; βj qualsiasi per j 6= s
In particolare può interessare:
H0 : βs = 0
Rispetto al test che si condurrebbe in presenza di un solo gruppo
di regressori, cambia solo a denominatore la stima della varianza,
che ha n − k gradi di libertà invece che n − ks . In ogni caso è meglio
procedere con la stima con n − k gradi di libertà che è certamente
254
Materiale didattico statistica 3
corretta
Se a ciascun gruppo di parametri e di regressori si può fare corrispondere una diversa fonte di variabilità, questo implica che
per fare inferenza riguardo a ciascuna componente, indipendentemente dalle altre, è necessario che il gruppo di regressori
corrispondente a ciascuna sorgente di variazione risulti ortogonale rispetto ai regressori corrispondenti alle altre sorgenti di
variabilità.
Questi aspetti sottolineano l’importanza di operare, quando possibile, con regressori ortogonali, almeno a gruppi, perché questo
implicherà essenzialmente:
L’indipendenza fra i corrispondenti gruppi di stimatori;
L’indipendenza approssimata fra i test relativi ai vari gruppi di
parametri, ossia alle differenti sorgenti di variabilità
\begin{fig}
Esempio di fattori ortogonali da
STATISTICA Esempi ripresi dai problemi introduttivi
\end{fig}
8.4
Configurazioni della matrice X e di XT X
2002-3003 versione provvisoria
255
XT X
Significato e conseguenze
per l’interpretazione del
modello e per l’inferenza
Tutte le Xj sono ortogonali
Diagonale È il caso migliore: si possono saggiare ipotesi e fare inferenza in generale sui singoli parametri in modo indipendente
(anche i valori degli stimatori si trovano in modo
indipendente)
Tutte le combinazioni di
valori dei fattori
Fattoriale
Meglio ancora! Fra l’altro migliorano le proprietà
delle regioni di confidenza
costruite su E(yi )
Gruppi di Xj sono ortogonali
Diagonale a blocchi
È un caso importante: si
possono saggiare ipotesi (e
fare inferenza in generale) su gruppi di parametri
separatamente
Correlazioni lineari generiche fra le X
A rango pieno ma non
diagonale
È il caso generale della regressione multipla, in particolare per studi osservazionali.
Qualcuna delle Xj è fortemente dipendente linearmente dalle altre Xj
A rango pieno ma con
qualche autovalore vicino a
zero
MULTICOLLINEARITA’
Alcune Xj indicano la presenza/assenza di livelli di
un fattore
A rango non pieno
Per costruzione: Alcuni casi di Analisi della varianza
etc.
Alcune variabili sono esattamente proporzionali
A rango non pieno
Per errore di rilevazione (si tolgono le variabili
ridondanti)
X
256
8.5
Materiale didattico statistica 3
Modello lineare: Verifica di ipotesi generali
Comunque sia configurata la matrice X e quindi XT X , non sempre
l’ipotesi d’interesse riguarda tutti i parametri.
In generale siamo interessati a verificare ipotesi relativi a sottoinsiemi di valori dei parametri, come ad esempio:
H0 : β1 = β2 = 0; βj qualsiasi per j > 2
comunque
H0 : β s = β s 0 ; βj qualsiasi per j 6= s
relativa ad un gruppo di parametri βs
Può però interessarci un’ipotesi che implichi un confronto fra i
valori di alcuni parametri; ad esempio:
H0 : β1 = β2 = β3 (= µ;
con µ non specificato) e βj qualsiasi per j > 3 .
quest’ultima ipotesi equivale ad imporre i due vincoli:
β1 − β3 = 0
β2 − β3 = 0
In effetti queste ipotesi nulle possono essere considerate come
delle ipotesi che impongono dei vincoli lineari (anche molto generali)
sui valori dei k parametri, secondo la relazione generale:
Cβ = θ 0
In dettaglio, dato il modello:
y[n×1] = X[n×k] β[k×1] + ε[n×1]
(supponiamo sempre X di rango k ) in generale siamo interessati
a verificare l’ipotesi:
H0 : C[q×k] β[k×1] = Cβ0 = a[q×1].
Con q < k e q rango di C
Esempio: Analisi della varianza ad una via .
Si riveda l’impostazione della matrice X nella parte introduttiva
sui modelli lineari; La matrice X è composta da k colonne indicatrici
dell’appartenenza delle n unità a k gruppi disgiunti.
La parametrizzazione più naturale è quella in cui ogni parametro
corrisponde al valor medio di Y in ciascun gruppo:
2002-3003 versione provvisoria
257
β T = µ1 , . . . , µ j , . . . , µ k
L’ipotesi che può interessare non è però che tutti i coefficienti siano
nulli, ma che siano uguali fra loro:
H0 : β1 = β2 = . . . = βk
Queste k − 1 uguaglianze corrispondono ad una scelta di C di
k − 1 righe e k colonne:
vincolo
Gr.1 Gr.2 . . . Gr.J . . . Gr.K
1
1
0
...
0
...
−1
2
...
1
...
...
...
−1
0
0
...
0
0
−1
j
0
0
...
1
0
−1
controllare
...
...
...
...
...
−1
k−1
0
0
0
0
...
−1
controllare C[k−1×k] =

C[k−1×k]





=




1
0
...
0
. . . . . . −1


. . . . . . . . . . . . −1 

0 0 . . . 0 . . . 0 −1 


0 0 . . . 1 . . . 0 −1 

. . . . . . . . . . . . . . . . . . −1 

0 0 . . . 0 . . . 1 −1
...
1
con a = 0k−1
Scrivere ora Cβ = a è come scrivere:
µ1 − µk = µ2 − µk = . . . = µj − µk = . . . = µk−1 − µk = 0.
Riprendiamo l’esempio sull’ipotesi nulla:
H0 : β1 = β2 = β3 (= µ;
con µ non specificato) e βj qualsiasi per j > 3 .
La matrice dei vincoli è costituita da due sole righe:
258
Materiale didattico statistica 3
vincolo
1
2
C[2×k] =
Gr. 1
Gr. 2
Gr. 3
Gr. J
...
Gr. K
1
0
-1
0
...
0
0
1
-1
0
...
0
C[2×k] =
1 0 −1 0 . . . 0
0 1 −1 0 . . . 0
!
con a = (0, 0)T Altro esempio:
Se l’ipotesi di interesse è:
H0 : β1 = β2 = . . . = βk = 0
questo corrisponde a scegliere:
C = Ik ; a = 0k .
Esempio.
In un modello di regressione multipla si può avere un problema
di scelta di variabili (vedere dopo).
L’ ipotesi:
H0 : β1 = β2 = . . . = βq = 0, q < k;
e
βq+1 , βq+2 , . . . , βk qualsiasi
corrisponde a q vincoli definiti da:
C = Iq : 0k−q ; a = 0k
ossia i vincoli non coinvolgono i k − q regressori oltre βq .
Ovviamente q = 1 nel caso di ipotesi concernenti un singolo
parametro.
La stima dei parametri del modello lineare con vincoli lineari sui
parametri
In questo caso per costruire il rapporto di verosimiglianza per la
verifica dell’ipotesi generale:
H0 : C[q×k] β[k×1] = a[q×1]. Cdirangoq
2002-3003 versione provvisoria
259
(con H1 : ipotesi alternativa che non fissa alcun vincolo sui parametri) si ha:
max L[β, σ 2 , y|H0 ]
LR =
=
max L[β, σ 2 , y|H1 ]
max L[β, σ 2 , y|Cβ = a]
=
maxL[β, σ 2 , y|β<k ]
− n2
R(b0 )
=
R(b)
essendo b lo stimatore di massima verosimiglianza non vincolato,
e b0 lo stimatore di massima verosimiglianza sotto i vincoli lineari
imposti da H0 .
Minimi quadrati vincolati
Per trovare b0 occorre risolvere un problema di minimi quadrati
vincolati:
minb0 R(b0 ) = (y − Xb0 )T (y − Xb0 ) =
yT y − 2bT0 XT y + bT0 (XT X)b0
soggetto a q vincoli lineari:
Cb0 = a; Cdi rangoq
Occorre introdurre q moltiplicatori di Lagrange 2vecdh ed uguagliare a 0 le derivate di Q(b0 ) rispetto al vettore b0 e al vettore
d[q×1] :
Q
=−
Q(b0, d) = R(b0 ) + 2(Cb0 − a)T d
b0
2XT y + 2(XT X)b0 + 2CT d
Q
= (Cb0 − a
d
Uguagliandole a 0 (vettore nullo):
−2XT y + 2(XT X)b0 + 2CT d = 0;
(Cb0 − a = 0;
dal primo gruppo di equazioni:
(XT X)b0 = XT y − CT d;
260
Materiale didattico statistica 3
b0 = (XT X)−1 XT y − (XT X)−1 CT d =
(sostituendo b = (XT X)−1 XT y , stimatore dei minimi quadrati non vincolato)
= b − (XT X)−1 CT d
Dal secondo gruppo di equazioni:
Cb0 = a = Cb − C(XT X)−1 CT d;
Sono q equazioni indipendenti in k incognite d ,
Cb = −C(XT X)−1 CT d;
con soluzione data da:
−d = [C(XT X)−1 CT ]−1 (a − Cb)
risostituendo nel sistema che fornisce b0 si ha:
b0 = b − (XT X)−1 CT d =
= b + (XT X)−1 CT [C(XT X)−1 CT ]−1 (a − Cb)
Si può facilmente vedere che questa soluzione fornisce il minimo
e rispetta i vincoli (premoltiplicando per C )
Tutte le inverse citate esistono, per le ipotesi fatte sui ranghi di
XeC.
In realtà di solito conviene risolvere il sistema dei minimi quadrati
secondo la parametrizzazione fornita da H0 , se questa è esplicitabile
rispetto ai parametri. La tecnica ora esposta per trovare b0 è utile
prevalentemente a scopo teorico per vedere la relazione fra b0 e b
; Inoltre è utile per i casi nei quali Cβ = a non sia semplicemente
esplicitabile.
Nell’ espressione di b0 esplicitiamo, in modo che sia evidente la
relazione lineare fra b0 e b :
Ponendo, per semplicità: F = (XT X)−1 CT [C(XT X)−1 CT ]−1
si ottiene
b0 = b+(XT X)−1 CT [C(XT X)−1 CT ]−1 (a−Cb) == F.a+(Ik −F.C)b
b0 risulta corretto solo sotto H0
Infatti
E(b0 ) = β + (XT X)−1 CT [C(XT X)−1 CT ]−1 (a − Cβ) = β
2002-3003 versione provvisoria
261
perchè sotto H0 : a − Cβ = 0
Inoltre per la matrice di varianze e covarianze si ha in generale:
V (b0 ) = (Ik −F.C)V (b)(Ik −F.C)T == σ 2 [(XT X)−1 −F.C(XT X)−1 −(XT X)−1 CT F T +F.C(XT X
Questi tre termini risultano uguali in valore assoluto.
Infine, dopo qualche semplificazione:
V (b0 ) = σ 2 (XT X)−1 −σ 2 [(XT X)−1 CT [C(XT X)−1 CT ]−1 C(XT X)−1 ] =
= V (b) − σ 2 [(XT X)−1 CT [C(XT X)−1 CT ]−1 C(XT X)−1 ].
• Le varianze di ciascun elemento di b0 risultano inferiori a quelle
dei corrispondenti elementi di b ;
• Si ricordi però che in generale b0 è distorto.
Modello lineare: Scomposizione della devianza per il problema soggetto a vincoli:
Anche in questo caso la devianza residua può essere scomposta in
una forma conveniente
Alcune scomposizioni:
R(b0 ) = (y − Xb0 )T (y − Xb0 ) =
Sommando e sottraendo
Xb e poi aprendo il quadrato del binomio
= [(y − Xb) + (Xb − Xb0 )]T [(y − Xb) + (Xb − Xb0 )] =
= (y − Xb)T (y − Xb)
=R(b )
+
(Xb − Xb0 )T (Xb − Xb0 )
si mette in evidenza X sia
a sinistra che a destra e si
ottiene (b − b0 )T XT X(b −
β)
+
(y
− Xb)T (Xb − Xb0 )
=
R(b) + (b − b0 )T XT X(b − b0 )
In definitiva:
R(b0 ) = R(b) + (b − b0 )T XT X(b − b0 )
=0 perché:(y−Xb)T X = 0
dalle equazioni dei minimi
quadrati
262
Materiale didattico statistica 3
...
(b − b0 )T XT X(b − b0 ): Devianza residua supplementare
dovuta ad H0 . Misura anche la distanza fra i due stimatori.
E inoltre, sostituendo l’ espressione di (b − b0 ):
R(b0 ) − R(b) = (a − Cb)T [C(XT X)−1 CT ]−1 (a − Cb)
Si distribuisce (sotto H0 ) come una χ2 con q gradi di libertà,
indipendentemente da R(b).
Pertanto è possibile costruire test per la verifica di una ipotesi
qualsiasi semplicemente mettendo a numeratore del test F l’incremento di devianza dovuto ad H0 (e modificando i gradi di libertà)
8.5.1
Prove di ipotesi particolari nel modello lineare
Se la matrice C è costituita da:
C = Iq ; 0q×k
(ossia specifica solo i valori di q parametri)
la matrice (C(XT X)−1 CT )−1 ora risulta costituita dall’inversa
del blocco q×qdella matrice (XT X)−1 corrispondente ai q parametri
specificati da H0 ,ossia [(XT X)−1 q ]−1
il vettore di q elementi (a − Cb) è semplicemente costruito dalla
differenza fra valori ipotizzati e valori stimati sotto H0 .
T
−1 ]
[b0 ]T
q indica il vettore di q elementi coinvolto dall’ipotesi nulla particolare.[(X X)
q
indica il bloccoq × q nella matrice (XT X)−1
F =
[b−β0 ]Tq [(XT X)−1 q ]−1 [b−β0 ]q
q
[y−Xb]T [y−Xb]
n−k
=
In ogni caso il rapporto:
F =
R(b0 )−R(b)
q
R(b)
n−k
si distribuisce (sotto H0 ) come una F con q ed n − k gradi di
libertá , se è valida l’ ipotesi nulla:H0 : β = β0 . (con q numero di
gradi di libertá del numeratore)
2002-3003 versione provvisoria
263
Ovviamente si vede facilmente che questo rapporto è funzione del
rapporto delle verosimiglianze.
Va precisato che questo approccio va bene per saggiare ipotesi
singole, anche concernenti q parametri, ma non gruppi di ipotesi,
perché i test relativi a sottoinsiemi differenti di parametri (o di loro
combinazioni lineari) non sono indipendenti, se non nel caso visto
prima di matrice XT X a blocchi diagonali. Condurre in parallelo
test separati sugli elementi di β in assenza dei necessari requisiti
di ortogonalità è in generale una procedura errata, nel senso che
non vengono certamente rispettati i livelli di significatività nominali.
Può essere utile, in analisi esplorative, a titolo comparativo, per
confrontare verosimiglianze relative a modelli concorrenti, ma non
per effettuare test nel vero senso del termine.
8.6
Test e regioni di confidenza nei modelli lineari
L’approccio visto prima, sui test LR per ipotesi che impongono q
vincoli lineari sui parametri, a rigore va impiegato solo per saggiare
un’ipotesi concernente un unico set di parametri;
oppure occorre avere set di ipotesi ortogonali In generale se k > 1
non esiste un test UMPU.
Regioni di confidenza simultanee per i parametri
La regione di confidenza migliore, ad un livello 1 − α, è determinata
dai valori β per i quali i valori osservati del test F non risultano
superiori al valore teorico Fα,k,n−k .
Pertanto, dato un campione nel quale b è la stima di massima
verosimiglianza, tale regione è delimitata dai valori β per i quali:
[(b − β)T XT X(b − β)](ks2 Fα,k,n−k
Nel caso di regressori non ortogonali, tali regioni risulteranno date
da ellissoidi con assi obliqui, per cui l’interpretazione delle regioni
stesse potrà essere ardua.
Anche la relazione con i singoli intervalli sarà di difficile interpretazione, infatti per ciascun valore di uno dei parametri, l’intervallo
ottimo dell’altro varia, sia per posizione che per estensione.
264
Materiale didattico statistica 3
Intervalli di confidenza e regioni di confidenza
Come si è visto la struttura di correlazione fra gli estimatori dei
parametri è strettamente dipendente dalla struttura di correlazione dei regressori o comunque dalla struttura della matrice X . Le
regioni di confidenza che costruiremo per i parametri β saranno
ovviamente quelli ellisoidali, data la normalità, ma con una inclinazione degli assi principali che dipenderà dalla correlazione fra le
diverse componenti dello stimatore di β .
È il caso adesso di riflettere sulle differenze concettuali e interpretative che esistono fra regioni di confidenza e intervalli di confidenza, l’intersezione, infatti, fra intervalli di confidenza costruiti
singolarmente o per ciascun parametro anche nel caso di assenza di
correlazione, conduce a risultati e ad interpretazioni diverse da quelle ottenute mediante regioni di confidenza simultanee. Si consideri,
infatti, la figura seguente: dai dati dell’esempio si sono costruiti
gli intervalli di confidenza per β1 e β2 ad un livello fiduciario di α;
inoltre si è costruita la regione di confidenza simultanea per i due
parametri ricavata dalla relazione vista nel paragrafo precedente,
fondata sui percentili della distribuzione F.
Occorre intanto riportare le due situazioni a parità di livello di copertura ossia fare in modo che la probabilità fiduciaria complessiva
dei due intervalli sia uguale alla probabilità fiduciaria della regione ellissoidale; le due situazioni o meglio i due approcci conducono
a conclusioni leggermente differenti ma non contrastanti in modo
stridente; il punto fondamentale consiste nell’avere in un caso un’intersezione fra segmenti che conduce ad un rettangolo e nell’altro
caso una circonferenza o in generale un’ellisse con assi paralleli agli
assi coordinati la differenza di area coperta è, in effetti, molto bassa.
Nell’esempio si può calcolare come riportato nella figura.
Si consideri invece un esempio nel quale gli stimatori dei due
parametri β1 e sono molto correlati; in questo caso la regione di
confidenza simultanea sarà costituita da un ellissoide su delle con
assi non paralleli a quelli coordinati; la discrepanza fra la superficie
coperta da quest’ellisse e quella coperta dall’intersezione tra i due
segmenti è ora più forte;
Inoltre esiste un problema d’interpretazione molto grosso: secondo del valore assunto dal parametro β1 , l’intervallo di confidenza
ottimo per il parametro β2 è differente, non solo per ampiezza ma
anche per posizione; d’altra parte il fatto che due stimatori risultino
2002-3003 versione provvisoria
265
correlati significa proprio che non è possibile fare inferenze separatamente sulle due singole componenti. La relazione con i singoli
intervalli sarà di difficile interpretazione, infatti per ciascun valore di uno dei parametri, l’intervallo ottimo dell’altro varia, sia per
posizione che per estensione.
VEDERE GRAFICI AGGIUNTIVI NEL FILE:
\begin{fig}
DISPENSA2000_FIGURE2.DOC
\end{fig}
regioni di confidenza per funzioni lineari dei parametri
In effetti se siamo interessati a particolari combinazioni di parametri
a =C β , possiamo direttamente costruire regioni di confidenza per
tali funzioni lineari dei parametri a partire dalla quantità:
R(b0 ) − R(b) = (a − Cb)T [C(XT X)−1 CT ]−1 (a − Cb);
Prendendo in considerazione il corrispondente test F si può direttamente costruire la regione (q-dimensionale) costituita da tutti i
valori a per i quali:
(a − Cb)T [C(XT X)−1 CT ]−1 (a − Cb)(qs2 Fα,q,n−k
regioni di confidenza relative a sottoinsiemi di parametri
Se la matrice C è definita da:
C = Iq ; 0q×k
(ossia specifica solo i valori di q parametri), allora:
la matrice(C(XT X)−1 CT )−1 risulta costituita dall’inversa del
blocco q × q della matrice (XT X)−1 corrispondente ai q parametri
specificati da H0 ,ossia[(XT X)−1 q ]−1
il vettore di q elementi (a − Cb) è semplicemente costruito dalla
differenza fra valori dei parametri e valori degli stimatori per soli q
dei k parametri.
La regione (q-dimensionale) è quindi costituita dai valori di βq
per i quali:
[b − β]Tq [(XT X)−1 q ]−1 [b − β]q (qs2 Fα,q,n−k
266
Materiale didattico statistica 3
[(XT X)−1 q ] indica il blocco q × qnella matrice (XT X)−1 .
[b − β]q indica l’opportuno sottovettore di q elementi
Intervalli di confidenza per E(yi )
Per quanto visto prima, è evidente che lo stimatore migliore di E(yi )
è yi ∗ = xT
i b, essendo x(i) il vettore di osservazioni dei regressori corrispondente all’unità i-esima, e quindi rientriamo nel caso i
combinazioni lineari degli stimatori b .
Pertanto, e comunque se il modello è completo e corretto:
T
E(yi ∗) = E(xT
i b) = xi β = E(yi )
T
2 T
T
−1
V (yi ∗) = V (xT
i b) = xi V (b)x(i) = σ xi (X X) x(i)
essendo al solito xT
i l’i-esima riga della matrice X .
Applicando quindi le formule dei paragrafi precedenti, otteniamo l’intervallo di confidenza per E(yi ) ad un livello di probabilità
fiduciaria 1 − α, dato da:
q
T
T
−1
xi b(stα,n−k xT
i (X X) x(i) .
Risulta dunque evidente che il luogo dei punti x(i) per i quali tali
intervalli risultano di uguale ampiezza, a parità di altre condizioni,
è costituito dai punti per i quali
T
−1
xT
i (X X) x(i) = Costante,
ossia dai punti che hanno uguale distanze di MahalaNobis dal
centroide dei regressori.
\begin{fig}
esempi nel notebook mathematica
\end{fig}
Nelle figure allegate sono mostrati gli effetti dovuti a configurazioni diverse delle X .
\begin{fig}
DISPENSA2000_FIGURE3.DOC
\end{fig}
2002-3003 versione provvisoria
267
errori di previsione
Varianza degli errori di previsione e distorsione degli stimatori variano in senso opposto
\begin{fig}
INSERIRE LUCIDO FATTO A MANO
(che si trova nel blocco dopo la regressione)
esempio da rivedere e ripetere in aula
\end{fig}
\begin{fig}
regr1.ppt
\end{fig}
268
Materiale didattico statistica 3
Capitolo 9
Regressione Multipla
9.1
Introduzione
Nei capitoli precedenti si è vista la teoria generale sull’inferenza nei
modelli lineari, sia nel caso di modelli con vincoli che senza vincoli. Precedentemente avevamo visto come in realtà i modelli lineari
siano utilizzabili per diversi problemi statistici, in funzione della
particolare costruzione e configurazione della matrice X ; in questo
capitolo affrontiamo il caso specifico dei modelli di regressione, e le
peculiarità dell’inferenza in questo caso, insieme con una selezione
dei problemi inferenziali più comunemente affrontati nelle applicazioni reali. Ricordo che nella pratica dello statistico le tecniche di
regressione lineare multipla costituiscono una costante che capita di
affrontare in numerosi problemi, almeno come tecnica preliminare
di esplorazione dei dati.
Scomposizione della devianza empirica col termine noto e k regressori
a media nulla:
Se la matrice X prevede una colonna di costanti uguali ad uno e altre
k colonne a media nulla, abbiamo un modello con termine noto e
con matrice XT Xpartizionata a due blocchi diagonali:
!
n
0T
T
k
X X ==
0k nSX (= ZT Z)
Quindi tutte le forme quadratiche che hanno come matrice dei coefficienti questa matrice con (k + 1) × (k + 1) elementi, saranno scomponibili in una forma quadratica con matrice di k × k elementi, ed
un termine singolo.
269
270
Materiale didattico statistica 3
(Indichiamo ora il termine noto con α, ed il corrispondente stimatore con a, invece che con β0 per evitare confusione con i valori β0
dell’ipotesi nulla; con β indico il vettore dei parametri relativo alle
k variabili e con b il corrispondente stimatore dei minimi quadrati);
Chiaramente risulta: a = My
Per quanto riguarda la scomposizione della devianza empirica di
y nel modello di regressione multipla, possiamo partire dalla relazione trovata fra R(b) e la somma dei quadrati yT y . (in effetti
adesso dovremmo indicarlo con R(a, b))
R(b) =
n
X
(yi − yi∗ )2 = (y − a.1 − Zb)T (y − a.1 − Zb) =
i=1
= yT y − nMy2 − bT ZT Zb =;
dato che a = M y .
-------------------------controllare Zb e
M_{\vecy}
--------------------------
Possiamo anche scrivere:
R(b) = (y − My )T (y − My ) − bT ZT Zb.
Quindi nei modelli di regressione multipla, per eliminare l’influenza
del termine noto, che svolge il ruolo di parametro di disturbo, si può
direttamente lavorare in termini di scarti, sia per le x che per y .
In ogni caso sarà possibile fare inferenza indipendente su questo
termine.
2002-3003 versione provvisoria
271
T AVOLA DI SCOMPOSIZIONE DELLA DEVIANZA EMPIRICA NELLA REGRESSIONE
Z è la matrice degli scarti
dalle medie
TOTALE
RESIDUA
SPIEGATA
(y − My )T (y − My )
bT ZT Zb
− My )2
(y − My − Zb)T (y − My −
Zb)
Pn
∗ 2
i=1 (yi − yi )
Devianza totale osservata
di y
devianza residua (deviazioni dal valore stimato)
Devianza spiegata dalla regressione lineare sui k regressori (presi globalmente)
n−k−1
k
Pn
i=1 (yi
Pn
∗
i=1 (yi
gradi di libertà:
n−1
Il coefficiente di determinazione lineare multipla R2
E’ utile almeno da un punto di vista descrittivo, generalizzare l’indice già visto per quanto riguarda le distribuzioni condizionate di
vettori aleatori normali.
La bontà della regressione lineare sulle x per spiegare la variabilità della y può essere misurata dall’indice (compreso fra 0 e
1):
R2y.12...k =
DEVIANZA SPIEGATA
DEVIANZA TOTALE
2 = r2
Se k = 1 è ovvio che Ry.1
Si può eventualmente calcolare R2 mediante la formula vista per
le distribuzioni condizionate di vettori aleatori normali.
Evidentemente possiamo anche utilizzare il complemento ad 1
per misurare l’incidenza del residuo sul totale:
DEVIANZA RESIDUA
DEVIANZA TOTALE
Il valore di questa quantità fornisce la porzione di variabilità di
y che non è spiegata dalla regressione sulle k variabili.
1 − R2y.12...k =
− My )2
272
Materiale didattico statistica 3
Scomposizione della devianza teorica nella regressione multipla
Scomponiamo ora la devianza teorica:
Si riveda eventualmente la parte relativa alla stima dei parametri
con questa particolare matrice X
εT ε/σ 2 =
= R(b)/σ 2 + (a − α)n(a − α)/σ 2 + (b − β)T ZT Z(b − β)/σ 2 =
= R(b)/σ 2 + (My − α)2 /(σ 2 /n) + (b − β)T ZT Z(b − β)/σ 2 .
Palesemente vale ancora il teorema di Cochran, per la scomposizione in tre parti della devianza complessiva:
il nuovo termine
α)2 /(σ 2 /n) si distribuisce come una χ21 ,
e per il teorema di Cochran risulta indipendente dalle altre due
forme quadratiche.
Si ha, considerando quindi il termine noto:
R(α, β) = R(a, b) + (b − β)T (ZT Z)(b − β) + n(My − α)2
oppure
n
X
[yi − E(yi )]2 = (y − α.1 − Zβ)T (y − α.1 − Zβ) =
i=1
(y−My −Zb)T (y−My −Zb)+(b−β)T (ZT Z)(b−β)+n(My −α)2 +
(rispetto al simbolismo adottato precedentemente si consideri che
adesso il valore atteso è: E [Y] = α.1 + Zβ )
?
Possiamo rivedere questa relazione in termini di contributi alla
devianza teorica di ε :
2002-3003 versione provvisoria
273
Forma Quadratica
fonte
gradi di libertà
(y − α.1 + Zβ)T (y − α.1 −
devianza teorica complessiva di ε.
(rispetto al
modello vero)
n
(y − My − Zb)T (y − My −
Zb)
devianza residua
n−k−1
(b − β)T (ZT Z)(b − β)
devianza delle stime dei
coefficienti di regressione
k
n(My − α)2
devianza dovuta alla stima
del termine noto
1
Zβ)
9.1.1
Prova dell’ipotesi di coefficienti di regressione nulli
nella regressione multipla.
Dai risultati visti in precedenza e che scaturiscono sostanzialmente
dall’ortogonalità fra termine noto e regressori, risulta immediato il
test per saggiare l’ipotesi nulla:
H0 : β = 0k ,
con α qualsiasi contro l’alternativa generica:
H1 : β 6= 0k.
TEST NELLA REGRESSIONE LINEARE MULTIPLA
Si può infatti impiegare la quantità test:
b0 ZT Zb
ks2
che sotto H0 si distribuisce secondo una variabile aleatoria F di
Snedecor con k ed n − k − 1 gradi di libertà.
Avendo indicato al solito con s2 la stima corretta della varianza,
con n − k − 1 gradi di libertà, data da:
F =
s2 = (y − My − Zb)T (y − My − Zb)/(n − k − 1) =
=
n
X
i=1
(yi − yi∗ )2 /(n − k − 1)
274
Materiale didattico statistica 3
E’ facile vedere che, dal momento che in fondo il test è dato da:
F =
Devianzaspiegata
k
Devianzaresidua
n−k−1
si può esprimere questo test in funzione di R2 :
F =
R2y.12...k
k
1−R2y.12...k
n−k−1
Per saggiare ipotesi particolari, rare nelle applicazioni della regressione multipla, del tipo:
H0 : β = β0 ,
con α qualsiasi
si impiegherà ovviamente il test:
[b − β0 ]T ZT Z[b − β0 ]
ks2
LA REGIONE DI RIFIUTO
La regione di rifiuto sarà costituita dai valori elevati di F , superiori ad Fα,k,n−k−1 (ossia situati sulla coda destra della corrispondente
variabile F di Snedecor). Valori osservati di F elevati danno evidenza contraria ad H0 . Infatti sotto H1 il valore atteso di bT ZT Zb nel
numeratore del test F per saggiare l’ipotesi β = 0k , è dato, dalle
formule precedenti, da:
F =
E(bT ZT Zb|H1 ) = kσ 2 + β T ZT Zβ.
mentre
E(bT ZT Zb|H0 ) = kσ 2
Risulta sempre (al solito):
E(bT ZT Zb|H1 ) > E(bT ZT Zb|H0 )
è nella forma quadratica β T ZT Zβ , ZT Z è definita positiva; in
ogni caso si vede subito che β T ZT Zβ = (Zβ)T Zβ che è palesemente
una somma di quadrati.
2002-3003 versione provvisoria
275
Prova di ipotesi particolari nella regressione multipla.
Si può essere interessati ad una particolare ipotesi, quale un vincolo
lineare sui coefficienti di regressione, oppure il fatto che, semplicemente:
alcuni dei coefficienti di regressione siano nulli e quindi,
che i corrispondenti regressori Xj siano ininfluenti ai fini della
spiegazione di y .
Si può seguire la metodologia generale vista precedentemente: si
badi però che quella tecnica è soddisfacente solo se applicata:
per una ipotesi soltanto oppure
per più ipotesi relative a regressori ortogonali a gruppi.
L’ ipotesi:
H0 : β1 = β2 = . . . = βq = 0conq < k;
e
βq+1 , βq+2 , . . . , βk qualsiasi
(che corrisponde a q vincoli definiti da C = Iq : 0k−q ; a = 0q )
stabilisce che q coefficienti di regressione siano nulli
e quindi stabilisce che i corrispondenti q regressori siano eliminabili dal modello generale di spiegazione della variabile di risposta.
Possiamo effettuare il test generale:
F =
[R(b0 )−R(b)]
q
R(b)
n−k−1
=
[b−β0 ]Tq [(ZT Z)−1 q ]−1 [b−β0 ]q
q
[y−Xb]T [y−Xb]
n−k−1
in cui b0 è lo stimatore di massima verosimiglianza di β sotto H0
(quindi ha q elementi uguali a zero se H0 : [β0 ]q = 0 ).
In effetti si vede facilmente che il test è ora dato da:
F =
[b]Tq [(ZT Z)−1 q ]−1 [b]q
qs2
T
−1 indica il blocco
[b]T
q indica il vettore di q elementi coinvolto dall’ipotesi nulla .(Z Z)
q
qxq di (ZT Z)−1
276
Materiale didattico statistica 3
in cui è esplicito il fatto che la quantità a numeratore misura
la distanza da zero di un particolare sottoinsieme di stimatori di
coefficienti di regressione.
Ovviamente si distribuisce come una F con q e n − k − 1 gradi di
libertà.
Test per un singolo coefficiente (uno solo!)
Nel caso particolare in cui q = 1 , evidentemente stiamo saggiando
l’ipotesi che un singolo coefficiente di regressione sia nullo:
H0 : βj = 0
e gli altri β qualsiasi
Il test in questo caso diventa:
F =
bj [(ZT Z)−1 jj ]−1 bj
s2
=
b2j
cjj s2
essendo cjj il j -esimo elemento sulla diagonale di (ZT Z)−1 ;
essendo q = 1 possiamo prendere la radice quadrata di questa quantità, che si distribuisce come una t di Student con n − k − 1 gradi
di libertà, per ottenere il test:
t=
bj
(tn−k−1
s(cjj
Si può eventualmente considerare in questo caso un’alternativa
unidirezionale che conduce a regioni di rifiuto sulla coda destra o
sulla sinistra. Si noti anche che cjj è la varianza campionaria di bj
Con questo test possiamo saggiare una ipotesi su un coefficiente
(uno e uno solo!!!);
Utilizzare questo test per più di un regressore è una procedura
distorta.
Test per l’eliminazione di q regressori in termini di perdita in R2
Riscriviamo il test per saggiare l’ipotesi che q regressori siano
nulli:
2002-3003 versione provvisoria
277
F =
[R(b0 )−R(b)]
q
R(b)
n−k−1
Devianza spiegata da k regressori-Devianza spiegata da k − q regressori
F =
q
Devianza residua [nel modello completo]
n−k−1
Dividendo ora ambo i termini della frazione per Dev(y) si può
esprimere questo test in funzione di due diversi indici R2 :
F =
R2y.12...k −R2y.q+1...k
q
1−R2y.12...k
n−k−1
in cui:
• R2y.q+1...k è la frazione di varianza di y spiegata dai k − q
regressori Xq+1 , Xq+2 , . . . , Xk ;
• R2y.12...k è la frazione di varianza di y spiegata da tutti i regressori;
Quindi il test corrisponde a saggiare l’ipotesi che il decremento
in R2y.12...k dovuto all’eliminazione dei q regressori X1 , X2 , . . . , Xq
non si discosti significativamente da 0.
Evidentemente il numeratore del test F è sempre positivo (si
tratta sempre, come si era visto prima) di una frazione di varianza.
Il test è relativo ad una ipotesi relativa ad un insieme fissato di
q regressori.
Successivamente si utilizzeranno queste scomposizioni per arrivare ad un criterio di scelta di k-q particolari regressori
Possiamo impostare una tavola di analisi della varianza per la
riduzione di variabili:
278
Materiale didattico statistica 3
TOTALE=
RESIDUA
SPIEGATA da k − q
regressori
SPIEGATA
gressori (al n
altri k − q )
1 − R2y.12...k
R2y.q+1...k
R2y.12...k − R
n−k−1
k−q
q
frazioni di varianza
1
gradi di libertà:
n−1
Rappresentazione grafica della suddivisione delle frazioni di devianza.
0R2y.12...k 1
devianza spiegata da tutti i
k regressori
0R2y.q+1...k 1
devianza spiegata dagli ultimi k − q regressori
0R2y.12...k − R2y.q+1...k 1 devianza in più spiegata
dai primi q regressori
01 − R2y.q+1...k 1
devianza non spiegata dagli ultimi k − q regressori
Un indice normalizzato è dato da:
R2y.12...k − R2y.q+1...k
1 − R2y.q+1...k
coefficiente di determinazione parziale di Y sui primi q regressori,
al netto degli altri k-q regressori
L’indice che è ancora palesemente compreso fra 0 e 1;
misura la frazione ulteriore di varianza spiegata dai q regressori,
tenuto conto della regressione sugli altri k-q.
incremento di R2 in funzione dell’indice di correlazione parziale;
trovare (forse sul kendall o Rao)
2002-3003 versione provvisoria
9.2
279
La multicollinearità nella regressione multipla.
In questa sezione affrontiamo un problema cruciale nell’analisi
della regressione, in particolare per dati economici o comunque
provenienti da indagini osservazionali che si può riassumere nella
domanda:
Avere regressori linearmente correlati ha qualche influenza
negativa sull’analisi della regressione?
Banalmente si potrebbe pensare che l’unica cosa importante è
la correlazione (multipla) della Y con le X. Vedremo in questa
sezione che è anche importantissimo analizzare la struttura di
correlazione interna delle X
Supponiamo una caso molto semplice
con due soli regressori. Consideriamo per semplificare le cose, e
focalizzare l’attenzione solo sulle correlazioni, che le variabili (y e
X) siano tutte standardizzate.
Sappiamo che V [b] = (XT X)−1 σ 2 . Se quindi k = 2 si ha:
Caso di due soli regressori
V [b] = σ 2
1
r12
r12
1
!−1
1
= σ2
2
1 − r12
1
−r12
−r12
1
!
per cui la varianza di uno dei due stimatori è data da:
V [b1 ] = V [b2 ] = σ 2
1
2
1 − r12
Collinearità nella regressione a due regressori
La varianza degli stimatori dei coefficienti di regressione è
funzione crescente della correlazione fra i regressori r12
ed è funzione crescente della varianza σ 2 della componente
accidentale
280
Materiale didattico statistica 3
Studiare anche come varia la dipendenza di y dalle x passando da due a un regressore
Passando alla situazione generale, se i k regressori non sono ortogonali, possono avere una struttura di interdipendenza di vario
tipo.
Si sono già viste alcune delle conseguenze della non ortogonalità
dei regressori o fattori sulla distribuzione degli stimatori di massima
verosimiglianza e di altre quantità collegate:
• Lo stimatore b è a componenti correlate (dal momento che ha
varianza proporzionale a (XT X)−1 );
• I contributi alla spiegazione di Y di ciascuna variabile non sono
separabili.
• Non si possono condurre test indipendenti su tutti i singoli
coefficienti.
• Le regioni di confidenza dei parametri β costruite sulla base
del valore critico di F risultano ellissoidali e non sferiche.
• Il luogo dei punti xi nello spazio dei regressori che conduce
ad intervalli di confidenza di eguale ampiezza per E(ψ̂i ) è il
contorno di un ellissoide di equazione:
σ 2 x(i)T (XT X)−1 x(i) = Cost.
Il caso estremo è quello in cui il rango di X (e quindi di XT X)
è inferiore a k: supponiamo di non trovarci comunque in questa
situazione, perché l’eventuale variabile combinazione lineare esatta
delle altre è stata individuata ed eliminata.
Supporremo di trovarci invece, nell’ambito delle situazioni con
dei regressori correlati, vicino a questa situazione estrema.
Nei casi non estremi occorrerà misurare il grado di collinearità
fra le variabili indipendenti ossia quanto complessivamente incidono le correlazioni fra le Xj sulla distribuzione di b ed in generale
sull’inferenza nella regressione multipla
Consideriamo una matrice delle x a media nulla (quindi è una
matrice di scarti) ed a varianza unitaria (quindi è una matrice di
variabili standardizzate); evidentemente ciò corrisponde ad effettuare una traslazione ed un cambiamento di scala sugli assi che non
2002-3003 versione provvisoria
281
alterano in alcun modo lo studio della dipendenza lineare di y dalle
Xj .
(Anzi in questo modo si possono fare valutazioni comparative fra
i coefficienti di regressione, in quanto non influenzati dalle diverse
unità di misura).
Lo studio della multicollinearità riguarda la struttura di correlazione fra le X e successivamente l’influenza di questa struttura
sullo studio della dipendenza di Y dalle X , sulle proprietà degli
stimatori, delle regioni di confidenza, etc.
In questa lezione sulla multicollinearità, sto esaminando solo le
implicazioni di tipo statistico: lascio volutamente da parte le implicazioni di tipo computazionale. È noto, infatti, che dal punto
di vista numerico la risoluzione di sistemi di equazioni lineari,
in presenza di collinearità, comporta dei problemi di stabilità
numerica delle soluzioni.
Con determinante della matrice dei coefficienti prossimo a zero gli errori di troncamento potrebbero svolgere un ruolo determinante sul calcolo delle soluzioni del sistema di equazioni
normali.
Se le x sono standardizzate la matrice di varianze e covarianze S
è anche la matrice di correlazione, ed è data da:
S = XT X/n.
Quindi è lo stesso studiare la struttura di XT X o quella di S .
Dal momento che le x sono a media nulla e a varianza unitaria,
si avrà che combinazioni lineari delle x sono a media nulla, e inoltre:
dal momento che la somma degli autovalori di S è uguale alla sua
traccia (ossia alla somma delle varianze), è quindi uguale a k se si
lavora con variabili standardizzate
Occorre che le x siano standardizzate per poter valutare la grandezza di ciascun autovalore.
Infatti:
λi > 0i = 1, 2, . . . k;
(S è definita positiva e di rango pieno)
282
Materiale didattico statistica 3
Inoltre:
k
X
λi = k
i=1
Per cui gli autovalori sono limitati fra 0 e k:
k > λi > 0i = 1, 2, . . . k;
e
M (λi ) =
k
X
λi /k = 1
i=1
Nella situazione ideale di assenza di correlazioni fra le x si ha:
λ1 = λ 2 = . . . = λ k = 1
perché S = I
La situazione è ideale perché le stime dei regressori risultano non
correlate e le inferenze sui regressori sono indipendenti.
Si parla di multicollinearità quando, pur essendo la matrice S a
rango pieno, alcuni dei suoi autovalori sono molto vicini a zero,
avvicinandosi alla situazione estrema di collinearità esatta.
Questo si verifica quando qualcuna delle variabili x è quasi uguale
2002-3003 versione provvisoria
283
ad una combinazione lineare di alcune delle altre variabili X .
la situazione limite λk = 0 corrisponde al caso di rango inferiore
a k, ossia una variabile è esattamente combinazione lineare delle
altre (oppure q variabili sono combinazioni lineari delle altre se
λk−q+1 = λk−q+2 = . . . = λk = 0)
Nella regressione multipla ci interessa che la Y sia molto correlata con le X , ma è preferibile che le X siano poco correlate
internamente
Si riveda per analogia la parte relativa all’analisi delle componenti principali per vettori aleatori. Si riveda anche l’interpretazione dell’analisi in componenti principali per variabili statistiche
osservate.
Si riveda anche lo schema riportato in un capitolo precedente sull’influenza delle possibili configurazioni di matrice x sull’inferenza
nei modelli lineari.
Legami lineari fra regressori
Adesso esamineremo con dettaglio l’influenza delle correlazioni fra
i regressori nel caso generale: esistono infatti delle situazioni nelle
quali la presenza di correlazioni potrebbe essere importante anche
se non si è in una situazione di multicollinearità vera e propria; si
vedrà più avanti a proposito la relazione che lega la varianza delle
previsioni con la varianza degli stimatori.
Dall’equazione che definisce gli autovettori e gli autovalori della
matrice delle varianze e covarianze S (gli autovalori son proporzionali a quelli della matrice delle devianze e codevianze XT X, essendo X una matrice di variabili scartate dalle rispettive medie e
possibilmente standardizzate) si ha:
284
Materiale didattico statistica 3
Sγ j = (XT X/n)γ j = λj γ j ≈ 0seλj ≈ 0
(dato che tutti gli elementi di γ j , i-esimo autovettore sono compresi fra 0 e 1, per la condizione di normalizzazione γ Tj γ j = 1)
Allora premoltiplicando per γ Tj si ha:
(γ Tj XT Xγ j )/n = γ Tj λj γ j = λj ≈ 0
Poniamo:
√
uj = Xγ j / n
cosı̀ che uj è una combinazione lineare nelle X , e quindi:
(γ Tj XT Xγ j )/n = uTj uj = λj ≈ 0(per l’ipotesi fatta)
Allora se λj è piccolo si ha: il vettore uj è una combinazione
lineare delle X , con media zero e varianza molto piccola, per cui si
ha anche:
uj ≈ 0 ossia ⇒ Xγ j ≈ 0
Quindi esiste una combinazione lineare delle variabili quasi nulla Le variabili maggiormente coinvolte corrispondono ai più alti
coefficienti di γ j
ossia le variabili Xr corrispondenti ai più alti elementi γ rj ; avendo inteso le colonne della matrice Γ di elemento γ rj costituite dagli
autovettori di S
2002-3003 versione provvisoria
285
Si può giungere a questo tipo di risultato (ossia esistenza di combinazioni lineari quasi esatte fra i regressori), anche considerando
che in questo caso una o più variabili risulta combinazione lineare
quasi esatta delle altre, ossia avrà una dipendenza lineare elevata
dalle altre variabili, in termini di regressione multipla .
In effetti, ricordando le relazioni fra R2 e gli elementi dell’inversa
di S (si rivedano nella parte relativa alle distribuzioni condizionate
di v.a. normali), si può arrivare a:
Ri2 = 1/cii
Ri2 è il coefficiente di determinazione multipla di Xi rispetto alle
altre k − 1 variabili, ossia quanta variabilità di Xj è spiegata dalle
altre k − 1 variabili Xj (j 6= i)
cii è l’elemento diagonale di C , l’inversa di S
Ricordando anche che:
λj (C) = λj (S −1 ) = 1/λj (S);
si ha:
Ri2 = 1 − 1/cii ; 1/(1 − Ri2 ) = cii
quindi sommando queste ultime relazioni per tutte le variabili si ha:
k
X
i=1
1/(1 − Ri2 )
=
k
X
cii = tr[C] =
i=1
k
X
1/λi
i=1
Quindi se qualche autovalore è molto piccolo, la traccia di C è
molto grande e questo è direttamente collegato al fatto che qualche
correlazione multipla delle x è elevata.
CITARE OUTPUT DI STATISTICA
(ridondanza, etc.)
Conseguenze sulla distribuzione campionaria di b
V (b) = σ 2 (XT X)−1 = σ 2 (nS)−1 = S−1 (σ 2 /n) = C(σ 2 /n)
Quindi a parte il fattore (σ 2 /n) la struttura delle correlazioni interne fra gli elementi di b è funzione della struttura delle correlazioni
interne fra le X , e non dipende in alcun modo dalla variabile di risposta y : dipende solo dallo schema di valori assunti dai regressori
(siano essi osservati o prestabiliti prima di un esperimento).
286
Materiale didattico statistica 3
Si noti inoltre che invece le varianze dipendono al solito dai valori
osservati, attraverso il fattore (σ 2 /n)
k
X
V (bi ) = tr(V (b)) = tr(S−1 )(σ 2 /n) = (σ 2 /n)tr[C] == (σ 2 /n)
i=1
k
X
i=1
Quindi se vi è multicollinearità (ossia qualche λi molto piccolo) la traccia di C sarà elevata e quindi sarà elevata la somma delle varianze campionarie degli stimatori dei coefficienti di
regressione.
Sarà conseguentemente elevata anche la varianza di yi∗
Indici di multicollinearitá:
Pp
Ip = Pi=1
k
λj
i=1 λj
=
varianza delle prime p componenti
somma di tutte le varianze
Pp
Ip =
i=1 λj
k
nel caso di variabili standardizzate.
Più che regole automatiche, l’analisi grafica dell’andamento di
Ip al variare di p può guidare nell’analisi della multicollinearità in
insiemi di dati reali.
ESEMPI VARI
Collinearità: confronto fra k e k-1 regressori attraverso i λ
Costruzione di un stimatore distorto di β
Per esaminare meglio gli effetti della multicollinearità sulla varianza
campionaria dello stimatore b , si può sfruttare la decomposizione
spettrale o canonica della matrice S−1 , introdotta a proposito delle
proprietà degli autovalori e degli autovettori di matrici simmetriche:
S
−1
−1 T
= ΓΛ
Γ =
k
X
i=1
γ i γ Ti /λi
1/λi
2002-3003 versione provvisoria
287
mentre per la matrice originaria S abbiamo la decomposizione di
base:
T
S = ΓΛΓ =
k
X
λi γ i γ Ti
i=1
Se invece di prendere tutti i k termini di questa decomposizione,
ci limitiamo a prendere i primi q termini, otteniamo un’approssimazione della matrice S tanto migliore, quanto più sono piccoli gli
autovalori corrispondenti aai termini scartati:
T
S = ΓΛΓ =
k
X
λi γ i γ Ti
≈
i=1
q
X
λi γ i γ Ti = S(q)
i=1
in corrispondenza di questa approssimazione costruiamo una inversa modificata:
S
−1
=
k
X
γ i γ Ti /λi
i=1
→
q
X
−1
,
γ i γ Ti /λi = S(q)
i=1
in cui stavolta mancano i termini più elevati in valore assoluto.
(evidentemente le stesse scomposizioni, a meno del fattore n, si
possono fare sulla matrice XT X)
Pertanto, se invece di b si definisse:
b0 = S−1
XT y/n
(q)
si otterrebbe uno stimatore distorto ma con minore varianza!
Infatti:
controllare bene il seguito
E(b0 ) = S−1
XT (Xβ) =
(q)
S−1
(XT X)β = (S−1
/n)(nS(q) + R(q))β =
(q)
(q)
q
X
i=1
γ i γ Ti /λi (λi γ i γ Ti ) +
k
X
λi γ i γ Ti
i=q+1
A parte l’eventuale impiego effettivo di questo stimatore, l’utilità
della sua introduzione sta nell’esplicitazione del legame fra distorsione e varianza campionaria degli stimatori di β .
288
9.2.1
Materiale didattico statistica 3
Esempi (sulla collinearità e simili)
Figura da inserire ESECOLL2.RTF esecollinear2.STA esecoll2.stg
dove sono???
9.3
La scelta delle variabili nella regressione lineare multipla.
Motivazioni
Si è detto prima di sottoinsiemi di variabili predittive stabiliti a
priori e quindi senza riferimento ai particolari dati osservati. Spesso
però, date k variabili esplicative, si vuole scegliere un sottoinsieme di
q di tali variabili con diverse finalità: per effettuare stime o previsioni
statistiche a costo inferiore, riducendo il numero di variabili che
occorrerà rilevare in futuri studi.
Per migliorare l’accuratezza delle previsioni eliminando variabili poco informative o comunque poco rilevanti ai fini della previsione di E [y] per descrivere un data-set multivariato, o comunque
una relazione multipla in modo parsimonioso e con pochi parametri.
per stimare coefficienti di regressione con errori standard piccoli, in
particolare se alcuni dei regressori sono molto correlati.
Stime carenti dei coefficienti possono portare buone stime predittive (ossia al solo scopo di stimare valori di y o di E [y]).
Strategie di scelta
La strategia complessiva della scelta di variabili si può articolare in
alcune fasi generali:
• decidere quali sono le variabili che costituiscono l’insieme più
ampio dei k regressori (e quindi procedere alla rilevazione)
• trovare uno o più sottoinsiemi di variabili che spiegano bene la
variabile di risposta;
• applicare una regola di arresto per decidere quante variabili
esplicative (regressori) usare;
• stimare i coefficienti di regressione
• saggiare la bontà del modello ottenuto (analisi dei residui, aggiunta di nuove variabili, aggiunta di termini polinomiali, etc.).
2002-3003 versione provvisoria
289
Per quanto riguarda il punto b), possiamo esplicitarlo in questo
modo:
fissato un numero di regressori ridotto, diciamo p, quale dei k Cq
sottoinsiemi dei k regressori originari scegliere?
Sembra logico, e comunque più semplice, almeno in prima istanza,
scegliere quello che fornisce la maggior quota di varianza spiegata,
ossia il maggiore fra gli R2 ;
In aggiunta a questo criterio di massimizzazione globale, avendo
fissato q, si può comunque pensare a scopo esplorativo di prendere
in esame alcuni sottoinsiemi che forniscono le soluzioni migliori.
Occorrerà possibilmente un qualche algoritmo per ridurre il numero di R2 da calcolare.
Fonti di distorsioni
Le distorsioni nella stima dei coefficienti sono dovute a due diverse
fonti:
una distorsione dovuta all’avere omesso variabili, di ui è possibile
fornire una valutazione (in termini di deviazione dal modello completo) una distorsione dovuta al procedimento di selezione, che non
viene in generale fatto indipendentemente dai dati; in altri termini
i dati mediante i quali si stimano i coefficienti sono gli stessi che
hanno portato alla selezione di un particolare sottoinsieme.
quest’ultima distorsione, dovuta alla selezione, può essere distinta
in due ulteriori componenti: una dovuta alla scelta fra sottoinsiemi
delle stesse dimensioni l’altra dovuta alla regola di arresto impiegata
per scegliere il numero q migliore di regressori. Queste ultime fonti
di distorsione in generale non sono valutabili con precisione.
Criteri di scelta
Che criterio usare per scegliere il numero p più opportuno di variabili
da includere nel modello?
Si tenga presente che se Ap è l’insieme ottimo di p variabili e
Ap+1 è l’insieme ottimo con p + 1 variabili, si ha sempre:
Ry2 (Ap )(Ry2 (Ap+1 )
(l’uguaglianza in effetti vale solo in caso di collinearità esatta, che a
rigore abbiamo escluso se S è di rango pieno).
Inoltre se Iq+1 è un insieme con p+1 variabili e se IpT è un suo sottoinsieme, ossia un insieme di p variabili ottenuto da Iq+1 eliminando
290
Materiale didattico statistica 3
una variabile, si ha ancora:
Ry2 (IpT )(Ry2 (Ip+1 ).
Eventuali test F condotti sugli R2 saranno comunque distorti, almeno in termini di livelli di significatività.
Infatti la devianza che si mette a numeratore non è calcolata su
un set dato a priori, ma in base al fatto che il residuo sia il più basso
possibile.
Algoritmi di scelta delle variabili.
Si possono comunque avere diversi algoritmi di scelta di variabili, a
prescindere dal problema della scelta di q.
Tutte le regressioni possibili
Selezione in avanti (forward selection)
Selezione all’indietro, o eliminazione (backward selection);
Regressione passo (stepwise regression)
(algoritmi di sostituzione).
Il metodo di tutte le regressioni possibili prevede l’esame di tutti
k
i 2 − 1 possibili sottoinsiemi di variabili;
k
(2 − 1 =
k
X
k Cp )
p=1
Computazionalmente oneroso, sebbene esistano ora degli algoritmi
di ricerca che consentono di limitare il numero dei confronti, pur
trovando l’ottimo assoluto per ciascun numero di regressori q.
Un problema interpretativo si ha quando si ottengono soluzioni
non nidificate: alcuni software (S-Plus, per esempio) possono fornire
oltre l’ottimo assoluto per ciascun valore di p, anche un certo numero
di soluzioni sub-ottimali, ossia gli r migliori sottoinsiemi.
Metodi che conducono ad ottimi locali
Il metodo della selezione in avanti prevede di partire da un modello
senza regressori, e di introdurli uno alla volta secondo che producano
il valore più elevato fra i test F.
Evidentemente si trovano soluzioni sub-ottimali, e si rischia di
non prendere mai in esame simultaneamente determinati sottoinsiemi di regressori.
2002-3003 versione provvisoria
291
Il metodo della selezione all’indietro, consiste nel partire dal modello completo, e ad ogni passo si elimina la variabile cui corrisponde
il valore di F più basso.
Anche questo fornisce soluzioni sub-ottimali; tuttavia è molto
usato e abbastanza ben interpretabile, in quanto prende comunque
in esame una volta tutte le variabili simultaneamente;
inoltre fornisce una graduatoria delle variabili in ordine decrescente di importanza secondo l’ordine di eliminazione;
Il metodo stepwise unisce le due tecniche prima menzionate:
si parte da un modello senza regressori e si segue la tecnica della
selezione in avanti; ad ogni passo con una nuova variabile introdotta,
si riesamina l’insieme delle variabili introdotte, per vedere se si può
eliminarne qualcuna (con procedura backward); successivamente i
continua con la selezione in avanti fino a che non si effettuano più
modifiche dell’insieme di repressori:
test di ingresso: F > Fin
test di uscita: F < Fout
Questa tecnica, che risale al 1960, essenzialmente rispondeva all’esigenza pratica di non prendere in esame simultaneamente grossi
insiemi di regressori; inoltre nella versione originaria considerava la
possibilità di valutare le varie inverse e determinanti di ogni passo
a partire da quelli trovati al passo precedente.
Distorsione degli stimatori con modelli ridotti
Come si è visto:
E(yi ∗) = E(x(i)T b) = x(i)T β = E(yi )
V (yi ∗) = V (x(i)T b) = x(i)T V (b)x(i) = σ 2 x(i)T (XT X)−1 x(i)
Ovviamente questa relazione presuppone la correttezza del modello; se adesso prendiamo in considerazione la possibilità di lavorare con modelli distorti, vediamo cosa succede all’errore quadratico
medio della singola previsione:
E.q.m(yi ∗) = E(x(i)T (b−β))2 = Ex(i)T [(b − E(b)) + (E(b) − β)]2 =
Ex(i)T V (b)x(i) + x(i)T x(i) (E(b) − β)2 .
292
Materiale didattico statistica 3
Vediamo ora cosa accade per la media di tutti gli e.q.m. di
previsione, almeno per i valori effettivamente osservati:
n
X
???xi
i=1
errore quadratico medio degli stimatori
Figura da inserire LUCIDI SCRITTI A MANO
cenni al Cp di Mallows
9.3.1
Esempio di correlazioni osservate fra molte variabili
Quando si rilevano molte variabili su n soggetti, in particolare in
studi osservazionali, è possibile rilevare nella fase esplorativa delle
correlazioni, sia semplici che multiple, anche molto consistenti, semplicemente per effetto di fluttuazioni campionarie dovute al cercare
correlazioni empiriche alte in una matrice di correlazione con molti
elementi.
Infatti si supponga per semplicità che la matrice n×p delle osservazioni costituisca un campione (multivariato) di ampiezza n proveniente da una distribuzione normale multivariata a p componenti
indipendenti, e quindi con correlazioni lineari teoriche ρij = 0 ;
semplicemente per il fatto che nella matrice di correlazione stimata
p × p si avranno p(p − 1)/2 indici rij empirici di correlazione lineare,
stime di massima verosimiglianza delle corrispondenti correlazioni
lineari ρij della popolazione multinormale di provenienza (sebbene
tali p(p−1)/2 non siano indipendenti perché calcolate su p variabili):
Il più grande di tali indici chiaramente ha una distribuzione campionaria che non ha come valore atteso il valore teorico ρij = 0
.
Per un rij qualsiasi vale l’usuale trasformazione:
s
rij
n−2
2
1 − rij
che si distribuisce come una t di student, con n − 2 gradi di
libertà, quando ρij = 0 , tuttavia in questo caso stiamo scegliendo
dalla matrice di correlazione l’elemento (o gli elementi) più grande,
per cui non valgono i normali risultati sulla distribuzione di rij .
Esempio:
2002-3003 versione provvisoria
293
Da una distribuzione normale multivariata con 30 componenti
indipendenti e standardizzate è stato estratto un campione di 100
osservazioni (la matrice dei dati è stata costruita per simulazione,
ossia mediante generazione di numeri pseudo-casuali). Dal campione
di osservazioni, con n = 100 e p = 30 è stata calcolata la matrice
delle stime delle correlazioni lineari:
X1
X2
X3
X4
X5
X6
X7
X8
X9
X10
X11
X12
X13
X14
X15
X16
X17
X18
X19
X20
X21
X22
X23
X24
X25
X26
X27
X28
X29
X30
X1
1.00
-.07
-.03
-.13
.08
-.10
-.04
.06
.15
-.08
-.00
-.02
-.03
.00
-.03
.08
.20
-.02
.22
.19
.03
-.18
.04
-.05
.02
-.08
.00
-.02
.09
.10
X2
-.07
1.00
-.00
.03
.07
.07
.02
.04
-.00
.01
-.25
.05
-.14
.01
-.02
.00
-.04
-.06
-.04
-.04
.06
-.03
-.13
.10
-.01
.16
.07
-.03
-.02
-.01
X3
-.03
-.00
1.00
.14
-.09
-.02
-.01
.08
.16
-.04
-.08
-.02
-.08
.04
-.05
-.19
.05
.05
-.08
.08
-.11
.14
.04
-.06
-.08
-.12
-.08
.03
-.07
.13
X4
-.13
.03
.14
1.00
-.13
.07
.18
-.14
.18
-.12
-.05
-.03
-.09
.10
.15
-.13
.06
.03
.02
-.13
-.09
.01
.05
-.03
-.05
-.01
-.09
-.03
-.04
-.17
X5
.08
.07
-.09
-.13
1.00
.02
.02
-.10
.06
.03
-.08
.01
-.02
-.17
.12
.05
-.08
-.03
.01
.01
.10
.12
.04
-.05
-.00
.12
-.12
.12
-.13
.08
X6
-.10
.07
-.02
.07
.02
1.00
-.01
-.17
-.01
.00
.03
.13
.04
.02
.03
.04
-.13
-.13
.19
-.06
.06
-.05
-.18
-.11
-.14
.13
-.10
-.22
.06
-.14
X7
-.04
.02
-.01
.18
.02
-.01
1.00
-.05
-.05
.09
-.04
-.04
.02
-.09
.02
-.09
.14
-.09
-.05
-.03
.12
.02
.14
.13
.08
-.10
-.01
.03
-.03
-.05
X8
.06
.04
.08
-.14
-.10
-.17
-.05
1.00
.05
-.02
-.04
-.01
-.18
-.03
.03
.03
-.05
.26
.02
.23
-.23
.12
.10
.00
-.09
-.16
.05
-.05
-.06
-.06
X9
.15
-.00
.16
.18
.06
-.01
-.05
.05
1.00
.08
.09
-.20
-.05
-.01
.00
-.18
.01
.10
-.09
.01
-.27
-.13
.05
-.13
-.08
-.06
.01
-.09
-.14
.16
X10
-.08
.01
-.04
-.12
.03
.00
.09
-.02
.08
1.00
.16
-.18
-.01
.04
.14
-.03
-.01
-.07
-.13
-.07
-.08
.02
.08
.06
-.14
.00
-.01
-.00
-.17
.03
X11
-.00
-.25
-.08
-.05
-.08
.03
-.04
-.04
.09
.16
1.00
-.23
.04
-.08
-.20
-.03
-.03
.10
.04
-.10
.04
-.13
.17
-.01
-.11
.13
.00
-.20
.00
-.11
X12
-.02
.05
-.02
-.03
.01
.13
-.04
-.01
-.20
-.18
-.23
1.00
.25
.09
.05
.09
.00
.08
.21
-.11
.20
-.06
.19
.07
.15
-.07
.08
-.07
-.01
.00
X13
-.03
-.14
-.08
-.09
-.02
.04
.02
-.18
-.05
-.01
.04
.25
1.00
-.10
-.17
.25
.02
-.00
.23
-.09
.09
-.15
-.11
-.11
.06
.01
.11
-.03
-.07
.03
X14
.00
.01
.04
.10
-.17
.02
-.09
-.03
-.01
.04
-.08
.09
-.10
1.00
-.02
-.01
.02
.10
.00
.15
-.02
.17
-.11
.01
.17
-.07
.09
.02
-.08
.16
X15
-.03
-.02
-.05
.15
.12
.03
.02
.03
.00
.14
-.20
.05
-.17
-.02
1.00
.12
.00
.01
.04
.03
-.17
.07
.03
.13
.01
.02
-.03
.02
.04
-.02
294
X1
X2
X3
X4
X5
X6
X7
X8
X9
X10
X11
X12
X13
X14
X15
X16
X17
X18
X19
X20
X21
X22
X23
X24
X25
X26
X27
X28
X29
X30
Materiale didattico statistica 3
X16
.08
.00
-.19
-.13
.05
.04
-.09
.03
-.18
-.03
-.03
.09
.25
-.01
.12
1.00
-.05
.02
.26
-.02
.20
-.12
-.01
.11
-.02
-.14
.06
-.12
.14
.08
X17
.20
-.04
.05
.06
-.08
-.13
.14
-.05
.01
-.01
-.03
.00
.02
.02
.00
-.05
1.00
.01
.10
.02
.20
-.20
-.08
.10
.16
-.15
-.05
-.02
-.11
.11
X18
-.02
-.06
.05
.03
-.03
-.13
-.09
.26
.10
-.07
.10
.08
-.00
.10
.01
.02
.01
1.00
-.01
-.11
-.16
.02
.01
.01
-.06
-.10
.14
.08
-.18
-.00
X19
.22
-.04
-.08
.02
.01
.19
-.05
.02
-.09
-.13
.04
.21
.23
.00
.04
.26
.10
-.01
1.00
-.03
.05
-.13
-.06
.10
.13
-.26
-.11
-.02
.00
-.05
X20
.19
-.04
.08
-.13
.01
-.06
-.03
.23
.01
-.07
-.10
-.11
-.09
.15
.03
-.02
.02
-.11
-.03
1.00
-.13
.07
.02
.03
-.10
.05
-.10
.10
.12
.07
X21
.03
.06
-.11
-.09
.10
.06
.12
-.23
-.27
-.08
.04
.20
.09
-.02
-.17
.20
.20
-.16
.05
-.13
1.00
.14
.01
-.00
.23
.11
.11
-.06
-.08
-.06
X22
-.18
-.03
.14
.01
.12
-.05
.02
.12
-.13
.02
-.13
-.06
-.15
.17
.07
-.12
-.20
.02
-.13
.07
.14
1.00
.04
-.01
.12
.11
-.06
.22
-.18
.02
X23
.04
-.13
.04
.05
.04
-.18
.14
.10
.05
.08
.17
.19
-.11
-.11
.03
-.01
-.08
.01
-.06
.02
.01
.04
1.00
.20
.05
-.20
-.16
.19
-.06
-.08
X24
-.05
.10
-.06
-.03
-.05
-.11
.13
.00
-.13
.06
-.01
.07
-.11
.01
.13
.11
.10
.01
.10
.03
-.00
-.01
.20
1.00
.08
-.12
.12
.04
-.15
.02
X25
.02
-.01
-.08
-.05
-.00
-.14
.08
-.09
-.08
-.14
-.11
.15
.06
.17
.01
-.02
.16
-.06
.13
-.10
.23
.12
.05
.08
1.00
-.08
.01
.13
-.24
-.04
X26
-.08
.16
-.12
-.01
.12
.13
-.10
-.16
-.06
.00
.13
-.07
.01
-.07
.02
-.14
-.15
-.10
-.26
.05
.11
.11
-.20
-.12
-.08
1.00
-.05
.04
.05
-.04
X27
.00
.07
-.08
-.09
-.12
-.10
-.01
.05
.01
-.01
.00
.08
.11
.09
-.03
.06
-.05
.14
-.11
-.10
.11
-.06
-.16
.12
.01
-.05
1.00
-.21
-.01
.07
X28
-.02
-.03
.03
-.03
.12
-.22
.03
-.05
-.09
-.00
-.20
-.07
-.03
.02
.02
-.12
-.02
.08
-.02
.10
-.06
.22
.19
.04
.13
.04
-.21
1.00
.02
-.13
X29
.09
-.02
-.07
-.04
-.13
.06
-.03
-.06
-.14
-.17
.00
-.01
-.07
-.08
.04
.14
-.11
-.18
.00
.12
-.08
-.18
-.06
-.15
-.24
.05
-.01
.02
1.00
.02
X30
.10
-.01
.13
-.17
.08
-.14
-.05
-.06
.16
.03
-.11
.00
.03
.16
-.02
.08
.11
-.00
-.05
.07
-.06
.02
-.08
.02
-.04
-.04
.07
-.13
.02
1.00
2002-3003 versione provvisoria
X1
X2
X3
X4
X5
X6
X7
X8
X9
X10
X11
X12
X13
X14
X15
X16
X17
X18
X19
X20
X21
X22
X23
X24
X25
X26
X27
X28
X29
X30
X1
1.00
-.07
-.03
-.13
.08
-.10
-.04
.06
.15
-.08
-.00
-.02
-.03
.00
-.03
.08
.20
-.02
.22
.19
.03
-.18
.04
-.05
.02
-.08
.00
-.02
.09
.10
X2
-.07
1.00
-.00
.03
.07
.07
.02
.04
-.00
.01
-.25
.05
-.14
.01
-.02
.00
-.04
-.06
-.04
-.04
.06
-.03
-.13
.10
-.01
.16
.07
-.03
-.02
-.01
X3
-.03
-.00
1.00
.14
-.09
-.02
-.01
.08
.16
-.04
-.08
-.02
-.08
.04
-.05
-.19
.05
.05
-.08
.08
-.11
.14
.04
-.06
-.08
-.12
-.08
.03
-.07
.13
X4
-.13
.03
.14
1.00
-.13
.07
.18
-.14
.18
-.12
-.05
-.03
-.09
.10
.15
-.13
.06
.03
.02
-.13
-.09
.01
.05
-.03
-.05
-.01
-.09
-.03
-.04
-.17
295
X5
.08
.07
-.09
-.13
1.00
.02
.02
-.10
.06
.03
-.08
.01
-.02
-.17
.12
.05
-.08
-.03
.01
.01
.10
.12
.04
-.05
-.00
.12
-.12
.12
-.13
.08
X6
-.10
.07
-.02
.07
.02
1.00
-.01
-.17
-.01
.00
.03
.13
.04
.02
.03
.04
-.13
-.13
.19
-.06
.06
-.05
-.18
-.11
-.14
.13
-.10
-.22
.06
-.14
X7
-.04
.02
-.01
.18
.02
-.01
1.00
-.05
-.05
.09
-.04
-.04
.02
-.09
.02
-.09
.14
-.09
-.05
-.03
.12
.02
.14
.13
.08
-.10
-.01
.03
-.03
-.05
X8
.06
.04
.08
-.14
-.10
-.17
-.05
1.00
.05
-.02
-.04
-.01
-.18
-.03
.03
.03
-.05
.26
.02
.23
-.23
.12
.10
.00
-.09
-.16
.05
-.05
-.06
-.06
X9
.15
-.00
.16
.18
.06
-.01
-.05
.05
1.00
.08
.09
-.20
-.05
-.01
.00
-.18
.01
.10
-.09
.01
-.27
-.13
.05
-.13
-.08
-.06
.01
-.09
-.14
.16
X10
-.08
.01
-.04
-.12
.03
.00
.09
-.02
.08
1.00
.16
-.18
-.01
.04
.14
-.03
-.01
-.07
-.13
-.07
-.08
.02
.08
.06
-.14
.00
-.01
-.00
-.17
.03
X11
-.00
-.25
-.08
-.05
-.08
.03
-.04
-.04
.09
.16
1.00
-.23
.04
-.08
-.20
-.03
-.03
.10
.04
-.10
.04
-.13
.17
-.01
-.11
.13
.00
-.20
.00
-.11
X12
-.02
.05
-.02
-.03
.01
.13
-.04
-.01
-.20
-.18
-.23
1.00
.25
.09
.05
.09
.00
.08
.21
-.11
.20
-.06
.19
.07
.15
-.07
.08
-.07
-.01
.00
X13
-.03
-.14
-.08
-.09
-.02
.04
.02
-.18
-.05
-.01
.04
.25
1.00
-.10
-.17
.25
.02
-.00
.23
-.09
.09
-.15
-.11
-.11
.06
.01
.11
-.03
-.07
.03
X14
.00
.01
.04
.10
-.17
.02
-.09
-.03
-.01
.04
-.08
.09
-.10
1.00
-.02
-.01
.02
.10
.00
.15
-.02
.17
-.11
.01
.17
-.07
.09
.02
-.08
.16
X15
-.03
-.02
-.05
.15
.12
.03
.02
.03
.00
.14
-.20
.05
-.17
-.02
1.00
.12
.00
.01
.04
.03
-.17
.07
.03
.13
.01
.02
-.03
.02
.04
-.02
296
X1
X2
X3
X4
X5
X6
X7
X8
X9
X10
X11
X12
X13
X14
X15
X16
X17
X18
X19
X20
X21
X22
X23
X24
X25
X26
X27
X28
X29
X30
Materiale didattico statistica 3
X16
.08
.00
-.19
-.13
.05
.04
-.09
.03
-.18
-.03
-.03
.09
.25
-.01
.12
1.00
-.05
.02
.26
-.02
.20
-.12
-.01
.11
-.02
-.14
.06
-.12
.14
.08
X17
.20
-.04
.05
.06
-.08
-.13
.14
-.05
.01
-.01
-.03
.00
.02
.02
.00
-.05
1.00
.01
.10
.02
.20
-.20
-.08
.10
.16
-.15
-.05
-.02
-.11
.11
X18
-.02
-.06
.05
.03
-.03
-.13
-.09
.26
.10
-.07
.10
.08
-.00
.10
.01
.02
.01
1.00
-.01
-.11
-.16
.02
.01
.01
-.06
-.10
.14
.08
-.18
-.00
X19
.22
-.04
-.08
.02
.01
.19
-.05
.02
-.09
-.13
.04
.21
.23
.00
.04
.26
.10
-.01
1.00
-.03
.05
-.13
-.06
.10
.13
-.26
-.11
-.02
.00
-.05
X20
.19
-.04
.08
-.13
.01
-.06
-.03
.23
.01
-.07
-.10
-.11
-.09
.15
.03
-.02
.02
-.11
-.03
1.00
-.13
.07
.02
.03
-.10
.05
-.10
.10
.12
.07
X21
.03
.06
-.11
-.09
.10
.06
.12
-.23
-.27
-.08
.04
.20
.09
-.02
-.17
.20
.20
-.16
.05
-.13
1.00
.14
.01
-.00
.23
.11
.11
-.06
-.08
-.06
X22
-.18
-.03
.14
.01
.12
-.05
.02
.12
-.13
.02
-.13
-.06
-.15
.17
.07
-.12
-.20
.02
-.13
.07
.14
1.00
.04
-.01
.12
.11
-.06
.22
-.18
.02
X23
.04
-.13
.04
.05
.04
-.18
.14
.10
.05
.08
.17
.19
-.11
-.11
.03
-.01
-.08
.01
-.06
.02
.01
.04
1.00
.20
.05
-.20
-.16
.19
-.06
-.08
X24
-.05
.10
-.06
-.03
-.05
-.11
.13
.00
-.13
.06
-.01
.07
-.11
.01
.13
.11
.10
.01
.10
.03
-.00
-.01
.20
1.00
.08
-.12
.12
.04
-.15
.02
X25
.02
-.01
-.08
-.05
-.00
-.14
.08
-.09
-.08
-.14
-.11
.15
.06
.17
.01
-.02
.16
-.06
.13
-.10
.23
.12
.05
.08
1.00
-.08
.01
.13
-.24
-.04
X26
-.08
.16
-.12
-.01
.12
.13
-.10
-.16
-.06
.00
.13
-.07
.01
-.07
.02
-.14
-.15
-.10
-.26
.05
.11
.11
-.20
-.12
-.08
1.00
-.05
.04
.05
-.04
X27
.00
.07
-.08
-.09
-.12
-.10
-.01
.05
.01
-.01
.00
.08
.11
.09
-.03
.06
-.05
.14
-.11
-.10
.11
-.06
-.16
.12
.01
-.05
1.00
-.21
-.01
.07
Inoltre nella tavola che segue sono riportati nella parte sinistra,
per ciascuna variabile, la minima e la massima correlazione lineare
rij ; nella parte destra si riporta per ciascuna variabile, il coefficiente
di determinazione multipla R2 che esprime la porzione di variabilità spiegata dalla regressione multipla (lineare) su tutte le altre 29
variabili:
X28
-.02
-.03
.03
-.03
.12
-.22
.03
-.05
-.09
-.00
-.20
-.07
-.03
.02
.02
-.12
-.02
.08
-.02
.10
-.06
.22
.19
.04
.13
.04
-.21
1.00
.02
-.13
X29
.09
-.02
-.07
-.04
-.13
.06
-.03
-.06
-.14
-.17
.00
-.01
-.07
-.08
.04
.14
-.11
-.18
.00
.12
-.08
-.18
-.06
-.15
-.24
.05
-.01
.02
1.00
.02
X30
.10
-.01
.13
-.17
.08
-.14
-.05
-.06
.16
.03
-.11
.00
.03
.16
-.02
.08
.11
-.00
-.05
.07
-.06
.02
-.08
.02
-.04
-.04
.07
-.13
.02
1.00
2002-3003 versione provvisoria
297
R2 (Var. Xi con tutte le
altre)
Min. rij
Max rij
X1
-.18
.22
X1
.249
X2
-.25
.16
X2
.211
X3
-.19
.16
X3
.164
X4
-.17
.18
X4
.336
X5
-.17
.12
X5
.222
X6
-.22
.19
X6
.288
X7
-.10
.18
X7
.183
X8
-.23
.26
X8
.364
X9
-.27
.18
X9
.306
X10
-.18
.16
X10
.259
X11
-.25
.17
X11
.427
X12
-.23
.25
X12
.434
X13
-.18
.25
X13
.380
X14
-.17
.17
X14
.303
X15
-.20
.15
X15
.280
X16
-.19
.26
X16
.367
X17
-.20
.20
X17
.301
X18
-.18
.26
X18
.271
X19
-.26
.26
X19
.384
X20
-.13
.23
X20
.265
X 21
-.27
.23
X 21
.442
X22
-.20
.22
X22
.355
X23
-.20
.20
X23
.419
X24
-.15
.20
X24
.253
X25
-.24
.23
X25
.296
X26
-.26
.16
X26
.352
X27
-.21
.14
X27
.252
X28
-.22
.22
X28
.344
X29
-.24
.14
X29
.320
X30
-.17
.16
X30
.261
298
Materiale didattico statistica 3
Ricordo che i valori critici di r ad un livello di significatività α
per un test bilaterale sono:
s
rα =
t2α
t2α + n − 2
essendo tα il valore critico ad un livello α per una t con n − 2
gradi di libertà.
Nel nostro caso, lavorando al 5
r
rα =
1.98452
= 0.197
1.98452 + 98
Per quanto riguarda R2 analogamente ricaviamo (dalla distribuzione F):
Rα2 =
kFα
kFα + n − k − 1
essendo k il numero dei regressori e Fα il valore critico ad un
livello α per una F di Snedecor con k ed n − k − 1 gradi di libertà.
Nel nostro caso:
Rα2 =
29x1.6294
= 0, 403
29x1.6294 + 70
Di seguito sono riportati anche gli autovalori ricavati dalle 30
variabili standardizzate:
2002-3003 versione provvisoria
299
C
omponenti principali
i
Autovalore
varianza
varianza cumulata
1
2.300
7.668
7.67
2
1.999
6.662
14.33
3
1.925
6.417
20.75
4
1.690
5.634
26.38
5
1.621
5.402
31.78
6
1.560
5.200
36.98
7
1.529
5.098
42.08
8
1.429
4.764
46.85
9
1.332
4.440
51.29
10
1.206
4.021
55.31
11
1.135
3.784
59.09
12
1.105
3.682
62.77
13
1.009
3.363
66.14
14
.968
3.227
69.36
15
.899
2.996
72.36
16
.885
2.949
75.31
17
.854
2.845
78.15
18
.824
2.745
80.90
19
.760
2.532
83.43
20
.740
2.466
85.90
21
.656
2.187
88.08
22
.583
1.945
90.03
23
.542
1.808
91.84
24
.527
1.756
93.59
25
.391
1.305
94.90
26
.380
1.267
96.16
27
.360
1.201
97.36
28
.323
1.078
98.44
29
.243
.811
99.25
30
.224
.747
100.00
300
9.3.2
Materiale didattico statistica 3
Esempi sulla regressione
\begin{fig} dati_reali\PUBTRAS_totale.STA
mostrare eventuali correlazioni spurie o insensate (nomi, cognomi, etc.)
dati_reali\correlazione_pubtras1.HTM
dati_reali\regmult_pubtras1.HTM
dati_reali\regmult_pubtras2.HTM
dati_reali\ese_regmul_pubtras1.RTF
dati_reali\REP_0011.STA dati cirpiet:
usare per non normalità provare anche a simulare l’estrazione di
campioni per far vedere la diversa influenza degli outlier.
\end{fig}
Capitolo 10
Stima dei parametri del
modello lineare (modelli a
rango non pieno):Analisi
della varianza
Per degli esempi di modelli lineari a rango non pieno è opportuno
rivedere la parte introduttiva sui modelli lineari, in particolare per
quanto riguarda le particolari configurazioni della matrice X .
10.1
Analisi della varianza
Se nel modello lineare la matrice X risulta a rango non pieno (perché
è stata volutamente strutturata in questo modo), per ottenere le stime dei parametri non si può procedere nel modo ordinario. Possibili
soluzioni:
Riparametrizzazione
link o riferimento
(vedere anche l’esempio che segue)
Aggiunta di altre equazioni (vincoli) sui parametri: ad esempio in
un modello di analisi della varianza ad una via in cui si è usata, per
comodità interpretativa, la parametrizzazione:
µj = µ + ηj ,
301
302
Materiale didattico statistica 3
si potrebbe aggiungere il vincolo:
µ=
k
X
µj nj /n
j=1
P
(che equivale a: kj=1 ηj nj = 0 );
Modifica della matrice X in modo da eliminare la singolarità
Uso dell’inversa generalizzata.
Inversa generalizzata
Questo approccio è utile da un punto di vista teorico per stabilire, se
possibile, il limite eventuale dell’analisi nel caso di rango non pieno
della matrice X .
Per far questo, indichiamo una delle soluzione dei minimi quadrati in modo generale, facendo ricorso all’inversa generalizzata:
b = (XT X)− XT y
tenendo presente che stavolta questa soluzione non è unica.
• In effetti dal punto di vista del calcolo non conviene ricorrere all’inversa generalizzata, piuttosto conviene aggiungere delle altre equazioni, o lasciare non specificati alcuni parametri
incogniti.
• tuttavia è una notazione qualche volta comoda, perché consente
di esaminare alcune proprietà degli stimatori.
• In questo corso di norma non verrà impiegato questo approccio,
importante tuttavia da segnalare.
Cenno alle funzioni stimabili
In effetti si può dimostrare che nei modelli a rango non pieno non
tutte le funzioni lineari dei parametri sono stimabili.
2002-3003 versione provvisoria
10.1.1
303
Analisi della varianza ad una via
Modelli ad effetti fissi:assunzioni di base
Il modello più semplice di analisi della varianza si ha per il modello
ad una via ad effetti fissi.
Per modello ad effetti fissi si intende un modello nel quale i
parametri incogniti, come fatto fino ad ora, rappresentano delle
costanti, sebbene non note.
In un modello ad effetti casuali invece i parametri, o almeno
alcuni di essi, sono delle realizzazioni di variabili casuali, per le
quali occorre ipotizzare un modello particolare.
Si ha un modello ad una via quando le n osservazioni sono suddivise in k gruppi secondo le k modalità di un criterio di classificazione
in generale qualitativo. Se il criterio di classificazione è quantitativo esiste la possibilità di effettuare analisi più forti di quelle che
vengono esposte in queste pagine, tenendo presenti le tecniche di
regressione lineare, come si vedrà più avanti.
Il modello per y :
yi = µj + εi i = 1, 2, . . . , n
Il modello per le medie:
µj = µ + ηj j = 1, 2, . . . , k
media gruppo j = media generale + effetto gruppo j Il modello
è detto a effetti fissi perché si suppone che le µj siano dei parametri
fissi, sebbene incogniti, relativi a k particolari gruppi.
In definitiva il modello per le osservazioni diventa:
yi = µ + ηj + εi µj = i = 1, 2, . . . , n; j = 1, 2, . . . , k
Osservazione = media generale + effetto gruppo j+errore accidentale
In effetti, per i motivi anticipati prima, occorre fissare un vincolo
sui parametri, dato che questa parametrizzazione (1 media generale
+ k effetti dei gruppi) ha introdotto un nuovo parametro; infatti
anche se i parametri adesso sono k +1 , in realtà la parte sistematica
304
Materiale didattico statistica 3
del modello è chiaramente dipende soltanto da k parametri degli
effetti medi.
Il vincolo che si impiega è:
µ=
k
X
µj nj /nequindi
j=1
k
X
ηj n j = 0
j=1
Non è una scelta univoca, ma presenta il vantaggio che, qualora
si ipotizzi assenza di effetti, la stima di µ sotto H0 coincide con
quella sotto H1 . Diversamente si potrebbe pensare ad un sistema di
vincoli più naturale, indipendente dalle ampiezze campionarie, con
pesi uguali:
µ=
k
X
j=1
µj /kequindi
k
X
ηj = 0.
j=1
Scopo dell’analisi è quello di fare inferenza sulle relazioni che
intercorrono fra le k medie delle popolazioni. In particolare si può
essere interessati a saggiare l’ipotesi che le k medie siano tutte uguali, contro un’alternativa generica che almeno una sia diversa dalle
altre: ipotesi di omogeneità:
H0 : µj = µj = 1, 2, . . . , k
(Le medie sono uguali ad un valore comune non specificato) equivalente a:
H0 : ηj = 0j = 1, 2, . . . , k,
(Gli effetti di gruppo sono tutti nulli)
questo tipo di impostazione, in termini di effetti, è utile in particolare con disegni di analisi della varianza a più vie.
P
In questo caso si ipotizza sempre un vincolo sui parametri: kj=1 ηj nj =
0 , in modo che questi risultino stimabili In questo modo si vede che
in entrambi i casi l’ipotesi nulla fissa k − 1 vincoli sui parametri.
L’ipotesi alternativa H1 consiste temporaneamente nella semplice
negazione di H0 . Impostato in questo modo il problema, si tratta
banalmente di un’estensione a k medie del test t per il confronto di
due medie mediante due campioni indipendenti.
Assunzioni fatte sulla componente accidentale; In corrispondenza delle ipotesi di base sulla distribuzione degli errori già fatte nel
contesto generale dei modelli lineari, si hanno le seguenti assunzioni
nell’analisi della varianza ad una via:
2002-3003 versione provvisoria
305
εi (N (0, σ 2 );
e quindi
yi (N (µj , σ 2 )conUi (Gj j = 1, 2, . . . , k
εi , εr indipendenti (sia se Ui e Ur appartengono allo stesso gruppo sia nel caso i gruppi siano diversi); è utile vedere adesso questa ipotesi generale di indipendenza scomposta in due assunzioni
particolari, con riferimento ai k campioni:
gli errori sono indipendenti all’interno dei k campioni (ciascun
gruppo è un campione casuale semplice);
i k campioni sono indipendenti.
Omoscedasticità;
Ipotesi di normalità.
(in effetti si potrebbe semplicemente assumere la non correlazione, e l’indipendenza scaturirebbe una volta fatta anche l’ipotesi di
normalità)
Si noti che le ultime due assunzioni (normalità e omoscedasticità)
riguardano esclusivamente le k popolazioni (o universi) teoriche e
non hanno relazione con il campionamento; le prime due assunzioni
riguardano invece le relazioni fra le unità e fra i campioni e sono
quindi collegati essenzialmente al meccanismo di acquisizione dei
dati. (in effetti, però, un qualche collegamento fra i due gruppi di
assunzioni esiste se per esempio si assume soltanto la non correlazione fra le osservazioni entro i campioni: se si assume anche la
normalità, questa implica l’indipendenza).
In pratica si sta ipotizzando che il modello da cui provengono i
dati è del tipo rappresentato nella figura che segue (se è vera l’ipotesi
nulla): Figura da inserire
FIG2000ANOVA1.STG
Se invece non vale l’ipotesi nulla di omogeneità delle medie, si
potrà avere una situazione come quella della figura che segue: Figura
da inserire
FIG2000ANOVA2H1.STG
In ogni caso si tratta di k popolazioni, normali, con la stessa varianza, per le quali l’eventuale effetto sperimentale (ossia l’appartenenza ad un particolare gruppo) comporta in sostanza semplicemente uno slittamento dell’intera distribuzione (o di più distribuzioni).
Figura da inserire
306
Materiale didattico statistica 3
FIG2000ANOVAH1.STG
Modelli ad effetti fissi:allontanamenti dalle assunzioni di base
In definitiva, come si è visto, se valgono le assunzioni di base, H0
consiste nell’ipotesi che le k popolazioni siano in tutto uguali, ossia
che i k campioni in realtà si possono considerare provenienti da
un’unica popolazione.
Se adesso supponiamo delle assunzioni meno rigide, possiamo ovviamente pensare di non far valere (o di rendere più flessibile) una
o più delle quattro ipotesi.
Qui esaminiamo soltanto alcune delle implicazioni poste dall’allontanamento dall’ipotesi di normalità o dall’ipotesi di omoscedasticità, lasciando ad altre sezioni la discussione sull’ipotesi di
indipendenza entro e fra i campioni.
Eteroscedasticità (varianze non omogenee) Evidentemente adesso, ammettendo comunque la normalità, anche se H0 è vera, le k popolazioni non saranno uguali; perché possono avere comunque delle
varianze differenti. Il problema di prova delle ipotesi più semplice,
ossia quello specificato da H0 , non implica più quindi l’uguaglianza
di k popolazioni, ma soltanto l’uguaglianza di k effetti medi.
Se il criterio di classificazione corrisponde a k trattamenti sperimentali, questa situazione corrisponde ad ammettere che i trattamenti possano provocare un alterazione nella variabilità fra i le
unità sperimentali.
In pratica il modello assunto è:
yi (N (µj , σj2 )conUi (Gj j = 1, 2, . . . , k
Ovviamente le varianze σj2 andranno stimate dai singoli campioni,
e costituiscono quindi degli ulteriori parametri di disturbo nell’inferenza sugli effetti medi; è noto inoltre che nella costruzione di un
test già nel caso di due campioni si ricade nel problema di Beherens
-Fisher. Figura da inserire
FIG2000ANOVA2.STG
Tuttavia è sempre possibile verificare preliminarmente l’adeguatezza dell’assunzione di omoscedasticità, per campioni costituiti da
osservazioni ripetute provenienti da k popolazioni normali. Più
2002-3003 versione provvisoria
307
avanti in questi appunti accenno il test più noto,il test di Bartlett,
basato sul rapporto fra le verosimiglianze.
Non normalità Occorrerebbe qua fare numerosissime distinzioni,
perché si hanno ovviamente infinite forme di allontanamento dalla
normalità. Qui elenco alcune delle situazioni più plausibili:
• k popolazioni non normali ma dello stesso tipo e tutte note
• k popolazioni non normali appartenenti alla stessa famiglia
parametrica, e dipendenti da uno o più parametri incogniti.
– Ad esempio le popolazioni potrebbero essere delle normali
di ordine p o delle uniformi
– Oppure potrebbero essere k distribuzioni gamma (con un
parametro da stimare)
– Oppure potrebbero essere k distribuzioni esponenziali
• k popolazioni non normali appartenenti ad un’unica famiglia
parametrica non nota.
• k popolazioni non normali appartenenti a diverse famiglie parametriche
10.1.2
Ipotesi di omogeneità delle medie: stimatori e test
corrispondenti.
Le stime di massima verosimiglianza dei parametri, in assenza di
vincoli sui parametri stessi ossia sotto H1 , si ottengono molto semplicemente considerando che i k campioni sono indipendenti e sono
costituiti da osservazioni indipendenti provenienti da universi normali. Quindi è ovvio che tali stimatori sono le medie aritmetiche Mj
delle nj osservazioni relative a ciascun campione (j = 1, 2, . . . , k) .
Tuttavia, se si vuole lavorare con la tecnica dei modelli lineari
generali, occorre considerare:
la matrice X , che è ora costituita dalle k colonne di appartenenza
delle n unità ai k gruppi:
308
Materiale didattico statistica 3











X=










1; 0; . . . ; 0

...;...;...;... 


1; 0; . . . ; 0



0; 1; . . . ; 0

...;...;...;... 



0; 1; . . . ; 0

...;...;...;... 



0; 0; . . . ; 1

...;...;...;... 

0; 0; . . . ; 1
la matrice XT X è chiaramente costituita da una matrice diagonale, con elemento generico sulla diagonale dato da nj (si riveda
lo schema del la matrice X riportato nell’introduzione dei modelli
lineari, e si verifichi tale relazione: si consideri che le colonne di X
sono ortogonali, per cui gli unici elementi non nulli nel prodotto
XT X , sono quelli corrispondenti agli elementi diagonali), per cui:


n1


X X = Diag(n1 , n2 , . . . , nk ) = 


T





n2
...
nk
Il vettore XT y è costituito dalle k somme delle osservazioni per
ciascun gruppo, ossia


n 1 M1


 ... 



XT y = (n1 M1 , n2 M2 , . . . , nk Mk )T = 
n
M
j
j




 ... 
n k Mk
per cui in definitiva si ha:
stime di massima verosimiglianza nell’analisi della varianza ad
una via:
b = (XT X)−1 XT y =
2002-3003 versione provvisoria
309
= Diag(n1 , n2 , . . . , nk )−1 (n1 M1 , n2 M2 , . . . , nk Mk )T =






−1
n1
n2





...
nk

n 1 M1


 ...

 n j Mj


 ...
n k Mk







M1


 ...

=
 Mj

 ...
Mk








La stima delle µj è dunque data dalle stime di massima verosimiglianza di ciascun campione Mj
La stima di massima verosimiglianza di σ 2 si ottiene nel modo
usuale con la tecnica generale adottata nei modelli lineari, ossia
dalla devianza residua (relativa al modello completo) diviso i gradi
di libertà corrispondenti.
M.Q . vincolati: Analisi della varianza ad una via .
La matrice X è composta da k colonne indicatrici dell’appartenenza
delle n unità a k gruppi disgiunti. La parametrizzazione più naturale
è quella in cui ogni parametro corrisponde al valor medio di Y in
ciascun gruppo:
β T = µ1 , . . . , µ j , . . . , µ k
L’ipotesi di interesse è:
H0 : β1 = β2 = . . . = βk
310
Materiale didattico statistica 3
Queste k − 1 uguaglianze corrispondono ad una scelta di C di k − 1
righe e k colonne:
vincolo
Gr.1 Gr.2 . . . Gr.J . . . Gr.K
1
1
0
...
0
...
−1
2
...
1
...
...
...
−1
0
0
...
0
0
−1
j
0
0
...
1
0
−1
...
...
...
...
...
...
−1
k−1
0
0
0
0
...
−1
...
C[k−1×k] =
con a = 0k−1
Scrivere ora Cβ = a è come scrivere:
µ1 − µk = µ2 − µk = . . . = µj − µk = . . . = µk−1 − µk = 0.
Che costituiscono (k − 1) vincoli sui parametri;
Occorre trovare la soluzione di massima verosimiglianza condizionatamente a tali vincoli (lineari)
In effetti per la stima dei parametri sotto H0 non conviene ricorrere alla tecnica generale di stima con vincoli lineari qualsiasi, ma
piuttosto ad un approccio diretto:
Infatti la matrice X nel modello specificato da H0 è composta da
una colonna di n valori uguali ad 1;


1


 1 



X=
.
.
.




 ... 
1
per cui è facile verificare che la soluzione è data da:
T
−1
b0 = (X X)
T
X y=
n
X
yi /n = M (Media generale)
i=1
D’altra parte è ovvio che sotto l’ipotesi nulla la stima di µ è data
dalla media generale, in quanto in questo caso l’ipotesi specifica che
la popolazione di provenienza è un’unica distribuzione normale, e
quindi deriva l’usuale risultato sullo stimatore di massima verosimiglianza. La stima di σ 2 sarà adesso costituita dalla devianza residua
sotto H0 , divisa per i gradi di libertà corrispondenti.
2002-3003 versione provvisoria
311
Scomposizione della varianza.
Secondo l’approccio generale scomponiamo la devianza della componente accidentale, R(β) . Si riveda eventualmente tale parte nei
modelli lineari.
Impiego qui la notazione yij per indicare la i -esima osservazione del j -esimo gruppo (diversa rispetto alla precedente convenzione, tuttavia questa notazione risulta più utile quando, come
adesso, un problema che è formalmente inquadrabile nell’ambito dei modelli lineari, è naturalmente interpretabile anche come
confronto fra k popolazioni diverse attraverso k campioni, da
cui l’esigenza del doppio indice, uno per le unità e l’altro per i
gruppi)
R(β) = R(b) + (b − β)T XT X(b − β)
Oppure :
(y − Xβ)T (y − Xβ) = (y − Xb)T (y − Xb) + (b − β)T XT X(b − β)
che nel nostro caso diventa:
nj
k X
X
j=1 i=1
2
(yij − µj ) =
nj
k X
X
2
(yij − Mj ) +
k
X
j=1 i=1
nj (µ − Mj )2
j=1
Con riferimento alle devianze residue si ha:
devianza residua sotto H1 :
R(b) =
nj
k X
X
(yij − Mj )2
j=1 i=1
devianza residua sotto H0 :
R(b0 ) =
nj
k X
X
(yij − M )2
j=1 i=1
e ricordando che b è costituito dal vettore delle k medie Mj e che
b0 è invece costituito dalla media generale M si ha:
312
Materiale didattico statistica 3
Scomposizione ricavata
dal caso di ipotesi di
vincoli lineari qualsiasi
della devianza sotto H0
(rivedere eventualmente)
devianza residua sotto
H1 .
devianza residua aggiuntiva dovuta ad H0
R(b0 ) = R(b)+(b−b0 )T XT X(b−b0 ) =
Pk Pnj
=
j=1
i=1 (yij −
2
Mj ) +
P
+ kj=1 nj (Mj − M )2
link o riferimento
VEDERE ANCHE TAVOLA RIPORTATA PIU’ AVANTI
Per la stima della varianza ovviamente si ha:
s2 (n − k)/σ 2 (χ2n−k
qualunque sia l’ipotesi vera
k
nj
devianzaentroigruppi X X
=
(yij − Mj )2 /(n − k)
s =
n−k
2
j=1 i=1
s2 è sempre una stima corretta della varianza
TAVOLA DI SCOMPOSIZIONE DELLA DEVIANZA EMPIRICA
(tavola dell’analisi della varianza)
2002-3003 versione provvisoria
FONTE
313
DEVIANZA
Pnj
2
j=1
i=1 (yij − M )
Pk Pnj
2
j=1
i=1 (yij − Mj )
Pk
2
j=1 nj (Mj − M )
Pk
TOTALE
ENTRO I GRUPPI
FRA I GRUPPI
g.d.l.
Valore atteso
Pk
j=1
n−1
n−k
k−1
(n − k)σ 2
P
(k − 1)σ 2 + kj=1 nj ηj2
devianza totale = devianza entro i gruppi+devianza fra i
Test F per la verifica dell’ipotesi di omogeneità delle medie:
Pk
nj (Mj −M )2
k−1
Pk Pnj
2
i=1 (yij −Mj )
j=1
n−k
j=1
gruppi
F =
Secondo quanto già visto nell’analisi del modello lineare generale,
sotto l’ipotesi nulla di omogeneità fra le medie, questo rapporto F
si distribuisce come una v.c. F di Snedecor con (k − 1) e (n − k)
gradi di libertà. La distribuzione di F sotto H1 é quella di una F
non centrale con (k − 1) e (n − k) gradi di libertà, e parametro di
P
non centralità kj=1 nj ηj2 .
E’ facile vedere che esiste una relazione fra questo rapporto F ed
2
il rapporto di correlazione, ηyx = σσmy
(o meglio il suo quadrato ηyx
y
) impiegato come indice per misurare, in una tavola di contingenza
con un carattere quantitativo y ed un carattere qualsiasi X , la
dipendenza in media della variabile quantitativa y dalla variabile
2 , che varia fra 0 ed
(qualitativa o quantitativa) X . L’indice ηyx
2
1, infatti é costruito come rapporto fra σmy varianza tra le medie
parziali di y e σy2 , varianza totale di y , ossia sempre quantità che
compaiono nella tavola di analisi della varianza.
Ricordando che:
2
σmy
=
k
X
j=1
2
nj (Mj − M )
/neσy2
=
nj
k X
X
j=1 i=1
(yij − M )2 /n
Stima della
Pnj
i=1
Pnn−
j
i=1 (
j=1
n−
Pk
j=1 nj (M
k−
Pk
314
Materiale didattico statistica 3
2
ηyx
2
σmy
= 2
σy
si ha:
Pk
nj (Mj −M )2
k−1
Pk Pnj
2
i=1 (yij −Mj )
j=1
n−k
j=1
F =
=
Pk
nj (Mj −M )2
k−1
Pk Pnj
P
(y
−M
)2 − kj=1 nj (Mj −M )2 ]
ij
i=1
j=1
n−k
j=1
=
=
Dividendo ora numeratore e denominatore per nσy2 , si ha subito:
F =
1−
2
σmy
(k−1)σy2
2 ;
σmy
/(k
σy2
=
− 1)
2
[n − k]ηyx
2 )
[k − 1](1 − ηyx
Pertanto, anche se non è molto rigoroso, si potrebbe vedere il
test F come un test per saggiare la significatività di un rapporto di
correlazione.
Formule per il calcolo Come già visto in altre occasioni, e come
è noto in generale per il calcolo dei momenti con origine la media
aritmetica, è possibile calcolare le tre devianze necessarie per la costruzione della tavola esprimendo le somme dei quadrati degli scarti
(momenti con origine la media) in funzione di somme di quadrati
(momenti con origine zero); riassumiamo di seguito tutte le formule
utili per il calcolo delle quantità necessarie nell’analisi della varianza
a una via.
Formule elementari per l’analisi della varianza ad una via
2002-3003 versione provvisoria
315
Numerosità totale
N=
j=1 nj ;
P
nj
yij
Mj = i=1
nj
Pk Pnj
yij
M j=1 N i=1
=
j = 1, 2, . . . , k
Pnj
(yij − M )2 =
j=1
Pk Pni=1
j
2
j=1
i=1 (yij − Mj ) =
Pk
2
j=1 nj (Mj − M )
Pnj 2
yij − N M 2
j=1
Pk Pnj i=1
Pk
2
2
j=1
j=1 nj Mj
i=1 yij −
Pk
2
2
j=1 nj Mj − N M
Media del gruppo j
Media generale =
Devianza TOTALE =
ENTRO I GRUPPI:
FRA I GRUPPI
Pk
Pk
Pk
Pk
Le tre quantità essenziali per il calcolo delle devianze interne sono
dunque:
nj
k X
X
2
yij
;
j=1 i=1
k
X
nj Mj2 =
j=1
nj
k
X
X
j=1
2
!
2
yij
/nj
i=1
NM = (
nj
k X
X
nj Mj
N
j=1
yij )2 /N
j=1 i=1
Chiaramente queste formule sono utili per il calcolo manuale delle devianze, mentre è ovvio, come già accennato altre volte, che
nella pratica si farà uso di software statistico, programmato da sé
o presente in software commerciale, con il quale presumibilmente
(e auspicabilmente) lo studente sarà già familiare, e che senz’altro
sarà indispensabile nella pratica quotidiana di soluzione di problemi
reali.
In effetti, per esperienza personale, suggerisco allo studente di
effettuare qualche esercizio di analisi della varianza (magari relativi
a data-set poco numerosi, con soltanto con qualche decina di dati)
316
Materiale didattico statistica 3
esclusivamente con una calcolatrice da tavolo, impiegando le formule
sopra riportate.
Sebbene io abbia volutamente trascurato volutamente di affrontare problemi di tipo numerico e/o computazionale, va detto che
le formule sopra riportate presentano il vantaggio di leggere i dati
una sola volta, il che risulta utile per insiemi di dati molto numerosi o registrati su supporti a bassa velocità di accesso; questa
maggiore velocità di calcolo viene compensata da una possibile
perdita in precisione numerica, dal momento che le somme di
quadrati conterranno numeri più grandi che non le somme di
quadrati di scarti.
Considerazioni simili valevano anche per il calcolo dei momenti bivariati (covarianze) necessari per il calcolo della matrice di
correlazione.
Un modo conveniente di memorizzare i dati è quello di scrivere in
una colonna tutte le osservazioni campionarie yij , ed in una colonna
affiancata un numero, una lettera o anche una sigla alfanumerica
identificativa del gruppo di appartenenza.
In effetti il più delle volte li si troverà già in questa forma, all’interno di databases con un numero di colonne anche molto
maggiore di due!!
INSERIRE ESEMPIO
INSERIRE ESEMPIO
INSERIRE ESEMPIO
L’analisi della varianza come confronto fra stime di varianze
Presentiamo in questo paragrafo un modo leggermente diverso di
impostare l’analisi della varianza ad una via, direttamente come
problema di confronto fra varianze campionarie, che mette in luce
il ruolo fondamentale dello studio della variabilità fra i gruppi per
analizzare l’eterogeneità di un gruppo di medie campionarie.
2002-3003 versione provvisoria
317
Se l’ipotesi nulla di omogeneità delle medie è vera posso stimare
la varianza in due modi diversi:
mediante le singole osservazioni, attraverso la solita quantità:
2
s =
nj
k X
X
(yij − M )2 /(n − k)
j=1 i=1
(che è una stima corretta della varianza anche sotto H1 ); mediante il campione di k medie (ma solo sotto H0 ); infatti supponiamo
per semplicità che i k campioni siano tutti di numerosità nj = m .
Allora ciascuna media Mj è una variabile casuale con distribuzione
normale di parametri µj e σ 2 /m . Se però H0 è vera le k medie
provengono tutte dalla stessa popolazione normale di parametri µ
e σ 2 /m , e quindi costituiscono un campione casuale semplice (di
ampiezza k ) da una normale, per cui si può stimare il parametro
σ 2 /m attraverso la varianza campionaria:
s2M =
k
X
(Mj − M )2 /(k − 1)
j=1
E’ facile vedere che ms2M è uno stimatore di σ 2 e che quindi il
rapporto
ms2M /s2
(che è proprio il rapporto F visto nelle pagine precedenti) si
distribuisce sotto l’ipotesi nulla di omogeneità fra le medie, come
una F di Snedecor, in quanto rapporto di due stimatori corretti (e
indipendenti) di σ 2 . Figura da inserire
fminoredi1.bmp
Valore di F inferiore ad uno.
E se il test F risulta inferiore ad 1? E’ un caso? Occorre fare qualche
considerazione particolare o ci limitiamo a dire che non c’è evidenza
contro H0 ?
A rigore non dovrebbe importare, perché la zona di rifiuto del test
è nella coda destra della distribuzione; tuttavia, per il ragionamento fatto nella sezione precedente, ciò significherebbe che la varianza
stimata attraverso le medie è molto più bassa di quella sperimentale, mentre dovrebbero essere sotto H0 al più dello stesso ordine
318
Materiale didattico statistica 3
di grandezza; in effetti nell’AOV la varianza sperimentale rappresenta il metro secondo cui giudichiamo la variabilità fra le medie.
In sostanza se F è minore di 1, o addirittura molto più piccolo, ciò
vuol dire che la variabilità misurata attraverso le medie degli effetti
è inferiore a quella sperimentale. Questo potrebbe essere un indizio
di cattiva pianificazione dell’esperimento. Oppure qualche fattore di
variazione è stato erroneamente trascurato, e la varianza sperimentale é sovrastimata, e quindi s2 non é un metro adatto per misurare
la variabilità fra le medie degli effetti.
10.1.3
Divergenza dalla linearità per fattori quantitativi
nell’analisi della varianza.
Figura da inserire box plot e introduzione generale al problema.
Riprendiamo in esame la tavola di analisi della varianza per un
criterio di classificazione qualitativo: TAVOLA DI SCOMPOSIZIONE DELLA DEVIANZA EMPIRICA
DEVIANZA
Pnj
2
j=1
i=1 (yij − M )
Pk Pnj
2
j=1
i=1 (yij − Mj )
P
k
2
j=1 nj (Mj − M )
Pk
TIPO
g.d.l.
TOTALE
n−1
ENTRO I GRUPPI
n−k
FRA I GRUPPI
k−1
Val. atteso
(n − k)σ 2
P
(k − 1)σ 2 + kj=1 nj ηj2
relazione fra il test F e il rapporto di correlazione (empirico: eyz
; teorico: ηyz )
Esistono casi in cui è possibile scomporre ulteriormente la devianza fra i gruppi?
− Mj )2
− M )2
i=1 (yij
j=1 nj (Mj
Pk
j=1
Pk
Pnj
DEVIANZA
Pnj
2
j=1
i=1 (yij − M )
Pk
F RAIGRU P P I
ENTRO I GRUPPI
TOTALE
TIPO
k−1
n−k
n−1
g.d.l
variabilità spiegabile dalla classificazione in k gruppi; è ancora
scomponibile se:il criterio di classificazione è a più entrate (AV a
più vie) oppure se il criterio di
classificazione è numerico;
variabilità residua:non riducibile
ulteriormente (a meno che non
vi siano variabile concomitanti, si
veda l’analisi della covarianza)
variabilità complessiva osservata
della variabile di risposta y , non
considerando l’esistenza di fattori
di classificazione.
2002-3003 versione provvisoria
319
320
Materiale didattico statistica 3
Se il criterio di classificazione è numerico, con livelli zj , si può
scomporre ulteriormente la devianza fra i gruppi,
k
X
nj (Mj − M )2 ,
j=1
per vedere quanta parte di essa è spiegata dalla regressione lineare
delle medie di yMj sui valori zj .
Se M̂j è il valore stimato dalla regressione lineare:
M̂j = byz zj
si può dimostrare che si può operare algebricamente la scomposizione:
Pk
j=1 nj (Mj
Fra i gruppi
− M )2 =
Pk
j=1 nj (Mj
− M̂j )2 +
Divergenza dalla linearita’
Pk
j=1 nj (M̂j
− M )2
Regressione lineare di
Y su z
(la somma dei doppi prodotti è nulla per le equazioni normali);
Si può applicare il teorema di Cochran (perché la somma dei gradi
di libertà coincide col totale) Quindi i due termini si distribuiscono
(sotto H0 ) secondo due v.c. χ2 indipendenti, con k − 2 e 1 grado di
libertà. In definitiva nel caso di un fattore quantitativo Z possiamo
scomporre la devianza totale in tre parti:
Tavola di scomposizione della devianza empirica di y per un
criterio di classificazione semplice con k livelli quantitativi zj
2002-3003 versione provvisoria
321
DEVIANZA
TIPO
g.d.l.
Proporzione di devianza totale
Pnj
2
j=1
i=1 (yij − M )
Pk Pnj
2
j=1
i=1 (yij − Mj )
P
k
2
j=1 nj (Mj − M̂j )
Totale
n−1
1
Entro i gruppi
n−k
1 − e2yz
yij − Mj
Divergenza dalla linearita’
k−2
e2yz
Mj − M̂j
Regressione lineare di y
su z
1
2
ryz
Pk
Pk
j=1 nj (M̂j
− M )2
yij− M
2
− ryz
Si può costruire il test per la verifica dell’ipotesi di linearità della
regressione:
F =
component
2
e2yz −ryz
k−2
1−e2yz
n−k
Figura da inserire Introdurre grafico (box plot possibilmente)
Differenza fra i test di omogeneità
2 saggia l’ipotesi che le k medie non varino, contro
Il test su ryz
l’alternativa che varino in modo lineare rispetto a z .
saggia l’ipotesi che βyz = 0 , contro l’alternativa che βyz 6= 0 ,
essendo comunque i valori attesi di
y
funzioni lineari di Z )
Il test con e2yz saggia l’ipotesi che le k medie non varino, contro
l’alternativa che varino in modo qualsiasi (anche non linearmente
rispetto a z ).
saggia l’ipotesi che µj = µr , contro l’alternativa che per almeno
due gruppi si abbia: µj 6= µr , essendo i k valori attesi di y funzioni
qualsiasi di Z )
In linea generale questi due test dovrebbero differire per quanto
riguarda il potere, dal momento che si riferiscono ad alternative
differenti.
2 saggia l’ipotesi che le k medie varino solo per
Il test su e2yz − ryz
effetto di una relazione lineare rispetto a z , contro l’alternativa che
varino in modo non lineare.
M̂j − M
322
Materiale didattico statistica 3
Per esempio, supponendo l’esistenza di una relazione polinomiale
di grado k − 1 dei valori attesi di y rispetto a Z .
E(yi ) =
k−1
X
βj zij :
j=0
saggia l’ipotesi che i k − 2 coefficienti dei termini di grado 2o e
superiore siano nulli,
H0 : β2 = β3 = . . . = βk−1 = 0; β0 , β1 qualsiasi
ossia l’ipotesi che la relazione sia lineare, contro l’alternativa che
almeno un coefficiente sia diverso da zero, ossia che la relazione sia
curvilinea.
10.2
Analisi della varianza a due vie
Analisi della varianza per due criteri di classificazione qualitativi:
Elementi del modello:
yijk = µij + εijk ;
assunzioni su ε
Modello per µij :
P
ARAMETRI
Media Riga i (fattore A)
i = 1, . . . , r
µi.
med
med
Media Colonna j (fattore B)
j = 1, . . . , c
µ.j
med
med
η λ ν ε Media generale
µ
media ponderata delle rc medie µij
. . . separabilità degli effetti;
definizione degli effetti di riga e di colonna:
2002-3003 versione provvisoria
323
effetto generale
µ
(un parametro)
effetto Riga (fattore A)
αi = µi. − µ
i = 1, . . . , r
effetto Colonna (fattore
B)
βj = µ.j − µ
j = 1, . . . , c
Modello additivo:
yijk = µ + αi + βj + εijk;
Discussione su additività:
esempio con una tavola 2x2
15
20
22
???
interazioni.
effetto interazione AxB
γ ij = µij − µi. − µ.j + µ
i = 1, . . . , r; j = 1, . . . , c
significato delle interazioni
Le interazioni possono essere viste come deviazioni dal modello additivo.
oppure differenze fra gli effetti di riga in corrispondenza dei diversi livelli di colonna
Effetti moltiplicativi per variabili quantitative
esempio con le variabili indicatrici
interpretazione degli effetti dei fattori in presenza di interazione:
effetti medi e non parziali
324
Materiale didattico statistica 3
ESEMPI:
B1
B2
Marg.
A1
12
8
100
A2
6
14
100
Marg.
9
11
10
Discussione sul numero di parametri indipendenti Impostazione
del modello lineare generale
Figura da inserire ALTRO MATERIALE
ESEMPI E GRAFICI (mathematica)
(SU INTERAZIONI COME EFFETTO MOLTIPLICATIVO:
E [y] = A + bx1 + cx2 + dx1 x2 )
Influenza della ripartizione delle n osservazioni nelle r × c celle sull’analisi
Possibili configurazioni delle ampiezze campionarie: (corrispondono
a configurazioni differenti della matrice del disegno Xn×(rc) )
nij proporzionali:
ni. n.j
nij =
n
Caso bilanciato; in particolare:
nij uguali:
nij = m
Si possono usare pesi uguali per la definizione degli effetti;
• con una sola osservazione per casella (m = 1) non sarà possibile
stimare nel modo ordinario la varianza σ 2 senza fare opportune
ipotesi sulle interazioni γ ij .
• con nij qualsiasi (frequenze non proporzionali)
• In questo caso Gli stimatori degli effetti di riga e di colonna
risultano non ortogonali.
2002-3003 versione provvisoria
325
• problema della scelta dei pesi per la definizione degli effetti riga
e di colonna;
• Problemi per la stima degli effetti;
• Problemi per la scomposizione della devianza e per i test.
scomposizione della devianza empirica
Analisi della varianza per due criteri di classificazione qualitativi:
Si scompone facilmente la devianza totale:
r X
c X
m
X
(yijk − M )2 =
i=1 j=1 k=1
Aggiungendo e sottraendo Mij , Mi. , M.j ed arrangiando opportunamente i termini:
r X
c X
m
X
[(yijk −Mij )+(Mij −Mi. −M.j +M )+(Mi. −M )+(M.j −M )]2 =
i=1 j=1 k=1
r X
c X
m
X
2
(yijk − Mij ) + m
(Mij − Mi. − M.j + M )2 +
i=1 j=1
i=1 j=1 k=1
+mc
r X
c
X
r
X
i=1
2
(Mi. − M ) + mr
c
X
(M.j − M )2
j=1
I doppi prodotti (nel caso bilanciato) sono tutti nulli.
326
Materiale didattico statistica 3
TAVOLA DI SCOMPOSIZIONE DELLA DEVIANZA EMPIRICA per due criteri di classificazione qualitativi con: nij = m; n =
rcm
DEVIANZA
Pc Pm
(yijk − M )2
Pri=1Pcj=1Pmk=1
(yijk − Mij )2
Pr i=1Pc j=1 k=1
m i=1 j=1 (Mij − Mi. − M.j + M )2
P
mc ri=1 (Mi. − M )2
P
mr cj=1 (M.j − M )2
Pr
fonte di variab.
g.d.l.
totale
rcm − 1
entro i gruppi
rc × (m − 1)
interazioni
(r − 1) × (c − 1)
righe
r−1
(
colonne
c−1
(
(r − 1) ×
2002-3003 versione provvisoria
327
Cenno alle formule semplificate per il calcolo delle devianze
La devianza totale è stata scomposta con:
DT=DE+DI+DR+DC
Posto: s2 = DE/gdl(DE)
è immediato ottenere i tre test (nel caso bilanciato, e quindi ortogonale (rivedere, se è il caso)) per la verifica delle ipotesi riguardanti:
Le interazioni:
DI
gdl(DI)s2
Gli effetti di riga:
DR
gdl(DR)s2
Gli effetti di colonna:
DC
gdl(DC)s2
Si distribuiscono sotto la corrispondente ipotesi nulla come delle
F con gli opportuni gradi di libertà
Significato dei test se le interazioni sono significativamente diverse da zero
Analisi della varianza a due vie
costruzione della matrice X per il caso con frequenze uguali
dimostrazione della ortogonalità
Figura da inserire Tavola della matrice X NELL’ AOV a 2 VIE
Orizzontale
effettuando il prodotto XT X si ottiene una matrice (simmetrica)
in 16 blocchi (4 gruppi di parametri x 4 gruppi di parametri);
riferendoci ancora solo al caso di numerosità uguale m nelle rc
caselle: n = mrc
µ
α
β
γ
(1) (r − 1) (c − 1) (r − 1)(c − 1)
XT X
=
n
0
0
0
µ
(1)
0
A
0
0
α
(r − 1)
0
0
B
0
β
(c − 1)
0
0
0
C
γ (r − 1)(c − 1)
328
Materiale didattico statistica 3






T
X X=




µ
α
β
γ
(1) (r − 1) (c − 1) (r − 1)(c − 1)
n
0
0
0
0
A
0
0
0
0
0
0
B
0
0
C











I quattro gruppi di parametri sono ortogonali
Risultano ortogonali anche se le frequenze sono proporzionali
nij = ni. n.j /n
Se le frequenze non sono proporzionali non sarà possibile stimare
in modo ortogonale gli effetti di riga e di colonna (cambierebbero
anche le stime di un gruppo di parametri di effetti in funzione dei
valori dell’altro gruppo di parametri)


2mc mc
mc




2mc
mc

Ar−1,r−1 = 

... 


2mc


2mr mr
mr



2mr
mr 


Bc−1,c−1 = 
... 


2mr
C = (Omettere);
ˆ a = Mi. − M
alf
i
ˆ
betaj = M.j − M
µ̂ = M
j = 1, . . . , c
i = 1, . . . , r
effetto interazione A × γ̂ij = Mij − Mi. − M.j + M i = 1, . . . , r; j = 1, . . . , c
B
effetto Colonna (fattore
B)
effetto Riga (fattore A)
effetto generale
Per cui è immediato vedere che (nel caso di frequenze uguali nij = m) si hanno i seguenti stimatori:
Per stimare i parametri conviene partire dalle definizioni dei parametri e dei vincoli. Infatti è ovvio che, nel modello
completo con rc parametri, si ha:
µ̂ij = Mij
2002-3003 versione provvisoria
329
330
10.2.1
Materiale didattico statistica 3
Analisi della varianza a due vie: altre problematiche
Disegni non bilanciati
caso in cui nij non sono proporzionali:
• la situazione è tipica di studi osservazionali, o indagini esplorative;
• qualche nij può anche essere nullo;
• per esempio anche in situazioni sperimentali se l’esperimento
associato a determinate combinazioni di fattori non può essere
condotto a termine.
• Le stime degli effetti interazioni e del residuo sono ortogonali
e sono anche ortogonali rispetto alle stime degli altri effetti
(scelto un opportuno sistema di pesi).
• Le stime degli effetti di riga non sono comunque ortogonali
rispetto alle stime degli effetti di colonna;
• (la matrice XT Xche si ottiene impostando l’opportuna matrice
X(n × rc) di variabili indicatrici, non è diagonale a blocchi.
Non è possibile scomporre la devianza nel modo visto per i piani
bilanciati Per stimare i parametri e per effettuare test si può ricorrere
alla teoria generale sui modelli lineari:
Si stimano i parametri e la devianza residua nel modo ordinario
dal modello con tutti i parametri;
Si stimano le porzioni di devianza attribuibili ai vari gruppi di
parametri (ed eventualmente si verificano delle ipotesi nidificate), in
sequenza: basta calcolare le stime dei parametri del modello imponendo gli opportuni vincoli, partendo dal gruppo delle interazioni,
e dopo gli effetti riga o colonna (procedura stepwise)
L’ordine di esecuzione della procedura per gli effetti riga e colonna
determina due tavole di scomposizione della devianza differenti e
stime differenti dei parametri (data la non ortogonalità)
Figura da inserire
ESEMPIO
2002-3003 versione provvisoria
331
Disegni bilanciati: una sola osservazione per casella (m = 1)
Se m = 1 non sarà possibile stimare nel modo ordinario la varianza
σ 2 senza fare opportune ipotesi sulle interazioni γ ij .
Infatti non vi sono gradi di libertà per la stima della varianza σ 2
della componente accidentale:
devianza entro i gruppi =
c X
m
r X
X
(yijk − Mij )2 = 0
i=1 j=1 k=1
(perchéyijk = Mij )
gradi di libertà = rc × (m − 1) = 0
Vi sono essenzialmente due possibilità (valide anche per modelli
a più vie):
1. Si assume γ ij = 0, ossia che il modello sia additivo, e si stima
la varianza attraverso:
s2I
=
r X
c
X
(Mij − Mi. − M.j + M )2 /((r − 1)(c − 1));
i=1 j=1
E(s2I )
r X
c
X
=σ +
γ 2ij /((r−1)×(c−1)) = σ 2 se si assume : γ ij = 0
2
i=1 j=1
(si riveda la scomposizione della devianza per il caso bilanciato)
2. Oppure si possono fare delle assunzioni sulle interazioni, in modo che le interazioni non abbiano (r-1)(c-1) gradi di libertà, ma
dipendano da un numero inferiore di parametri:
γ ij = gij (α, β, θ),
essendo θ un vettore di s < (r − 1)(c − 1).
Il modello in generale sarà non lineare nei parametri
Modelli moltiplicativi per le interazioni In effetti è opportuno
che s sia piccolo in modo da lasciare un numero di gradi di libertà
sufficiente per il residuo
In particolare (Tukey):
γ ij = θαi βj ,
332
Materiale didattico statistica 3
L’ipotesi moltiplicativa è la più semplice, e si dimostra che, sebbene il modello sia non lineare, si giunge ad una scomposizione additiva
conveniente che attribuisce a θ un grado di libertà e (r −1)(c−1)−1
gradi di libertà per la stima della varianza.
La validità delle ipotesi restrittive sulle interazioni può essere
giudicata anche attraverso un’opportuna analisi dei residui.
10.2.2
Analisi della varianza a più vie
Analisi della varianza a più vie
interazioni di ordine superiore al primo
Esempio con l’analisi della varianza per una classificazione completa a 3 vie (fattori A,B e C):
AC
BC
ABC
yijhk = µ + αi + βj + χh + γ AB
ij + γ ih + γ jh + γ ijh + εijhk;
µ+
+αi + βj + χh +
yijhk
effetto generale
effetti dei diversi livelli
dei tre fattori
AC
BC
+γ AB
ij + γ ih + γ jh + interazioni fra le cop=
pie di fattori (del primo
ordine)
+γ ABC
ijh +
interazioni del secondo
ordine
+εijhk
componente accidentale
Nel caso bilanciato l’analisi è simile a quella a due vie.
Piani 2k : Piani fattoriali completi e incompleti
si riveda in caso l’introduzione ai modelli lineari, con gli esempi relativi)
Mi dispiace! capitolo ancora da fare
Blocchi randomizzati; Quadrati latini
Mi dispiace! capitolo ancora da fare
2002-3003 versione provvisoria
10.2.3
333
Analisi della varianza con variabili concomitanti:
L’analisi della covarianza
Situazioni con variabili quantitative e qualitative (rivedere introduzione ai mod.lineari)
variabili concomitanti
Riduzione della devianza residua.
confronto fra k relazioni di regressione (lineare)
Introduzione del problema in generale
Interessi particolari:
Verificare la significatività degli effetti di uno o più fattori, eliminando l’influenza di variabili concomitanti (con riduzione della
devianza residua)
Verificare se l’influenza delle variabili quantitative è la stessa in
tutti i gruppi: confronto fra coeffiecienti di regressione lineare.
Assunzioni per l’analisi della covarianza semplificata
l’ipotesi di parallelismo
l’analisi della covarianza completa
l’ipotesi di linearità della relazione fra le medie delle variabili.
Matrice del disegno sperimentale per l’analisi della covarianza
con:
un fattore qualitativo a k livelli;
nj osservazioni per ogni trattamento o gruppo
una variabile concomitante quantitativa Z,
misurata come scarto dalla media del gruppo j:
nj
X
zij = 0; j = 1, 2, . . . , k
i=1
caso semplificato (rette parallele in tutti i gruppi)
in pratica si ipotizza assenza di interazione fra i due fattori:
334
Materiale didattico statistica 3
parametri da 1 a k
αj
termine costante della
regressione nel gruppo
j; j = 1, 2, . . . k.
parametro (k + 1)o
β
pendenza comune alle k
rette
Il vettore dei parametri è dato da:
θ T = {α1 , α2 , . . . , αk , β}
La matrice X (nell’impostazione a rango pieno) ha n righe e k +1
colonne:
i
RispostaosservataY
1
y1,1
1
0
...
...
...
...
...
n1
yn1,1
1
0
...
y1,2
0
1
...
...
0
...
...
yn2,2
0
1
...
...
...
...
yi,j
0
0
...
...
...
...
...
y1,k
0
0
...
...
0
0
...
ynk,k
0
0
...
n1 + n2
...
n1 + . . . + nj
n1 + . . . + nk
α1 cost.gruppo1 α2 cost.gruppo2 . . . αk
X=
2002-3003 versione provvisoria

1 0

 ... ...

 1 0


 0 1

 0 ...


 0 1

X=
 ... ...



 0 0


 ... ...

 0 0


 0 0
0 0
335
...
...
0
0

z1,1

... 

. . . 0 zn1,1 


. . . 0 z1,2 

... 0
... 


. . . 0 zn2,2 

... ... ... 




... 0
zi,j 


... ... ... 

. . . 1 z1,k 


... ... ... 
...
0
...
0
0
... ... ... ...
... ...
... ...
... ...
... ...
... ...
...
1
... ...
1
znk,k
Risposta osservata













Y=












y1,1


... 

yn1,1 


y1,2 

... 


yn2,2 

... 


yi,j 

... 


y1,k 

... 

ynk,k
Si vede che:

n1


X X=


T
0
0
0

...
0





0
nk
0
Pk Pnj 2
0
j=1
i=1 zij
336
Materiale didattico statistica 3



X y=


Pn1
i=1 yi1
...
T
Pnk
i=1 yik
P
nj
j=1
i=1 yij zij
Pk

1

... 

k 

k+1
Per cui le stime di massima verosimiglianza sono:
α̂j = Mj , j = 1, 2, . . . , k;
Pk
β̂ = b =
Pnj
i=1 yij zij
2
j=1
i=1 zij
j=1
Pk
Pnj
stima della pendenza comune:
β̂ = b è una media ponderata dei β̂j dei singoli gruppi.
La devianza residua è:
R(θ̂) =
nj
k X
X
∗
2
(yij −Mj −b zij ) =
j=1 i=1
=
nj
k X
X
j=1 i=1
nj
k X
X
2
(yij −Mj ) −b
j=1 i=1
2
(yij − Mj ) − [
nj
k X
X
nj
k X
X
2
zij
j=1 i=1
2
(yij − Mj )zij ] /
j=1 i=1
2
nj
k X
X
2
zij
=
j=1 i=1
=DevInt(y) − [Codev.Int(ZY )]2 /DevInt(Z)
(Riduzione di devianza residua, rispetto alla AOV, dovuta al
fattore concomitante)
Se l’ipotesi nulla impone k-1 vincoli:
H0 : α1 = α2 = . . . = αk (= α)
Il modo più semplice di procedere è quello generale di stimare i
parametri sotto H0 , e quindi sottrarre dalla devianza residua sotto
H0 quella residua non vincolata:
R(θ̂0 ) = DevT ot(y) − [Codev.T ot(ZY )]2 /DevT ot(Z)
R(θ̂0 ) è ricavata semplicemente dalla regressione di y su Z considerando i k gruppi come un unico campione.
Si tenga presente che in questo caso vanno considerati gli scarti di
Z dalla propria media generale, e non dalle medie dei singoli gruppi.
2002-3003 versione provvisoria
337
Per saggiare l’ipotesi si applica la tecnica generale dei modelli
lineari:
F =
R(θ̂0 )−R(θ̂)
k−1
R(θ̂)
n−k−1
Spiegare l’ipotesi in termini di differenza fra medie corrette
Tavola di scomposizione della di y nel caso di un fattore concomitante Z con pendenza uguale nei k gruppi:
DEVIANZA DI Y
SPIEGATA DALLA REGRESSIONE
tipo
SU Z g.d.l.
DevInt(y)
Codev.T ot(ZY )]2
DevT ot(Z)
Codev.Int(ZY )]2
DevInt(Z)
DevFraGruppi(y)
(2)-(4)
DevTot(y)
totale
n−2
entro i gruppi
n−k−1
fra i gruppi
k−1
La tecnica, in particolare nel caso di regressioni con pendenze
uguali entro le caselle, è generalizzabile al caso di un modello:
Y = Xθ + Zβ + ε
ove le colonne di Z sono costituite da s variabili concomitanti e
la matrice X (anche di rango non pieno) è la matrice di indicatori
associata ad una classificazione anche a più vie.
Caso generale: k coefficienti di regressione distinti La matrice X
sarà composta da 2k colonne, di cui le prime k sono come prima
costituite dagli indicatori di appartenenza ai gruppi:
338
Materiale didattico statistica 3









X1 = 








1
0
... ... ...
0

...
1
0
0
... ... ...
... ... ...
0
0

















... ... ... ... ... ...
0 0 ... 1 ... 0
... ... ... ... ... ...
0
0
...
0
...
1
0
0
0
0
...
...
0
0
... ...
... 1
Occorre ora affiancare altre k colonne:

z1,1

 ...

 zn1,1


 ...

X2 = 
 0

 ...

 0


 ...
0
... 0... ...
... ... ...
... 0... ...
...
...
...
zij
...
...
...
...
...
...
...
0
...
...
...
...
0
...

0

... 

0 


... 

0 


... 

zn1,k 


... 
znk,k
dato che ora il vettore di 2k parametri è:
θ T = α1 , . . . , αj , . . . , αk, β1 , . . . , βj , . . . , βk
la matrice X è costituita dalle colonne di X1 e X2 affiancate
Ipotesi di interesse:
H0 : β1 = . . . = βj = . . . = βk ;
rette di regressione parallele nei k gruppi.
H0 : β1 = . . . = βj = . . . = βk ; α1 = . . . = α = . . . = αk
rette di regressione uguali nei k gruppi.
E’ possibile (ed è più semplice) procedere per passaggi successivi
attraverso modelli nidificati (l’analisi non è ortogonale):
2002-3003 versione provvisoria
339
analisidellacovarianza
F onte
fonte
totale
DevT ot(y)
Pnj
2
j=1
i=1 (yij − aj − bj zij )
residuo
delle
k
regressioni entro i
gruppi
(pendenze
diverse)
Pk
residuo analisi semplificata (pendenze
uguali)
Pk
j=1
Fra i k gruppi (k
medie aggiust.)
10.3
i=1 (yij
− a∗j − b∗ zij )2
n−1
Res1
Pk
j=1
Pnj
i=1 (yij
n − 2k
Res2 n − k − 1
Res2 − Res1
Differenze fra le k
pendenze
residuo regressione
unica (trascurando
il fattore qualitativo)
Pnj
g.d.l.
− a∗ − b∗∗ zij )2 Res3
Res3 − Res2
k−1
n−2
k−1
Il problema dei confronti multipli nell’analisi della varianza
Affrontiamo adesso il problema dell’analisi ulteriore delle medie dei
campioni, nel caso in cui l’ipotesi di omogeneità sia stata rifiutata.
Resta inteso che nel caso in cui il test F risulti non significativo,
poco altro potrà essere detto sull’esperimento, se non uno studio
più approfondito relativo alla validità delle assunzioni di base.
Se invece F è risultato significativo l’ipotesi di omogeneità va
rifiutata; Possiamo indagare ulteriormente sull’eterogeneità dimostrata dalle medie dei gruppi?
Ci possiamo porre alcune domande:
• A quali medie è dovuto principalmente l’eterogeneità?
• Alcune di queste medie possono essere comunque considerate
simili?
340
Materiale didattico statistica 3
• E’ possibile dire qualcosa su particolari confronti fra combinazioni di medie?
In effetti,con riferimento all’ultimo punto, possiamo effettuare
diversi tipi di confronti fra medie; qui cito solo i principali:
Differenze fra medie:
µj − µs
Contrasti lineari generali:
ψ=
k
X
c j µj ,
j=1
con
k
X
cj = 0.
j=1
Quindi un contrasto lineare non è altro che una combinazione
lineare di medie con coefficienti a somma nulla. Di seguito sono
riportati alcuni esempi di contrasti lineari:
Contrasto
Valori dei coefficienti
µj − µs
cj = 1; cs = −1
(µ1 + µ2 )/2 − (µ3 + µ4 + µ5 )/3
Pk−1
j=1
Confronto fra gli effetti
medi di due campioni
Confronto fra gli effetti medi di due gruppi di
c1 = 1/2; c2 = 1/2
campioni
1
1
1
c3 = − ; c4 = − ; c5 = −
3
3
3
µj /(k − 1) − µk
c1 = c2 = . . . ck−1
10.3.1
Tipo di confronto
Confronto di k − 1 trattamenti, presi global= 1/(k−1)c
−1 un gruppo
k = con
mente,
di controllo (il k-esimo)
Confronti a priori e a posteriori
In effetti, dopo che il test F ha manifestato evidenza empirica contraria all’ipotesi di omogeneità, si potrebbe pensare di impiegare un
semplice test t sulle coppie di medie stimate Mj , per vedere quali sono significativamente diverse; tuttavia questa non è una procedura
2002-3003 versione provvisoria
341
corretta, in quanto non tiene conto del fatto che molto probabilmente le medie da mettere a confronto verranno scelte dopo avere
esaminato le k medie; inoltre questa procedura non garantisce il livello di significatività nominale nel caso si mettano a confronto più
coppie di medie: una cosa è confrontare due medie, un’altra cosa è
confrontare due medie scelte fra k medie osservate.
Il livello di significatività sarà in generale ??????????????????????????????????????????????????
• se i confronti sono pianificati (a priori), si può usare il test t,
usando come stima della varianza quella con più gradi di libertà
dell’AOV.
• se invece i confronti sono suggeriti dai dati (a posteriori), non
si può impiegare il test t
Alterazione del livello di significatività effettivo in caso di m test
indipendenti effettuati sugli stessi dati:
α∗ = 1 − (1 − α)m
test t su tutte le coppie.
i test da condurre sono in teoria k(k − 1)/2 (sebbene non tutti
indipendenti.
Inserire materiale
presente solo su lucido
e scrivere meglio
Fra i metodi per superare il problema dei confronti multipli a
posteriori, presento i due più noti ed utili nelle applicazioni:
• Il metodo di Tukey (importante per il confronto fra coppie di
medie)
• Il metodo di Scheffè, adatto a contrasti lineari generali, importante per la sua relazione col test F.
Altre tecniche particolari per effettuare test (o comunque per fare
inferenza) su confronti selezionati a posteriori:
• Test di Dunnett (specifico per il confronto rispetto ad un gruppo di controllo)
• Correzione di Bonferroni per il livello di significatività
• Test di Duncan
342
Materiale didattico statistica 3
Metodo di Tukey
Per ipotesi se è vera H0 le medie campionaria hanno tutte la stessa
distribuzione:
Mj (N (µ; σ 2 /m);
mentre se è vera H1 :
Mj (N (µj ; σ 2 /m);
m: ampiezza comune dei k campioni (n = km)
Definiamo prima una nuova variabile casuale:
il range studentizzato .
Sia X(i) la variabile casuale corrispondente all’osservazione di posto i-esimo in un campione casuale di ampiezza r estratto da una
N (µ, σ 2 ).
Sia s2 una stima corretta di σ 2 (stimata indipendentemente dal
campione) con ν gradi di libertà.
Il range studentizzato è la variabile casuale definita da:
Range studentizzato
range studentizzato
Zr,ν =
X(r) − X(1)
s
Questa variabile casuale (i cui percentili sono tabulati) ha una distribuzione che chiaramente dipende da:
r: ampiezza campionaria;
ν: gradi di libertà della stima della varianza
X −X
ma non dipende invece dai parametri µ, σ 2 (dato che (r) s (1) è
una quantità pivotale:
infatti la differenza X(r) − X(1) chiaramente non dipende da µ ed
il rapporto poi con s non dipende da σ 2
Figura da inserire Inserire tavola con i percentili (software di
calcolo?); vedere Biometria tables
•
Se indichiamo con qα,r,ν il valore critico di tale distribuzione (i
cui percentili sono tabulati) si ha chiaramente:
Prob Zr,ν = [X(r) − X(1) ]/s(qα,r,ν = 1 − α
ma anche:
Prob max |Xi − Xj |(sqα,r,ν = 1 − α
i6=j
2002-3003 versione provvisoria
Prob

\
343
[|Xi − Xj |(sqα,r,ν ]



=1−α

i6=j
E’ possibile adesso costruire degli intervalli di confidenza per le differenze fra medie (a posteriori), poiché sono stati introdotti tutti gli
strumenti tecnici necessari.
Torniamo alle medie dei k campioni:
Mj (N (µi ; σ 2 /m).
Si ha che le v.c. Mj − µi sono distribuite secondo una N (0; σ 2 /m);
possiamo quindi costruire un intervallo mediante i punti critici del
range studentizzato, simultaneamente per tutte le differenze fra medie:
√ Prob |(Mi − µi ) − (Mj − µj )|(sqα,r,ν / m] = 1 − α
Per cui l’intervallo di confidenza per una generica differenza è:
√
√
(Mi − Mj ) − sqα,r,ν / m(µi − µj ((Mi − Mj ) + sqα,r,ν / m.
Intervallo di confidenza di Tukey per una generica differenza di
medie, ad un livello di probabilità fiduciaria 1 − α; (r campioni
di ampiezza m)
Pertanto potremo dire che sono significativamente diverse (ad un
livello di significatività α) le medie per le quali tali intervalli (costruiti con un livello di probabilità fiduciaria 1 − α) non contengono
lo zero.
In tal modo è possibile costruire per un particolare esperimento,
dati m, k e α, la LSD (Least Significant Difference): se ad esempio
abbiamo 5 campioni di ampiezza 10, ad un livello di significatività
del 5
Il metodo è generalizzabile a contrasti lineari qualsiasi, sebbene
meno efficiente:
ψ=
k
X
j=1
c j µj ,
con
k
X
j=1
cj = 0
344
Materiale didattico statistica 3
la stima di ψ dal campione è:
ψ̂ =
k
X
c j Mj ;
j=1
|ψ̂ − ψ| = |
k
X
cj (Mj − µj )|(1/2
j=1
k
X
|cj | max |(Mj − µj ) − (Mi − µi )|
j=1
Per cui si ha, ricordando che:
√ Prob max |(Mi − µi ) − (Mj − µj )|(sqα,r,ν / m] = 1 − α


k

X
√ 
Prob ||ψ̂ − ψ| = 1/2
|cj |sqα,r,ν / m = 1 − α


j=1
ed infine l’intervallo per ψ:
ψ̂ − 1/2
k
X
k
X
√
√
|cj |sqα,r,ν / m
|cj |sqα,r,ν / m ≤ ψ(ψ̂ + 1/2
j=1
j=1
Intervalli di confidenza simultanei: Metodo di Scheffè:
Con la tecnica di Scheffè si adotta un approccio differente, basato
non sui confronti in coppia, ma direttamente su generici contrasti
lineari di tipo qualsiasi; si otterrà anche una relazione di tale tecnica
con il test F per la verifica dell’ipotesi di omogeneità delle medie.
Si è già visto che si può costruire una regione di confidenza per q
combinazioni lineari nei parametri del modello lineare, in modo che
sia 1 − α la probabilità fiduciaria:
n
o
T
T
−1 T −1
2
Prob (Cβ − Cb) ([C(X X) C ]) (Cβ − Cb) ≤ qs Fα,q,n−k = 1−α
Si sa anche che:
T
T
−1
(Cβ−Cb) ([C(X X)
T −1
C ])
[zT (Cβ − Cb)]2
(Cβ−Cb) = max T
z z C(XT X)−1 C T z
Figura da inserire dimostrazione sui lucidi scritti a mano
Rivedere l’argomento
per cui sostituendo nell’espressione di prima:
P robmax
z
[zT (Cβ − Cb)]2
(qs2 Fα,q,n−k = 1 − α
zT C(XT X)−1 CT z
2002-3003 versione provvisoria
345
P rob[zT (Cβ − Cb)]2 (zT C(XT X)−1 CT zqs2 Fα,q,n−k ∀z = 1 − α
Notiamo anche che
V (zT Cb) = σ 2 zT C(XT X)−1 CT z;
e quindi una stima corretta della varianza di zT (Cb) si ha sostituendo nell’espressione precedente a σ 2 la sua stima corretta s2
V̂ (zT (Cb)) = s2 zT C(XT X)−1 CT z;
Per cui si ha:
P rob[zT (Cβ − Cb)]2 (V̂ (zT Cb)qFα,q,n−k ∀z = 1 − α
Ed infine l’intervallo:
q
zT Cb( V̂ (zT Cb)qFα,q,n−k
conterrà zT Cβ con probabilità 1 − α, per qualsiasi valore zT
Applicando ora questo procedimento ai contrasti lineari nell’analisi della varianza si ha:
ψ=
k
X
cj µj , con
k
X
j=1
cj = 0
j=1
Per stimare ψ dal campione si ha:
ψ̂ =
k
X
c j Mj ;
j=1
per la stima della sua varianza:
V̂ (ψ̂) = s
2
k
X
c2j /nj ;
j=1
(si può ricavare per via diretta oppure dall’espressione generale di
V (zT Cb));
In definitiva l’intervallo per un contrasto lineare è dato da:
q
ψ̂ ∓ V̂ (ψ̂)qFα,q,n−k
Nell’analisi della varianza ad una via: q = k − 1.
346
Materiale didattico statistica 3
Relazione fra gli intervalli di confidenza di Scheffè e il test F
dell’AOV: Per il modo in cui è stato costruito è evidente che se
l’intervallo non contiene lo zero ciò equivale a rifiutare l’ipotesi nulla:
H0 : ψ = 0
Riconsideriamo il test F sull’omogeneità delle k medie:
E’equivalente a saggiare l’ipotesi che k-1 contrasti lineari (indipendenti) siano nulli. Questo implica che tutti i contrasti siano nulli,
dato che ogni contrasto è combinazione lineare dei primi k-1;
Quindi il test F saggia l’ipotesi che qualsiasi contrasto lineare
sia nullo; Quindi il test F risulta significativo se e solo se esiste un
contrasto lineare significativamente diverso da zero,
ossia se esiste un contrasto lineare il cui intervallo di confidenza non copra lo zero Ovviamente se F risulta significativo, non è
detto che il contrasto lineare significativo sia interessante o utile in
generale.
Tuttavia gli intervalli di Scheffè, sebbene forniscano dei test corrispondenti piuttosto conservativi (perché costruiti su tutti i possibili
contrasti lineari, e non su uno particolare), forniscono certamente
risultati coerenti col test F.
Altre tecniche:
tecniche più potenti per alternative particolari, uso di altri particolari range studentizzati
\begin{fig}
altro materiale sparso
lucidi scritti a mano
grafici ed esempi
Lucidi antichi
RIPORTARE LA TAVOLA SUL CONFRONTO FRA GLI INTERVALLI (LUCIDI A MANO)
\end{fig}
2002-3003 versione provvisoria
10.3.2
347
L’ipotesi di omogeneità delle varianze.
Il test di Bartlett
saggiare l’ipotesi che le varianze di k popolazioni normali (anche con
medie differenti) non siano diverse.
costruzione del rapporto fra le verosimiglianze.
correzione delle stime delle varianze.
correzione del test (per migliorare l’approssimazione alla distribuzione asintotica).
\begin{fig}
ALTRO MATERIALE
lucidi scritti a mano
da Statistica Matematica
\end{fig}
10.3.3
Il Potere del test F: distribuzioni non centrali.
Per potere valutare il potere del test F per particolari ipotesi alternative, o meglio la funzione del potere al variare delle alternative,
occorre fare ricorso alle distribuzioni non centrali.
Distribuzione χ2 non centrale.
La distribuzione χ2ν (centrale) è definita come la distribuzione della
somma di ν quadrati di variabili normali indipendenti standardizzate, ossia:
con valore atteso nullo
ed a varianza unitaria.
La distribuzione χ2 non centrale è invece definita come la distribuzione della somma di quadrati di variabili normali indipendenti,
sempre a varianza unitaria ma con media qualsiasi.
In pratica se Xi (N (µi , 1) allora la χ2 non centrale è definita da:
χ2 (ν, λ) =
n
X
X2i
i=1
i due parametri sono:
ν: gradi di libertà;
P
λ = ni=1 µ2i = parametro di non centralità
348
Materiale didattico statistica 3
Si può dimostrare che:
χ2 (ν, λ) = χ2 (ν − 1, 0) + χ2 (1, λ)
I primi due momenti sono:
E[χ2 (ν, λ)] = ν + λ
V [χ2 (ν, λ)] = 2(ν + 2λ)
Distribuzione F non centrale.
Una F non centrale con ν1 e ν2 gradi di libertà e parametro di non
centralità λ, è definita come la distribuzione del rapporto fra una
variabile casuale χ2 non centrale con ν1 gradi di libertà e parametro
di non centralità λ, ed una χ2 centrale con ν2 gradi di libertà (divisi
per i rispettivi gradi di libertà):
F (ν1 , ν2 , λ) =
χ2 [ν1 , λ]/ν1
χ2 [ν2 , 0]/ν2
Calcolo del potere del test
Applicazioni all’analisi della varianza
\begin{fig}
Altro materiale
Esempi e grafici
Noncentral1.nb)
Noncentral1_lucidi.nb)
\end{fig}
• Densità di una Chi-quadro non centrale con 1 grado di libertà
e parametro di non centralità 0,2 e 5:
• Densità di una Chi-quadro non centrale con 2 grado di libertà
e parametro di non centralità 0,2 e 5:
• Densità di una Chi-quadro non centrale con 3 gradi di libertà
e parametro di non centralità 0,2 e 5:
2002-3003 versione provvisoria
349
• Densità di una Chi-quadro non centrale con 20 gradi di libertà
e parametro di non centralità 0,2 e 5:
• Densità di una F non centrale con 3 e 20 gradi di libertà e
parametro di non centralità 0,2 e 5:
Potere del test F
Altro materiale
Esempi e grafici
Plot[{1-CDF[f[2,20,m],f95a],1-CDF[f[2,50,m],f95b]},{m,0,10},PlotPoints->15,
PlotRange->{0,1},PlotStyle->{RGBColor[1,0,0],RGBColor[0,1,0],RGBColor[0,0,1]}]
ContourPlot[1-CDF[f[2,20,10 e1^2+5 e2^2],f95a],{e1,-2,2},{e2,-2,2},PlotPoints->15
PlotRange->{0,1}]
f0[\veca_,\vecb_]:=
FRatioDistribution[\veca,\vecb]
f95=Quantile[f0[4,16],0.95]
3.006917279924345
Power2=Table[1-CDF[nc[4,v2,10],
Quantile[f0[4,v2],0.95]],{v2,5,30,5}]
{0.346645, 0.497816, 0.564506, 0.600651,
0.623077, 0.63828}
$$
f95=Quantile[f0[4,16],0.95];
Plot[1-CDF[nc[4,16,l],f95],{l,0,10},PlotPoints->15,
PlotRange->{0,1}]
Noncentral1.nb)
350
Materiale didattico statistica 3
Noncentral1_lucidi.nb)
Esempio con: k=3;n1=10;n2=5,n3=8
Plot[1-CDF[f0[(4+l)^2/(4+2 l),16],(4/(4+l)) f95]
,{l,0,10},PlotPoints->15,PlotRange->{0,1}]
Approssimazione di Patnaik
Powerexact=Table[1-CDF[nc[4,16,l],f95],{l,0,15}]
{0.05, 0.0911362, 0.138647, 0.190846, 0.246121,
0.303001, 0.360196, 0.41662, 0.471387,
0.52381, 0.573383, 0.619761, 0.662734,
0.702213, 0.7382, 0.770771}
$$
Kendall,II,24.33
Powerappr=Table[1-CDF[f0[(4+l)^2/(4+2 l),16],(4/(4+l)) f95]
,{l,0,15}]
{0.05, 0.0907828, 0.13731, 0.188238, 0.242288,
0.298216, 0.354857, 0.411159, 0.466217,
0.519281, 0.569762, 0.617224, 0.661374,
0.702045, 0.739176, 0.772798}
$$
\Abs[Powerexact/Powerappr-1]*100
-13
{2.22045 10
, 0.389324, 0.973844, 1.3856,
2002-3003 versione provvisoria
351
1.58217, 1.60448, 1.50474, 1.32797, 1.10872,
0.872079, 0.635576, 0.410955, 0.205655,
0.0239555, 0.132152, 0.26231}
$$
10.4
Modelli ad effetti casuali
Nella parte introduttiva sui modelli lineari e sulle caratteristiche degli elementi essenziali, abbiamo visto che il vettore β è un vettore di
parametri ; in questa sezione vediamo, ma solo per i casi più elementari, che in certe situazioni si giunge ad una modellizzazione ancora
di tipo lineare, ma in cui il vettore β è un vettore aleatorio,che avrà
una sua distribuzione, di cui occorrerà stimare i parametri, per cui si
parlerà di effetti casuali, in contrapposizione ai casi fin qui studiati
di analisi della varianza a effetti fissi.
Nella situazione più generale potremo fatalmente avere effetti sia
fissi che casuali, e parleremo allora di modelli misti.
Le parole chiave di questa sezione sono:
• Modello II di AOV;
• Modello a effetti casuali;
• componenti della varianza
In generale in un modello ad effetti casuali (soltanto casuali) il
vettore delle n osservazioni è dato da:
Y[n×1] = 1n θ + X[n×p] u[p×1] + ε[n×1]
L’analogia col modello lineare generale è in buona parte solo
formale;
Nel modello lineare generale (con effetti fissi) l’interesse primario
è lo studio del valore atteso di Y ;
Nei modelli a effetti casuali l’interesse primario è lo studio delle
componenti della varianza di Y e della media generale θ
352
Materiale didattico statistica 3
Caratteristiche essenziali degli elementi del modello:
Y
n elementi
Vettore aleatorio osservabile; È, come sempre, la variabile di
risposta di interesse
θ
1 elemento
Parametro incognito è l’effetto medio generale; è un parametro fisso ma incognito che in generale andrà stimato dai dati del
campione;
X
matrice n × p Matrice di costanti note.
sono, come prima, variabili non aleatorie osservate senza errori;
possibilmente si tratta di una matrice di indicatori associata ad una
classificazione ad una o più vie. U p elementi Vettore di variabili
aleatorie non osservabili sono p variabili aleatorie che contribuiscono
alla parte aleatoria di y; possono essere visti come dei coefficienti
(o effetti) casuali Si dovranno fare delle ipotesi sulla natura della
distribuzione di u che dipende in generale da un insieme di parametri (varianze) incogniti ε vettore n elementi Vettore aleatorio non
osservabile direttamente; Al solito si faranno delle ipotesi sulla natura della distribuzione di ε che dipende in generale da un insieme
di parametri incogniti
Le assunzioni usuali sono:
componente accidentale
E(ε) = 0n ,
V (ε) = σε2 In
ε è la componente accidentale additiva con componenti non correlati
e con stessa varianza. (stesse ipotesi di prima)
La varianza viene indicata con σε2 per distinguerla da quelle di
u p effetti casuali E(u) = 0p momento primo perché è stato isolato
l’effetto medio generale θ
V (u) = Σ momento secondo
σrj = 0 se r 6= j La matrice di varianza e covarianza degli effetti
casuali è diagonale con elementi diagonali σj2 qualsiasi. Si può in
particolare ipotizzare che queste varianze siano uguali a gruppi
Cov(u, ε) = 0
2002-3003 versione provvisoria
353
gli effetti casuali non sono correlati con la componente accidentale
V ar(uj ) = σj2 ; V ar(εi ) = σε2 ;
Cov(uj, ur ) = 0r 6= j; Cov(εi , εl ) = 0i 6= l; Cov(εi , uj ) = 0perogni(i, j)
Componenti della varianza:
L’attenzione non è, come nel modello lineare a effetti fissi, sui fattori
che influenzano i valori attesi di y , tramite
y = componente sistematica + componente accidentale,
ma sui fattori che compongono la varianza di y .
Ipotizziamo che le varianze siano uguali all’interno di k gruppi di
effetti, e che quindi vi siano k varianze distinte σj2 ;
conseguentemente suddividiamo u[p×1] in k sottovettori ciascuno
di lunghezza pj e la matrice X in k sottomatrici ciascuna di n righe
P
e pj colonne, essendo kj=1 pj = p.
Y = 1n θ +
k
X
Xj uj + ε
j=1
E [Y] = 1n θ, ossiaE(yi ) = θ
Per la varianza delle osservazioni si ha ora una diversa situazione.
Infatti si vede facilmente che, con le assunzioni fatte:
0
T
V [Y] = E(Y Y ) − 1n 1n θ =
k
X
T
σj2 Xj Xj + σε2 In
j=1
Oltre al parametro θ, i parametri di interesse sono le k+1 varianze
= 1, 2, . . . , k e σε2 ) (si assume che n(k + 1)
Per questo motivo il modello viene spesso chiamato modello a
componenti di varianza per l’analisi della varianza;
Novità fondamentale rispetto al modello a effetti fissi:
Le osservazioni sono in generale correlate (almeno a gruppi) perché la matrice V [Y] non è diagonale dato che le y sono combinazioni
lineari delle stesse variabili uj
Le osservazioni hanno lo stesso valore atteso Nel caso generale si
cercheranno stimatori non distorti dei parametri, costituiti da forme
quadratiche nelle osservazioni:
(σj2 j
σ̂j2 = yT Cs y.
Condizioni di esistenza di stimatori non distorti (cenno)
354
Materiale didattico statistica 3
AOV a una via: effetti casuali
La matrice X è la matrice di indicatori di appartenenza ai k gruppi;
supponiamo le k varianze degli effetti casuali uj tutte uguali;
supponiamo nj = m.
yij = µ + uj + εij ;
E(uj ) = 0E(εij ) = 0V ar(εi ) = σε2 ;
V ar(uj ) = σu2 ; varianza dei k effetti costante
Cov(uj, ur ) = 0r 6= j;
Cov(εi , εl ) = 0i 6= l; Cov(εi , uj ) = 0perogni(i, j)
Per quanto visto nel caso generale adesso si ha:
E(yij ) = µ;
V [Y] = σu2 XXT + σε2 In
La matrice XXT risulta composta da k blocchi (lungo la diagonale) formati da 1m,m .
Le osservazioni appartenenti ad uno stesso gruppo risultano correlate: intraclass-correlation.
V ar(yij ) = σu2 + σε2
Figura da inserire controllare sotto
corr(yij, ylj ) =
σu2
i 6= l;
σu2 + σε2
corr(yij, ylr ) =
σu2
j 6= r
σu2 + σε2
stima dei parametri
Massima verosimiglianza: si giunge, con un procedimento non immediato, alle equazioni (modificando i denominatori ):
µ̂ = M
σ̂ε2
=
k X
m
X
j=1 i=1
(yij − Mj )2 /k(m − 1)
2002-3003 versione provvisoria
355
Si vedrà dopo il perché di questi denominatori
σ̂ε2 + mσ̂u2 = m
k
X
(Mj − M )2 /(k − 1),
j=1
per cui:
σ̂u2
=
k
X
m(Mj − M )2 /m(k − 1) − σ̂ε2 /m
j=1
(può risultare negativo) → connessione con la correlazione entro
le classi.
Distribuzione degli stimatori:
µ̂ si distribuisce normalmente perché è combinazione lineare di un
v.a. normale:
µ̂ = 1Tn Y/nE(µ̂) = µ;
V (µ̂) = 10n V [Y] 1n /n2 = 1Tn [σu2 XXT + σε2 In ]1n /n2
sommando tutti gli elementi e ricordando che n = km:
= [σu2 m2 k + kmσε2 ]/k 2 m2 =
= σu2 /k + σε2 /km
µ̂(N (µ, σu2 /k + σε2 /km)
Per quanto visto prima:
Pk
2
j=1 m(Mj − M ) /(k − 1)mk è una stima di tale varianza.
Pk Pm
2
j=1
i=1 (yij − Mj ) si distribuisce come nel modello a effetti
fissi, perché gli scarti yij −Mj non dipendono né da µ né dagli effetti
casuali uj .
356
k
X
Materiale didattico statistica 3
2
m(Mj −M ) =
j=1
k
X
m(µ+uj +ε.j −(µ+u. +ε.. )2 = (ε.j , u. , ε.. sono medie)
j=1
k
X
2
m[(uj + ε.j ) − (u. + ε.. )] =
j=1
k
X
m[zj − M (z)]2
j=1
considerando le variabili (non correlate) zj = uj + ε.j
E(z) = 0;
V (z) = [σu2 + σε2 /m]Ik
dato che le uj e le ε sono non correlate. Data l’assunzione di
normalità: P
Pertanto kj=1 [zj − M (z)]2 è la somma di k quadrati di scarti di
v.a. indipendenti dalla propria media aritmetica e quindi:
k
X
m[(uj + ε.j ) − (u. + ε.. )]2 (m[σu2 + σε2 /m]χ2k−1
j=1
I due chi-quadro sono indipendenti.
Quindi:
E(σ̂u2 ) = E
k
X
m(Mj − M )2 /m(k − 1) − σ̂ε2 /m =
j=1
m[σ̂u2 + σε2 /m](k − 1)/[m(k − 1)]) − σε2 /m = σu2
Si può anche ricavare la varianza dello stimatore
per la distribuzione si hanno solo risultati approssimati.
Si possono costruire stimatori puntuali e per intervallo per varianze e rapporti di varianze.
La stima σ̂u2 può risultare negativa;
problemi connessi.
Capitolo 11
Allontanamento dalle
assunzioni di base nel
modello lineare e
nell’analisi della varianza.
11.1
Tipi di allontanamenti dalle assunzioni di
base
Studio degli effetti dell’allontanamento dalle assunzioni di base del
modello lineare sugli stimatori dei parametri, sulle stime di previsione e sui test.
Possibili allontanamenti dalle assunzioni di base:
• Nella componente sistematica:
– Per esempio:
– non linearità e/o non additività
– irrilevante solo nell’AOV a 1 via
– esclusione di variabili rilevanti (o di componenti polinomiali importanti)
– esclusione di effetti di interazione particolari
– esempio: AOV a due vie con m = 1
– errore nella scala di misurazione della y e/o delle x (trasformazioni non lineari delle variabili)
– (questi tipi di allontanamento hanno degli aspetti in comune)
357
358
Materiale didattico statistica 3
• nella componente accidentale:
– non additività fra componente sistematica e accidentale
– valore atteso non nullo (equivale alla non corretta specificazione del modello)
– non normalità
– esempio: errori distribuiti secondo una normale di ordine
p.
– oppure secondo un modello lineare generalizzato (GLM):
coinvolge anche gli altri aspetti
– sui momenti secondi:
– eteroscedasticità
– esempio: regressione ponderata; (varianze funzione dei valori attesi).
– correlazione fra le componenti
– esempio: dipendenza temporale; dipendenza territoriale.
– in generale V (ε) 6= σ 2 In .
effetti su:
• proprietà stimatori
• non distorsione
• efficienza relativa
• valori previsti
• proprietà test
• livello di significatività effettivo
• potere del test
2002-3003 versione provvisoria
359
11.1.1
Effetti della non normalità sulla distribuzione di F
11.1.2
Effetti della non indipendenza
11.1.3
Effetti della eteroscedasticità
11.1.4
Trasformazioni
11.1.5
Finalità delle trasformazioni nel modello lineare
11.1.6
Tecniche alternative: test non parametrici e semiparametrici nella AOV
11.1.7
Test non parametrici
11.1.8
Test di permutazione
11.1.9
Analisi dei residui:
Adeguatezza del modello (estensione dell’analisi per modelli di regressione più generali ).
Validità del legame funzionale ipotizzato.
Identificazione di eventuali fattori o variabili trascurati.
Eliminazione di variabili poco importanti.
identificazione di trasformazioni non lineari delle variabili, rispetto alle quali valgano le assunzioni di additività, normalità, indipendenza e omoscedasticità
Identificazione di allontanamenti dalle ipotesi di base per la distribuzione della componente accidentale
outlier (valore distante dalla maggioranza delle osservazioni) ?
==¿ campione eterogeneo, miscuglio di popolazioni
Aspetti peculiari dell’analisi dei residui:
Nella regressione: esame del legame funzionale fra la y e le X ;
esame del range (eventualmente multivariato) all’interno del quale
è plausibile l’ipotesi di linearità.
Nell’analisi della varianza: validità delle ipotesi riguardanti l’additività di effetti; identificazione delle particolari combinazioni di
livelli dei fattori che portano interazioni significative
L’adeguatezza di un modello di regressione Ω0 , può essere saggiata più formalmente considerando un modello più ampio Ω1 , che
fa ipotesi più generali sulla distribuzione degli errori e/o sul legame
funzionale della componente sistematica; Ω1 dovrebbe includere Ω0
360
Materiale didattico statistica 3
come caso particolare, fissando alcuni parametri di Ω1 e costruendo
i test relativi. ESEMPI
Si può costruire una differente famiglia di modelli e saggiarne
l’adeguatezza mediante criteri basati sulla log-verosimiglianza
La costruzione di una qualsiasi famiglia di modelli presuppone
che si abbiano delle idee precise sul tipo di allontanamento dalle
assunzioni di base.
Definizione generale di residuo.
In generale su in un modello di regressione si ipotizza:
Y = g(X, β, ε)
con g(·) qualsiasi (ingloba sia il legame di y con i parametri che
quello fra la componente sistematica e accidentale)
allora se β ∗ è lo stimatore di massima verosimiglianza, i valori
stimati di y sono:
y∗ = g(X, β ∗ , ε)
e quindi un residuo generale è:
r soluzione delle equazioni: Y = g(X, β ∗ , r)
In particolare si ha, con errori indipendenti:
ri soluzione dell’equazione:
yi = g(X(i) , β ∗ , ri )
Figura da inserire Esempio:
Caratteristiche dei residui empirici nei modelli lineari
Se si considerano i residui empirici nel modello lineare, si ha che,
indicando con e il vettore dei residui empirici:
e = y − Xb
se il modello è correttamente specificato Y =X β + ε ,
i residui empirici sono allora esprimibili come:
e = (y − Xb) = Xβ + ε − Xb;
2002-3003 versione provvisoria
361
e = ε + X(β − b).
e quindi:
Se invece in realtà vi è una generica distorsione δ, dipendente da
variabili escluse, da componenti non lineari trascurate, o comunque
da una errata specificazione del modello di varia natura, e quindi se:
Y = Xβ + ε + δ, allora ovviamente si ha:
e = ε + X(β − b) + δ.
Il residuo empirico è dunque composto sostanzialmente da tre
componenti (non separabili):
Residuo empirico =
e=
componente accidentale +
ε+
componente legata all’accuratezza degli stimatori +
X(β − b)+
componente legata alla non corretta specificazione del modello
δ
Se il modello è correttamente specificato comunque il residuo è
formato da due componenti: ε e X(β − b). Con queste limitazioni
il residuo empirico dà informazioni su ε
362
Materiale didattico statistica 3
Se valgono le assunzioni di base:
E(ε) = 0, V(ε) = σ 2 I,
allora:
E(e) = 0
peró, per la matrice di varianza e covarianza si ottiene:
V (e) = E(eeT ) = E[(y−X(XT X)−1 XT y)(y−X(XT X)−1 XT y)T ] =
= σ 2 (In − X(XT X)−1 XT )
Pertanto i residui empirici risulteranno in generale correlati e con
varianza teorica differente.
Se si vuole eliminare la diversa variabilità dei residui empirici si
possono standardizzare gli stessi mediante gli elementi σ 2 (1 − hii )
sulla diagonale principale della matrice definita sopra.
Residui standardizzati (o Residui studentizzati)
hii → 0 al crescere di n ?
casi particolari di matrice H
riprendere esempi su carta
esempio dell’AOV a una via
esempio della regressione semplice
grafici dei residui empirici
Il modo migliore per avere informazioni sulla plausibilità delle assunzioni fatte sulla distribuzione di è quello di esaminare la distribuzione dei residui empirici ei = yˆi − yi , pur con le avvertenze fatte
nei paragrafi precedenti: va ancora ricordato che la difficoltà fondamentale nel fare ipotesi sulle è che si tratta di variabili aleatorie
non osservabili.
In ogni caso se il modello è non distorto si ha per i residui empirici:
e=ε+
X(β − b)
| {z }
effetto accuratezza stimatore
2002-3003 versione provvisoria
363
e quindi le informazioni su ε sono sintetizzate in e a meno dell’effetto dovuto agli stimatori X (β -b ), in generale dell’ ordine
O(n−1/2 ). Per valori grandi di n tale effetto sarà trascurabile, come
visto a proposito della valutazione di Ve
Possiamo ottenere differenti tipi di grafici riassunti schematicamente nella tabella:
364
Materiale didattico statistica 3
ascissa
ordinata
impiego
valore predetto: yˆi
residuo: ei = yˆi − yi
allontanamenti di vario tipo dalle ipotesi di base
valore predetto: yˆi
(residuo)2 e2i = (yˆi − yi )2
evidenzia un’eventuale presenza di eteroschedasticità
(valore predetto)2 : yˆi
residuo: ei = yˆi − yi
serve per vedere eventualmente se è adeguata l’ipotesi di linearità
regressore j: xij
residuo: ei = yˆi − yi
serve per vedere eventualmente se vi sono indicazioni di non linearità rispetto
al regressore j-esimo
regressore j: xij
deleted residual: di
serve per vedere eventualmente se vi sono indicazioni di non linearità rispetto
al regressore j-esimo
residuo al tempo i − 1: ei−1
residuo: ei
evidenzia l’eventuale presenza di autocorrelazione
seriale (di intervallo 1)
anche non lineare
normal probability plot
(trasformata normale di
probabilità dei residui)
evidenzia l’allontanamento
dalla normalità se i punti
non si dispongono approssimativamente lungo una
retta
istogramma della distribuzione dei residui empirici,
per vedere se la distribuzione dei residui è ben approssimabile da una normale (andrebbe utilizzato
con un numero di residui
superiore a un centinaio)
2002-3003 versione provvisoria
365
E’ intuitivo che parte di questi grafici possono essere utili anche
nel caso di modelli non lineari (con errori additivi, se no occorreranno altri tipi di residui).
residui allineati su poche righe
Il grafico ottenuto rappresentando i residui in corrispondenza dei
valori predetti è costituito dai punti: Pi : (yˆi , yˆi − yi ).
Se le osservazioni yi assumono solo pochi valori distinti, diciamo
s valori distinti, con s < n nel grafico residui contro valori predetti
i punti si disporranno lungo s rette; infatti se abbiamo ad esempio
rj osservazioni per ciascuna modalità yi , i corrispondenti rj punti
Pi : (yˆi , yˆi − yi ) si disporranno lungo la retta di equazione:
f (z) = z − yi
Esempio
Nel grafico sono riportati i residui in funzione dei valori predetti della
regressione lineare multipla fra la variabile CRANIOCM(Circonferenza
cranica) e altre tre variabili antropometriche.
366
Materiale didattico statistica 3
Figura 11.1:
vai a indice figure
I punti si dipongono lungo 12 segmenti di rette parallele, perchè i
valori distinti della variabile dipendente CRANIOCM sono solo 12,
come riportato nell’istogramma.
2002-3003 versione provvisoria
367
Figura 11.2:
vai a indice figure
esempio residui allineati su poche righe
ESEMPI E GRAFICI
Con allontanamenti di tipo vario
esempio di pattern con punti allineati
almeno un grafico per ogni situazione
subsubsectionidentificazione di particolari allontanamenti
approcci grafici
approcci analitici
__________________________________
ALTRO MATERIALE
ESEMPI E GRAFICI
368
Materiale didattico statistica 3
LUCIDI SCRITTI A MANO
__________________________________
11.2
Stima dei parametri del modello lineare.
Allontanamento dalle assunzioni di base:Minimi
quadrati generalizzati
Si supponga che gli errori seguano una distribuzione con matrice di
varianza e covarianza V qualsiasi :
E [ε] = 0n
V (ε) = V.
Per impiegare il metodo della massima verosimiglianza, ipotizzando che la distribuzione di ε sia una normale a n componenti, assumendo nota V , occorre valutare la verosimiglianza campionaria,
data da:
1
L(β, σ 2 ; y) = (2π)−n/2 |V|−1/2 exp[− (y − Xβ)T V−1 (y − Xβ)]
2
Il massimo rispetto a β si ottiene minimizzando:
min R(b) = (y − Xb)T V−1 (y − Xb)
b
con:
−1
(y[n×1] − X[n×k] b[k×1] )
R(b) = (y[n×1] − X[n×k] b[k×1] )T V[n×n]
= yT V−1 y − 2b0 XT V−1 y + b0 (XT V−1 X)b
(Minimi quadrati generalizzati)
derivando R(b) rispetto al vettore b :
∂R
= −2XT V−1 y + 2(XT V−1 X)b
∂b
Uguagliandole a 0 (vettore nullo):
−2XT V−1 y + 2(XT V−1 X)b = 0;
(XT V−1 X)b = XT V−1 y;
b = (XT V−1 X)−1 XT V−1 y
2002-3003 versione provvisoria
369
soluzione unica avendo supposto X di rango k
(e quindi b è ancora una combinazione lineare delle y )
Le condizioni del secondo ordine, riguardanti l’Hessiano, sono
sempre soddisfatte, perchè:
∂ 2R
= 2(XT V−1 X)
∂b∂bT
definita positiva
Le più comuni applicazioni di questo approccio si hanno nei:
Modelli con errori eteroscedastici e nei
Modelli con errori correlati
Si puó ancora mostrare, con passaggi analoghi a quelli visti per i
minimi quadrati ordinari , che valgono le seguenti relazioni:
b = (XT V−1 X)−1 XT V−1 y =
= (XT V−1 X)−1 XT V−1 (Xβ + ε) =
= β + (XT V−1 X)−1 XT V−1 ε)
Per la speranza matematica di b si ha:
E(b) = β
(avendo assunto E(ε) = 0n ) Per la matrice di varianza e covarianza
di b si ha
V (b) = (XT V−1 X)−1 XT V−1 V [Y] V−1 X(XT V−1 X)−1 =
= (XT V−1 X)−1
avendo assunto stavolta: Σ(ε) = V
Per i residui empirici si ha:
R(b) = (y − Xb)T V−1 (y − Xb) =
= εT V−1 (In − X(XT V−1 X)−1 XT V−1 )ε
e la matrice (In − X(XT V−1 X)−1 XT V−1 ) risulta ancora idempotente.
370
11.2.1
Materiale didattico statistica 3
Minimi quadrati con matrice di varianze e covarianze qualsiasi
Se V è nota , non vi sono particolari problemi numerici.
Si può trovare una matrice Q tale che:
QT Q = V−1 ,
e poi posto
Z = QX e W = Qy
si ritorna ai Minimi Quadrati ordinari:
b = (Z 0 Z)−1 Z 0 W = (XT Q0 QX)−1 XT Q0 Qy;
poichè:
y = Xβ + ε, e premoltiplicando per Q :
Qy = QXβ + Qε
W = Zβ + Qε
Σ[Qε] = I
Minimi quadrati ponderati:
Vii = σi2 eterogeneità
Vij = 0(i 6= j)
in questo caso è possibile stimare i parametri β e σi2 con algoritmi
a due stadi.
Modelli con autocorrelazioni:
Vii = σ 2
Vij = σ 2 ρij
11.2.2
Minimi quadrati generalizzati: Errori autocorrelati
\begin{fig}
riscrivere controllando col file PDF
\end{fig}
2002-3003 versione provvisoria
371
Si supponga un processo di Markov che generi errori di tipo AR
(1) (componente autoregressiva del primo ordine).
εt = ρεt−1 + at (−1 ≤ ρ ≤ 1)
con:
E(at ) = 0
V (a) = σa2 In
Allora:
E(εt ) = ρE(εt−1 ) = 0
per la stazionarietà!!
[cov(εt−1 , at ) = 0]
σε2 = σa2 /(1 − ρ2 )
cov(εt , εt−1 ) = ρσε2
corr(εt , εt−1 ) =
e si dimostra facilmente che, per le autocorrelazioni di lag s vale
la relazione generale, nel modello AR(1):r
corr(εt , εt−s ) = ρ|s|
Pertanto la matrice di varianza e covarianza di ε è
seguente matrice:

1
ρ ρ2 . . . ρn−1

 ρ
1 ρ . . . ρn−2

 ρ2
ρ 1 . . . ρn−3

V = V (ε) = σε2 × = 
 ... ... ... ... ...

 ρn−2 . . . . . . 1
ρ

ρn−1 . . . . . . ρ
1
data dalla











per cui l’elemento generico di V è dato da:
vij = σε2 ρ|i−j|
Si supponga ora di avere un modello lineare in cui la componente accidentale si distribuisce secondo un processo di Markov
(autoregressivo del primo ordine)
Y = Xβ + εconV (ε) = V(Markov, AR(1))
372
Materiale didattico statistica 3
Si può riscrivere la t-esima osservazione yt nel modo seguente per
rendere esplicito il carattere autoregressivo del modello:
yt = xt β + εt = xt β + ρεt−1 + at =
= xt β + ρ(yt−1 − xt−1 β) + at
anche:
yt − ρyt−1 = (xt − ρxt−1 )β + at
in cui at rispetta le assunzioni fatte per il modello lineare ordinario.
Dalle relazioni precedenti è evidente che la trasformazione che
porta a residui non correlati induce una componente non lineare
(nei parametri) nella componente sistematica del modello, data dalla
presenza del fattore ρxt−1 β
Analogamente si può vedere che:
\begin{fig}
$$
\veca_t=\vecy_t -\vecx_t \beta -\rho
(\vecy_{t-1}-\vecx_{t-1}\beta=\epsilon_t-\rho\epsilon_{t-1}
$$
riscrivere controllando col file PDF
\end{fig}
La funzione di verosimiglianza è data da:
−1
2 log L = log |Vε | + [Y − Xβ]T Vε
[Y − Xβ]
Per il determinante di Vε si dimostra che:
n
|V (ε)| = σε2 (1 − ρ2 )n−1 =
=
σa2
(; 1 − ρ2
n
n
(1 − ρ2 )n−1 =
σa2
1 − ρ2
mentre per l’inversa di V si dimostra che in questo caso è data
da:
V (ε)−1 = (σε2 )−1 × R(ε)−1 =
2002-3003 versione provvisoria
373
1 − ρ2 1
σa2 1 − ρ2

1
−ρ
0
...
0

2
 −ρ 1 + ρ
−ρ
...
0

 0
−ρ
1 + ρ2
...
0


2
...
...
1 + ρ −ρ
 ...
0
0
...
−ρ
1








La forma quadratica nei residui è:
R(β, ρ, σ 2 ) = [Y − Xβ]T Vε − 1[Y − Xβ] =
avendo indicato con ei l’i-esimo residuo empirico:
ei = yi − yi ∗
Per ottenere l’espressione sopra indicata per R(β, ρ, σ 2 ) si tenga
presente che nella forma quadratica:
----------------------------------------------------------------------------qui mancano parecchie formule
controllare anche le versioni degli
anni passati
----------------------------------------------------------------------------tutti gli elementi Zij della matrice V−1 sono nulli se: |i − j| > 1
In definitiva:
2logL = nlogσa2 − log(1 − ρ2 )+
Se n è grande, l’influenza dei termini − log(1 − ρ2 ) e (1 − ρ2 )e21 ,
è trascurabile, per cui:
xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx
per cui le stime asintotiche di massima verosimiglianza per i parametri riguardanti le componenti della varianza dell’ errore sono
date da:
374
Materiale didattico statistica 3
Pn
r=
i=2 ei ei−1
P
n−1 2
i=1 ei
(avendo indicato con s2a e rrispettivamente le stime di σa2 e ρ)
dal momento che:
xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx
che si annulla quando:
xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx
11.2.3
Trasformazioni di variabili nell’analisi della varianza e nella regressione multipla
11.2.4
Effetti delle trasformazioni nei modelli lineari
Stabilizzazione varianza ⇔ linearizzazione
Assunzioni su εi ⇔ linearizzazione
Se per esempio : yi = f(x ; β) + εi con V(εi ) = σi2
se si trova una trasformazione g(.) che stabilizza la varianza:
g(yi ) ⇒ v(g(yi )) ≈ costante.
Allora, se f(.) era lineare, dopo la trasformazione in generale non
lo sarà più.
Additività e linearità:
Si supponga di avere un modello non lineare con errori di tipo
moltiplicativo omoscedastici:
y = eα+βx (1 + ε0 )
con σ 2 (ε0 ) = σ02
log(y) = α + βx + log(1 + ε0 )
per il valore atteso della trasformata si ha:
E [log(1 + ε0 )] ≈ E [ε0 ] = 0
(sviluppando in serie e troncando al primo termine).
Si ha allora che Var[log(1 + ε0 )] è indipendente da x.
...
Ma, se ε0 è normale, log(1 + ε0 ) non lo è, e viceversa.
2002-3003 versione provvisoria
375
Oppure se:
ε0
y=e
+ ε0 = e
1+
E [Y ]
ε0
log(y) = α + βx + log 1 +
= α + βx + z0
E [Y ]
α+βx
α+βx
con:
E [z0 ] ≈ 0
V ar(z0 ) = g[E [Y ]],
per cui la trasformazione linearizzante introduce una eteroscedasticità degli errori
Figura da inserire BLOCCO DI LUCIDI SCRITTI A MANO
Vantaggi e svantaggi degli approcci basati su trasformazioni
Trasformazioni normalizzanti:Trasformazioni di BOX-COX
Stabilizzazione della varianza: conteggi binomiali e di Poisson
anche da un notebook di mathematica.
376
Materiale didattico statistica 3
Elenco delle figure
2.1
2.2
2.3
tempi di arrivo delle onde sonore di un segnale a una
sequenza di sensori posti ad intervalli uguali sul terreno 21
esempio elettrosmog: controlli . . . . . . . . . . . . . 24
esempio elettrosmog: casi . . . . . . . . . . . . . . . 25
3.1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.3 grafico a matrice delle coppie di variabili:dati grezzi .
3.4 grafico a matrice delle coppie di variabili . . . . . . .
3.5 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.6 grafico a matrice delle coppie di variabili . . . . . . .
3.7 grafico a matrice delle coppie di variabili:scale logaritmiche per tutte le variabili . . . . . . . . . . . . . .
3.8 grafico a matrice delle coppie di variabili:valori giornalieri di 8 indici di 8 borse . . . . . . . . . . . . . .
3.9 grafico a matrice delle coppie di variabili trasformate:valori giornalieri dei rendimenti relativi degli 8 indici di 8 borse . . . . . . . . . . . . . . . . . . . . . .
3.10 grafico a matrice delle tre variabili antropometriche e
dell’età gestazionale: dati grezzi . . . . . . . . . . . .
3.11 grafico a matrice delle tre variabili antropometriche e
dell’età gestazionale: dati corretti (almeno in parte) .
3.12 esempio delle nascite: relazione fra altezza e peso dei
nati . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.13 esempio delle nascite: relazione fra peso dei nati e
durata della gestazione . . . . . . . . . . . . . . . . .
3.14 esempio delle nascite: relazione fra peso dei nati e
durata della gestazione . . . . . . . . . . . . . . . . .
3.15 esempio delle nascite: relazione fra peso dei nati e
durata della gestazione . . . . . . . . . . . . . . . . .
377
29
30
31
32
33
36
37
38
39
41
42
44
45
46
47
378
Materiale didattico statistica 3
3.16 esempio delle nascite: relazione fra peso dei nati e
durata della gestazione . . . . . . . . . . . . . . . . .
3.17 esempio delle nascite: relazione fra peso all’ingresso
e peso all’uscita . . . . . . . . . . . . . . . . . . . . .
4.1
4.2
4.3
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Matrice di correlazione delle 4 variabili dell’esempio
dei neonati . . . . . . . . . . . . . . . . . . . . . . . .
Retta di minima distanza (ortogonale!) dai punti
osservati:regressione principale . . . . . . . . . . . . .
48
50
67
68
76
5.1 densità di normali bivariate 1 . . . . . . . . . . . . . 80
5.2 densità di normali bivariate 2 . . . . . . . . . . . . . 81
5.3 intersezioni con la normale bivariata . . . . . . . . . . 83
5.4 intersezioni con la normale bivariata . . . . . . . . . . 84
5.5 intersezioni con la normale bivariata . . . . . . . . . . 85
5.6 densità di normali bivariate 1 . . . . . . . . . . . . . 95
5.7 densità di normali bivariate 2 . . . . . . . . . . . . . 96
5.8 distribuzioni condizionate in una normale multivariata 122
5.9 distribuzioni condizionate in una normale multivariatamatrice di varianze e covarianze e inversa . . . . . . 123
6.1
6.2
6.3
6.4
6.5
6.6
6.7
6.8
7.1
7.2
7.3
7.4
relazione fra due variabili in funzione del valore di
una terza variabile . . . . . . . . . . . . . . . . . . .
FIG2000REGR3.STG . . . . . . . . . . . . . . . . . .
distribuzioni condizionate normali . . . . . . . . . . .
campione da una normale bivariata . . . . . . . . . .
distribuzioni condizionate normali in corrispondenza
di valori fissati . . . . . . . . . . . . . . . . . . . . . .
box-plot con retta di regressione e spezzata di regressione . . . . . . . . . . . . . . . . . . . . . . . . . . .
interaz1.stg . . . . . . . . . . . . . . . . . . . . . . .
interaz2.stg . . . . . . . . . . . . . . . . . . . . . . .
grafico a matrice delle tre variabili antropometriche .
relazione fra Circonferenza toracica e altezza su 1519
ragazzi . . . . . . . . . . . . . . . . . . . . . . . . . .
relazione fra Circonferenza toracica, altezza e peso su
1519 ragazzi . . . . . . . . . . . . . . . . . . . . . . .
relazione fra Circonferenza toracica, altezza e peso su
1519 ragazzi . . . . . . . . . . . . . . . . . . . . . . .
144
193
194
194
195
196
197
198
200
202
204
205
2002-3003 versione provvisoria
7.5
7.6
7.7
7.8
7.9
8.1
relazione fra Circonferenza toracica, altezza e peso su
1519 ragazzi . . . . . . . . . . . . . . . . . . . . . . .
regressione dell’Altezza rispetto al peso: relazione fra
i residui e la variabile esplicativa peso . . . . . . . . .
regressione della Circonferenza toracica rispetto al
peso: relazione fra i residui e la variabile esplicativa
peso . . . . . . . . . . . . . . . . . . . . . . . . . . .
relazione fra i residui W1 della variabile torace e i
residui W2 della variabile altezza . . . . . . . . . . .
correlazioni fra le 3 variabili e i due residui . . . . . .
379
206
210
211
212
216
verosimiglianza rispetto a µ e σ 2 per un campione
proveniente da una normale e verosimiglianza profilo
su µ . . . . . . . . . . . . . . . . . . . . . . . . . . . 225
11.1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 366
11.2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 367
elenco figure