Statistica 3 Statistica 3 - Dipartimento di Scienze Statistiche e

Prof. M. Chiodi
Introduzione
1
Appunti del Corso di
Statistica 3
(A.A. 2000-2001; Corso annuale, 70 ore circa)
Corso di Laurea in Scienze Statistiche ed Economiche.
3° anno, nuovo ordinamento
Prof. Marcello Chiodi
Istituto di Statistica
Facoltà di Economia di Palermo
Viale delle Scienze;
90128 - Palermo-Italy
(tel. xx39-0916626238; 0916626322; fax. xx39-091485726)
e-mail [email protected])
home page: http://statistica.economia.unipa.it/chiodi
.
Collabora al corso:
Dott. ssa Ing. Antonella Plaia
Istituto di Statistica
Facoltà di Economia, Palermo
[email protected]
SOMMARIO PARTE 1
Programma del corso di:
Statistica 3...............................................................3
ARGOMENTI DEL CORSO...........................................................................................3
Articolazione del corso: ...................................................................................................6
Problemi introduttivi ................................................................................. 9
C
Elementi distintivi dei vari problemi .................................................................. 17
Elementi comuni ai vari problemi:.................................................................................17
Richiami di alcune proprietà dei vettori aleatori e delle matrici. ......... 18
Momenti primo e secondo multivariati di vettori aleatori ......................................19
C
Momenti di una trasformata lineare di un vettore aleatorio:............................... 21
Funzione caratteristica di una trasformata lineare di un vettore aleatorio......................22
Momenti di funzioni qualsiasi di vettori aleatori. ..........................................................23
C
Forme quadratiche .............................................................................................. 28
Significato geometrico delle forme quadratiche ............................................................29
Momenti di forme quadratiche.......................................................................................29
C
Rango di una matrice .......................................................................................... 30
Rango della matrice di varianza e covarianza di un vettore aleatorio:...........................30
C
Traccia di una matrice: ....................................................................................... 32
Varianza generalizzata ...................................................................................................32
Appunti del Prof. M. Chiodi per il corso di Statistica 3
a.a. 2000-2001
Prof. M. Chiodi
Introduzione
2
C
Matrice inversa: .................................................................................................. 33
Significato degli elementi dell'inversa di una matrice di varianze e covarianze ............33
Inversa di una matrice simmetrica partizionata..............................................................35
Matrice inversa generalizzata.........................................................................................37
C
Risultati utili sulle derivate di matrici e vettori................................................... 38
Autovalori e autovettori..............................................................................................40
C
C
C
Definizione di autovettore e autovalore:............................................................. 41
Proprietà generali degli autovalori...................................................................... 42
Autovalori e autovettori di matrici simmetriche ................................................. 43
Diagonalizzazione di una matrice simmetrica................................................................44
Autovalori di una forma quadratica definita positiva.....................................................46
C
Analisi delle componenti principali (cenni)........................................................ 47
Significato statistico e probabilistico delle componenti principali.................................49
C
Matrici idempotenti ............................................................................................ 51
Esempio: ........................................................................................................................51
Esempi di matrici idempotenti di rango 2: .....................................................................52
la distribuzione normale multivariata. ................................................... 53
C
La distribuzione congiunta di p combinazioni lineari di p variabili normali
indipendenti .......................................................................................................................... 54
C
Densità della distribuzione normale multivariata: .............................................. 56
C
Distribuzione di combinazioni lineari di variabili normali qualsiasi. ................. 58
Caratterizzazione della distribuzione normale multivariata. ..........................................58
Assi principali degli ellissoidi di equiprobabilità ............................................................ 60
Esempi e grafici sulla normale trivariata........................................................................62
C
Forme quadratiche in variabili normali standardizzate e indipendenti. .............. 65
Esempio 67
Forme quadratiche idempotenti: somma dei quadrati degli scarti dalla media. .............68
Distribuzione dell'esponente della distribuzione normale multivariata..........................70
Indipendenza di forme quadratiche e combinazioni lineari di variabili normali. ............ 72
C
Teorema di Cochran: .......................................................................................... 73
C
Distribuzioni condizionate.................................................................................. 76
Distribuzione condizionata nel caso generale di un gruppo di componenti rispetto ad un
altro gruppo di componenti. .................................................................................................. 77
C
Significato degli elementi dell'inversa della matrice di varianza e covarianza... 82
Gli elementi non diagonali dell'inversa: la correlazione parziale...................................82
Esempi sulla differenza fra l'indipendenza condizionata e l'indipendenza marginale....85
Gli elementi non diagonali dell'inversa: la correlazione multipla ..................................86
Impiego delle informazioni dell'inversa C nell'analisi di dati multivariati.....................88
Esempio di variabili condizionatamente non correlate ..................................................89
C
Regressioni lineari approssimate per vettori aleatori qualsiasi ........................... 90
Analisi delle correlazioni lineari presenti in data set osservati ......................................91
C
Sintesi delle informazioni sui vari tipi di correlazione e dipendenza lineare
ricavabile dai primi 2 momenti multivariati.......................................................................... 92
C
Esempi di distribuzioni multivariate non normali............................................... 95
una particolare distribuzione beta multivariata (distribuzione di Dirichlet)...................95
Altri esempi di distribuzioni multivariate non normali ..................................................98
costruzione di variabili correlate..................................................................................104
Appunti del Prof. M. Chiodi per il corso di Statistica 3
a.a. 2000-2001
Prof. M. Chiodi
Introduzione
3
Programma del corso di: Statistica 3
Obiettivi formativi del corso:
Dare gli strumenti metodologici per l'inferenza nella regressione multipla, nell'analisi
della varianza a una e più vie con un approccio unificato nell'ambito dei modelli lineari;
fornire degli strumenti di base di analisi multivariata. Fornire gli strumenti di base per
l'analisi della dipendenza di un fenomeno in funzione di fattori quantitativi e/o
qualitativi, con riferimento particolare all'analisi dei modelli lineari; dare gli strumenti di
base per la costruzione e la convalida di modelli per l'analisi di dati sia osservazionali che
sperimentali; fornire tecniche di base per l'analisi di dati multivariati;
Contenuti professionalizzanti:
Conoscenza pratica di software statistico interattivo per l'analisi multivariata e per
l'analisi della dipendenza; capacità di analisi di dati complessi e di rappresentazioni
grafiche utili per insiemi di dati multivariati; costruzione e selezione di modelli di
interpretazione dei dati; costruzione e analisi di disegni sperimentali.
ARGOMENTI DEL CORSO
Problemi introduttivi: Esempi vari - Elementi distintivi dei vari problemi - Elementi comuni ai
vari problemi.
Introduzione ai Modelli Lineari
Caratteristiche essenziali degli elementi del modello - Versatilità del modello Generalizzazioni - Problemi di inferenza - Ipotesi sulle
Configurazioni della matrice
delle variabili esplicative. Osservazioni ripetute - Disegni fattoriali - Disegni 2k Regressione multipla - Regressione polinomiale - Superfici di risposta - Regressori del
tipo 0/1 (dummy variables) - Analisi della varianza ad una e più vie - Analisi della
covarianza - Interazioni come termini moltiplicativi.
Richiami di alcune proprietà dei vettori aleatori e delle matrici
Momenti di vettori aleatori e di una trasformata lineare di un vettore aleatorio Momenti di funzioni qualsiasi di vettori aleatori - Momenti di forme quadratiche - Rango
della matrice di varianza e covarianza - Traccia di una matrice - Varianza generalizzata Matrice inversa - Inversa di una matrice simmetrica partizionata; inversa generalizzata derivate di matrici e vettori di funzioni Matrici idempotenti
Appunti del Prof. M. Chiodi per il corso di Statistica 3
a.a. 2000-2001
Prof. M. Chiodi
Introduzione
4
Analisi delle componenti principali
Autovalori e autovettori. - Diagonalizzazione di una matrice simmetrica - Autovalori di
una forma quadratica definita positiva - Componenti principali di vettori di variabili
aleatorie - Combinazioni lineari di massima varianza - Significato statistico e
probabilistico delle componenti principali - Analisi delle componenti principali per insiemi
di dati multivariati - Rette di minima distanza da punti osservati. Impiego nell’analisi
esplorativa di dati
La distribuzione normale multivariata
La distribuzione congiunta di p combinazioni lineari di p variabili normali indipendenti Assi principali degli ellissoidi di equiprobabilità - Forme quadratiche in variabili normali
standardizzate e indipendenti - Teorema di Cochran - Distribuzioni condizionate nella
normale multivariata: - Regressioni lineari approssimate per vettori aleatori qualsiasi Significato degli elementi dell'inversa della matrice di varianza e covarianza - Esempi di
distribuzioni multivariate non normali - una particolare distribuzione beta multivariata
(distribuzione di Dirichlet).
Stima dei parametri del modello lineare (modelli a rango pieno)
Assunzioni di base nel modello lineare - La verosimiglianza del modello lineare - rapporti
di verosimiglianza - Statistiche sufficienti e matrice di informazione - minimi quadrati
ordinari teorema di Gauss - Markov - Distribuzione campionaria di b - Distribuzione della
devianza residua. Scomposizione della devianza nel modello lineare e verifica di ipotesi
mediante test F. Distribuzioni di F sotto H0 e sotto H1 - Caso di gruppi di variabili x
ortogonali - configurazioni della matrice X e di X'X.
Verifica di ipotesi generali
Stima dei parametri del modello lineare con vincoli lineari sui parametri - Minimi quadrati
vincolati - Scomposizione della devianza per il problema soggetto a vincoli - Test e
regioni di confidenza nei modelli lineari - regioni di confidenza per funzioni lineari dei
parametri - sottoinsiemi di parametri - Intervalli di confidenza per E(Yi) - errori di
previsione - intervalli di confidenza per E(y)
Regressione multipla
Scomposizione della devianza empirica col termine noto e k regressori a media nulla - Il
coefficiente di determinazione lineare multipla R2 - Scomposizione della devianza - Prova
di ipotesi particolari nella regressione multipla - Test per un singolo coefficiente - Test
per più coefficienti fissati
Appunti del Prof. M. Chiodi per il corso di Statistica 3
a.a. 2000-2001
Prof. M. Chiodi
Introduzione
5
Multicollinearità e scelta di variabili
Conseguenze sulla distribuzione campionaria di b - Misura della collinearità - Costruzione
di uno stimatore distorto di La scelta delle variabili nella regressione lineare multipla.
motivazioni - Strategie di scelta - fonti di distorsioni - Criteri di scelta - Algoritmi di
scelta delle variabili - Distorsione degli stimatori con modelli ridotti - errore quadratico
medio degli stimatori
Analisi della varianza
modelli a rango non pieno.Analisi della varianza ad una via Modelli ad effetti fissi. Ipotesi
di interesse - Scomposizione della varianza - L'analisi della varianza come confronto fra
stime di varianze. Il problema dei confronti multipli: Metodo di Tukey - Range
studentizzato - Intervalli di confidenza per le differenze fra medie e generalizzazione ai
contrasti lineari fra effetti - Metodo di Scheffè - Relazione fra gli intervalli di Scheffè
e il test F - - Divergenza dalla linearità per fattori quantitativi - L'ipotesi di omogeneità
delle varianze: il test di Bartlett
Analisi della varianza a due e più vie il modello additivo - il modello con interazioni significato delle interazioni - Influenza della ripartizione delle n osservazioni nelle r×c
celle sull'analisi - scomposizione della devianza empirica - Disegni non bilanciati - Disegni
con una sola osservazione per casella - Modelli moltiplicativi per le interazioni - Analisi
della varianza a più vie - Blocchi randomizzati e quadrati latini (cenni). Analisi della
varianza con variabili concomitanti: L’analisi della covarianza, confronto fra k relazioni di
regressione. Il Potere del test F: distribuzioni non centrali - Calcolo del potere del test
Modelli ad effetti casuali caratteristiche del modello - significato dei parametri Componenti della varianza - AOV a una via: effetti casuali - stima dei parametri Distribuzione degli stimatori
Allontanamento dalle assunzioni di base nel modello lineare e nell’analisi
della varianza
Analisi dei residui Aspetti peculiari dell'analisi dei residui - Definizione generale di
residuo - Caratteristiche dei residui empirici nei modelli lineari - grafici dei residui
empirici - identificazione di particolari allontanamenti
Allontanamento dalle assunzioni di base nel modello lineare: Minimi quadrati
generalizzati.
matrice di varianze e covarianze qualsiasi - Minimi quadrati ponderati - Modelli con errori
autocorrelati - Trasformazioni di variabili nell'analisi della varianza e nella regressione
multipla - Stabilizzazione della varianza: conteggi binomiali e di Poisson
Modelli Lineari Generalizzati (GLM)
Regressione logistica Trasformazione logit - significato dei parametri. Modelli Lineari
Generalizzati (GLM) famiglia esponenziale - funzioni di legame - funzione di devianza selezione del modello - modelli loglineari (cenni)
Appunti del Prof. M. Chiodi per il corso di Statistica 3
a.a. 2000-2001
Prof. M. Chiodi
Introduzione
6
Tecniche di analisi multivariata
Tipe di matrici di dati nell'analisi di dati multivariata. La scomposizione della devianza
per una variabile statistica multipla;
L’analisi dei gruppi (cluster analysis): finalità, metriche euclidee e non, criteri di
raggruppamento, algoritmi iterativi; metodi gerarchici e non gerarchici
L’analisi delle funzioni discriminanti: funzioni discriminanti lineare; probabilità di
classificazione errata;
Tecniche di scaling multidimensionale
Articolazione del corso:
corso di lezioni teoriche e corso di esercitazioni ed esame di casi pratici mediante
software statistico.
Requisiti di base (consigliati) per la frequenza del corso:
Statistica 1; Statistica 2; Analisi 1; Analisi 2; Geometria ed algebra; Calcolo delle
Probabilità; è consigliabile anche avere un minimo di familiarità con un personal computer.
Modalità di svolgimento dell'esame:
L'esame è costituito da una prova pratica (da svolgersi di norma con l’ausilio di un
computer) e da una prova orale.
Materiale didattico e programma dettagliato
Parte del materiale didattico impiegato (lucidi, figure, esempi, etc.) è distribuito agli
studenti durante lo svolgimento del corso, ma non può costituire la fonte unica della
preparazione dello studente. Gli studenti interessati ad avere una copia di tale materiale
e del programma dettagliato possono rivolgersi al Prof. Chiodi, o cercare sulle pagine
web: http://statistica.economia.unipa.it/chiodiGli studenti sono comunque invitati ad
approfondire gli argomenti del corso sui testi che ritengono più adeguati, eventualmente
consultando il docente.
Il Prof. Chiodi é contattabile negli orari di ricevimento ed anche:
tel. xx39-0916626238; 0916626322; e-mail [email protected];
home page:http://statistica.economia.unipa.it/chiodi
Appunti del Prof. M. Chiodi per il corso di Statistica 3
a.a. 2000-2001
Prof. M. Chiodi
Introduzione
7
AVVERTENZA
• Presuppongo che lo studente che legge questi appunti o che
comunque segue il corso, abbia le necessarie conoscenze di inferenza
statistica, che qui vengono date per scontate (proprietà degli stimatori,
stimatori di massima verosimiglianza, costruzione di test, ipotesi
semplici, composte, parametri di disturbo, intervalli e regioni di
confidenza, etc.).
• Alcuni strumenti tecnici di base, che considero essenziali per la
comprensione di alcuni argomenti fondamentali, vengono esposti
anticipatamente, in modo da non perdersi nei meandri di distribuzioni
campionarie, di forme quadratiche, di inverse di matrici partizionate,
quando è opportuno concentrarsi sul significato statistico di
determinate metodologie generali, quali i modelli lineari; ad esempio
i teoremi sulla distribuzione delle forme quadratiche in variabili
normali vengono esposti molto prima del momento in cui vengono
poi applicate, ossia per la distribuzione di particolari stimatori e per la
costruzione di test e regioni di confidenza nell’analisi dei modelli
lineari.
• In questo corso non viene dato particolare risalto agli aspetti
propriamente computazionali, nel senso che quando per esempio si
dice di trovare gli stimatori di massima verosimiglianza di certi
parametri, sotto particolari ipotesi e assunzioni, si presuppone che
questi stimatori siano calcolabili in forma esplicita o che siano
comunque valutabili in modo numerico utilizzando convenienti
algoritmi, che in questo corso non vengono comunque affrontati.
• Il corso di esercitazioni va considerato a tutti gli effetti parte
integrante comunque del presente corso. Il corso di esercitazioni,
sebbene non direttamente finalizzato allo studio di casi completi di
studio, ma prevalentemente a delle esemplificazioni su dati reali,
viene svolto in buona parte su PC, ed ha fra le finalità quella di
allenare gli studenti all' uso ragionato del software statistico
interattivo, e ad affrontare le tecniche fondamentali di analisi
esplorative di data set multivariati
• Questi appunti sono nati in effetti dai lucidi utilizzati per le mie
lezioni del corso di Statistica 3 del 1998-1999. Da allora, e su
sollecitazione anche degli studenti, sono diventati un po’ più corposi,
sono stati eliminati alcuni errori (moltissimi ancora sono certamente
presenti, e possono essermi direttamente segnalati per e-mail
[email protected]), tuttavia ancora non rispecchia bene il corso, per cui
non è una dispensa vera e propria per diversi motivi:
Appunti del Prof. M. Chiodi per il corso di Statistica 3
a.a. 2000-2001
Prof. M. Chiodi
Introduzione
8
§ Gli appunti non coprono tutto il corso (molti lucidi delle lezioni
sono scritti a mano e non si trovano dunque in questo file)
§ Gli argomenti non sono bilanciati, nel senso che alcune parti sono
più sviluppate di altre semplicemente perché ho avuto il tempo di
scrivere di più. Conto negli anni di equilibrare le varie parti.
§ Molte delle figure impiegate nel corso non sono organicamente
inserite in questi appunti.
§ Lo studente, oltre che procurarsi le copie dei miei lucidi manuali
non presenti su questo file, dovrà in ogni caso approfondire la sua
preparazione sui testi che riterrà più opportuni
ma in nessun caso questi appunti esauriscono da
soli la preparazione richiesta dal corso.
Ove possibile ho cercato di mettere dentro questo tipo di
bordatura ondulata gli argomenti che in prima lettura si
possono saltare, o perché molto formali, o perché solo esempi
Appunti del Prof. M. Chiodi per il corso di Statistica 3
a.a. 2000-2001
Prof. M. Chiodi
Introduzione
9
PROBLEMI INTRODUTTIVI
• I problemi e casi di studio che seguono, che derivano da esperienze
reali o da esempi riportati nella letteratura, sono funzionali
all'introduzione al corso, e in parte costituiscono una selezione dei
problemi reali che verosimilmente sono affrontabili con le
metodologie e le tecniche studiate in questo corso.
• Alcuni, in una forma anche diversa, di solito semplificata, sono poi
ripresi durante le mie lezioni, o comunque utilizzati come spunto per
l'introduzione di problematiche specifiche, o sfruttati nel corso di
esercitazioni. Complessivamente coprono buona parte degli
argomenti del corso di Statistica 3.
• Altri problemi, evidenziati nel testo, si riferiscono invece a situazioni
e a metodologie diverse (tipicamente per alcune tecniche speciali di
analisi multivariata) che verranno solo accennate in questo corso ed
affrontate con maggiore dettaglio in altri corsi.
Appunti del Prof. M. Chiodi per il corso di Statistica 3
a.a. 2000-2001
Prof. M. Chiodi
Introduzione
10
Esempio 1
In molti esperimenti agrari si vogliono mettere a confronto delle
varietà di una certa coltura o pianta; oppure si vogliono confrontare dei
concimi differenti o comunque confrontare tecniche diverse di
produzione.
•
Si vuole vedere (mediante un esperimento che conduca
all'ottenimento di un campione di osservazioni) se la diversa
varietà, o concime o altro fattore distintivo influenza la quantità
media di raccolto per unità di area (a parità di altre condizioni)
•
L'area ove si conduce l'esperimento viene suddivisa in lotti, e le
diverse varietà, e/o i concimi, vengono assegnati ai vari lotti.
E' comunque noto che se nei vari lotti vengono assegnate le stesse varietà
nelle stesse condizioni, il raccolto sarà comunque diverso, anche in modo
rilevante, da lotto a lotto.
•
I lotti vicini avranno la tendenza ad avere livelli dei raccolti
simili, e potrebbero esserci altri effetti collegati con la posizione
fisica dei lotti.
•
Se l'esperimento fosse condotto in un altro anno,
presumibilmente il raccolto medio sarebbe sostanzialmente
diverso da quello di quest'anno, anche usando la stessa varietà o
concime.
Problemi statistici:
•
Separare l'effetto imputabile alle differenze fra i fattori
controllabili, ossia le varietà (o i concimi) dagli effetti dovuti ai
fattori non controllabili, ossia i diversi lotti ed altre fonti di
variabilità
•
Stabilire qual è la varietà migliore, piuttosto che stimare la
produttività media.
•
Come pianificare l'esperimento se si vogliono effettuare
simultaneamente i confronti fra le varietà e quelli fra i concimi?
Oppure è meglio fare un esperimento per le varietà ed un altro
per i concimi?
•
Se esiste un concime migliore, è sempre lo stesso per qualsiasi
varietà?
Appunti del Prof. M. Chiodi per il corso di Statistica 3
a.a. 2000-2001
Prof. M. Chiodi
Introduzione
11
Esempio 2
Si vuole verificare l'efficacia di due o più farmaci per la cura di una
certa patologia.
• Si tenga presente che presumibilmente individui distinti possono avere
reazioni differenti a parità di tipo e di dose farmaco.
• La reazione ad un farmaco potrebbe dipendere in parte da
caratteristiche note del paziente, quali, sesso, età, essere o meno
ipertesi, presenza di altre patologie, etc.
Problemi di organizzazione dell'esperimento:
Lo stesso soggetto può ricevere somministrazioni differenti? (per molte
patologie ciò non sarà senz'altro possibile, lo sarà ad esempio per l'emicrania,
ma non per le cardiopatie)
•
•
•
•
E' opportuno prevedere un gruppo di controllo cui viene
somministrato un placebo?
La consapevolezza dei soggetti di far parte di un gruppo
sperimentale in certi casi potrebbe alterare la risposta.
Come prevedere l'effetto nel caso della mancata
somministrazione di un farmaco? Mediante placebo o mediante
dati storici o di altri esperimenti su altri soggetti?
Cambia qualcosa se lo scopo è il confronto fra i due farmaci
oppure una valutazione della loro efficacia individuale?
Esempio 3
In un esperimento farmacologico su un anti depressivo somministrato
a delle cavie, si vuole verificare l'efficacia del farmaco in concomitanza
con altri fattori, alcuni dei quali dipendenti dal fatto che la madre della
singola cavia avesse assunto o meno un certo altro farmaco durante la
gravidanza.
Molti fattori sono costituiti da mutabili dicotomiche (ossia somministrazione
o no del farmaco)
♦ Viene organizzato un esperimento con diverse combinazioni dei livelli
dei fattori. Per ogni soggetto viene predeterminata una attitudine
generale all'esperimento in assenza di farmaco.
Esempio 4
In un esperimento farmacologico di dosaggio biologico, si vuole
costruire la curva della risposta in funzione delle dosi di un certo farmaco
A.
Appunti del Prof. M. Chiodi per il corso di Statistica 3
a.a. 2000-2001
Prof. M. Chiodi
Introduzione
12
♦ E' noto che la risposta media individuale per dosi intermedie è
approssimativamente lineare, almeno in un range limitato di valori
delle dosi somministrate.
Per intervalli più ampi si sa senz'altro che la risposta non è di tipo lineare.
♦ Dosi troppo piccole (al di sotto di un certo valore di soglia) non
portano risposte misurabili.
♦ I sovradosaggi non portano benefici ulteriori, o addirittura possono
essere dannosi.
♦ Occorre stimare il livello di soglia minima
♦ Si vuole stimare la forma dell'intera curva di risposta
♦ Si vogliono ottenere dei dosaggi particolari (corrispondenti al 50%,
ossia al fatto che siano efficaci per il 50% dei soggetti)
Esempio 5
In un esperimento industriale si vogliono mettere a confronto più
procedimenti per l'estrazione di un certo elemento da minerali grezzi.
♦ Interessa selezionare il procedimento complessivamente migliore,
ossia che estrae la maggior parte di elemento a parità di costo o di
costo inferiore a parità di materiale.
♦ I minerali grezzi hanno caratteristiche differenti come proporzione di
elemento presente.
Alcuni procedimenti potrebbero essere migliori con minerali con un maggior
grado di purezza.
Esempio 6
Si deve eseguire una lavorazione per deformazione plastica su una
lastra metallica.
♦ E' noto che il processo risulta notevolmente influenzato sia da
parametri geometrici sia tecnologici.
♦ In fase di progettazione vengono fissati la forma e le dimensioni finali
del pezzo, il suo spessore, e il tipo di materiale da utilizzare.
♦ Il problema è quello di determinare il valore degli altri parametri che
caratterizzano il processo, quali il raggio del punzone, le condizioni di
attrito iniziale, la pressione da esercitare, con l'obiettivo di ottimizzare
la lavorazione.
Esempio 7
In uno studio sulla qualità didattica delle scuole elementari si vuole
vedere se l'apprendimento dei bambini è in qualche modo legato al livello
di scolarizzazione dei genitori.
Appunti del Prof. M. Chiodi per il corso di Statistica 3
a.a. 2000-2001
Prof. M. Chiodi
Introduzione
13
• Si deve tenere conto dell'influenza della diversa scuola.
• Si deve tenere conto dell'influenza del diverso insegnante.
• Si possono tenere presenti altri fattori che possono influenzare tale
relazione.
Esempio 8
Viene condotta per conto di un'emittente televisiva un'indagine
(multiscopo) mediante questionario per studiare il gradimento delle
trasmissioni, misurato sia attraverso una scala prestabilita sia mediante il
numero degli spettatori (che ha seguito tutta la trasmissione o solo una
parte)
•
I gradimenti saranno differenti per le diverse trasmissioni;
•
Potrebbe esservi un'influenza di fattori quali: sesso, età, posizione
geografica, preferenze degli altri componenti del nucleo
familiare, etc.
•
L'orario di trasmissione e il tipo di programmi offerti
simultaneamente dalla concorrenza avranno sicuramente
un'influenza sul numero medio di spettatori e/o sullo share.
Esempio 9
Si vogliono confrontare diverse diete per l'alimentazione di suini.
L'efficacia della dieta è misurata semplicemente dall'incremento di peso
medio settimanale: interessa trovare la migliore dieta.
•
E' presumibile che l'incremento di peso di un generico animale
sia dovuto a diversi fattori più o meno controllabili, ma
comunque in parte misurabili.
Il peso iniziale dell'animale è certamente importante.
•
•
•
La provenienza (maternità e paternità) dell'animale potrebbe
anche influenzarne le risposte.
Quali diete sono migliori?
Quali sono senz'altro da scartare?
Esempio 10
Si sta studiando una determinata patologia e si predispone un'indagine
clinica in cui si esaminano due gruppi di soggetti, brevemente
identificati come malati e sani. Per ciascun soggetto si rileva una
molteplicità di fattori collegati con la sintomatologia, la fisiologia e
l'anamnesi del singolo paziente.
•
Quanto differiscono, rispetto ai vari sintomi ed alle caratteristiche
fisiologiche ed all'anamnesi, i pazienti malati da quelli sani?
Appunti del Prof. M. Chiodi per il corso di Statistica 3
a.a. 2000-2001
Prof. M. Chiodi
Introduzione
14
Esistono alcuni sintomi o caratteristiche individuali che possono fungere da
variabili di screening ossia di discriminazione fra i due gruppi?
•
•
E' possibile dire se un individuo è sano o malato sulla base dei
soli sintomi e delle variabili ausiliarie, prima di effettuare
un'analisi specifica? Qual è la probabilità di sbagliare e quali
sono i sintomi o le caratteristiche che consentono di prendere le
decisioni migliori?
Oppure si vuole stimare qual è la probabilità di contrarre la
malattia (in un determinato intervallo di tempo) in funzione dei
vari fattori.
Esempio 11
In un sito archeologico vengono trovati diversi scheletri. Su ciascuno
scheletro vengono effettuate diverse misurazioni (larghezza scatola
cranica, lunghezza femore, etc, …)
Sulla base di queste misurazioni è possibile stabilire se si tratta di un insieme
omogeneo?
•
•
Oppure l'insieme è eterogeneo e quindi è un sito in cui sono
presenti sia uomini, che donne e bambini?
E' un sito in cui si trovano solo uomini (e quindi forse è un
campo di battaglia)?
Esempio 12
Si deve ottimizzare l'allocazione delle risorse nel magazzino centrale
di una catena di ipermercati: l'ottimalità dell'allocazione coincide con la
minimizzazione dei tempi di evasione degli ordini.
♦ In realtà si vuole contemporaneamente tenere conto di altri fattori
importanti, quali la fragilità dei colli, o la loro diversa forma, che non
consente un perfetto riempimento della pedana, o ancora il grado di
affinità tra i prodotti (per esempio al magazziniere può risultare
comodo trovare tutti i tipi di pasta in posizioni limitrofe), o una certa
correlazione tra i prodotti, dovuta al fatto che questi spesso si trovano
presenti contemporaneamente in un ordine, o infine, ma non per
questo meno importante, il diverso indice di rotazione della merce.
Come tenere conto simultaneamente di tutti questi fattori di così diversa
natura?
Esempio 13
In un'indagine antropometrica, si esamina un grosso campione di
ragazzi a cavallo dell'età puberale, su ciascuno dei quali vengono rilevati
diversi caratteri antropometrici.
Appunti del Prof. M. Chiodi per il corso di Statistica 3
a.a. 2000-2001
Prof. M. Chiodi
§
§
Introduzione
15
Come interagiscono le variabili? Un sottoinsieme di esse o loro
combinazioni sarebbero sufficienti per dare buone informazioni
sintetiche?
Alcune combinazioni di variabili potrebbero descrivere
sufficientemente bene la fase dello sviluppo puberale di ciascun
individuo?
Esempio 14
Si hanno dei campioni di onde sonore, rappresentate da una curva,
prodotte da un campione di n soggetti nel pronunciare alcune parole
prestabilite. In base a questa informazione campionaria, se si osservano
nuove onde sonore, si è in grado di determinare a quali parole
corrispondono?
Esempio 15
Si hanno cinque oggetti: se ne vogliono determinare le masse
disponendo di una bilancia.
♦ Occorre effettuare una pesata a vuoto per tarare lo strumento?
♦ E' meglio pesare tutti gli oggetti insieme oppure singolarmente?
♦ E' opportuno effettuare più pesate in tempi diversi?
♦ Quale precisione nel risultato si vuole ottenere?
♦ Il tipo di strumento è rilevante? (la bilancia di un laboratorio chimico
ha caratteristiche diverse da quella del negozio alimentare)
E' rilevante nell'organizzazione dell'esperimento che le masse siano simili
oppure fra loro molto differenti, ad esempio se fra i cinque oggetti vi sono un
camion ed una rondella? (e per rispondere a questa domanda abbiamo fatto
una sommaria valutazione preliminare delle quantità che occorre stimare)
Esempio 16
E' noto che la capacità della scatola cranica è essenzialmente
funzione di tre lunghezze caratteristiche del cranio; (o meglio la relazione
lega i logaritmi di tali variabili)
§ Sulla base di un campione di soggetti si vogliono determinare i
parametri di tale relazione.
§ L'interesse principale potrebbe essere quello di stabilire una relazione
empirica che possa consentire una buona stima della massa cranica,
tenuto conto che è possibile ottenere le tre misure lineari attraverso
esami quali la TAC o altro.
§ L'interesse potrebbe essere di confrontare tali relazioni per diversi
gruppi di soggetti.
Appunti del Prof. M. Chiodi per il corso di Statistica 3
a.a. 2000-2001
Prof. M. Chiodi
Introduzione
16
Esempio 17
In un esperimento geosismico si rilevano i tempi di arrivo delle onde
sonore di un segnale a una sequenza di sensori posti ad intervalli uguali
sul terreno.
§ Occorre determinare la relazione che esiste fra i tempi di arrivo e la
posizione dei sensori
§ Si sa che in condizioni ideali e sotto certe ipotesi relative alla natura
del terreno sottostante (omogeneità, pendenza costante, etc.) questa
relazione dovrebbe essere data da una spezzata costituita da diversi
segmenti consecutivi a pendenza decrescente.
Quanti sono i segmenti ed in quali punti si hanno i cambi di pendenza?
Esempio 18
Si ha a disposizione un data base con i dati relativi alle carriere di un
gruppo di studenti universitari.
§ Queste carriere differiscono in modo sensibile da Facoltà a
Facoltà? (o all'interno dei vari corsi di laurea?)
§ Le carriere degli studenti (in termini di durata) differiscono in
funzione di fattori quali l'età, il sesso, l'essere o meno fuori sede, il
tipo e il voto di maturità, etc.?
Appunti del Prof. M. Chiodi per il corso di Statistica 3
a.a. 2000-2001
Prof. M. Chiodi
Introduzione
17
C Elementi distintivi dei vari problemi
♦ Le variabili esplicative possono essere quantitative, qualitative o
miste.
♦ I dati possono provenire da esperimenti pianificati, in cui alcuni fattori
sono tenuti sotto controllo, o da studi osservazionali in cui non è
possibile tenere sotto controllo i fattori. E' di fondamentale importanza
che lo statistico intervenga comunque nella fase di pianificazione dello
studio, prima della rilevazione dei dati.
♦ Può interessare la verifica di una particolare ipotesi (o la costruzione
di un intervallo o regione di confidenza) relativamente solo ad un
gruppo di parametri, mentre altri parametri del modello giocheranno il
ruolo di parametri di disturbo. Svolge spesso il ruolo di fattore di
disturbo la particolare distribuzione di errori accidentali.
♦ La risposta che si vuole ottenere può essere soltanto di tipo
comparativo (qual è il migliore fertilizzante fra A, B e C), oppure
assoluto (qual è l'effetto medio del farmaco A per pazienti di un certo
tipo?)
♦ Come attribuire i vari trattamenti alle singole unità?
Elementi comuni ai vari problemi:
In generale si vuole studiare (possibilmente sulla base di un
campione di osservazioni) la dipendenza di un fenomeno (espresso
spesso da una variabile quantitativa) da una molteplicità di fattori o
variabili esplicative (quantitative e/o qualitative)
Appunti del Prof. M. Chiodi per il corso di Statistica 3
a.a. 2000-2001
Prof. M. Chiodi
Introduzione
18
RICHIAMI DI ALCUNE PROPRIETÀ DEI VETTORI
ALEATORI E DELLE MATRICI.
ELEMENTI NECESSARI PER LO STUDIO DI:
• combinazioni di variabili casuali
• distribuzione normale multivariata
• forme quadratiche in variabili casuali normali
• modelli lineari
• E' solo un richiamo delle nozioni e degli strumenti tecnici necessari
per una trattazione agevole degli argomenti che coinvolgono, in varia
misura, vettori di variabili casuali e, successivamente, vettori di
variabili casuali normali.
• Ove possibile, viene enfatizzato il significato statistico e/o
probabilistico delle proprietà delle matrici richiamate.
• In particolare verranno evidenziate le proprietà matriciali con
riferimento a matrici di varianze e covarianze, sia per vettori di
variabili aleatorie che per vettori di variabili statistiche.
• Sebbene le proprietà del calcolo matriciale siano comunque importanti
in sé, ho evidenziato qui solo le proprietà che nel resto del corso
vengono utilizzate.
• Presuppongo che lo studente che legge questa sezione abbia le
necessarie nozioni di geometria analitica e algebra lineare (ed
eventualmente questo è il momento buono per aggiornare o integrare
le proprie nozioni).
• Lo studio dei vettori di variabili casuali è finalizzato in parte allo
studio delle variabili aleatorie con distribuzione normale multivariata
(che è l'unico modello parametrico multivariato che verrà studiato in
modo completo in questo corso), che risulterà in questo modo molto
scorrevole e di semplice comprensione (spero!); le proprietà sulle
forme quadratiche in variabili normali renderanno poi scorrevolissimo
lo studio delle proprietà distributive degli stimatori del modello lineare
almeno nei casi standard.
Appunti del Prof. M. Chiodi per il corso di Statistica 3
a.a. 2000-2001
Prof. M. Chiodi
Introduzione
19
Momenti primo e secondo multivariati di vettori aleatori
Sia X un qualsiasi vettore di variabili casuali a p componenti:
X=(X1, X2,…,Xp)'
con vettore di speranze matematiche dato da:
E(X) = m ß momento primo (multivariato) dall’origine
e matrice di varianze e covarianze:
V(X) = E[(X -m)(X - m)'] ß momento secondo centrale
(multivariato)
Vale la nota relazione in termini di momenti multivariati dall’origine:
V(X) = E[(X - m)(X - m)'] = E(X X') - m m'
Pertanto m è un vettore di p elementi, con elemento generico:
• E(Xi) = µi
e V(X) è una matrice simmetrica p×p di elemento generico:
• σij={V(X)}ij= E[(Xi - µi )( Xj - µj)]= E(Xi Xj )- µi µj



V(X)=



2
…
σ 1i
…
σ 1p
…
…
…
…
…
σ
i1
…
σ i²
…
σ ip
…
…
…
…
…
σ p1
…
σ pi
…
σp
σ1
2







• Per gli elementi sulla diagonale principale, ossia per le varianze delle
singole componenti, invece della notazione σij si impiega la notazione
σ²i per uniformità col simbolismo nel caso univariato.
Appunti del Prof. M. Chiodi per il corso di Statistica 3
a.a. 2000-2001
Prof. M. Chiodi
Introduzione
20
• Ovviamente nella definizione si presuppone l'esistenza dei momenti
primi e secondi delle varie componenti.
• Evidentemente si può definire la matrice di correlazione di elementi:
ρij
={R(X)}ij= σij/σiσj
che ovviamente è simmetrica ed ha elementi diagonali tutti uguali ad uno:



R(X)=



1
…
ρ 1i
…
ρ 1p
…
…
…
…
…
ρ
i1
…
1
…
ρ ip
…
…
…
…
…
ρ p1







… ρ pi …
1
E’ possibile definire momenti multivariati di X centrali e non centrali
di ordine superiore rispetto al secondo, ma per gli argomenti ora trattati
non è necessario. Come per le variabili aleatorie semplici i momenti di
ordine 3 e 4 forniscono degli indici di forma, i momenti multivariati di
ordine superiore al secondo forniscono degli indici di forma multivariati,
degli indicatori di allontanamento dalla multinormalità, indici di non
linearità delle regressioni e di eteroscedasticità.
• (vedere anche > > uso dei momenti bivariati nell'analisi dei residui )
• In effetti la matrice di varianze e covarianze fornisce informazioni
solo sulla variabilità delle singole componenti e sulle loro correlazioni
lineari, sia per le distribuzioni congiunte che per quelle condizionate
(elementi della matrice inversa). Per le combinazioni lineari di variabili
si useranno gli autovalori e gli autovettori della matrice di varianze e
covarianze. (vedere anche > > schema delle relazioni lineari)
• La normale multivariata dipende solo dai primi due momenti
multivariati, per cui la conoscenza della matrice di varianza e
covarianza è in quel caso sufficiente per valutare qualsiasi relazione di
tipo lineare fra componenti (vedere anche > > )
Appunti del Prof. M. Chiodi per il corso di Statistica 3
a.a. 2000-2001
Prof. M. Chiodi
Introduzione
21
C Momenti di una trasformata lineare di un vettore aleatorio:
Sia ora Y una v.c. a k componenti, ottenuta mediante una qualsiasi
trasformazione lineare di X:
Y = A[k × p] X + c[k × 1]
• La matrice A ha k righe e p colonne e per il resto è qualsiasi, nel
senso che il suo rango può anche essere inferiore a min(k,p).
• Il vettore c ha k elementi.
Con semplici passaggi si vede come data la matrice A e il vettore c è
possibile ottenere tutti i momenti di Y in funzione di quelli di X:
E(Y) = E(A X+ c) = A E(X) + c = Α m+ c
V(Y) = V(AX+ c) = E[(AX + c - Am- c)(AX + c - Am- c ) ']=
=E[A(X - m)(X - m)'A']=A V(X) A'
MOMENTI DI UNA TRASFORMATA LINEARE DI UN
VETTORE ALEATORIO X: Y=A X+ c
• E(A X+ c) = A E(X) + c
Speranza matematica
• V(A X+ c) = A V(X) A'
Matrice di varianze e covarianze
In particolare se k=1 allora A è un vettore riga b', c è uno scalare e Y è
una v.c. semplice (ossia scalare) e si ha:
♦
E(Y)= b' E(X) +c =
V(Y)= b'V(X) b =
Y = b'X +c e quindi:
b1 µ1 + b2 µ2 + … + bp µp+c
b²1 σ1² +b²2 σ2² +…+b²i σ²i +…+b²p σp² +
+2b1b2 σ12 + ...+ 2 bibj σij +
+ ... + 2bp-1bp σp-1,p
Appunti del Prof. M. Chiodi per il corso di Statistica 3
a.a. 2000-2001
Prof. M. Chiodi
Introduzione
22
Formule più complesse valgono per i momenti multivariati di
ordine superiore al secondo, ma è sempre possibile ricavare tutti i
momenti (multivariati) di grado k di Y, sia centrali che non
centrali, a partire dalla conoscenza della matrice di trasformazione
A e dei momenti multivariati di grado 1,2,...,k di X.
Esempio
§ Si hanno n variabili casuali Xi normali indipendenti con
E(Xi)= µi e Var(Xi)=σ²i ,
n
§ Quali sono i primi due momenti di Z= ∑ X2i ?
i=1
§ E’ facile vedere che per ogni Xi si ha:
E(X2i )= µ2i +σ²i ,
V(X2i )= E(X4i )- (E(X2i ))2=
(ricordando le proprietà dei momenti della normale)
= µ4i +6σ²i µ²i +3σ4i – (µ2i +σ²i )2=2(σ4i +2σ²i µ²i )
e infine:
n
n
2
V(Z)=2 ∑ (σ4i +2σ²i µ²i ).
E(Z)= ∑ (µ i +σ²i );
i=1
i=1
Funzione caratteristica di una trasformata lineare di un
vettore aleatorio.
• Se Y = AX + c
Allora la funzione caratteristica di Y si ricava da quella di X mediante la
relazione:
φY(t)=
exp[it'c]φX(At)
Appunti del Prof. M. Chiodi per il corso di Statistica 3
a.a. 2000-2001
Prof. M. Chiodi
Introduzione
23
Momenti di funzioni qualsiasi di vettori aleatori.
E' possibile trovare delle approssimazioni per i momenti di funzioni
qualsiasi di vettori aleatori con momenti noti, attraverso opportuni
sviluppi in serie. Sia g(.) un vettore di k funzioni reali di p variabili reali,
e si abbia quindi la generica trasformazione di vettori aleatori:
Y=g(X),
in cui X è un vettore aleatorio a p componenti e Y è un vettore
aleatorio a k componenti. Sviluppando g(.) in serie di Taylor troncata al
primo termine attorno a E(X) si hanno le espressioni più semplici:
 ∂ g( x ) 

§
Y≅ g(E(X))+
.[X-E(X)]

∂
x
 x=E(X))

 ∂ g( x ) 

(
 è calcolata nel punto x=E(X))
∂
x


Prendendo la speranza matematica di ambo i membri si ha:
  ∂g( x ) 


 =
[X-E(X)]
§ E(Y) ≅ E{g(E(X))}+E  
.
  ∂x  x= E(X)

= g(E(X))
 ∂ g( x ) 

(perchè E[X-E(X)]=0 e 
.è una costante e non una

∂
x

 x=E(X))
variabile aleatoria.)
Sostituendo nell'espressione precedente:
 ∂ g( x ) 


§ Y≅ E(Y)+ 
[ X-E(X) ]

 ∂x  x=E(X))
per cui:
 ∂ g( x ) 


[X-E(X)]
§ Y-E(Y) ≅ 

 ∂x  x=E(X))
che è una relazione lineare approssimata fra gli scarti dei vettori
aleatori. Applicando i teoremi sulle trasformazioni lineari si ha:
 ∂ g( x ) 
 ∂ g( x )  '



♦ V(Y) ≅
V(X). 


 ∂x  x=E(X))
 ∂x  x=E(X))
(In tutte le formule precedenti si intende che ∂g/∂X è calcolata nel
punto x=E(X))
• Nel caso univariato (p=k=1):
V(Y) ≅[g'(x)]2 V(X)
Appunti del Prof. M. Chiodi per il corso di Statistica 3
a.a. 2000-2001
Prof. M. Chiodi
Introduzione
24
esempio 1
A chiarimento di queste formule, e solo per dare un'idea del grado di
approssimazione in alcuni casi di cui si conosce la soluzione esatta,
riporto alcuni esempi, comunque non essenziali per gli argomenti
immediatamente successivi. Come esempio si consideri la variabile
casuale F di Snedecor, data dal rapporto di due variabili casuali χ2
indipendenti, divise per i rispettivi gradi di libertà. Per valutare
l’approssimazione fornita dalle formule del paragrafo precedente,
applichiamole per ottenere delle espressioni approssimate dei primi due
momenti di F, le cui espressioni esatte sono comunque note.
La funzione di trasformazione è:
X 1/ ν 1
F= X / ν , essendo X1 e X2 due variabili casuali χ2 indipendenti,
2 2
rispettivamente con ν1 e ν2 gradi di libertà; quindi si ha in questo esempio
k=1 e p=2. Definendo quindi il vettore aleatorio X={X1,X2}T, si ha per i
primi due momenti, come è noto dalle proprietà della variabile chiquadro:
 ν1 
 2ν1
0 
E[X]=  ν  ; V[X]=  0 2 ν 


2 
2 
L’approssimazione (del primo ordine) al momento primo di F è data da:
 X 1/ ν 1 
ν 1/ ν 1
= ν / ν =1.
E(F)≅Fx=E(X) = X / ν 
2 2
2 2 X={ν1, ν2}T

Ricordando le proprietà della variabile F di Snedecor, sappiamo che il
momento primo esatto è dato da:
ν2
E(F) = ν -2 ;
2
l’approssimazione coincide col valore esatto solo al divergere di ν2;
infatti:
l i m E(F) = l i m ν 2 =1.
ν2 → ∞
ν 2 → ∞ ν 2-2
Passando ora al calcolo dell’approssimazione alla varianza di F occorre
valutare il gradiente di F (rispetto a X) nel punto E[X]:
 ∂F 




∂
x

 x=E(X)
=
 ν2
- ν 2X1  T

=
 ν X , ν X 2
1 2  X={ν1, ν2}T
 1 2
 1

 ν
 1
,
−1 
ν 2 
T
ed infine sostituire nella formula:
Appunti del Prof. M. Chiodi per il corso di Statistica 3
a.a. 2000-2001
Prof. M. Chiodi
Introduzione

= 

 ∂F  T
 ∂F 
V(F) ≅  
V(X)  
=
 ∂x  x=E(X))
 ∂x  x=E(X))
1 −1   2 ν 1
0   1 −1  T 2 2
,
2 ν 2   ν 1 , ν 2  =ν 1 + ν 2
ν 1 ν 2   0
25
;
Sappiamo che la varianza esatta della F di Snedecor è data da:
2 ν 2 2( ν 1+ ν 2-2)
V(F) = ν ( ν -4)( ν -2)2 ;
1
2
2
E’ facile vedere che il rapporto fra l’approssimazione ed il valore esatto
della varianza di F tende a 1 al divergere di ν1 e ν2; infatti:
2 ν 2 2( ν 1+ ν 2-2)
2
ν 1 ( ν 2 -4)( ν 2-2)
lim
=1.
ν 1, ν 2 → ∞
2 2
+ν
ν
1
2
esempio 2
Come altro esempio consideriamo la variabile casuale Beta, funzione
di due variabili gamma indipendenti secondo la funzione di
trasformazione:
X1
B= X + X , essendo X1 e X2 due variabili casuali gamma indipendenti,
1
2
con parametri di scala unitari e parametri di forma rispettivamente α e β;
quindi si ha anche in questo esempio k=1 e p=2. Definendo quindi il
vettore aleatorio X={X1,X2}T, si ha per i primi due momenti, come è noto
dalle proprietà della variabile gamma:
 α
 α 
0 
E[X]=  β  ; V[X]= 
β 
 0
L’approssimazione (del primo ordine) al momento primo di B è data da:

X1 
α
E(B)≅Bx=E(X) = X + X 
= α+ β .
1
2 X={α, β}T

Ricordando le proprietà della variabile B di Snedecor, vediamo che
questa approssimazione coincide con il valore esatto:
α
E(B) = α+ β .
Per quanto riguarda la varianza, il gradiente di B calcolato in
corrispondenza del valore atteso è dato da:
 ∂B 


X2
-X1  T
- α  T
β


=  (X + X )2, (X + X )2 
=
2,
2


 X={α, β}T  ( α + β ) ( α + β ) 
1
2
1
2 

 ∂x  x=E(X)
Appunti del Prof. M. Chiodi per il corso di Statistica 3
a.a. 2000-2001
Prof. M. Chiodi
Introduzione
26
e infine sostituendo nella formula:
 ∂B 
 ∂B  T
V(X)  
V(B)≅  
=
 ∂x  x=E(X))
 ∂x  x=E(X))

- α   α 0  
- α  T
β
β


2 
2 =
2,
2,
β   ( α + β) ( α + β) 
 ( α + β ) ( α + β )   0
αβ
= ( α + β) 3 (dopo alcune semplificazioni elementari)
Ricordando adesso che la varianza esatta della variabile Beta è data da:
αβ
V(B) = ( α + β) 2( α + β+1)
Stavolta il rapporto fra l’approssimazione ed il valore esatto della
varianza di F è dato da:
Vappr(B) ( α + β+1)
V(B) = ( α + β)
si vede facilmente che questa quantità tende a 1 al divergere di α oppure
di β (mentre per il rapporto F occorreva la divergenza di entrambi i
parametri).
esempio 3
Un altro esempio è tratto da variabili statistiche osservate: su un insieme
di 1432 bambini sono state rilevate le variabili altezza e peso. Il vettore
delle medie e la matrice di varianze e covarianze empiriche sono riportate
di seguito:
Variabile
ALTEZZA (Metri)
PESO (Kilogrammi)
Media
1,5192
44,9909
Varianza
0,0103
115,6358
La matrice di varianza e covarianza delle variabili peso e altezza è data
da:
 115,6358
0,7851 
V(X)= 0,7851
0,0103 

Su questi 1432 soggetti viene calcolata la nuova variabile BMI (body
Mass index), data da:
Peso
BMI= (Altezza)2
Questa variabile è impiegata in campo biomedico come indicatore per
valutare il grado di adiposità di un soggetto.
Appunti del Prof. M. Chiodi per il corso di Statistica 3
a.a. 2000-2001
Prof. M. Chiodi
Introduzione
27
Se vogliamo una valutazione approssimata della media di BMI, senza
calcolare materialmente i valori sui 1432 soggetti, ma basandoci sui
momenti delle variabili altezza e peso otteniamo:
44,9909
M(Peso)
M(BMI) ≅ (M(Altezza))2 = (1,51922) =19,4937
Per quanto rigurda la varianza si ha (indicando con X1 la variabile Peso e
con X2 la variabile Altezza) per il gradiente di BMI:
X1
BMI= X 2
2
T
 ∂BMI 

 1 -2X1
1
-2 × 44,9909 T



=
=  X 2, X 3 
2,


1,51923  =
 X=M(X)  1,5192
2 
 2
 ∂x  x=M(X)
{0,4333;-25,6631}T.
Quindi, sostituendo nella relazione:
 ∂BMI T
 ∂BMI 



V(BMI)≅
V(X)
=



 ∂x  x=E(X))
 ∂x  x=E(X))

- α   α 0  
- α  T
β
β



= ( α + β) 2 , ( α + β) 2 
2,
2
β   ( α + β) ( α + β) 

  0
si ottiene il valore approssimato della varianza di BMI:

V(BMI)≅{0,4333;-25,6631}

115,6358 0,7851 
T
0,7851 0,0103  {0,4333;-25,6631} =
=11,0337
Il grado di validità di queste approssimazioni può essere verificato
confrontando con i valori esatti dei primi due momenti di BMI calcolati
sui 1432 valori trasformati:
2
BMI (Kg/mt )
Valori approssimati
Media
19,3103
19,4937
Varianza
10,4356
11,0337
Ovviamente l’utilità di tali formule approssimate si ha quando non è
possibile calcolare i momenti esatti (nel caso di variabili aleatorie) o se
non sono disponibili i dati relativi alle singole osservazioni, per il calcolo
dei valori trasformati, ma solo i primi due momenti delle variabili
originari.
Appunti del Prof. M. Chiodi per il corso di Statistica 3
a.a. 2000-2001
Prof. M. Chiodi
Introduzione
28
C Forme quadratiche
Se A è una matrice quadrata simmetrica p × p, e t è un vettore di p
componenti, si definisce forma quadratica la funzione omogenea di
secondo grado:
Q=t'At=a11 t²1 + a22 t²2 +… aii t²i +…+ app t²p +2a12 t1t2 +
+…+2aij titj + ... + 2ap-1,p tp-1tp
se t' A t > 0 ,∀t, t≠00 : Þ A è definita positiva
se t' A t ≥ 0 ,∀t, t≠00 : Þ A è semidefinita positiva
In effetti si dice definita (o semidefinita) sia la matrice che la forma
quadratica corrispondente.
Una matrice di varianze e covarianze è sempre
semidefinita positiva.
Infatti, come visto precedentemente, dato un vettore aleatorio X, la
varianza di una sua qualsiasi combinazione lineare Y = t' X (con , t≠0 )è
data da:
V(Y) = V(t' X) = t' V(X) t;
essendo V(Y) ≥ 0, in quanto una varianza è sempre non negativa, allora:
t' V(X) t ≥ 0 ,∀t, t≠00
e quindi, secondo la definizione data prima, V(X) è una matrice
semidefinita positiva; è definita positiva se si esclude il caso di
collinearità esatta fra le p variabili, e quindi se V(X) è di rango pieno p.
•
A è semidefinita positiva, se e solo se si può scrivere come:
A=XX' (con X qualsiasi, anche rettangolare)
per esempio se X è una matrice di dati (n osservazioni e p variabili), e
Z la matrice degli scarti dalle rispettive medie aritmetiche, allora Z'Z è la
matrice delle devianze e codevianze delle p variabili che, come si sa, è
semidefinita positiva.
Analogamente vengono definite le forme quadratiche definite e
semidefinite negative.
Appunti del Prof. M. Chiodi per il corso di Statistica 3
a.a. 2000-2001
Prof. M. Chiodi
Introduzione
29
Significato geometrico delle forme quadratiche
Una forma quadratica definita positiva definisce un'ellissoide in uno
spazio p-dimensionale mediante l'equazione t'At = k. Il volume di tale
ellissoide è funzione del determinante della matrice A. Questo aspetto
verrà ripreso quando si riparlerà di distribuzione normale multivariata.
Momenti di forme quadratiche
Per una forma quadratica in X, con E(X) = m, si ha:
E(X' A X)= tr(A V(X)) + m'Am
Appunti del Prof. M. Chiodi per il corso di Statistica 3
a.a. 2000-2001
Prof. M. Chiodi
Introduzione
30
C Rango di una matrice
Il rango di una matrice A qualsiasi, ρ(A), è definito come:
• il massimo numero di righe (o colonne) linearmente indipendenti
oppure:
• il massimo ordine per il quale si possono estrarre minori non tutti nulli
da una matrice qualsiasi A.
Alcune proprietà del rango di una matrice:
ρ(A')=ρ(A)
ρ(A'A)= ρ(AA')= ρ(A)
ρ(AB)≤min(ρ(A), ρ(B))
ρ(A+B)≤ ρ(A)+ρ(B)
Rango della matrice di varianza e covarianza di un vettore
aleatorio:
• Se in un vettore aleatorio composto da p v.a. elementari, una
componente è combinazione lineare delle altre, allora il rango della
matrice di varianza e covarianza di X risulta uguale a p-1;
• in generale il rango di V(X) risulta uguale a p-k se k componenti sono
ottenuti attraverso combinazioni lineari (indipendenti) degli elementi
di X.
• il rango di V(X) risulta uguale esattamente a p (ossia a rango pieno) se
e solo se le componenti di X sono linearmente indipendenti.
La sola conoscenza del rango di una matrice di varianza e
covarianza ci dice poco sul tipo di interrelazioni (eventualmente
lineari) esistenti fra le p componenti: ci dice solo se esiste uno o
più legami lineari esatti.
(vedere anche > > )GRAFICO con nuvola di punti in 3D di punti molto
correlati, tuttavia il rango della matrice di varianza e covarianze è 3
perchè non vi sono vincoli lineari esatti.
• Esistono altri indicatori associati alle matrici che ci consentiranno di
sapere qualcosa di più su tali interrelazioni.
Appunti del Prof. M. Chiodi per il corso di Statistica 3
a.a. 2000-2001
Prof. M. Chiodi
Introduzione
31
Esempio
Ad esempio sia X una variabile aleatoria doppia, con componenti X1 e X2
con speranze matematiche nulle e matrice di varianza e covarianza:


V(X)=


σ 1²
σ 12 
σ 12
σ 2²




Se otteniamo ora un nuovo vettore aleatorio Y a tre componenti, con:
• Y1=X1;
• Y2=X2;
• Y3= 2X1 + 3X2,
abbiamo utilizzato in pratica una matrice di traformazione:
 1
A= 0
 2
0
1
3

,


così che Y=A X corrisponde alla trasformazione prima definita. Per cui
per ottenere la matrice di varianza e covarianza di Y dovremo utilizzare la
regola:
V(Y)=A V(X) A',
ottenendo:


V(Y)=


σ1
2
σ 12
2 σ 1 2+3 σ 1 2
2
2 σ 1 2+3 σ 2 2
σ 12
σ2
2 σ 1 2+3 σ 1 2
2 σ 1 2+3 σ 2 2
4 σ 1 2+12 σ 1 2+9 σ 2 2




E' immediato verificare che la terza riga (colonna) di V(Y) si ottiene
come combinazione lineare delle prime due righe:
r3= 2r1+3r2,
ossia lo stesso vincolo lineare esistente fra le componenti di Y.
Pertanto ρ(V(Y))=3-1=2.
Appunti del Prof. M. Chiodi per il corso di Statistica 3
a.a. 2000-2001
Prof. M. Chiodi
Introduzione
32
C Traccia di una matrice:
La traccia di una matrice A[p×p] quadrata, tr(A), è definita come la
somma degli elementi sulla diagonale principale:
p
tr(A)= ∑ aii
i=1
Alcune proprietà della traccia di una matrice
(A e B quadrate dello stesso
tr(AB)= tr(A) tr(B)
ordine)
p k
tr(A'A)= tr(AA')= ∑ ∑ a²ij
i=1j=1
(A con p righe e k colonne)
Significato statistico
Se X è un qualsiasi vettore aleatorio a p componenti con matrice di
varianza e covarianza V(X), la traccia di V(X) corrisponde alla somma
delle varianze delle componenti di X, ossia alla somma delle
dispersioni lungo gli assi coordinati:
p
p
tr(V(X))= ∑ V(Xi)= ∑ σ²i
i=1
i=1
Varianza generalizzata
Un'altra misura di variabilità di una variabile aleatoria multipla X è la
varianza generalizzata (Wilks, 1932)
Vg(X)=Det[V(X)].
Il significato, anche in termini geometrici, di tale misura sarà più
chiaro dopo, in termini di autovalori e di ellissoidi di equiprobabilità per
variabili normali multiple. Possiamo però vedere che Vg(X) può essere
nulla anche se tutte le varianze sono maggiori di zero, e precisamente nel
caso in cui V(X) è di rango non pieno, ossia esiste almeno un vincolo
lineare esatto sulle componenti di X.(vedere anche > >
la varianza generalizzata per distribuzioni condizionate ;Prodotto
degli
autovalori,
ossia
delle
varianze
delle
componenti
principali;Volume dell'ellissoide di equiprobabilità
Appunti del Prof. M. Chiodi per il corso di Statistica 3
a.a. 2000-2001
Prof. M. Chiodi
Introduzione
33
C Matrice inversa:
Data una matrice quadrata A, (A[p × p]), con |A| ≠ 0,
si definisce inversa di A, e si indica con A-¹, una matrice tale che:
AA-¹= A-¹A = Ip (matrice identità)
La condizione |A| ≠ 0, ossia A è di rango pieno, è necessaria e
sufficiente per l'esistenza di A-¹
E' noto che l'elemento generico della matrice inversa è dato da:
{A-¹}ij = Aji/| A |
essendo Aij il cofattore di aij per cui l'inversa è uguale alla trasposta
della matrice aggiunta diviso il determinante della matrice.
Ovviamente è una definizione utile solo per la dimostrare l'esistenza dell'
inversa, ma non è conveniente numericamente per il calcolo: meglio ricorrere
al metodo di Gauss-Siedel, o ad altri metodi di riduzione con la ricerca di
elementi di pivot.
E' evidente che si farà ricorso, come sempre, ad apposito software
matematico statistico, ormai fornito sempre di buone routines per il calcolo
dei determinanti e dell'inversa di una matrice: occorre comunque sempre
accertarsi del grado di precisione fornito dal software usato, e cercare di
usare la massima precisione numerica possibile; ad esempio il software
STATISTICA
nel
modulo
di
regressione
multipla,
fornisce
l'opzione
"extended precision calculation" che è sempre bene evidenziare
ALCUNE PROPRIETÀ DELL'INVERSA DI UNA MATRICE
(A')-¹=( A-¹)'
(A quadrata di rango pieno)
- (A ¹) ¹= A;
A-¹ è simmetrica se e solo se A è
simmetrica
|A-¹|=|A|-¹;
(A quadrata di rango pieno)
(AB) ¹=B ¹A ¹
(A e B quadrate di rango pieno)
Significato degli elementi dell'inversa di una matrice di
varianze e covarianze
Anche gli elementi dell' inversa di una matrice di varianze e covarianze
hanno un preciso significato statistico in termini di distribuzioni
conndizionate, (vedere anche > > normale multivariata )come si vedrà
più avanti a proposito della normale multivariata.
Appunti del Prof. M. Chiodi per il corso di Statistica 3
a.a. 2000-2001
Prof. M. Chiodi
Introduzione
34
Gli elementi non diagonali sono funzione della correlazione lineare
condizionata, mentre gli elementi diagonali sono legati alla correlazione
multipla.
Appunti del Prof. M. Chiodi per il corso di Statistica 3
a.a. 2000-2001
Prof. M. Chiodi
Introduzione
35
Inversa di una matrice simmetrica partizionata
Si ha una matrice simmetrica partizionata in quattro blocchi (primo e
quarto blocco quadrato):
 A11
A=
 A'12
A12 


A22 
-1
Ponendo A11.2= A11-A12A22
A'12 (e il perché di questa notazione sarà
chiarissimo quando si faranno le distribuzioni condizionate di variabili
-1
normali multivariate) si può dimostrare che, se esiste A22
, l'inversa della
matrice partizionata può essere espressa come:

-1 
A =




-1
-1
-1
+I] 
A12 A22
[A'12 A11.2
A22
-1
-1
A12 A22
- A11.2
-1
A11.2
-1
-1
A12 A22
- A11.2
♦ Si ha anche:
-1
A'12||A22|=|A11.2||A22|
♦ |A|=|A11-A12A22
Il risultato sull'inversa, arduo da ricordare, si dimostra effettuando il
prodotto (sia destro che sinistro) per la matrice originaria e verificando
che si ottiene la matrice identità.
Questo risultato è utile per ricavare distribuzioni condizionate di
variabili normali multiple.
Nella regressione lineare multipla può servire il risultato particolare nel
caso in cui A11 è uno scalare a e quindi A12 è un vettore riga che indico
con y'. (utile per esempio quando si aggiunge una riga, ossia si aggiunge
una variabile, ad una matrice di varianze e covarianze di cui già si
conosce l'inversa) Abbiamo quindi:
 a
A=
 y
y'
A22




Si ha allora:
-1
a11.2= a- y'A22
y
Appunti del Prof. M. Chiodi per il corso di Statistica 3
a.a. 2000-2001
Prof. M. Chiodi
Introduzione
36
e quindi:

-1 
A =




-1
-1
A22
[yy' A22
/a11.2+I] 
-1
- y' A22
/a11.2
1/a11.2
-1
- y' A22
/a11.2
semplificabile in:

-1 
A =

1
-1
- y' A22

 /a
 11.2
-1
-1
A22 [yy' A22 +I a11.2] 
-1
- y' A22
Si ha in questo caso anche:
-1
|A|=| a- y'A22
y ||A22|=|a11.2||A22|
Appunti del Prof. M. Chiodi per il corso di Statistica 3
a.a. 2000-2001
Prof. M. Chiodi
Introduzione
37
Matrice inversa generalizzata
In certi casi, ad esempio per la risoluzione di sistemi di equazioni
lineari a rango non pieno, conviene ricorrere alla cosiddetta inversa
generalizzata.
Data una matrice di rango qualsiasi A, si definisce inversa
generalizzata di A, e si indica con A-, una matrice tale che:
A A- A = A
L'inversa generalizzata di una qualsiasi matrice non è unica, tranne che
per le matrici quadrate di rango pieno, per le quali si ha chiaramente: A- =
A-1
L'inversa generalizzata fornisce una delle soluzioni del sistema di
equazioni lineari:
Ax=b
di rango anche non pieno, ed essendo soddisfatte le condizioni per
l'esistenza di soluzioni, ossia ρ(A)= ρ(A|b).
Infatti con successive trasformazioni:
(A)x=b;
(AA-A)x=b;
(AA-)(Ax)=b
(AA-) b = b;
e infine:
A(A-b) = b,
per cui x=A-b è una soluzione del sistema.
Se la matrice A è simmetrica valgono ulteriori proprietà. (Si vedrà poi
che mediante la decomposizione spettrale è possibile determinare una
inversa generalizzata di una matrice simmetrica. In effetti la definizione
di inversa generalizzata è utile quanto meno perchè consente di esprimere
in modo compatto una generica soluzione di un sistema di equazioni
lineari anche di rango non pieno).
Appunti del Prof. M. Chiodi per il corso di Statistica 3
a.a. 2000-2001
Prof. M. Chiodi
Introduzione
38
C Risultati utili sulle derivate di matrici e vettori.
Gradiente di combinazioni lineari di variabili:
∂ x' b
=b
∂x
(x e b vettori di p componenti)
Infatti:
x'b = b1 x1+ b2 x2 + … + bp xp
per cui:
∂(x'b)/∂xi = bi,
i=1,2,…,p,
e quindi il risultato in forma vettoriale:
∂ x' b
= b In generale:
∂x
∂Bx
=B
∂x
x vettore di p componenti
B matrice di k×p elementi e di elemento
generico bij
Gradiente di una forma quadratica:
∂ x' Ax
= 2Ax
∂x
∂ x' Ax
∂ x ∂ x'
2
= 2A
♦ x vettore (colonna!) di p componenti
♦ A è una matrice simmetrica di p×p
elementi e di elemento generico aij
Infatti:
Q = x' A x = a11 x²1 + a22 x²2 +… aii x²i +…+ app x²p +2a12 x1x2 +
+…+2aij xixj + ... + 2ap-1,p xp-1xp
∂ Q / ∂ xi
= ∂ x'Ax/∂ xi =2 aii xi+2 ai1 x1...+ 2aijxj + ... + 2aipxp=
=2 ai' x
essendo ai' l'i-esima riga di A.
Quindi segue il risultato in forma vettoriale, tenendo presente che
derivando rispetto a tutti gli elementi di x, le righe ai ricostituiscono la
matrice A:
Appunti del Prof. M. Chiodi per il corso di Statistica 3
a.a. 2000-2001
Prof. M. Chiodi
Introduzione
∂ x' Ax
∂x
39
= 2Ax
Per le derivate seconde di una forma quadratica si vede facilmente:
∂2 x' Ax
∂x ∂x'
= 2A
Jacobiano di una trasformazione lineare
Sia A una matrice quadrata; data la trasformazione lineare:
x =Ay+b,
lo Jacobiano di tale trasformazione è dato da:
J(y)=| ∂ x /∂ y|=mod|A|
ossia il valore assoluto del determinante di A
Derivate di inverse e di determinanti:
Se B= A -1,
di elemento generico bij = Aji/|A|, avendo indicato con Aij il cofattore di
aij in A si può dimostrare che:
∂ bij
•
= -bih bkj = Ahi Ajk /|A|2
∂ ahk
Se A=A':
∂ | A|
•
= Aii
∂ aii
∂ | A|
•
= 2Aij
∂ aij
Appunti del Prof. M. Chiodi per il corso di Statistica 3
a.a. 2000-2001
Prof. M. Chiodi
Introduzione
40
Autovalori e autovettori
• autovalore, radice caratteristica, characteristic roots, eigenvalue
• autovettore, vettore caratteristico, eigenvector
• Gli autovalori e gli autovettori sono delle quantità associate ad una
matrice quadrata, che ne riassumono alcune caratteristiche essenziali.
• In particolare per una matrice simmetrica si possono dimostrare
proprietà molto forti.
• Se poi la matrice simmetrica è una matrice di varianza e covarianza, si
possono attribuire particolari significati a tali quantità, sia nel caso di
matrici di varianze e covarianze di vettori di variabili aleatorie che nel
caso di matrici di varianze e covarianze empiriche di vettori di
variabili statistiche osservate, sebbene la loro interpretabilità, dal
punto di vista dello statistico, non sia sempre agevole, se non in
particolari contesti. Sono comunque importanti per determinare il
grado di collinearità presente in un insieme di dati multivariati o in un
vettore di variabili aleatorie. In questo corso saranno impiegati in
particolare per lo studio della multicollinearità nella regressione
multipla; per quanto riguarda i vettori aleatori, si vedrà presto
l'interpretazione migliore degli autovettori e degli autovalori per
vettori aleatori distribuiti secondo una normale multivariata.
Nelle pagine che seguono vengono brevemente richiamate le proprietà
algebriche e geometriche degli autovalori e degli autovettori, con
riferimento in particolare alle caratteristiche che verranno
successivamente sfruttate. Resta sottinteso che si tratta semplicemente di
un richiamo di nozioni che in modo più completo e sistematico vanno
approfondite, se non lo si è già fatto, in un corso di algebra lineare.
Appunti del Prof. M. Chiodi per il corso di Statistica 3
a.a. 2000-2001
Prof. M. Chiodi
Introduzione
41
C Definizione di autovettore e autovalore:
Data la matrice quadrata A, si vuole trovare la soluzione non banale g
del sistema di equazioni:
Ag = λgg
Si vuole quindi trovare un vettore g la cui proiezione secondo lo spazio
definito da A sia parallela al vettore stesso.
Si tratta di un sistema omogeneo nell'incognita g, infatti:
Ag - λgg=0p e quindi: [A - λ Ip]g=0p
Condizione necessaria per avere una soluzione g diversa dal vettore
nullo è che:
|A - λIp|=0.
• La precedente è un' equazione di grado p in λ, per cui vi saranno p
autovalori complessi (distinti e non):
• λ1, λ2 ,...,λi ,..., λp.
• Di solito si conviene di normalizzare gli autovettori in modo tale che:
g' g = 1.
infatti in corrispondenza di ciascun autovalore λi vi sarà certamente
un'infinità di autovettori proporzionali gi. (Si vede subito dalla definizione
di autovettore: se gi.è un autovettore lo è anche kgi.).
In ogni caso resta l'ambiguità sul segno di g.
Appunti del Prof. M. Chiodi per il corso di Statistica 3
a.a. 2000-2001
Prof. M. Chiodi
Introduzione
42
C Proprietà generali degli autovalori
Dall'equazione fondamentale:
|A-λ Ip |=0,
si vede che il polinomio di grado p:
q(λ)=|A - λ Ip |
si può esprimere in funzione delle p radici complesse λi:
p
q(λ)=|A - λ Ip | = ∏ (λi -λ) (si può dimostrare)
i=1
Per cui si ha subito (sfruttando le proprietà dei polinomi):
p
q(0)=|A| = ∏ λi
i=1
p
tr(A) = ∑ λi
i=1
• Il determinante di una matrice è uguale
al prodotto dei suoi autovalori
• La traccia di una matrice è uguale alla
somma dei suoi autovalori
Appunti del Prof. M. Chiodi per il corso di Statistica 3
a.a. 2000-2001
Prof. M. Chiodi
Introduzione
43
C Autovalori e autovettori di matrici simmetriche
Per gli autovalori e gli autovettori di una matrice simmetrica A si possono
dimostrare proprietà molto forti, corrispondenti a molte caratteristiche
essenziali della matrice (in generale molte proprietà valgono anche per
matrici hermitiane, ossia con elementi aij e aji complessi coniugati,
tuttavia per gli argomenti da noi trattati è sufficiente riferirci a matrici
simmetriche reali)
• Se A è simmetrica tutti gli autovalori e gli autovettori sono reali, per
cui convenzionalmente vengono indicizzati in ordine decrescente:
λ1≥ λ2 ≥...≥ λi ≥...≥ λp .
• Se A è simmetrica, il numero degli autovalori non nulli è uguale a
ρ(A) (rango di A)
• Se per i≠j i corrispondenti autovalori λi e λj sono distinti si ha:
Ø
Ø
gi' gj =
0 (ortogonalità)
gi' A gj = 0
Infatti λi e λj, insieme ai corrispondenti autovettori, forniscono due
soluzioni distinte del sistema di equazioni: Ag = λgg, e quindi valgono
contemporaneamente i due gruppi di eguaglianze:





Ag i = λ i g i
Ag j = λ j g j
Premoltiplicando ambo i membri del primo sistema per gj' e i due membri
del secondo per gi' otteniamo due eguaglianze fra scalari:





g j'A g i
= g j' λ i g i
g i'A g j
= g i' λ j g j
in cui i primi membri sono uguali, perchè gj'Agi è la trasposta di gi'Agj, ed
essendo scalari sono uguali, per cui uguagliando i secondi membri si ha:
gj'λi gi = gi'λj gj, e quindi: gi'gj (λi-λj)=0 e infine, avendo supposto distinti i
due autovalori, (λi-λj)≠0, per cui deve essere:
gi'gj=0.
Appunti del Prof. M. Chiodi per il corso di Statistica 3
a.a. 2000-2001
Prof. M. Chiodi
Introduzione
44
Saranno quindi nulli anche i primi membri, per cui:
gi'Agj=0.
In ogni caso per ogni autovalore di molteplicità m, m autovettori
corrispondenti possono essere rimpiazzati da m loro combinazioni lineari
indipendenti. Gli autovettori possono essere scelti in modo da soddisfare i
vincoli di ortogonalità per ogni coppia i≠j
gi' gj =
0 ed anche gi' A gj = 0
Pertanto se G è la matrice che ha come colonne gli autovettori yi, allora
per l'ortogonalità fra gli autovettori si ha:
•
Γ' Γ = I;
•
ed anche: Γ-1=Γ',
•
e quindi: Γ Γ' = I.
(queste ultime proprietà valgono comunque per matrici ortogonali)
Diagonalizzazione di una matrice simmetrica
Dalla definizione di autovettore si anche l'importante proprietà:
(avendo posto Λ =Diag(λ)).
Γ'
A Γ = Diag(λ)=Λ
Λ
Diagonalizzazione di una matrice
simmetrica
sarà importante quando A è una matrice
di varianze e covarianze
Dalla definizione si ha infatti:
A gi = λigi
Premoltiplicando ambo i membri per gj' si ha:
se i=j:
se i≠j:
gi'
A gi = λi
gj' A gi = 0
Dal risultato fondamentale sulla diagonalizzazione di una matrice
simmetrica si può ricavare un altro risultato molto utile:
• Data una matrice simmetrica definita positiva A di rango pieno è
possibile sempre trovare una matrice B tale che:
B'AB=I
Appunti del Prof. M. Chiodi per il corso di Statistica 3
a.a. 2000-2001
Prof. M. Chiodi
Introduzione
45
E' facile vedere che le colonne della matrice B si ottengono riscalando
gli autovettori di A, ossia con: gi/√λi
(dal momento che la matrice è di rango pieno i suoi autovalori sono
tutti positivi)
Decomposizione spettrale di una matrice simmetrica
Dalla relazione G' A G = L, si ha anche, premoltiplicando ambo i
membri per G e postmoltiplicando per G':
A
= Γ Λ Γ' =
= λ1g1g1' + λ2g2g2' +...+λpgpgp'
Decomposizione
spettrale) di A
canonica
(o
relazione fondamentale per la ricostruzione di una matrice simmetrica
a partire dagli autovettori. I primi k termini (k<p) forniscono
un'approssimazione della matrice A.
Autovalori di inverse e di potenze
Inoltre operando ancora sull'equazione che definisce gli autovalori:
A gi = λigi
• Se il rango di A è pieno, premoltiplicando ambo i membri per A-1, si
vede facilmente che:
-1
–1
λi(A ) = [λi (A)]
(a meno di un riordinamento degli indici)
• Qualunque sia il rango di A, premoltiplicando ripetutamente ambo i
membri per A, si dimostra per induzione che:
k
k
λi(A ) = [λi(A)]
• In entrambi i casi gli autovettori sono sempre quelli di A.
Appunti del Prof. M. Chiodi per il corso di Statistica 3
a.a. 2000-2001
Prof. M. Chiodi
Introduzione
Matrice
A
Autovalori
Autovettori
λi
gi
A-1
(|A|≠0)
λi
Ak
k intero
λi
-1
gi
k
gi
46
Decomposizione canonica
p
Α=Γ Λ Γ'= ∑ λigigi'
i=1
p
A-1 =Γ Λ-1 Γ'= ∑ gigi'/λi
i=1
p
k
k
A =Γ Λ Γ'= ∑ λik gigi'
i=1
Autovalori di una forma quadratica definita positiva
•
A è definita positiva, se e solo se tutti i suoi autovalori sono
positivi.
•
A è semidefinita positiva, se e solo se tutti i suoi autovalori sono
non negativi.
Infatti ricorrendo agli autovalori ed agli autovettori di A si può scrivere
A secondo la decomposizione canonica:
Q(x)= x' A x = x' Γ Λ Γ' x
Ponendo ora y=Γ'x, si ha:
p
Q(x)= y' Λ y= ∑ λiyi2
i=1
da cui deriva il risultato sulla positività di Q(x).
Si vede anche che una forma quadratica si può sempre esprimere come
somma ponderata di quadrati di variabili ruotate secondo gli autovettori
di A. Infatti si è può sempre trasformare un ellissoide qualsiasi, mediante
opportune trasformazioni lineari ortogonali, in un ellissoide ad assi
paralleli a quelli coordinati, e quindi, mediante cambiamenti di scala, in
un ipersfera.
Appunti del Prof. M. Chiodi per il corso di Statistica 3
a.a. 2000-2001
Prof. M. Chiodi
Introduzione
47
C Analisi delle componenti principali (cenni)
Si ha un vettore aleatorio X di p componenti con:
E(X)=0 (media nulla)
V(X)=Σ
Si vuole trovare una nuova variabile casuale Z (unidimensionale),
combinazione lineare di X, che abbia la massima varianza possibile, ossia
si cerca un vettore di coefficienti y tali che:
Z = y'X
ha varianza massima
col vincolo y'y=1 (y é un vettore unitario; il vincolo sui coefficienti è
necessario, altrimenti sarebbe possibile trovare combinazioni di varianza
grande a piacere).
1° Problema di ottimo vincolato:
• Occorre massimizzare rispetto a
y la varianza di Z = y'X:
• col vincolo che y sia un vettore
di lunghezza 1:
V(Z)= y'Σy
y' y =1
Il lagrangiano per questo problema è dato da:
L(y,λ)= y'Σy -λy'y+λ
Derivando rispetto a y si ha:
2Σy -2λy = 0, e quindi:
Σy = λy
La soluzione y é dunque fornita dagli autovalori di Σ
Per stabilire quale autovalore fornisce il massimo della funzione
obiettivo, premoltiplichiamo nell'ultima equazione ambo i membri per y':
y'Σy= y'λy
Da questa uguaglianza vediamo che:
§ il primo membro è uguale a V(Z);
§ Il secondo membro è uguale a λ, per soddisfare il vincolo y'y=1;
In definitiva si ha: V(Z)= λ, per cui l'ottimo si ha in corrispondenza del
massimo autovalore di Σ.
Pertanto la soluzione ottima y è data dall'autovettore g1 corrispondente al
1° autovalore. λ1 di V(X)
Appunti del Prof. M. Chiodi per il corso di Statistica 3
a.a. 2000-2001
Prof. M. Chiodi
Introduzione
48
La nuova variabile Z è dunque data da:
Z1= γ1 'X.
Per comodità indico questa nuova variabile con Z1 anziché con Z.
Se ora vogliamo trovare una nuova variabile semplice Z2, ancora
combinazione lineare di X, che abbia ancora la maggior varianza, ma
con
l'ulteriore
componente
vincolo
trovata
di
Z1,
non
essere
dobbiamo
correlata
impostare
un
con
nuovo
la
prima
problema
di massimo:
2° Problema di ottimo vincolato:
• Occorre
massimizzare
la
varianza di Z2=y'X
• col 1° vincolo che y sia
sempre
un
vettore
V(Z2)= y'Σy
y'y=1
di
lunghezza 1:
• col 2° vincolo che Z2 non sia
correlata
con
la
y'Σγ1=0
prima
componente Z1:
Il lagrangiano per questo secondo problema è dato da:
L(y,λ)= y'Σy -λy'y+λ−δy'Σg1
Derivando rispetto a y si ha:
2Σy -2λy -δΣΣg1=0
•
Si può vedere come la soluzione a questo secondo problema è
fornita dall'autovettore di Σ corrispondente al secondo autovalore λ2;
•
Inoltre V(Z2)= λ2.
In definitiva, ripetendo il procedimento fino a giungere a Zp, è
possibile trovare p nuove variabili aleatorie, combinazioni lineari di X, a
due a due non correlate, e tali che ciascuna Zi abbia varianza massima
subordinatamente al vincolo di non correlazione con le precedenti
variabili Z1, Z2,…, Zi-1 ed al vincolo di unitarietà dei vettori dei
coefficienti.
Ciascuna variabile è data da:
Zi=gi'X,
con varianza:
Appunti del Prof. M. Chiodi per il corso di Statistica 3
V(Zi)=λi
a.a. 2000-2001
Prof. M. Chiodi
Introduzione
49
In definitiva attraverso la matrice Γ costituita dagli autovettori di Σ, è
possibile trovare un nuovo vettore aleatorio Z, dato da:
Z=Γ' X,
tale che: V(Z)=Λ.
Dal momento che Γ' Γ=I, la trasformazione corrisponde ad una
rotazione ortogonale degli assi. I nuovi assi definiti dallo spazio degli
autovettori sono detti assi principali, e le nuove variabili Z sono le
componenti principali di X.
In effetti, potremmo impostare il problema al contario, alla luce anche
della finalità che ci eravamo proposti prima, ossia di trovare un modo per
misurare l'esistenza di vincoli lineari non esatti fra le variabili:
Dal momento che un vincolo lineare esatto fra variabili aleatorie
corrisponde ad una variabile con varianza nulla, potremmo cercare, fra le
combinazione generate da rotazioni degli assi, quella di minima varianza,
ossia quella che più si avvicina, con i vincoli imposti, ad una
combinazione lineare esatta.
Significato
principali
statistico
e
probabilistico
delle
componenti
Possiamo ora migliorare l'informazione fornita dal rango di una
matrice di varianza e covarianza, sia essa teorica o empirica. Infatti anche
se V(X) è a rango pieno, se dall'esame della sequenza degli autovalori
risulta che il più piccolo degli autovalori è molto vicino a zero
(relativamente all'ordine di grandezza degli autovalori stessi) ciò implica
che esiste una combinazione lineare delle componenti del vettore
aleatorio X a varianza molto bassa.
E' interessante notare che in questo caso la varianza generalizzata
|V(X)| risulterà piccola rispetto a tr(V(X)), a conferma del fatto che la
varianza generalizzata fornisce delle informazioni non tanto sulla
variabilità delle singole componenti, quanto sulla variazione congiunta.
Altre interpretazioni geometriche delle componenti principali si hanno
per vettori aleatori normali, in termini di assi degli ellissoidi di
equiprobabilità, come si vedrà fra breve.
In effetti l'analisi in componenti principali viene spesso usata nell'analisi
esplorativa di dati, specialmente in presenza di un gran numero di variabili
rilevate per cercare di lavorare su poche variabili che spieghino molta
variabilità dell'insieme dei dati. L'utilità pratica di questo tecnica sta nella
possibilità di attribuire un significato ai vari fattori. Questo aspetto esplorativo
sarà per ora tralasciato.
Appunti del Prof. M. Chiodi per il corso di Statistica 3
a.a. 2000-2001
Prof. M. Chiodi
Introduzione
50
Non affronto per niente in questo corso, l'argomento dell'eventuale ricerca di
combinazioni non lineari di variabili aleatorie che ne spieghino buona parte
della varianza. Nel caso dio componenti quadratiche il problema è
analiticamente affrontabile sebbene computazionalmente più pesante.
Appunti del Prof. M. Chiodi per il corso di Statistica 3
a.a. 2000-2001
Prof. M. Chiodi
Introduzione
51
C Matrici idempotenti
Si definisce idempotente una matrice quadrata A di p righe e p colonne
tale che:
A=AA
Definizione di matrice idempotente
Se A è idempotente allora valgono le seguenti proprietà:
A = A A = ... = An
n>0
∀n,
A è uguale a tutte le sue potenze
An è idempotente∀n, n>0
Tutte le potenze di A sono idempotenti
[I - A] è idempotente;
infatti:
[I - A] [I - A]=I2-2 A+A2=
I-2 A+A=I-A
Indicando con λi gli autovalori Infatti dal momento che gli autovalori
delle potenze di una matrice sono
di A si ha:
uguali alle potenze degli autovalori,
λi = 1 se i = 1,2,..., ρ(A)
essendo A = A A, si deve avere λi=λi2,
λi = 0 se i = ρ(A)+1,...,p
per cui λi può essere solo 0 o 1
tr(A)= ρ(A)
La traccia di A è uguale al suo rango
Risulta ovvio dalla definizione che l'unica matrice idempotente di
rango pieno è la matrice identità.
Esempio:
A= X ( X' X )-¹ X',
∀X,
purchè esista ( X' X )-¹
è una matrice idempotente (con ρ(A) = ρ(X)), come si verifica
facilmente effettuando il prodotto:
AA = X(X'X)-¹X' X(X'X)-¹X' = X(X'X)-¹X'=A.
L'introduzione del
questo momento
utilissimo per lo
normali, e per lo
modelli lineari.
concetto di matrice idempotenti, sebbene poco rilevante in
del corso, è uno strumento tecnico che ci sarà fra breve
studio delle proprietà delle forme quadratiche in variabili
studio di particolari quantità che scaturiscono dall'analisi dei
Appunti del Prof. M. Chiodi per il corso di Statistica 3
a.a. 2000-2001
Prof. M. Chiodi
Introduzione
52
Esempi di matrici idempotenti di rango 2:
Come è facile verificare mediante calcolo diretto, le seguenti matrici
sono tutte idempotenti:


A= 


9/17
8/17
-2/17
-2/17
8/17
9/17
2/17
2/17
-2/17
2/17
8/17
8/17
-2/17
2/17
8/17
8/17
 2/3

B=  -1/3

 1/3
 1

C=  0
 0

-1/3
2/3
1/3
0
1/5
2/5





1/3 

1/3 

2/3 


2/5 

4/5 
0
Appunti del Prof. M. Chiodi per il corso di Statistica 3
a.a. 2000-2001
Prof. M. Chiodi
Introduzione
53
LA DISTRIBUZIONE NORMALE MULTIVARIATA.
La distribuzione normale multipla può essere introdotta in numerosi
modi, ed espressa con diverse caratterizzazioni.
♦ Qui viene introdotta come la distribuzione congiunta di combinazioni
lineari di variabili normali.
Sia X un vettore di variabili casuali a p componenti indipendenti, X1,
X2,…,Xp, ciascuna distribuita secondo una normale standardizzata.
La densità di tale distribuzione, data l'indipendenza, è data da:
p
p
fX(x)= ∏ f(xi) = (2π)-p/2 exp[- ∑ xi2/2]
i=1
i=1
=(2π)-p/2 exp[-x'x/2]
Densità congiunta di p variabili normali standardizzate e
indipendenti
La funzione caratteristica è:
φX(t)=
exp[- ½t't]
Ovviamente i primi due momenti di X, per le ipotesi fatte, sono:
E(X)=0p e V(X)=Ip
E' noto, ed è facile comunque vederlo attraverso la funzione
caratteristica, che una singola combinazione lineare Z del vettore
aleatorio X si distribuisce secondo una normale univariata, con media e
varianza ricavabili dalle note relazioni:
Infatti se: Z = b'X +c, allora i primi due momenti di Z sono dati da:
§ E(Z)= b' E(X) +c = c
§ V(Z)= b' Σ (X) b = b'b = b²1+ b²2 +… +b²i +…+ b²p
e Z∼N(E(Z),V(Z)).
Adesso occorre però studiare la distribuzione congiunta di p
combinazioni lineari di variabili normali indipendenti.
Appunti del Prof. M. Chiodi per il corso di Statistica 3
a.a. 2000-2001
Prof. M. Chiodi
Introduzione
54
C La distribuzione congiunta di p combinazioni lineari di p
variabili normali indipendenti
Consideriamo allora il vettore aleatorio Y, trasformazione lineare del
vettore aleatorio X, definito dalla relazione:
•
Y=A'X+m,
essendo:
•
A una matrice quadrata di dimensione p e rango pieno;
•
m un vettore di p elementi;
sarà poi possibile
rango non pieno;
generalizzare
a
trasformazioni
(rispetto alla notazione ordinaria si è indicata
trasposta, perché di solito si dà un significato
componente di Y corrisponde ad una colonna di
partire da p variabili standardizzate Xi oppure
siano indipendenti)
anche
singolari,
ossia
a
la trasformazione mediante una matrice
geometrico alle colonne di A, ed ogni
A; inoltre è irrilevante ai fini del risultato
a varianza qualsiasi: l'importante è che
Per le proprietà sui momenti di trasformate lineari di v.a. i momenti di
Y sono dati da:
♦
E(Y) = A' E(X) + m=m
♦
V(Y)= A' V(X) A=A'A
Per ricavare la densità di Y è conveniente ricorrere alla trasformazione
inversa:
relazione diretta:
relazione inversa:
Y=A'X+m,
X= B'[Y-m], avendo posto: B=A-1
Pertanto la densità di Y è data da:
fY(y)= fX(B'[y-m]) J = J(2π)-p/2 exp(-[y-m]'BB'[y-m]/2)
essendo J lo Jacobiano della trasformazione da Y a X, che ovviamente è
dato da J=mod|B|, per cui si ha:
fY(y)=mod|B| (2π)-p/2 exp(-[y-m]'BB'[y-m]/2)
Questa è la densità richiesta, tuttavia è meglio parametrizzare
questa distribuzione in modo che sia esplicito, se possibile, il
legame con i momenti di Y.
Indichiamo con Σ la matrice di varianza e covarianza di Y, ossia V(Y),
che abbiamo già visto essere uguale a A'A.
Appunti del Prof. M. Chiodi per il corso di Statistica 3
a.a. 2000-2001
Prof. M. Chiodi
Introduzione
55
Se vogliamo esprimere V(X) in funzione di V(Y) si ha:
V(X)=B' V(Y) B=B'ΣB.
Per ipotesi abbiamo però che V(X)=Ip, per cui:
• B'ΣB=I
e quindi la matrice B diagonalizza Σ, per cui ha colonne proporzionali
agli autovettori di Σ divisi per le radici dei rispettivi autovalori (si
rivedano eventualmente i teoremi relativi alla diagonalizzazione di
matrici, agli autovalori ed agli autovettori).
Inoltre, prendendo in esame la relazione B'ΣB=I, premoltiplicando
ambo i membri per B e postmoltiplicando per B', si ottiene:
BB'ΣBB'=BB'
Postmoltiplicando (o premoltiplicando) ora ambo i membri per (BB')-1
(che esiste sempre essendo B, e quindi anche BB', a rango pieno p) si
ha:
BB'ΣBB'(BB')-1 =BB'(BB')-1 e quindi:
BB'Σ =I .
Per cui in definitiva si ha:
BB' = Σ-1
•
•
Per cui nella forma quadratica ad esponente nell'espressione di
fY(y) potremo sostituire BB' con Σ-1;
per potere ottenere il determinante di B che compare in fY(y),
basta applicare le note regole sui determinanti delle trasposte, dei
prodotti e delle inverse, per vedere che:
| B |=| B' | = | BB' |1/2=| Σ-1 |1/2 = | Σ |-1/2
Inoltre essendo Σ definita positiva, il suo determinante è certamente
positivo.
Appunti del Prof. M. Chiodi per il corso di Statistica 3
a.a. 2000-2001
Prof. M. Chiodi
Introduzione
56
C Densità della distribuzione normale multivariata:
In conclusione, sostituendo nella densità di y:
fY(y)=mod|B| (2π)-p/2 exp[-[y-m]'BB'[y-m]/2]
abbiamo:
§ densità della distribuzione normale (non singolare)
multivariata di parametri µ e Σ:
fY(y)= | Σ |-1/2(2π)-p/2 exp[-[y-m]'Σ-1[y-m]/2]
o anche:
fY(y)=
1
| Σ |(2 π) p
[y- m ]' Σ -1[y- m ]
2
e
con:
♦
E (Y) = m
♦
V (Y)= Σ
con funzione caratteristica data da:
♦ φY(t)=
exp[it'm-½t'Σt]
(i momenti possono essere eventualmente ricavati dalle opportune
derivate di φY(t)).
Si vede quindi, in analogia al caso univariato, che la distribuzione
normale multivariata dipende soltanto dai primi due momenti
(multivariati) di Y.
Inoltre è evidente che l'indipendenza si può avere solo quando la fY(y) è
fattorizzabile nelle rispettive densità marginali, il che può avvenire se (e
solo se) Σ è diagonale, ossia con covarianze nulle, e quindi correlazioni
lineari semplici nulle, il che porta un'altra fondamentale proprietà della
normale multivariata:
• il vettore aleatorio Y è a componenti indipendenti se le correlazioni
lineari fra le sue componenti prese a due a due sono nulle, ossia se
la matrice di varianza e covarianza è diagonale.
• Se due variabili sono congiuntamente normali, l'assenza di
correlazione implica l'indipendenza.
Appunti del Prof. M. Chiodi per il corso di Statistica 3
a.a. 2000-2001
Prof. M. Chiodi
Introduzione
57
Inoltre è possibile far vedere, rifacendo a ritroso i passaggi precedenti,
che qualsiasi vettore aleatorio Y la cui densità è data da:
fY(y)= |C|1/2(2π)-p/2 exp[-[y-m]' C [y-m]/2]
(con C definita positiva di rango p) è distribuito secondo una normale
multivariata di parametri m e Σ=C-1.
Esiste inoltre una trasformazione lineare di Y che conduce ad un
vettore aleatorio X a componenti standardizzate e indipendenti:
X = B'[Y -m], in cui B è tale che: B'ΣB=I
• La distribuzione marginale di un qualsiasi sottoinsieme di componenti
di un vettore aleatorio distribuito secondo una normale multivariata è
ancora distribuito secondo una normale multivariata con parametri
uguali ai corrispondenti sottoinsiemi di m e Σ.Σ
• In particolare tutte le distribuzioni marginali delle singole componenti
sono normali univariate.
•
Se il vettore Y è suddiviso in due sottovettori [Y1,Y2],
corrispondentemente suddividiamo il vettore delle medie e la matrice
di varianza e covarianza:



m=
Y1 e Y2
m1
m2






Σ=

Σ 11
Σ ' 12
Σ 12
Σ 22




(vettori aleatori normali) sono indipendenti se e solo se
Σ12=0.
Appunti del Prof. M. Chiodi per il corso di Statistica 3
a.a. 2000-2001
Prof. M. Chiodi
Introduzione
58
C Distribuzione di combinazioni lineari di variabili normali
qualsiasi.
Mediante la funzione caratteristica è possibile vedere ora che qualsiasi
combinazione lineare di un vettore aleatorio distribuito secondo una
qualsiasi normale multivariata si distribuisce ancora secondo una
distribuzione normale multivariata:
• Infatti dal momento che se Y = AZ, si ha:
φY(t)= φZ(t'A),
se Z∼Np(mZ , Σ Z) allora:
φY(t)=exp[it'AmZ
-½t'AΣZ A't]
per cui è immediato vedere che questa è ancora la funzione
caratteristica di una normale multivariata di parametri AmZ e AΣZA'.
Caratterizzazione della distribuzione normale multivariata.
Le proprietà viste prima sulla distribuzione congiunta di combinazioni
lineari di variabili normali costituiscono addirittura una
caratterizzazione della distribuzione normale multivariata.
Infatti si ricorda una importante proprietà che caratterizza la
distribuzione normale multivariata (di cui non si fornisce la
dimostrazione):
• X, vettore aleatorio a p componenti, è distribuito secondo una
normale multivariata se e solo se b'X è distribuito secondo
una normale (univariata) per qualsiasi vettore b di p
componenti.
E' appena il caso di dire che il calcolo delle probabilità integrali su
domini rettangolari della normale multivariata è estremamente
complesso, e comunque non riconducibile a trasformazioni semplici di
integrali unidimensionali, se le variabili sono correlate.
Appunti del Prof. M. Chiodi per il corso di Statistica 3
a.a. 2000-2001
Prof. M. Chiodi
Introduzione
59
Ancora va chiarito, sulla genesi della normale multivariata utilizzata in
queste righe, che questa è una impostazione utile per ricavare la
distribuzione di combinazioni lineari di variabili normali indipendenti:
nell'analisi di fenomeni reali ovviamente non è quasi mai ragionevole
pensare che delle variabili osservate correlate siano state effettivamente
ottenute come combinazione di fattori o variabili non correlate.
Appunti del Prof. M. Chiodi per il corso di Statistica 3
a.a. 2000-2001
Prof. M. Chiodi
Introduzione
60
Assi principali degli ellissoidi di equiprobabilità
E' immediato vedere che le curve con densità f(y) costante per la
normale multivariata di parametri m e Σ sono, in uno spazio pdimensionale, degli ellissoidi di centro in m, e di equazione:
| Σ |-1/2(2π)-p/2 exp(-[y-m]'Σ-1[y-m]/2)=costante
e quindi:
[y-m]'Σ-1[y-m]=k
§
E' facile vedere quindi che al variare del livello costante k, cambia
solo il volume dell'ellissoide, ma le proporzioni fra gli assi restano
inalterate;
§ le equazioni degli assi principali di tali ellissoidi sono date dagli
autovettori di Σ;
§ i quadrati delle lunghezze degli assi principali di tali ellissoidi sono
proporzionali agli autovalori di Σ.
§ Se Σ è diagonale, gli ellissoidi hanno assi paralleli agli assi
coordinati e lunghezza proporzionale agli scarti quadratici medi delle
singole componenti.
§ Si può fare vedere che gli autovettori danno le direzioni degli assi
principali impostando ancora un problema di massimo, ossia cercando i
due punti sulla superficie dell'ellisse che hanno distanza massima.
Appunti del Prof. M. Chiodi per il corso di Statistica 3
a.a. 2000-2001
Prof. M. Chiodi
Introduzione
61
Densità di una normale bivariata standard
due variabili standardizzate e indipendenti
superficie e curve di livello
Densità di una normale bivariata non standard
due variabili standardizzate e con correlazione r=0,7
superficie e curve di livello
Appunti del Prof. M. Chiodi per il corso di Statistica 3
a.a. 2000-2001
Prof. M. Chiodi
Introduzione
62
Esempi e grafici sulla normale trivariata
1). Normale trivariata a media nulla con Matrice di varianze e
covarianze:
Con autovalori:
Ellissoidi di equidensità (sono due sezioni tridimensionali della densità
(a 4D)
Scalato in modo tale che la
Scalato in modo tale che la
probabilità che un punto
probabilità che un punto
risulti interno all'ellissoide è
risulti interno all'ellissoide è
del 90%
del 50%
Appunti del Prof. M. Chiodi per il corso di Statistica 3
a.a. 2000-2001
Prof. M. Chiodi
Introduzione
63
2. Normale trivariata a media nulla con Matrice di varianze e
covarianze:
Con autovalori:
Ellissoidi di equidensità (sono due sezioni tridimensionali della densità
(a 4D)
Scalato in modo tale
Scalato in modo tale che la
che la probabilità che
probabilità che un punto risulti
un punto risulti interno
interno all'ellissoide è del 50%
all'ellissoide è del 90%
Dalla figura a fianco si vedono le
caratteristiche della distribuzioni
condizionate.
Appunti del Prof. M. Chiodi per il corso di Statistica 3
a.a. 2000-2001
Prof. M. Chiodi
Introduzione
64
2. Normale trivariata a media nulla con Matrice di varianze e
covarianze:
Ellissoide di equidensità (è una sezione tridimensionale della densità (a
4D)
Scalato in modo tale che la probabilità che un
punto risulti interno all'ellissoide è del 50%
Appunti del Prof. M. Chiodi per il corso di Statistica 3
a.a. 2000-2001
Prof. M. Chiodi
Introduzione
65
C Forme quadratiche in variabili normali standardizzate e
indipendenti.
Sia X un vettore di variabili casuali a p componenti indipendenti,
ciascuna distribuita secondo una normale standardizzata, ossia
X∼Np(0p,Ip).
p
E’ noto che ∑ Xi2∼χ2p,
(oppure X' X∼χ2p).
i=1
In effetti questa è proprio la definizione di una variabile casuale di tipo
chi-quadrato con p gradi di libertà, che risulta avere una distribuzione
gamma di parametro di forma c=p/2 e parametro di scala λ.
Più in generale ci si potrebbe chiedere se si può ricavare la
distribuzione di una forma quadratica qualsiasi in variabili normali
standardizzate, ossia
Q=X' A X,
e per quali matrici A questa forma quadratica risulta ancora
distribuita come una chi-quadrato.
E’ facile vedere che la forma quadratica
p
Q= X' A X si distribuisce come ∑ λiχ²1,
i=1
ove i λi sono gli autovalori di A;
Questo risultato si ricava facilmente dalla decomposizione spettrale
della matrice A, in quanto si può scrivere:
A= ΓΛΓ', per cui: Q= X' ΓΛΓ'X,
e il vettore aleatorio W = Γ'X è ovviamente normale a componenti
standardizzate e indipendenti, data l'ortogonalità di Γ (una rotazione
ortogonale di una iper-sfera conduce sempre ad una iper-sfera!). Quindi
segue facilmente in modo naturale il risultato scritto prima. Esprimendo
in modo più formale si ha:
posto W = Γ'X, essendo le colonne di Γ gli autovettori (ortogonali:
Γ'Γ=Ι) di A, si ha per i momenti di W:
E(W) = Γ'E(X)=0 e V(W)= Γ'V(X) Γ= Γ' I Γ=I
Il vettore aleatorio W è dunque composto da p variabili normali,
standardizzate e indipendenti.
Tornando ora alla forma quadratica Q si ha:
Appunti del Prof. M. Chiodi per il corso di Statistica 3
a.a. 2000-2001
Prof. M. Chiodi
Introduzione
66
p
Q= X' A X = X' ΓΛΓ'X = W' Λ W= ∑ λiWi2
i=1
Le componenti Wi2 sono chiaramente distribuite come delle chiquadrato (indipendenti) con un grado di libertà.
Pertanto Q è distribuita come una combinazione lineare di p variabili
casuali chi-quadrato indipendenti con un grado di libertà, con
coefficienti dati dagli autovalori di A.
In ogni caso è possibile calcolare i momenti di Q in quanto
combinazione lineare di v.c. χ²1 indipendenti:
p
p
E(Q)= ∑ λi E(χ²1) = ∑ λi
i=1
i=1
p
p
2
V(Q)= ∑ λi V(χ²1) = 2 ∑ λi2
i=1
i=1
Se (e solo se) gli autovalori di A sono tutti uguali a 0 o a 1,
ossia se (e solo se) A è idempotente,
Q=X'AX si distribuisce come una variabile casuale χ²r,
per la proprietà additiva delle v.c. χ², essendo r il rango di A, ossia il
numero degli autovalori λi uguali ad uno
Infatti si vede immediatamente che, se A è idempotente di rango r, si
ha:
λ1 = λ2 =...= λr=1 e λr+1 = λr+2 =...= λp=0
p
r
p
r
per cui: ∑ λiχ²1= ∑ 1⋅χ²1 + ∑ 0⋅χ²1= ∑ χ²1 ∼ χ²r
i=1
i=1
i=r+1
i=1
Per dimostrare che l'idempotenza di A è condizione necessaria e
sufficiente perchè Q sia distribuita come una chi-quadrato (prima
abbiano visto che l'idempotenza di A è condizione sufficiente),
conviene ricorrere alla funzione caratteristica di Q, che è data da:
p
2
φQ(t)=E{exp(i t X' A X)}=E{exp(i t ∑ λi Xi )}=
i=1
Appunti del Prof. M. Chiodi per il corso di Statistica 3
a.a. 2000-2001
Prof. M. Chiodi
Introduzione
67
p
p
= ∏ E{exp(i t λi Xi2)}= ∏ (1-2 i t λi)-1/2
i=1
i=1
(dato che Xi2 è distribuito come una chi-quadrato con un grado di
libertà, l'ultimo passaggio deriva dalla funzione caratteristica della v.c.
chi-quadrato).
Ancora si può osservare che 1-2 i t λi è un autovalore della matrice:
I-2 i t A e quindi la produttoria di tali autovalori (1-2 i t λi) è uguale al
determinante della suddetta matrice:
p
φ(t)= ∏
(1-2 i t λi)-1/2=| I-2 i t A|-1/2
i=1
Perché Q sia distribuita come una chi-quadrato, occorre che la sua
funzione caratteristica φQ(t) sia identicamente uguale a quella di una
v.c. χ2 per qualsiasi valore dell’argomento t.
Poichè la funzione caratteristica di una v.c. χ2 con ν gradi di libertà è
data da:
φχ2(t)=(1-2
i t)- ν/2,
mentre per la funzione caratteristica di Q si è visto che:
p
-1/2
φQ(t)= ∏ (1-2 i tλi) .
i=1
Per avere φχ2(t)= φQ(t) per qualsiasi t, occorre che i coefficienti λi siano
o zero o uno, di modo che i corrispondenti termini della produttoria in
-1/2
φQ(t) siano uguali ad uno (se λi =0) oppure a (1-2it)
(se λi=1); se
sono r (rango di A) quelli uguali ad uno, si avrà in definitiva:
-r/2
φQ(t)= (1-2 i t) , che è la funzione caratteristica di una chi-quadrato
con r gradi di libertà.
Esempio
Ad esempio si consideri la matrice seguente:
 16/25
A = 12/25

12/25
9/25
Appunti del Prof. M. Chiodi per il corso di Statistica 3




a.a. 2000-2001
Prof. M. Chiodi
Introduzione
68
Tale matrice simmetrica risulta idempotente di rango 1, come è facile
verificare effettuando il prodotto AA, oppure verificando che λ1=1 e
λ2=0.
Supponendo di avere un vettore aleatorio X costituito da due variabili
casuali normali standardizzate e indipendenti, X1 e X2, la forma quadratica
Q=X'AX risulta data da:
Q=a11X²1 + a22X²2 + 2a12X1X2= (16X²1 + 9X²2 + 24X1X2)/25,
e infine:
Q=[(4/5)X1 + (3/5)X2] 2
E' immediato verificare che Q si distribuisce secondo una chi-quadrato
con un grado di libertà, senza bisogno di applicare il teorema generale
sulla distribuzione delle forme quadratiche. Infatti la variabile:
Z=(4/5)X1 + (3/5)X2
è distribuita normalmente (in quanto combinazione lineare di variabili
normali) con media zero e varianza unitaria.
Infatti:
E[Z] ==(4/5)E[X1] + (3/5)E [X2]=0
Var[Z] =(4/5)2Var[X1] + (3/5) 2Var [X2]=16/25+9/25=1
(Cov[X1,X2]=0 per l'indipendenza).
Quindi Q è uguale al quadrato di una normale standardizzata, e quindi
segue una distribuzione chi-quadrato con un grado di libertà.
Forme quadratiche
scarti dalla media.
idempotenti:
somma
dei
quadrati
degli
Prendiamo ora in esame una forma quadratiche già nota, ossia la
somma dei quadrati degli scarti dalla propria media aritmetica di n
variabili casuali normali indipendenti Xi. Tipicamente le variabili saranno
quelle corrispondenti ad un campione a n componenti i.i.d.(e quindi il
vettore aleatorio è al solito: XT= {X1,...,Xn}).
Interessa dunque la distribuzione della quantità:
n
Q= ∑ (Xi – M)2
i=1
avendo indicato con M la variabile casuale media aritmetica delle n
componenti Xi:
Appunti del Prof. M. Chiodi per il corso di Statistica 3
a.a. 2000-2001
Prof. M. Chiodi
Introduzione
69
n
M = ∑ Xi/n che si può anche scrivere: M = 1nTX /n,
i=1
essendo al solito 1n un vettore di n elementi uguali ad uno.
Allora la somma dei quadrati
vettoriale con semplici passaggi:
degli
scarti
si
può
scrivere
in
notazione
n
Q= ∑ (Xi – M)2=[X-1n M]'[X-1n M]=
i=1
=[X-1n 1nTX /n]'[X-1n 1nTX /n] =X' [I-1n 1nT/n]'[I-1n 1nT/n]X
T
Posto ora U=1n 1n /n, è facile vedere che U è idempotente di rango 1: è
composta da n×n elementi tutti uguali a 1/n; quindi sono idempotenti (ma di
rango n-1) anche I-U, e [I-U]'[I-U], per cui possiamo scrivere:
n
2
Q= ∑ (Xi – M) = X'[I -U]X
i=1
e Q è distribuita secondo una χ²n-1.
Esempio numerico
Con n=5 si supponga di avere le 5 osservazioni xi: {3,5,8,9,10}, con
media aritmetica M=7.
La somma dei quadrati degli scarti (osservati!) è data da:
n
Q= ∑ (xi – M)2=16+4+1+4+9=34.
i=1
E' facile vedere che la matrice U è data da:



U=



0,2
0,2
0,2
0,2
0,2
0,2
0,2
0,2
0,2
0,2
0,2
0,2
0,2
0,2
0,2
0,2
0,2
0,2
0,2
0,2
0,2
0,2
0,2
0,2
0,2






Indicato quindi con x il vettore delle 5 osservazioni, si verifichi il
risultato fornito dal prodotto x'[I -U]x:
Appunti del Prof. M. Chiodi per il corso di Statistica 3
a.a. 2000-2001
Prof. M. Chiodi
Introduzione
x'[I -U]x=( 3 5 8 9


10 ) 


0,8 -0,2
-0,2 0,8
-0,2 -0,2
-0,2 -0,2
-0,2 -0,2
-0,2
-0,2
0,8
-0,2
-0,2
70
-0,2 -0,2

-0,2 -0,2 
-0,2 -0,2
0,8 -0,2
-0,2 0,8 





3

5
8 =
9
10 
= 32×0,8+52×0,8+...+102×0,8-2×0,2×3×5-...= 34
Distribuzione
multivariata.
dell'esponente
della
distribuzione
normale
Sia Y un vettore di variabili casuali a p componenti, distribuita
secondo una normale multivariata qualsiasi, ossia
Y∼ Np(m , Σ)
Si può dimostrare che la variabile casuale corrispondente alla forma
quadratica che figura al numeratore dell’esponente della funzione di
densità, ossia:
Q=(Y-m)' Σ-1 (Y-m),
segue una distribuzione chi-quadrato con p gradi di libertà.
Infatti il risultato si mostra facilmente ricorrendo ad una opportuna
trasformazione lineare (già impiegata)
X = B'[Y -m], in cui B è tale che: B'ΣB=I, e Σ-1 =BB'.
Pertanto:
Q
=(Y-m)' Σ-1 (Y-m)=(Y-m)' BB' (Y-m)=
=[(Y-m)' B][B' (Y-m)]= X'X ∼χ²p
Per cui Q si distribuisce come la somma di p variabili normali
standardizzate, ossia come una chi-quadrato con p gradi di libertà
In definitiva:
se Y∼Np(m , Σ), allora (Y-m)' Σ-1(Y-m) ∼ χ²p
Esempio numerico
Y∼N2(0 , Σ),
Appunti del Prof. M. Chiodi per il corso di Statistica 3
a.a. 2000-2001
Prof. M. Chiodi
Introduzione
 1
 2
1 
con Σ= 1 1  e quindi Σ-1= -1



pertanto la forma quadratica:
 1
Q =Y'  -1

71
-1 
2  ;
-1 
2  Y= Y²1 +2 Y²2 -2 Y²1 Y²2 ∼χ²2.
segue una distribuzione chi-quadro con due gradi di libertà.
Appunti del Prof. M. Chiodi per il corso di Statistica 3
a.a. 2000-2001
Prof. M. Chiodi
Introduzione
72
Indipendenza di forme quadratiche e combinazioni lineari di
variabili normali.
Sia X un vettore di variabili casuali a p componenti indipendenti,
ciascuna distribuita secondo una normale standardizzata, ossia
X∼Np(0p,Ip).
Valgono alcuni teoremi sull’indipendenza fra forme quadratiche in X e
combinazioni lineari in X, che si basano sulle proprietà dei vettori dei
coefficienti che determinano le forme quadratiche e le combinazioni
lineari.
Si abbiano due forme quadratichein variabili normali indipendenti:
Q1= X' A1 X
•
e
Q2= X' A2 X
Le due forme quadratiche Q1 e Q2 sono indipendenti
se e solo se A1 A2 = 0(pxp)
(essendo ovviamente A1 e A2 matrici quadrate simmetriche, ed
essendo 0(p×p) una matrice quadrata composta di zeri);
Si abbia la forma quadratica
Q=X' A' X,
e la combinazione lineare Z=b'X
• La forma quadratica Q e la combinazione lineare Z sono
indipendenti
se e solo se A b = 0p
(essendo b un vettore di p elementi e 0p il vettore nullo di p
componenti)
Appunti del Prof. M. Chiodi per il corso di Statistica 3
a.a. 2000-2001
Prof. M. Chiodi
Introduzione
73
C Teorema di Cochran:
Supponiamo di avere una somma di quadrati di p variabili normali
standardizzate e indipendenti, ossia:
Q=X' X
o, più in generale, una forma quadratica
Q=X' A X, con A idempotente di rango p.
In questo caso il numero delle componenti di X potrà essere in
generale maggiore di p; il punto essenziale è che Q abbia una
distribuzione chi-quadrato con p gradi di libertà.
Supponiamo di saper scomporre algebricamente Q nella somma di k
forme quadratiche:
k
k
Q = X' X = ∑ X' Ai X = ∑ Qi,
i=1
i=1
avendo posto: Qi= X' Ai X, ed essendo per ipotesi:
Q ∼ χ²p
Il teorema di Cochran stabilisce delle relazioni di importanza
fondamentale in merito alle caratteristiche delle distribuzioni delle
singole componenti Qi.
Appunti del Prof. M. Chiodi per il corso di Statistica 3
a.a. 2000-2001
Prof. M. Chiodi
Introduzione
74
TEOREMA DI COCHRAN
Una qualsiasi delle seguenti tre condizioni implica le altre due:
♦
k
∑ ρ(Ai) = p= ρ(A)
i=1
1
(in generale la somma dei ranghi delle singole componenti deve
eguagliare il rango di A)
♦
tutte le k forme quadratiche Qi= X' Ai X hanno una distribuzione
χ²
2
che corrisponde a : tutte le Ai devono essere idempotenti;
♦
tutte le k forme quadratiche Qi= X' Ai X sono a due a due
indipendenti,
3
che corrisponde a: Ai Aj =0 per qualsiasi coppia i≠j.
L'importanza di tale teorema nell'ambito della teoria normale sui
modelli lineari è cruciale; in generale a ciascuna delle k componenti si
farà corrispondere una particolare fonte di variabilità o un gruppo di
parametri.
Ai fini pratici se per esempio se si vuole applicare ad una particolare
scomposizione la proprietà 2, per poi dedurne la 1 e la 3, non è necessario
esplicitare le singole matrici Ai, ma è sufficiente sapere che si è
scomposta Q in forme quadratiche nelle variabili aleatorie Xi.
In effetti esiste una formulazione ancora più generale del teorema, che
prende in considerazione distribuzioni
χ² non centrali, ossia forme
quadratiche in variabili normali con speranza matematica diversa da zero,
utile per la generalizzazione alla distribuzione di determinate quantità test
non solo sotto H0 ma anche sotto H1. Per non appesantire questi appunti non
riporto questa generalizzazione: se ne farà cenno più avanti soltanto quando
sarà necessario.
Esempio.
Come esempio si rifletta sulla nota scomposizione per la somma dei
quadrati di n variabili normali standardizzate indipendenti:
Appunti del Prof. M. Chiodi per il corso di Statistica 3
a.a. 2000-2001
Prof. M. Chiodi
Introduzione
n
n
i=1
i=1
75
∑ Xi2= ∑ (Xi – M)2 +nM2
Per applicare il teorema di Cochran è sufficiente far vedere che i due
addendi sulla destra sono forme quadratiche in variabili normali di rango
n-1 e 1: è immediato verificarlo senza bisogno di esplicitare le matrici,
n
perché ∑ (Xi – M)2 è palesemente una forma quadratica con un vincolo
i=1
n
lineare ( ∑ (Xi – M)=0), mentre M2 ha ovviamente un solo grado di libertà.
i=1
Appunti del Prof. M. Chiodi per il corso di Statistica 3
a.a. 2000-2001
Prof. M. Chiodi
Introduzione
76
C Distribuzioni condizionate
Una proprietà fondamentale della normale, che oltretutto la
caratterizza, riguarda le distribuzioni di un gruppo di componenti
condizionatamente ai valori di un altro gruppo di componenti.
Questo argomento viene trattato adesso, senza limitarci ad esporre i
risultati fondamentali, ma anzi entrando con un certo dettaglio, per tre
ordini di ragioni:
§ La peculiarità delle caratteristiche delle distribuzioni condizionate
nella normale multivariata, che ne rappresenta un aspetto
fondamentale;
§ La possibilità di dare un significato statistico autonomo agli
elementi dell'inversa della matrice di correlazione di una variabile
multipla normale
§ Come premessa indispensabile ai modelli lineari che tratteremo
ampiamente in questo corso
Come si vedrà nelle pagine successive, la distribuzione di un gruppo di
variabili YA condizionata ad un particolare valore yB assunto da un altro
gruppo di YB è ancora normale ed inoltre:
• La funzione di regressione di una componente YA rispetto alle altre
componenti è lineare.
• La distribuzione ha una matrice di varianze e covarianze che non
dipende dai valori della componente condizionante (omoscedasticità).
I risultati esposti in queste pagine generalizzano le proprietà note per
distribuzioni normali bivariate, in cui le due funzioni di regressione di
ciascuna delle due variabili rispetto all'altra è lineare, ed inoltre le
distribuzioni condizionate sono normali e di uguale varianza.
In effetti ci porremo il problema nella forma più generale della
distribuzione di un gruppo di variabili normali condizionatamente ad un
altro gruppo di variabili normali, nota la loro distribuzione congiunta.
Significato
degli
elementi
dell'inversa
della
matrice
di
varianza
e
covarianza.
Sarà anche possibile dare un significato agli elementi dell'inversa di .
in termini di distribuzioni condizionate.
Infatti si dimostrerà che se C=Σ-1, allora:
§ cij=0 è condizione necessaria e sufficiente perché le variabili Yi e Yj
siano indipendenti condizionatamente alle altre p-2 variabili.
Appunti del Prof. M. Chiodi per il corso di Statistica 3
a.a. 2000-2001
Prof. M. Chiodi
Introduzione
77
Distribuzione condizionata nel caso generale di un gruppo
di componenti rispetto ad un altro gruppo di componenti.
Supponiamo di avere un vettore Y di p componenti, con distribuzione
normale multivariata, suddiviso nel caso più generale in due sottovettori
[YA,YB], con corrispondente suddivisione del vettore delle medie e della
matrice di varianze e covarianze:
 YA 

Y=

 YB 





Σ =

m=
µA
µB




Σ AA
Σ ' AB
ΣΑB
ΣΒΒ




I due insiemi di indici A e B costuituiscono una partizione dell'insieme
di indici I={1,2,...,p} così che:
A∪B=I
A∩B=∅
A≠∅
B≠∅
per il resto A e B sono costituiti da sottoinsiemi di indici qualsiasi (con
la restrizione che esistano le inverse delle matrici di varianze e covarianze
che si richiederanno nel seguito).
•
Ci chiediamo qual è la funzione di regressione di YA su YB, ossia
la speranza matematica di YA condizionata ad un particolare
valore yB di YB:
E[YA| YB=yB]= ??
•
In generale ci chiediamo direttamente qual è la distribuzione di
YA condizionata ad un particolare valore yB di YB.
Per trovare la funzione di regressione nel caso generale, ricaviamo
prima la densità della distribuzione di YA condizionata ad un
particolare valore yB assunto da YB.
Per comodità lavoriamo con variabili XA, XB con speranze
matematiche nulle, ponendo:
XA= YA-mA
XB= YB-mB
Appunti del Prof. M. Chiodi per il corso di Statistica 3
a.a. 2000-2001
Prof. M. Chiodi
Introduzione
78
Ovviamente la matrice di varianze e covarianze di X è uguale a quella
di Y.
E' opportuno richiamare le formule per la semplificazione degli elementi
dell'inversa della matrice partizionata delle varianze e covarianze di Y:

-1 
Σ =


-1
-1
-1
- Σ AA.B
Σ AB Σ BB



-1
Σ BB +I] 
-1
-1
- Σ AA.B
Σ AB Σ BB
Σ AA.B
-1
-1
Σ BB [ Σ ' AB Σ AA.B Σ AB
avendo posto:
-1
ΣAA.B= ΣAA-ΣABΣBB Σ'AB.
Indichiamo con ΣST il blocco corrispondente al posto di ΣST
(S=A,B;T=A,B) nell'inversa Σ-1, così che:
Σ
AA
-1
;
=ΣAA.B
Σ
AB
Σ
BA
Σ
BB
-1
-1
ΣAB ΣBB ;
= -ΣAA.B
-1
-1
Σ'AB ΣAA.B ;
= - ΣBB
-1
-1
-1
ΣAB ΣBB +I].
[Σ'AB ΣAA.B
=Σ BB
ad esempio ΣAA (blocco dell'inversa Σ-1
-1
(inversa del blocco di Σ
corrispondente agli indici AA) con ΣAA
corrispondente agli indici AA) (coincidono solo se ΣAB=0)
Non
si
confonda
Ricaviamo dai noti teoremi del calcolo delle probabilità la densità della
distribuzione condizionata di XA:
f XA|XB=xB (xA|XB=xB)=
fX A X B( x A, x B)
fX B( x B)
E' più comodo lavorare sui logaritmi ed in particolare su –2log f (in
modo da trasformare solo le forme quadratiche a numeratore
dell'esponente nella densità normale), indicando per brevità con K la
costante di normalizzazione, che si può determinare dopo:
-2 log [f(xA,xB)/f(xB)]=
-1
= K + x' Σ-1 x - xB' ΣBB
xB=
-1
= K + xA' ΣAA xA+2xA' ΣABxB+xB' ΣBB xB - xB' ΣBB
xB=
(sostituendo gli opportuni blocchi di Σ-1)
Appunti del Prof. M. Chiodi per il corso di Statistica 3
a.a. 2000-2001
Prof. M. Chiodi
Introduzione
79
-1
-1
-1
= K + xA' ΣAA.B
xA-2xA' ΣAA.B ΣAB ΣBB xB+
-1
-1
-1
-1
+xB' ΣBB
[Σ'AB ΣAA.B
ΣAB ΣBB +I]xB- xB' ΣBB xB=
-1
-1
-1
= K + xA' ΣAA.B
xA-2xA' ΣAA.B [ΣAB ΣBB xB]+
-1
-1
-1
+[xB' ΣBB
Σ'AB] ΣAA.B [ΣAB ΣBB xB ]=
-1
-1
-1
= K + [xA- ΣAB ΣBB
xB]'ΣAA.B [xA- ΣAB ΣBB xB]
Per cui è chiaro dall'ultima forma quadratica, che si tratta del
numeratore dell'esponente di una distribuzione normale di parametri
♦ mX
|
-1
= ΣAB ΣBB
xB
|
-1
AA -1
= ΣAA.B=ΣAA-ΣABΣBB
Σ'AB = (Σ )
A XB=xB
♦ ΣX
A XB=xB
(La costante K è ricavabile dalla condizione di normalizzazione, ma si
può comunque verificare effettuando il rapporto fra i termini costanti
delle due densità, tenendo presente che per matrici partizionate si ha:
♦
-1
Σ 'AB|| Σ BB|=| Σ AA.B|| Σ BB|
| Σ |=| Σ AA- Σ AB Σ BB
Per cui la distribuzione condizionata è:
-1
XA|xB∼N[ΣAB ΣBB xB; Σ AA.B]
e quindi si ha:
Appunti del Prof. M. Chiodi per il corso di Statistica 3
a.a. 2000-2001
Prof. M. Chiodi
Introduzione
80
Distribuzioni condizionate nel caso generale di vettori
aleatori normali:
•
-1
YA|yB∼N[mA+ΣABΣBB
(yB-mB); Σ AA.B]
La distribuzione condizionata è normale multivariata
•
-1
E(YA|yB)= mA + ΣAB ΣBB
(yB-mB)
la funzione di regressione (speranza matematica
condizionata) è lineare in yB
•
-1
AA -1
V(YA|yB)= ΣAA.B= ΣAA-ΣABΣBB
Σ'AB= (Σ )
la matrice di varianze e covarianze condizionate non
dipende da yB (omoscedasticità)
•
i vettori casuali:
-1
[YB-mB]) e YB
YA – (mA+ΣABΣBB
-1
YB e YB)
(oppure YA –ΣABΣBB
risultano indipendenti (si verifica subito calcolndo E(YA YB')
(vedere anche > > )(figure varie)
Appunti del Prof. M. Chiodi per il corso di Statistica 3
a.a. 2000-2001
Prof. M. Chiodi
Introduzione
81
Esempio numerico:
Si consideri la matrice 3×3 di varianza e covarianza relativa a 3
variabili normali:
 3 1 1 
 1 2 1 .
Σ=


 1 1 1 
Consideriamo la distribuzione della variabile 1 condizionatamente alla
2 e alla 3. La matrice di varianze e covarianze va quindi partizionata
seguente modo:
Σ=
3
1
1
1
2
1
1
1
1
 2
Mentre ΣBB= 1

1
1




Appunti del Prof. M. Chiodi per il corso di Statistica 3
a.a. 2000-2001
Prof. M. Chiodi
Introduzione
82
C Significato degli elementi dell'inversa della matrice di
varianza e covarianza.
E' possibile dare anche un significato agli elementi dell'inversa di Σ, in
termini di distribuzioni condizionate, nel caso in cui Σ sia la matrice di
varianza e covarianza di variabili aleatorie normali; si vedrà come tali
concetti possano essere estesi al caso di variabili aleatorie non normali o,
meglio, nell'analisi di dati multivariati, al caso di variabili statistiche
osservate.
Gli
elementi
parziale
non
diagonali
dell'inversa:
la
correlazione
Intanto, con riferimento ad una distribuzione normale multivariata con
matrice dik varianze e covarianze Σ, si può dimostrare che se C=Σ-1,
allora:
§
cij=0 è condizione necessaria e sufficiente perché le variabili Yi e Yj
siano indipendenti condizionatamente alle altre p-2 variabili YB. Si
può giungere al risultato in due modi:
1. Dalla densità normale multivariata si vede direttamente che:
se e solo se cij=0 si ha la fattorizzazione:
f(y)= f(yi, yB) f(yj, yB)
che è una condizione necessaria e sufficiente per l'indipendenza
condizionata di due variabili aleatorie qualsiasi dotate di densità.
Infatti, ponendo YA=(Yi,Yj)' e indicando con YB tutte le altre
componenti, avendo indicato con C l'inversa della matrice di varianza
e covarianza opportunamente partizionata:

C=

cii
cij
cij
cjj
c iB
c jB
c iB'
c jB'
C BB




si ha:
f(y)= f(yi, yj, yB)= K×exp[-(y'C y)/2] =
K×exp[-(ciiyi2+ cjj yj2+2 cij yi yj+2yiciB' yB+2yjcjB' yB+ yB'CBB yB)/2]
Se ora cij=0 allora si può facilmente operare su f(y):
Appunti del Prof. M. Chiodi per il corso di Statistica 3
a.a. 2000-2001
Prof. M. Chiodi
Introduzione
83
f(y)= K×exp[-(ciiyi2+ cjj yj2+2yiciB' yB+2yjcjB' yB+ yB'CBB yB)/2]=
=K
2
×exp[-(ciiyi
2
×exp[-(cjj yj
+2yiciB' yB+ yB'CBB yB)/2]
g(yi, yB)×
+2yjcjB' yB)/2]
g(yj, yB)
in modo da ottenere la fattorizzazione desiderata in due funzioni, in cui
non compaiono simultaneamente termini in yi e yj
2. Per una interpretazione in generale del significato dei termini
dell'inversa, e non solo per il caso estremo cij=0, conviene riferirsi alle
distribuzioni condizionate.
Dalla distribuzione di YA condizionata a YB=yB, ponendo YA=(Yi,Yj)'
(e quindi nella notazione della sezione precedente A è uguale alla
coppia di indici {i,j} e B all'insieme degli altri p-2 indici) si ricava
che essendo la distribuzione condizionata di YA ancora normale,
l'indipendenza condizionata si ha se e solo se Yi,Yj risultano non
correlati, condizionatamente a YB=yB.
§ Si è visto che:
AA -1
-1
-1
Σ'AB= (Σ )
= ΣAA-ΣABΣBB
V(YA|yB)= ΣAA.B
cioè la varianza condizionata di YA è uguale all'inversa del blocco di
elementi corrispondenti ad YA nell'inversa di Σ.
Nel caso di due variabili i e j, occorre invertire la matrice 2×2 di
elementi:
Σ

=
AA

cii
cij
cij
cjj




e quindi:
(Σ
Σ

cjj
) = -c

ij
AA -1
-cij 
2
cii  /(cii cjj- cij )
pertanto Yi e Yj sono non correlati condizionatamente alle altre p-2
variabili, e quindi indipendenti data la normalità della distribuzione
condizionata, se e solo se cij=0.
Appunti del Prof. M. Chiodi per il corso di Statistica 3
a.a. 2000-2001
Prof. M. Chiodi
•
Introduzione
84
Dagli elementi di (ΣΣAA)-1 è possibile calcolare l'indice di
correlazione fra Yi e Yj condizionatamente a YB:
•
corr(Yi,Yj|YB=yB)=
-cij
cii cjj
=
- σ ij
ii
σ σ
jj
(essendo σij il cofattore di σij in Σ)
indice di correlazione lineare parziale ossia correlazione fra
due variabili eliminata l'influenza delle altre p-2 variabili
Appunti del Prof. M. Chiodi per il corso di Statistica 3
a.a. 2000-2001
Prof. M. Chiodi
Introduzione
Esempi sulla differenza
l'indipendenza marginale
fra
85
l'indipendenza
condizionata
e
L'indipendenza condizionata e l'indipendenza marginale sono due
concetti diversi, e nessuno dei due implica l'altro:
Esempio:
Si ha una tavola 2×2×2 di tre mutabili A,B, e C. Le due tavole A×B
condizionate ai valori di C sono:
C=c1
a1
a2
tot.
b1
0,24
0,56
0,80
b2
0,06
0,14
0,20
tot.
0,30
0,70
1,00
C=c2
a1
a2
tot.
b1
0,12
0,18
0,30
b2
0,28
0,42
0,70
tot.
0,4
0,6
1,00
§
In queste distribuzioni condizionate A e B sono indipendenti
se P(C=c1)= P(C=c1)=1/2 la tavola marginale A×B è:
b1
0,18
0,37
0,55
C tot.
a1
a2
tot.
§
b2
0,17
0,28
0,45
tot.
0,35
0,65
1,00
Nella distribuzione marginale A e B non sono indipendenti.
Si può presentare il caso opposto, di caratteri indipendenti marginalmente
e associati condizionatamente (paradosso di Simpson).
Si ha un'altra tavola 2×2×2 di tre mutabili A,B, e C. Le due tavole A×B
condizionate ai valori di C sono ora:
C=c1
a1
a2
tot.
b1
0,5
0
0,5
b2
0
0,5
0,5
tot.
0,5
0,5
1
C=c2
a1
a2
tot.
b1
0
0,5
0,5
b2
0,5
0
0,5
tot.
0,5
0,5
1
§
In queste distribuzioni condizionate A e B sono associati (addirittura
sono massimamente associati)
se P(C=c1)= P(C=c1)=1/2 la tavola marginale A×B è:
C tot.
a1
a2
tot.
§
b1
0,25
0,25
0,5
b2
0,25
0,25
0,5
tot.
0,5
0,5
1
Nella distribuzione marginale A e B sono indipendenti (addirittura
equidistribuite)
Appunti del Prof. M. Chiodi per il corso di Statistica 3
a.a. 2000-2001
Prof. M. Chiodi
Gli
elementi
multipla
Introduzione
non
diagonali
dell'inversa:
86
la
correlazione
Anche gli elementi sulla diagonale principale di Σ-1 sono interpretabili
tenendo conto delle distribuzioni condizionate, ma in termini di
variabilità spiegata di una variabile rispetto a tutte le altre, concetto che
rivedremo poi nel caso di modelli lineari generali.
Infatti se ora consideriamo l'insieme YA costituito da una sola variabile
Yi (e quindi nella notazione adottata finora A è uguale all'indice i e B
all'insieme degli altri p-1 indici), si ha per la varianza di Yi condizionata
ai valori delle altre p-1 variabili:
V(Yi |yB)=( Σ AA)-1=1/cii= |Σ|/σii
§
Quindi l'inverso di un elemento diagonale dell'inversa della matrice
di varianze e covarianze esprime la varianza della variabile di posto
corrispondente condizionatamente alle altre p-1 variabili.
§
Il massimo di questa quantità è proprio la varianza della componente
i-esima, ossia σ2i
Se Σ è una matrice Z di correlazione, allora 1/cii indica la variabilità di
Yi non spiegata dalle altre p-1 variabili, per cui si può costruire il
coefficiente di determinazione multipla:
R2i.{B}=1-|Z|/zii =1-1/cii=1-
V(Yi | Y B)
V(Yi) ;
Misura quanta parte della variabilità di Yi è spiegata dalle altre p-1
variabili del vettore aleatorio YB
In generale l'indice di correlazione lineare multipla è dato da:
Ri.{B}= 1-| Σ |/[ σ 2i σ ii] = 1-1/( σ 2i cii)
Appunti del Prof. M. Chiodi per il corso di Statistica 3
a.a. 2000-2001
Prof. M. Chiodi
Introduzione
87
Esempio
Date le rilevazioni di p=7 misure antropometriche su un insieme di
n=1432 bambini, si è calcolata la matrice di correlazione Z che segue:
Z=
i
j
j
j
j
j
j
j
j
j
j
j
j
j
j
j
j
j
j
k
1.000
0.719
0.584
0.464
0.751
0.734
0.890
0.719
1.000
0.912
0.519
0.754
0.838
0.690
0.584
0.912
1.000
0.469
0.695
0.771
0.578
0.464
0.519
0.469
1.000
0.488
0.474
0.461
0.751
0.754
0.695
0.488
1.000
0.765
0.779
0.734
0.838
0.771
0.474
0.765
1.000
0.706
0.890 y
z
0.690 z
z
z
z
0.578 z
z
z
0.461 z
z
z
z
0.779 z
z
z
z
0.706 z
z
1.000 {
Ad esempio la correlazione lineare (marginale, ossia senza tenere conto
della presenza delle altre variabili) fra le prime due variabili è di 0,719.
Da questa matrice di correlazione si è calcolata l'inversa C:
C=
i
j
j
j
j
j
j
j
j
j
j
j
j
j
j
j
j
j
j
k
5.785
-1.832
1.346
-1.832
9.666
-6.124
-0.407
-0.134
-1.775
0.053
-6.124
1.346
-0.090
-0.216
-0.784
-3.902
6.593
-0.030
-0.667
-0.467
0.075
-0.090
-0.407
-0.030
1.423
-0.216
-0.134
-0.667
-0.207
-0.207
-0.008
-0.112
3.603
-0.784
-1.775
-0.467
-0.008
-0.862
-0.862
-1.432
-0.036
4.111
-3.902 y
z
0.053 z
z
z
z
0.075 z
z
z
z
-0.112 z
z
z
-1.432 z
z
z
z
-0.036 z
z
5.586 {
e quindi si è calcolata la matrice P che ha come elemento generico
-cij
, correlazione parziale fra due variabili, Xi e Xj, tenute
rij.B=
cii cjj
costanti le altre 5:
P=
i
j
j
j
j
j
j
j
j
j
j
j
j
j
j
j
j
j
j
k
-1.000
0.245
-0.218
0.245
-0.218
0.031
0.047
0.161
0.686
-1.000
0.767
-1.000
0.010
0.137
0.090
-0.012
0.767
0.110
0.023
0.282
-0.007
0.031
0.110
0.010
-1.000
0.091
0.003
0.040
0.047
0.023
0.137
0.091
-1.000
0.224
0.319
0.161
0.282
0.090
0.003
0.224
-1.000
0.007
0.686 y
z
-0.007 z
z
z
z
-0.012 z
z
z
0.040 z
z
z
z
0.319 z
z
z
z
0.007 z
z
-1.000 {
(ovviamente in questa matrice gli elementi diagonali non vanno considerati)
Si vede che la correlazione lineare (parziale, o meglio condizionata,
ossia tenute costanti le altre variabili) fra le prime due variabili è di 0,245.
Buona parte quindi della correlazione marginale è indotta dall'influenza
delle altre 5 variabili, ossia la covariazione delle prime due variabili
insieme alle altre 5.
Se invece trasformiamo gli elementi diagonali di C, mediante la
relazione:
Appunti del Prof. M. Chiodi per il corso di Statistica 3
a.a. 2000-2001
Prof. M. Chiodi
Introduzione
88
R2i.{B}=1-|Z|/zii =1-1/cii
otteniamo i 7 indici di determinazione multipla, di ciascuna variabile
condizionatamente alle altre 6:
{0.827137,0.896544,0.848327,0.297231,0.722443,0.756753,0.82098}
Si noti che la matrice di correlazione ha 7 autovalori dati da:
'
l ={5.06451,0.674288,0.635871,0.245914,0.207684,0.105888,0.06584}
La successione di tali valori indica chiaramente la presenza di
correlazioni lineari fra combinazioni lineari di variabili molto forti.
Impiego delle
multivariati.
informazioni
dell'inversa
C
nell'analisi
di
dati
Come si è visto, l'analisi degli elementi dell'inversa della matrice di
correlazione può fornire degli elementi utili per indagare sulla
dipendenza fra variabili sia in termini marginali che in termini
condizionati.
Appunti del Prof. M. Chiodi per il corso di Statistica 3
a.a. 2000-2001
Prof. M. Chiodi
Introduzione
89
Esempio di variabili condizionatamente non correlate
Sezioni della distribuzione marginale di X 1 ,X 2
(con correlazione non nulla)
f(x 1 ,x 2 )=k
x3
Piano x 3 =0
Sezione della distribuzione
congiunta f(X 1 ,X 2 , X 3 )=h
(ellissoide 3D)
x1
x2
Sezioni della distribuzione condizionata di X 1 ,X 2
(con correlazione nulla)
f(x 1 ,x 2 | X 3 =x 3 )=k
Matrice di correlazione
riportare da Maple
Appunti del Prof. M. Chiodi per il corso di Statistica 3
a.a. 2000-2001
Prof. M. Chiodi
Introduzione
90
C Regressioni lineari approssimate per vettori aleatori
qualsiasi
In generale vettori aleatori con distribuzioni qualsiasi avranno funzioni
di regressione di forma qualsiasi (anche non lineare) e con varianze
diverse (eteroscedasticità).
In generale se Z è un vettore aleatorio con distribuzione qualsiasi, e ZA
e ZB sono due vettori ottenuti dalle componenti di Z, allora la funzione di
regressione di ZA su ZB è la speranza matematica di ZA
condizionatamente a particolari valori di ZB:
♦ E(ZA|ZB=zB) è una funzione analitica di zB di forma qualsiasi (in
generale non lineare).
♦ Inoltre la distribuzione (condizionata) di ZA è in generale non
normale;
♦ può dipendere dai particolari valori fissati di zB. In particolare
quindi può essere con varianze non costanti.
o Tuttavia se si considerano le regressioni parziali lineari
approssimate (ossia le relazioni lineari che approssimano, secondo i
minimi quadrati, le curve di regressione) si ritrovano le stesse
espressioni (come funzioni della matrice di varianza e covarianza)
che abbiamo trovato per la normale multivariata.
•
♦
Nel caso normale però queste relazioni sono esatte
Le relazioni di regressione lineare approssimate in generale si trovano
minimizzando rispetto alla matrice W la quantità:
tr[V(ZA- WZB)]
(equivalente a E(ZA- WZB)2 se si lavora con vettori aleatori a media
nulla).
Si ottiene comunque:
-1
W=ΣABΣBB
♦
Le regressioni però saranno esattamente lineari e omoscedastiche
solo nel caso normale multivariato.
(figure varie)
(vedere anche > >regressione parziale e condizionata )
Appunti del Prof. M. Chiodi per il corso di Statistica 3
a.a. 2000-2001
Prof. M. Chiodi
Introduzione
91
Analisi delle correlazioni lineari presenti in data set osservati
E' il caso di fare comunque delle considerazioni sui momenti del
secondo ordine quando si opera con variabili che non sono normali
multiple, o quando si ha a disposizione un insieme di dati per il quale non
si può ipotizzare che si tratti di un campione proveniente da una
distribuzione normale multivariata.
Per esempio quando si utilizzano delle relazioni lineari approssimate
secondo quanto visto in precedenza, si sta implicitamente ipotizzando,
oltre la linearità, l'uguaglianza fra le varianze delle distribuzioni parziali e
l'uguaglianza fra le correlazioni e le covarianze delle distribuzioni
parziali, indipendentemente dai particolari valori fissati per le variabili
indipendenti (o condizionanti). Si stanno cioè ipotizzando relazioni
condizionate o parziali che non cambiano forma al variare delle
condizioni.
Supponiamo per esempio di avere in un insieme di dati (n unità×p
variabili) relativo a p variabili Xi, in cui le n unità sono suddivise in kZ
gruppi secondo le modalità zh (h=1,2,..., kZ) di una ulteriore variabile Z,
supponendo quindi di avere delle osservazioni ripetute in corrispondenza
di ciascuna delle kZ modalità di Z. Possiamo allora calcolare le varianze
delle p variabili Xi e le loro correlazioni in coppia per ciascuno dei kZ
gruppi. Se per esempio osserviamo che le varianze di una o più variabili
cambiano in modo sostanziale da un gruppo ad un altro oppure se le
correlazioni fra alcune variabili cambiano in modo marcato in
corrispondenza delle varie modalità di Z, questo può essere un indizio del
fatto che l'approssimazione dei minimi quadrati delle vere regressioni non
sarà appropriata e che quindi i dati presentano caratteristiche diverse da
quelle di una normale multivariata, per cui questo può essere indizio di
assenza di multinormalità. In questi casi occorrerà ricorre ad altre
approssimazioni, non lineari, o eteroscedastiche, che tengano
eventualmente in conto momenti diversi dai primi due.
Appunti del Prof. M. Chiodi per il corso di Statistica 3
a.a. 2000-2001
Prof. M. Chiodi
Introduzione
92
C Sintesi
delle informazioni sui vari tipi di correlazione e
dipendenza
lineare
ricavabile
dai
primi
2
momenti
multivariati
I momenti multivariati primo e secondo, ossia il vettore delle speranze
matematiche e la matrice di varianze e covarianze contengono tutte (e
sole) le informazioni che servono per la quantificazione e l'analisi di tutti
i tipi di dipendenza e correlazioni lineari relative a coppie o gruppi di
variabili, sia nelle distribuzioni marginali che in quelle condizionate.
Riassumo nella tavola che segue le relazioni lineari e loro connessione
con i momenti primi e secondi per variabili multiple X a p componenti
X1, X2,…,Xp, con momenti primi nulli (quindi si tratta di variabili
centrate), secondo quanto fin qui studiato.
Si è indicata con Σ la matrice di varianze e covarianze e matrice di
correlazione R, i cui elementi sono al solito dati da:
σ ij
rij = σ σ ;
i j
con σi2 si è indicata la varianza della i-esima componente, ossia
l'elemento i-esimo della diagonale di Σ, di modo che σi è lo scostamento
quadratico medio della i-esima variabile.
In effetti se con D indichiamo una matrice diagonale i cui elementi sono
le varianze delle singole componenti, per cui dij=0 se i≠j e dii=σi2, si può
esprime la matrice di correlazione in termini matriciali:
R= D-1/2 Σ D-1/2,
Secondo il simbolismo già adottato, con C di elemento generico cij, si è
indicata l'inversa diΣ, esprimibile al solito in termini dei cofattori σij degli
elementi di posto i,j della matrice Σ:
cij= σij/|Σ|
Appunti del Prof. M. Chiodi per il corso di Statistica 3
a.a. 2000-2001
Prof. M. Chiodi
Introduzione
93
relazioni lineari e loro connessione con i momenti primi e secondi per
variabili multiple X
2
varianza di una componente Xi
σi
varianze e covarianze di una combinazione lineare
AΣA'
Y= AX
varianza di tutte le componenti
tr(Σ)
varianza generalizzata (di Wilks)
|Σ|
correlazione lineare semplice fra due variabili Xi,
σ ij
r
ij=
Xj
σi σ j
coefficiente di regressione lineare semplice di una
bi,j= σij/σj2
variabile Xi rispetto ad un'altra, Xj
§ correlazione multipla: correlazione fra una
variabile ed una combinazione lineare (la
migliore, nel senso dei minimi quadrati!) delle
Ri.{B}=
altre p-1 variabili, che sono le componenti
ii
2
vettore aleatorio XB, con B={1,2,..., j-1, = 1-| Σ |/[ σ i σ ]
j+1,...,p}
2
§ dipendenza lineare di una variabile dalle altre = 1-1/( σ i cii) =
p-1 variabili (combinate linearmente nel miglior
V(Xi | XB)
1- V(X )
modo possibile).
i
§ frazione della varianza di Xi spiegata dalle altre
p-1 variabili.
V(Xi | XB)
frazione della varianza della distribuzione di Xi in
V(Xi)
dipendenza da XB
matrice di varianze e covarianze della regressione
lineare di un gruppo di variabili XA in dipendenza di
-1
Σ -Σ ΣBB Σ'AB=
una latro gruppo di variabili XB (per il simbolismo AA AB AA
= (Σ )-1
sulle matrici partizionate si veda la sezione sulla
normale multivariata)
combinazioni lineari a coefficienti normalizzati di
Si ricavano dagli
massima varianza
(e retta di minima distanza dall'insieme di dati autovettori di Σ
multivariato)
varianza massima di una combinazione lineare
l1
delle Xi (a coefficienti normalizzati)
varianza minima di una combinazione lineare delle
lp
Xi (a coefficienti normalizzati)
combinazioni lineari di gruppi di variabili con
correlazione massima. analisi delle correlazioni solo accennata
canoniche
Appunti del Prof. M. Chiodi per il corso di Statistica 3
a.a. 2000-2001
Prof. M. Chiodi
Introduzione
94
Per l'analisi di relazioni di tipo non lineare (o di regressioni lineari per
esempio eteroscedastiche), occorre far ricorso ad altri momenti
multivariati oltre il secondo. Si faranno degli esempi nell'ambito dell'
analisi dei residui nella regressione multipla lineare.
In effetti si vedrà più avanti come anche nel modello lineare in senso
generale, l'analisi della dipendenza lineare e delle proprietà degli
stimatori, sotto certe ipotesi semplificatrici sono legate alla struttura delle
varianze e delle covarianze fra variabili dipendenti e indipendenti.
Appunti del Prof. M. Chiodi per il corso di Statistica 3
a.a. 2000-2001
Prof. M. Chiodi
Introduzione
95
C Esempi di distribuzioni multivariate non normali
L'estensione al caso multivariato di distribuzioni non-normali a
componenti non indipendenti è sempre ardua, perché le possibilità di
estensione di sistemi di curve univariate al caso multivariato possono
essere di diversa natura, mentre dalla distribuzione normale univariata si
può arrivare alla sua estensione multivariata con diverse impostazioni
giungendo sempre alla stessa forma multivariata; ad esempio:
§ dalla densità o dalla funzione caratteristica, sostituendo ad un quadrato
una forma quadratica;
§ se x'a é normale per qualsiasi a, allora x é normale multivariato
§ come distribuzione di x=µ+Ay (con y a componenti indipendenti)
§ da distribuzioni condizionate normali e omoscedastiche con funzioni di
regressione lineari.
una particolare
di Dirichlet)
distribuzione
beta
multivariata
(distribuzione
La distribuzione di Dirichlet a k componenti, che costituisce una
particolare generalizzazione multivariata della distribuzione Beta, è
definita come segue:
• si considerino k+1 v.a. indipendenti Xi (i=0,1,2,...,k), ciascuna con
distribuzione Gamma con lo stesso parametro di scala λ e di
parametri di forma ci;
•
k
indicata con S la loro somma, S= ∑ Xi, la distribuzione di Dirichlet
i=0
è la distribuzione congiunta delle k nuove variabili definite dalle
relazioni:
Yi =Xi/S
i=1,2,...,k.
La densità di tale distribuzione è data da:
k c -1
k c -1 k
k
f(y1,y2,...,yk)= ∏ yi i [1- ∑ yi] 0 Γ( ∑ ci)/ ∏ Γ(ci),
i=1
i=1
i=0 i=0
ed è definita sul simplesso:
yi≥0, i=1,2,...,k;
k
∑ yi≤1.
i=1
Appunti del Prof. M. Chiodi per il corso di Statistica 3
a.a. 2000-2001
Prof. M. Chiodi
Introduzione
96
Questa distribuzione è importante ad esempio per la descrizione della
distribuzione simultanea di rapporti di composizione; si vedano nelle
figure che seguono, per il caso bivariato, alcuni esempi di densità per
diverse combinazioni dei parametri c0,c1 e c2.(indicati nel seguito con
a,b,c nel caso bivariato)
Se ci≥1 (i=0,1,....,k), la densità ha sempre un massimo unico in
corrispondenza di:
k
y =(ci-1)/ ∑ (ci-1),
i=0
*
i
(i=1,2,...,k).
♦
Tutte le distribuzioni marginali univariate sono delle distribuzioni
Beta.
♦
Le distribuzioni condizionate sono ancora delle Beta
♦
Nella distribuzione bivariata (indicando le due componenti con X,Y, e i
parametri con a,b,c)) la distribuzione di Y condizionata a X=x è
proporzionale ad una variabile con distribuzione Beta univariata. In
particolare si dimostra che:
♦
Y/(1-x)|{X=x} si distribuisce come una Beta[b,c]
♦
per cui E(Y) varia linearmente con x, ma anche V(Y) varia con x
Esempi di densità di distribuzioni di Dirichlet:
c0=1,2 c1=0,9 c2=0,9
Appunti del Prof. M. Chiodi per il corso di Statistica 3
a.a. 2000-2001
Prof. M. Chiodi
Introduzione
97
c0=1,2 c1=1,3 c2=1,8
c0=3 c1=4 c2=5.
Rappresentazione in 3D di una regressione lineare non normale eteroscedastica;
Distribuzione congiunta bivariata di dirichlet; E(y)=0,6(1-x)
Y/(1-x) si distribuisce come
una Beta(2,4; 1,6)
f(y|x i)
f(y|x i)
y
Appunti del Prof. M. Chiodi per il corso di Statistica 3
xi
a.a. 2000-2001
Prof. M. Chiodi
Introduzione
98
Altri esempi di distribuzioni multivariate non normali
Distribuzione Logistica Doppia
F(x,y)=1/(1+Exp[-x]+Exp[-y])
0.06
4
0.04
2
0.02
0
-4
0
-2
-2
0
2
4
-4
4
2
0
-2
-4
-4
-2
0
2
Appunti del Prof. M. Chiodi per il corso di Statistica 3
4
a.a. 2000-2001
Prof. M. Chiodi
Introduzione
99
Plot3D[fexp,{x,0.,1.5},{y,0.,1.5},PlotRange->All,
>35,Shading->False]
c1=ContourPlot[fexp,{x,0.,1.5},{y,0.,1.5},PlotRange>All,
Contours->25,>35,ContourShading->False]
Distribuzione Esponenziale Bivariata (a=0,7)
F(x,y)=(1-Exp[-x])(1-Exp[-y])( (1+a Exp[-x-y])
1.5
1.5
1
0.5
1
0
0.5
0.5
1
1.5
0
1.4
1.2
1
0.8
0.6
0.4
0.2
0
0
0.2
0.4
0.6
0.8
1
1.2
1.4
Plot3D[betaese1[x,y],{x,0.,1},{y,0.,1.},PlotRange->All,
>35,Shading->False]
c1=ContourPlot[betaese1[x,y],{x,0.,1},{y,0.,1.},
>All,
Appunti del Prof. M. Chiodi per il corso di Statistica 3
a.a. 2000-2001
Prof. M. Chiodi
Introduzione
100
Contours->25,PlotPoints->35,ContourShading->True]
Distribuzione Bivariata Dirichlet (Beta-bivariata)
a=1,5; b=1,6; c=2,1
0.1
0.075
1
0.05
0.8
0.025
0
0
0.6
0.2
0.4
0.4
0.2
0.6
0.8
1
0
1
0.8
0.6
0.4
0.2
0
0
0.2
0.4
0.6
0.8
1
Plot3D[betaese2[x,y],{x,0.,1},{y,0.,1.},PlotRange->All,
>35,Shading->False]
c1=ContourPlot[betaese2[x,y],{x,0.,1},{y,0.,1.},
>All,
Appunti del Prof. M. Chiodi per il corso di Statistica 3
a.a. 2000-2001
Prof. M. Chiodi
Introduzione
101
Contours->25,PlotPoints->35,ContourShading->True]
0.00015
0.0001
0.00005
1
0.8
0
0
0.6
0.4
0.2
0.4
0.2
0.6
0.8
10
… SurfaceGraphics …
1
0.8
0.6
0.4
0.2
0
0
0.2
0.4
0.6
0.8
1
… ContourGraphics …
Distribuzione Bivariata Dirichlet (Beta-bivariata)
a=4; b=4; c=3
Appunti del Prof. M. Chiodi per il corso di Statistica 3
a.a. 2000-2001
Prof. M. Chiodi
Introduzione
102
0.00015
1
0.0001
0.8
0.00005
0
0
0.6
0.2
0.4
0.4
0.2
0.6
0.8
1
0
1
0.8
0.6
0.4
0.2
0
0
0.2
0.4
0.6
0.8
1
Distribuzione Bivariata Dirichlet (Beta-bivariata)
a=1.1; b=1.1; c=0.9
Plot3D[betaese3[x,y],{x,0.,1},{y,0.,1.},PlotRange->All,
>35,Shading->False]
Appunti del Prof. M. Chiodi per il corso di Statistica 3
a.a. 2000-2001
Prof. M. Chiodi
Introduzione
103
c1=ContourPlot[betaese3[x,y],{x,0.,1},{y,0.,1.},
>All,
Contours->25,PlotPoints->35,ContourShading->True]
1
1
0.5
0.8
0
0
0.6
0.4
0.2
0.4
0.2
0.6
0.8
1
0
… SurfaceGraphics …
1
0.8
0.6
0.4
0.2
0
0
0.2
0.4
0.6
0.8
1
… ContourGraphics …
Appunti del Prof. M. Chiodi per il corso di Statistica 3
a.a. 2000-2001
Prof. M. Chiodi
Introduzione
104
costruzione di variabili correlate
Uno schema generale di costruzione di variabili aleatorie correlate da
p+1 variabili aleatorie indipendenti Xj (j=0,1,...,p), è quello di
considerare p variabili aleatorie sommando a tutte la componente X0. In
dettaglio otteniamo ora un nuovo vettore aleatorio Y a p componenti,
ponendo:
 Y...1= X0+X1

 Yj= X0+Xj
 ...
 Yp= X0 +Xp
In pratica la componente X0 è quella che determina la covarianza fra le
componenti di Y.
E' facile calcolare i momenti di Y da quelli di X, mentre può essere in
generale arduo calcolare la distribuzione di Y (perchè spesso è
complicato integrare rispetto a X0 nella densità congiunta di X0, X1,…,
Xp,).
Come esercizio si calcoli la correlazione e la covarianza fra due
generiche componenti di Y o, direttamente, la matrice di varianze e
covarianze e la matrice di correlazione di Y.
V(Yj)= V(X0)+V(Xj); Cov(Yj,Yk)=V(X0)
Appunti del Prof. M. Chiodi per il corso di Statistica 3
a.a. 2000-2001