Prof. M. Chiodi Introduzione 1 Appunti del Corso di Statistica 3 (A.A. 2000-2001; Corso annuale, 70 ore circa) Corso di Laurea in Scienze Statistiche ed Economiche. 3° anno, nuovo ordinamento Prof. Marcello Chiodi Istituto di Statistica Facoltà di Economia di Palermo Viale delle Scienze; 90128 - Palermo-Italy (tel. xx39-0916626238; 0916626322; fax. xx39-091485726) e-mail [email protected]) home page: http://statistica.economia.unipa.it/chiodi . Collabora al corso: Dott. ssa Ing. Antonella Plaia Istituto di Statistica Facoltà di Economia, Palermo [email protected] SOMMARIO PARTE 1 Programma del corso di: Statistica 3...............................................................3 ARGOMENTI DEL CORSO...........................................................................................3 Articolazione del corso: ...................................................................................................6 Problemi introduttivi ................................................................................. 9 C Elementi distintivi dei vari problemi .................................................................. 17 Elementi comuni ai vari problemi:.................................................................................17 Richiami di alcune proprietà dei vettori aleatori e delle matrici. ......... 18 Momenti primo e secondo multivariati di vettori aleatori ......................................19 C Momenti di una trasformata lineare di un vettore aleatorio:............................... 21 Funzione caratteristica di una trasformata lineare di un vettore aleatorio......................22 Momenti di funzioni qualsiasi di vettori aleatori. ..........................................................23 C Forme quadratiche .............................................................................................. 28 Significato geometrico delle forme quadratiche ............................................................29 Momenti di forme quadratiche.......................................................................................29 C Rango di una matrice .......................................................................................... 30 Rango della matrice di varianza e covarianza di un vettore aleatorio:...........................30 C Traccia di una matrice: ....................................................................................... 32 Varianza generalizzata ...................................................................................................32 Appunti del Prof. M. Chiodi per il corso di Statistica 3 a.a. 2000-2001 Prof. M. Chiodi Introduzione 2 C Matrice inversa: .................................................................................................. 33 Significato degli elementi dell'inversa di una matrice di varianze e covarianze ............33 Inversa di una matrice simmetrica partizionata..............................................................35 Matrice inversa generalizzata.........................................................................................37 C Risultati utili sulle derivate di matrici e vettori................................................... 38 Autovalori e autovettori..............................................................................................40 C C C Definizione di autovettore e autovalore:............................................................. 41 Proprietà generali degli autovalori...................................................................... 42 Autovalori e autovettori di matrici simmetriche ................................................. 43 Diagonalizzazione di una matrice simmetrica................................................................44 Autovalori di una forma quadratica definita positiva.....................................................46 C Analisi delle componenti principali (cenni)........................................................ 47 Significato statistico e probabilistico delle componenti principali.................................49 C Matrici idempotenti ............................................................................................ 51 Esempio: ........................................................................................................................51 Esempi di matrici idempotenti di rango 2: .....................................................................52 la distribuzione normale multivariata. ................................................... 53 C La distribuzione congiunta di p combinazioni lineari di p variabili normali indipendenti .......................................................................................................................... 54 C Densità della distribuzione normale multivariata: .............................................. 56 C Distribuzione di combinazioni lineari di variabili normali qualsiasi. ................. 58 Caratterizzazione della distribuzione normale multivariata. ..........................................58 Assi principali degli ellissoidi di equiprobabilità ............................................................ 60 Esempi e grafici sulla normale trivariata........................................................................62 C Forme quadratiche in variabili normali standardizzate e indipendenti. .............. 65 Esempio 67 Forme quadratiche idempotenti: somma dei quadrati degli scarti dalla media. .............68 Distribuzione dell'esponente della distribuzione normale multivariata..........................70 Indipendenza di forme quadratiche e combinazioni lineari di variabili normali. ............ 72 C Teorema di Cochran: .......................................................................................... 73 C Distribuzioni condizionate.................................................................................. 76 Distribuzione condizionata nel caso generale di un gruppo di componenti rispetto ad un altro gruppo di componenti. .................................................................................................. 77 C Significato degli elementi dell'inversa della matrice di varianza e covarianza... 82 Gli elementi non diagonali dell'inversa: la correlazione parziale...................................82 Esempi sulla differenza fra l'indipendenza condizionata e l'indipendenza marginale....85 Gli elementi non diagonali dell'inversa: la correlazione multipla ..................................86 Impiego delle informazioni dell'inversa C nell'analisi di dati multivariati.....................88 Esempio di variabili condizionatamente non correlate ..................................................89 C Regressioni lineari approssimate per vettori aleatori qualsiasi ........................... 90 Analisi delle correlazioni lineari presenti in data set osservati ......................................91 C Sintesi delle informazioni sui vari tipi di correlazione e dipendenza lineare ricavabile dai primi 2 momenti multivariati.......................................................................... 92 C Esempi di distribuzioni multivariate non normali............................................... 95 una particolare distribuzione beta multivariata (distribuzione di Dirichlet)...................95 Altri esempi di distribuzioni multivariate non normali ..................................................98 costruzione di variabili correlate..................................................................................104 Appunti del Prof. M. Chiodi per il corso di Statistica 3 a.a. 2000-2001 Prof. M. Chiodi Introduzione 3 Programma del corso di: Statistica 3 Obiettivi formativi del corso: Dare gli strumenti metodologici per l'inferenza nella regressione multipla, nell'analisi della varianza a una e più vie con un approccio unificato nell'ambito dei modelli lineari; fornire degli strumenti di base di analisi multivariata. Fornire gli strumenti di base per l'analisi della dipendenza di un fenomeno in funzione di fattori quantitativi e/o qualitativi, con riferimento particolare all'analisi dei modelli lineari; dare gli strumenti di base per la costruzione e la convalida di modelli per l'analisi di dati sia osservazionali che sperimentali; fornire tecniche di base per l'analisi di dati multivariati; Contenuti professionalizzanti: Conoscenza pratica di software statistico interattivo per l'analisi multivariata e per l'analisi della dipendenza; capacità di analisi di dati complessi e di rappresentazioni grafiche utili per insiemi di dati multivariati; costruzione e selezione di modelli di interpretazione dei dati; costruzione e analisi di disegni sperimentali. ARGOMENTI DEL CORSO Problemi introduttivi: Esempi vari - Elementi distintivi dei vari problemi - Elementi comuni ai vari problemi. Introduzione ai Modelli Lineari Caratteristiche essenziali degli elementi del modello - Versatilità del modello Generalizzazioni - Problemi di inferenza - Ipotesi sulle Configurazioni della matrice delle variabili esplicative. Osservazioni ripetute - Disegni fattoriali - Disegni 2k Regressione multipla - Regressione polinomiale - Superfici di risposta - Regressori del tipo 0/1 (dummy variables) - Analisi della varianza ad una e più vie - Analisi della covarianza - Interazioni come termini moltiplicativi. Richiami di alcune proprietà dei vettori aleatori e delle matrici Momenti di vettori aleatori e di una trasformata lineare di un vettore aleatorio Momenti di funzioni qualsiasi di vettori aleatori - Momenti di forme quadratiche - Rango della matrice di varianza e covarianza - Traccia di una matrice - Varianza generalizzata Matrice inversa - Inversa di una matrice simmetrica partizionata; inversa generalizzata derivate di matrici e vettori di funzioni Matrici idempotenti Appunti del Prof. M. Chiodi per il corso di Statistica 3 a.a. 2000-2001 Prof. M. Chiodi Introduzione 4 Analisi delle componenti principali Autovalori e autovettori. - Diagonalizzazione di una matrice simmetrica - Autovalori di una forma quadratica definita positiva - Componenti principali di vettori di variabili aleatorie - Combinazioni lineari di massima varianza - Significato statistico e probabilistico delle componenti principali - Analisi delle componenti principali per insiemi di dati multivariati - Rette di minima distanza da punti osservati. Impiego nell’analisi esplorativa di dati La distribuzione normale multivariata La distribuzione congiunta di p combinazioni lineari di p variabili normali indipendenti Assi principali degli ellissoidi di equiprobabilità - Forme quadratiche in variabili normali standardizzate e indipendenti - Teorema di Cochran - Distribuzioni condizionate nella normale multivariata: - Regressioni lineari approssimate per vettori aleatori qualsiasi Significato degli elementi dell'inversa della matrice di varianza e covarianza - Esempi di distribuzioni multivariate non normali - una particolare distribuzione beta multivariata (distribuzione di Dirichlet). Stima dei parametri del modello lineare (modelli a rango pieno) Assunzioni di base nel modello lineare - La verosimiglianza del modello lineare - rapporti di verosimiglianza - Statistiche sufficienti e matrice di informazione - minimi quadrati ordinari teorema di Gauss - Markov - Distribuzione campionaria di b - Distribuzione della devianza residua. Scomposizione della devianza nel modello lineare e verifica di ipotesi mediante test F. Distribuzioni di F sotto H0 e sotto H1 - Caso di gruppi di variabili x ortogonali - configurazioni della matrice X e di X'X. Verifica di ipotesi generali Stima dei parametri del modello lineare con vincoli lineari sui parametri - Minimi quadrati vincolati - Scomposizione della devianza per il problema soggetto a vincoli - Test e regioni di confidenza nei modelli lineari - regioni di confidenza per funzioni lineari dei parametri - sottoinsiemi di parametri - Intervalli di confidenza per E(Yi) - errori di previsione - intervalli di confidenza per E(y) Regressione multipla Scomposizione della devianza empirica col termine noto e k regressori a media nulla - Il coefficiente di determinazione lineare multipla R2 - Scomposizione della devianza - Prova di ipotesi particolari nella regressione multipla - Test per un singolo coefficiente - Test per più coefficienti fissati Appunti del Prof. M. Chiodi per il corso di Statistica 3 a.a. 2000-2001 Prof. M. Chiodi Introduzione 5 Multicollinearità e scelta di variabili Conseguenze sulla distribuzione campionaria di b - Misura della collinearità - Costruzione di uno stimatore distorto di La scelta delle variabili nella regressione lineare multipla. motivazioni - Strategie di scelta - fonti di distorsioni - Criteri di scelta - Algoritmi di scelta delle variabili - Distorsione degli stimatori con modelli ridotti - errore quadratico medio degli stimatori Analisi della varianza modelli a rango non pieno.Analisi della varianza ad una via Modelli ad effetti fissi. Ipotesi di interesse - Scomposizione della varianza - L'analisi della varianza come confronto fra stime di varianze. Il problema dei confronti multipli: Metodo di Tukey - Range studentizzato - Intervalli di confidenza per le differenze fra medie e generalizzazione ai contrasti lineari fra effetti - Metodo di Scheffè - Relazione fra gli intervalli di Scheffè e il test F - - Divergenza dalla linearità per fattori quantitativi - L'ipotesi di omogeneità delle varianze: il test di Bartlett Analisi della varianza a due e più vie il modello additivo - il modello con interazioni significato delle interazioni - Influenza della ripartizione delle n osservazioni nelle r×c celle sull'analisi - scomposizione della devianza empirica - Disegni non bilanciati - Disegni con una sola osservazione per casella - Modelli moltiplicativi per le interazioni - Analisi della varianza a più vie - Blocchi randomizzati e quadrati latini (cenni). Analisi della varianza con variabili concomitanti: L’analisi della covarianza, confronto fra k relazioni di regressione. Il Potere del test F: distribuzioni non centrali - Calcolo del potere del test Modelli ad effetti casuali caratteristiche del modello - significato dei parametri Componenti della varianza - AOV a una via: effetti casuali - stima dei parametri Distribuzione degli stimatori Allontanamento dalle assunzioni di base nel modello lineare e nell’analisi della varianza Analisi dei residui Aspetti peculiari dell'analisi dei residui - Definizione generale di residuo - Caratteristiche dei residui empirici nei modelli lineari - grafici dei residui empirici - identificazione di particolari allontanamenti Allontanamento dalle assunzioni di base nel modello lineare: Minimi quadrati generalizzati. matrice di varianze e covarianze qualsiasi - Minimi quadrati ponderati - Modelli con errori autocorrelati - Trasformazioni di variabili nell'analisi della varianza e nella regressione multipla - Stabilizzazione della varianza: conteggi binomiali e di Poisson Modelli Lineari Generalizzati (GLM) Regressione logistica Trasformazione logit - significato dei parametri. Modelli Lineari Generalizzati (GLM) famiglia esponenziale - funzioni di legame - funzione di devianza selezione del modello - modelli loglineari (cenni) Appunti del Prof. M. Chiodi per il corso di Statistica 3 a.a. 2000-2001 Prof. M. Chiodi Introduzione 6 Tecniche di analisi multivariata Tipe di matrici di dati nell'analisi di dati multivariata. La scomposizione della devianza per una variabile statistica multipla; L’analisi dei gruppi (cluster analysis): finalità, metriche euclidee e non, criteri di raggruppamento, algoritmi iterativi; metodi gerarchici e non gerarchici L’analisi delle funzioni discriminanti: funzioni discriminanti lineare; probabilità di classificazione errata; Tecniche di scaling multidimensionale Articolazione del corso: corso di lezioni teoriche e corso di esercitazioni ed esame di casi pratici mediante software statistico. Requisiti di base (consigliati) per la frequenza del corso: Statistica 1; Statistica 2; Analisi 1; Analisi 2; Geometria ed algebra; Calcolo delle Probabilità; è consigliabile anche avere un minimo di familiarità con un personal computer. Modalità di svolgimento dell'esame: L'esame è costituito da una prova pratica (da svolgersi di norma con l’ausilio di un computer) e da una prova orale. Materiale didattico e programma dettagliato Parte del materiale didattico impiegato (lucidi, figure, esempi, etc.) è distribuito agli studenti durante lo svolgimento del corso, ma non può costituire la fonte unica della preparazione dello studente. Gli studenti interessati ad avere una copia di tale materiale e del programma dettagliato possono rivolgersi al Prof. Chiodi, o cercare sulle pagine web: http://statistica.economia.unipa.it/chiodiGli studenti sono comunque invitati ad approfondire gli argomenti del corso sui testi che ritengono più adeguati, eventualmente consultando il docente. Il Prof. Chiodi é contattabile negli orari di ricevimento ed anche: tel. xx39-0916626238; 0916626322; e-mail [email protected]; home page:http://statistica.economia.unipa.it/chiodi Appunti del Prof. M. Chiodi per il corso di Statistica 3 a.a. 2000-2001 Prof. M. Chiodi Introduzione 7 AVVERTENZA • Presuppongo che lo studente che legge questi appunti o che comunque segue il corso, abbia le necessarie conoscenze di inferenza statistica, che qui vengono date per scontate (proprietà degli stimatori, stimatori di massima verosimiglianza, costruzione di test, ipotesi semplici, composte, parametri di disturbo, intervalli e regioni di confidenza, etc.). • Alcuni strumenti tecnici di base, che considero essenziali per la comprensione di alcuni argomenti fondamentali, vengono esposti anticipatamente, in modo da non perdersi nei meandri di distribuzioni campionarie, di forme quadratiche, di inverse di matrici partizionate, quando è opportuno concentrarsi sul significato statistico di determinate metodologie generali, quali i modelli lineari; ad esempio i teoremi sulla distribuzione delle forme quadratiche in variabili normali vengono esposti molto prima del momento in cui vengono poi applicate, ossia per la distribuzione di particolari stimatori e per la costruzione di test e regioni di confidenza nell’analisi dei modelli lineari. • In questo corso non viene dato particolare risalto agli aspetti propriamente computazionali, nel senso che quando per esempio si dice di trovare gli stimatori di massima verosimiglianza di certi parametri, sotto particolari ipotesi e assunzioni, si presuppone che questi stimatori siano calcolabili in forma esplicita o che siano comunque valutabili in modo numerico utilizzando convenienti algoritmi, che in questo corso non vengono comunque affrontati. • Il corso di esercitazioni va considerato a tutti gli effetti parte integrante comunque del presente corso. Il corso di esercitazioni, sebbene non direttamente finalizzato allo studio di casi completi di studio, ma prevalentemente a delle esemplificazioni su dati reali, viene svolto in buona parte su PC, ed ha fra le finalità quella di allenare gli studenti all' uso ragionato del software statistico interattivo, e ad affrontare le tecniche fondamentali di analisi esplorative di data set multivariati • Questi appunti sono nati in effetti dai lucidi utilizzati per le mie lezioni del corso di Statistica 3 del 1998-1999. Da allora, e su sollecitazione anche degli studenti, sono diventati un po’ più corposi, sono stati eliminati alcuni errori (moltissimi ancora sono certamente presenti, e possono essermi direttamente segnalati per e-mail [email protected]), tuttavia ancora non rispecchia bene il corso, per cui non è una dispensa vera e propria per diversi motivi: Appunti del Prof. M. Chiodi per il corso di Statistica 3 a.a. 2000-2001 Prof. M. Chiodi Introduzione 8 § Gli appunti non coprono tutto il corso (molti lucidi delle lezioni sono scritti a mano e non si trovano dunque in questo file) § Gli argomenti non sono bilanciati, nel senso che alcune parti sono più sviluppate di altre semplicemente perché ho avuto il tempo di scrivere di più. Conto negli anni di equilibrare le varie parti. § Molte delle figure impiegate nel corso non sono organicamente inserite in questi appunti. § Lo studente, oltre che procurarsi le copie dei miei lucidi manuali non presenti su questo file, dovrà in ogni caso approfondire la sua preparazione sui testi che riterrà più opportuni ma in nessun caso questi appunti esauriscono da soli la preparazione richiesta dal corso. Ove possibile ho cercato di mettere dentro questo tipo di bordatura ondulata gli argomenti che in prima lettura si possono saltare, o perché molto formali, o perché solo esempi Appunti del Prof. M. Chiodi per il corso di Statistica 3 a.a. 2000-2001 Prof. M. Chiodi Introduzione 9 PROBLEMI INTRODUTTIVI • I problemi e casi di studio che seguono, che derivano da esperienze reali o da esempi riportati nella letteratura, sono funzionali all'introduzione al corso, e in parte costituiscono una selezione dei problemi reali che verosimilmente sono affrontabili con le metodologie e le tecniche studiate in questo corso. • Alcuni, in una forma anche diversa, di solito semplificata, sono poi ripresi durante le mie lezioni, o comunque utilizzati come spunto per l'introduzione di problematiche specifiche, o sfruttati nel corso di esercitazioni. Complessivamente coprono buona parte degli argomenti del corso di Statistica 3. • Altri problemi, evidenziati nel testo, si riferiscono invece a situazioni e a metodologie diverse (tipicamente per alcune tecniche speciali di analisi multivariata) che verranno solo accennate in questo corso ed affrontate con maggiore dettaglio in altri corsi. Appunti del Prof. M. Chiodi per il corso di Statistica 3 a.a. 2000-2001 Prof. M. Chiodi Introduzione 10 Esempio 1 In molti esperimenti agrari si vogliono mettere a confronto delle varietà di una certa coltura o pianta; oppure si vogliono confrontare dei concimi differenti o comunque confrontare tecniche diverse di produzione. • Si vuole vedere (mediante un esperimento che conduca all'ottenimento di un campione di osservazioni) se la diversa varietà, o concime o altro fattore distintivo influenza la quantità media di raccolto per unità di area (a parità di altre condizioni) • L'area ove si conduce l'esperimento viene suddivisa in lotti, e le diverse varietà, e/o i concimi, vengono assegnati ai vari lotti. E' comunque noto che se nei vari lotti vengono assegnate le stesse varietà nelle stesse condizioni, il raccolto sarà comunque diverso, anche in modo rilevante, da lotto a lotto. • I lotti vicini avranno la tendenza ad avere livelli dei raccolti simili, e potrebbero esserci altri effetti collegati con la posizione fisica dei lotti. • Se l'esperimento fosse condotto in un altro anno, presumibilmente il raccolto medio sarebbe sostanzialmente diverso da quello di quest'anno, anche usando la stessa varietà o concime. Problemi statistici: • Separare l'effetto imputabile alle differenze fra i fattori controllabili, ossia le varietà (o i concimi) dagli effetti dovuti ai fattori non controllabili, ossia i diversi lotti ed altre fonti di variabilità • Stabilire qual è la varietà migliore, piuttosto che stimare la produttività media. • Come pianificare l'esperimento se si vogliono effettuare simultaneamente i confronti fra le varietà e quelli fra i concimi? Oppure è meglio fare un esperimento per le varietà ed un altro per i concimi? • Se esiste un concime migliore, è sempre lo stesso per qualsiasi varietà? Appunti del Prof. M. Chiodi per il corso di Statistica 3 a.a. 2000-2001 Prof. M. Chiodi Introduzione 11 Esempio 2 Si vuole verificare l'efficacia di due o più farmaci per la cura di una certa patologia. • Si tenga presente che presumibilmente individui distinti possono avere reazioni differenti a parità di tipo e di dose farmaco. • La reazione ad un farmaco potrebbe dipendere in parte da caratteristiche note del paziente, quali, sesso, età, essere o meno ipertesi, presenza di altre patologie, etc. Problemi di organizzazione dell'esperimento: Lo stesso soggetto può ricevere somministrazioni differenti? (per molte patologie ciò non sarà senz'altro possibile, lo sarà ad esempio per l'emicrania, ma non per le cardiopatie) • • • • E' opportuno prevedere un gruppo di controllo cui viene somministrato un placebo? La consapevolezza dei soggetti di far parte di un gruppo sperimentale in certi casi potrebbe alterare la risposta. Come prevedere l'effetto nel caso della mancata somministrazione di un farmaco? Mediante placebo o mediante dati storici o di altri esperimenti su altri soggetti? Cambia qualcosa se lo scopo è il confronto fra i due farmaci oppure una valutazione della loro efficacia individuale? Esempio 3 In un esperimento farmacologico su un anti depressivo somministrato a delle cavie, si vuole verificare l'efficacia del farmaco in concomitanza con altri fattori, alcuni dei quali dipendenti dal fatto che la madre della singola cavia avesse assunto o meno un certo altro farmaco durante la gravidanza. Molti fattori sono costituiti da mutabili dicotomiche (ossia somministrazione o no del farmaco) ♦ Viene organizzato un esperimento con diverse combinazioni dei livelli dei fattori. Per ogni soggetto viene predeterminata una attitudine generale all'esperimento in assenza di farmaco. Esempio 4 In un esperimento farmacologico di dosaggio biologico, si vuole costruire la curva della risposta in funzione delle dosi di un certo farmaco A. Appunti del Prof. M. Chiodi per il corso di Statistica 3 a.a. 2000-2001 Prof. M. Chiodi Introduzione 12 ♦ E' noto che la risposta media individuale per dosi intermedie è approssimativamente lineare, almeno in un range limitato di valori delle dosi somministrate. Per intervalli più ampi si sa senz'altro che la risposta non è di tipo lineare. ♦ Dosi troppo piccole (al di sotto di un certo valore di soglia) non portano risposte misurabili. ♦ I sovradosaggi non portano benefici ulteriori, o addirittura possono essere dannosi. ♦ Occorre stimare il livello di soglia minima ♦ Si vuole stimare la forma dell'intera curva di risposta ♦ Si vogliono ottenere dei dosaggi particolari (corrispondenti al 50%, ossia al fatto che siano efficaci per il 50% dei soggetti) Esempio 5 In un esperimento industriale si vogliono mettere a confronto più procedimenti per l'estrazione di un certo elemento da minerali grezzi. ♦ Interessa selezionare il procedimento complessivamente migliore, ossia che estrae la maggior parte di elemento a parità di costo o di costo inferiore a parità di materiale. ♦ I minerali grezzi hanno caratteristiche differenti come proporzione di elemento presente. Alcuni procedimenti potrebbero essere migliori con minerali con un maggior grado di purezza. Esempio 6 Si deve eseguire una lavorazione per deformazione plastica su una lastra metallica. ♦ E' noto che il processo risulta notevolmente influenzato sia da parametri geometrici sia tecnologici. ♦ In fase di progettazione vengono fissati la forma e le dimensioni finali del pezzo, il suo spessore, e il tipo di materiale da utilizzare. ♦ Il problema è quello di determinare il valore degli altri parametri che caratterizzano il processo, quali il raggio del punzone, le condizioni di attrito iniziale, la pressione da esercitare, con l'obiettivo di ottimizzare la lavorazione. Esempio 7 In uno studio sulla qualità didattica delle scuole elementari si vuole vedere se l'apprendimento dei bambini è in qualche modo legato al livello di scolarizzazione dei genitori. Appunti del Prof. M. Chiodi per il corso di Statistica 3 a.a. 2000-2001 Prof. M. Chiodi Introduzione 13 • Si deve tenere conto dell'influenza della diversa scuola. • Si deve tenere conto dell'influenza del diverso insegnante. • Si possono tenere presenti altri fattori che possono influenzare tale relazione. Esempio 8 Viene condotta per conto di un'emittente televisiva un'indagine (multiscopo) mediante questionario per studiare il gradimento delle trasmissioni, misurato sia attraverso una scala prestabilita sia mediante il numero degli spettatori (che ha seguito tutta la trasmissione o solo una parte) • I gradimenti saranno differenti per le diverse trasmissioni; • Potrebbe esservi un'influenza di fattori quali: sesso, età, posizione geografica, preferenze degli altri componenti del nucleo familiare, etc. • L'orario di trasmissione e il tipo di programmi offerti simultaneamente dalla concorrenza avranno sicuramente un'influenza sul numero medio di spettatori e/o sullo share. Esempio 9 Si vogliono confrontare diverse diete per l'alimentazione di suini. L'efficacia della dieta è misurata semplicemente dall'incremento di peso medio settimanale: interessa trovare la migliore dieta. • E' presumibile che l'incremento di peso di un generico animale sia dovuto a diversi fattori più o meno controllabili, ma comunque in parte misurabili. Il peso iniziale dell'animale è certamente importante. • • • La provenienza (maternità e paternità) dell'animale potrebbe anche influenzarne le risposte. Quali diete sono migliori? Quali sono senz'altro da scartare? Esempio 10 Si sta studiando una determinata patologia e si predispone un'indagine clinica in cui si esaminano due gruppi di soggetti, brevemente identificati come malati e sani. Per ciascun soggetto si rileva una molteplicità di fattori collegati con la sintomatologia, la fisiologia e l'anamnesi del singolo paziente. • Quanto differiscono, rispetto ai vari sintomi ed alle caratteristiche fisiologiche ed all'anamnesi, i pazienti malati da quelli sani? Appunti del Prof. M. Chiodi per il corso di Statistica 3 a.a. 2000-2001 Prof. M. Chiodi Introduzione 14 Esistono alcuni sintomi o caratteristiche individuali che possono fungere da variabili di screening ossia di discriminazione fra i due gruppi? • • E' possibile dire se un individuo è sano o malato sulla base dei soli sintomi e delle variabili ausiliarie, prima di effettuare un'analisi specifica? Qual è la probabilità di sbagliare e quali sono i sintomi o le caratteristiche che consentono di prendere le decisioni migliori? Oppure si vuole stimare qual è la probabilità di contrarre la malattia (in un determinato intervallo di tempo) in funzione dei vari fattori. Esempio 11 In un sito archeologico vengono trovati diversi scheletri. Su ciascuno scheletro vengono effettuate diverse misurazioni (larghezza scatola cranica, lunghezza femore, etc, …) Sulla base di queste misurazioni è possibile stabilire se si tratta di un insieme omogeneo? • • Oppure l'insieme è eterogeneo e quindi è un sito in cui sono presenti sia uomini, che donne e bambini? E' un sito in cui si trovano solo uomini (e quindi forse è un campo di battaglia)? Esempio 12 Si deve ottimizzare l'allocazione delle risorse nel magazzino centrale di una catena di ipermercati: l'ottimalità dell'allocazione coincide con la minimizzazione dei tempi di evasione degli ordini. ♦ In realtà si vuole contemporaneamente tenere conto di altri fattori importanti, quali la fragilità dei colli, o la loro diversa forma, che non consente un perfetto riempimento della pedana, o ancora il grado di affinità tra i prodotti (per esempio al magazziniere può risultare comodo trovare tutti i tipi di pasta in posizioni limitrofe), o una certa correlazione tra i prodotti, dovuta al fatto che questi spesso si trovano presenti contemporaneamente in un ordine, o infine, ma non per questo meno importante, il diverso indice di rotazione della merce. Come tenere conto simultaneamente di tutti questi fattori di così diversa natura? Esempio 13 In un'indagine antropometrica, si esamina un grosso campione di ragazzi a cavallo dell'età puberale, su ciascuno dei quali vengono rilevati diversi caratteri antropometrici. Appunti del Prof. M. Chiodi per il corso di Statistica 3 a.a. 2000-2001 Prof. M. Chiodi § § Introduzione 15 Come interagiscono le variabili? Un sottoinsieme di esse o loro combinazioni sarebbero sufficienti per dare buone informazioni sintetiche? Alcune combinazioni di variabili potrebbero descrivere sufficientemente bene la fase dello sviluppo puberale di ciascun individuo? Esempio 14 Si hanno dei campioni di onde sonore, rappresentate da una curva, prodotte da un campione di n soggetti nel pronunciare alcune parole prestabilite. In base a questa informazione campionaria, se si osservano nuove onde sonore, si è in grado di determinare a quali parole corrispondono? Esempio 15 Si hanno cinque oggetti: se ne vogliono determinare le masse disponendo di una bilancia. ♦ Occorre effettuare una pesata a vuoto per tarare lo strumento? ♦ E' meglio pesare tutti gli oggetti insieme oppure singolarmente? ♦ E' opportuno effettuare più pesate in tempi diversi? ♦ Quale precisione nel risultato si vuole ottenere? ♦ Il tipo di strumento è rilevante? (la bilancia di un laboratorio chimico ha caratteristiche diverse da quella del negozio alimentare) E' rilevante nell'organizzazione dell'esperimento che le masse siano simili oppure fra loro molto differenti, ad esempio se fra i cinque oggetti vi sono un camion ed una rondella? (e per rispondere a questa domanda abbiamo fatto una sommaria valutazione preliminare delle quantità che occorre stimare) Esempio 16 E' noto che la capacità della scatola cranica è essenzialmente funzione di tre lunghezze caratteristiche del cranio; (o meglio la relazione lega i logaritmi di tali variabili) § Sulla base di un campione di soggetti si vogliono determinare i parametri di tale relazione. § L'interesse principale potrebbe essere quello di stabilire una relazione empirica che possa consentire una buona stima della massa cranica, tenuto conto che è possibile ottenere le tre misure lineari attraverso esami quali la TAC o altro. § L'interesse potrebbe essere di confrontare tali relazioni per diversi gruppi di soggetti. Appunti del Prof. M. Chiodi per il corso di Statistica 3 a.a. 2000-2001 Prof. M. Chiodi Introduzione 16 Esempio 17 In un esperimento geosismico si rilevano i tempi di arrivo delle onde sonore di un segnale a una sequenza di sensori posti ad intervalli uguali sul terreno. § Occorre determinare la relazione che esiste fra i tempi di arrivo e la posizione dei sensori § Si sa che in condizioni ideali e sotto certe ipotesi relative alla natura del terreno sottostante (omogeneità, pendenza costante, etc.) questa relazione dovrebbe essere data da una spezzata costituita da diversi segmenti consecutivi a pendenza decrescente. Quanti sono i segmenti ed in quali punti si hanno i cambi di pendenza? Esempio 18 Si ha a disposizione un data base con i dati relativi alle carriere di un gruppo di studenti universitari. § Queste carriere differiscono in modo sensibile da Facoltà a Facoltà? (o all'interno dei vari corsi di laurea?) § Le carriere degli studenti (in termini di durata) differiscono in funzione di fattori quali l'età, il sesso, l'essere o meno fuori sede, il tipo e il voto di maturità, etc.? Appunti del Prof. M. Chiodi per il corso di Statistica 3 a.a. 2000-2001 Prof. M. Chiodi Introduzione 17 C Elementi distintivi dei vari problemi ♦ Le variabili esplicative possono essere quantitative, qualitative o miste. ♦ I dati possono provenire da esperimenti pianificati, in cui alcuni fattori sono tenuti sotto controllo, o da studi osservazionali in cui non è possibile tenere sotto controllo i fattori. E' di fondamentale importanza che lo statistico intervenga comunque nella fase di pianificazione dello studio, prima della rilevazione dei dati. ♦ Può interessare la verifica di una particolare ipotesi (o la costruzione di un intervallo o regione di confidenza) relativamente solo ad un gruppo di parametri, mentre altri parametri del modello giocheranno il ruolo di parametri di disturbo. Svolge spesso il ruolo di fattore di disturbo la particolare distribuzione di errori accidentali. ♦ La risposta che si vuole ottenere può essere soltanto di tipo comparativo (qual è il migliore fertilizzante fra A, B e C), oppure assoluto (qual è l'effetto medio del farmaco A per pazienti di un certo tipo?) ♦ Come attribuire i vari trattamenti alle singole unità? Elementi comuni ai vari problemi: In generale si vuole studiare (possibilmente sulla base di un campione di osservazioni) la dipendenza di un fenomeno (espresso spesso da una variabile quantitativa) da una molteplicità di fattori o variabili esplicative (quantitative e/o qualitative) Appunti del Prof. M. Chiodi per il corso di Statistica 3 a.a. 2000-2001 Prof. M. Chiodi Introduzione 18 RICHIAMI DI ALCUNE PROPRIETÀ DEI VETTORI ALEATORI E DELLE MATRICI. ELEMENTI NECESSARI PER LO STUDIO DI: • combinazioni di variabili casuali • distribuzione normale multivariata • forme quadratiche in variabili casuali normali • modelli lineari • E' solo un richiamo delle nozioni e degli strumenti tecnici necessari per una trattazione agevole degli argomenti che coinvolgono, in varia misura, vettori di variabili casuali e, successivamente, vettori di variabili casuali normali. • Ove possibile, viene enfatizzato il significato statistico e/o probabilistico delle proprietà delle matrici richiamate. • In particolare verranno evidenziate le proprietà matriciali con riferimento a matrici di varianze e covarianze, sia per vettori di variabili aleatorie che per vettori di variabili statistiche. • Sebbene le proprietà del calcolo matriciale siano comunque importanti in sé, ho evidenziato qui solo le proprietà che nel resto del corso vengono utilizzate. • Presuppongo che lo studente che legge questa sezione abbia le necessarie nozioni di geometria analitica e algebra lineare (ed eventualmente questo è il momento buono per aggiornare o integrare le proprie nozioni). • Lo studio dei vettori di variabili casuali è finalizzato in parte allo studio delle variabili aleatorie con distribuzione normale multivariata (che è l'unico modello parametrico multivariato che verrà studiato in modo completo in questo corso), che risulterà in questo modo molto scorrevole e di semplice comprensione (spero!); le proprietà sulle forme quadratiche in variabili normali renderanno poi scorrevolissimo lo studio delle proprietà distributive degli stimatori del modello lineare almeno nei casi standard. Appunti del Prof. M. Chiodi per il corso di Statistica 3 a.a. 2000-2001 Prof. M. Chiodi Introduzione 19 Momenti primo e secondo multivariati di vettori aleatori Sia X un qualsiasi vettore di variabili casuali a p componenti: X=(X1, X2,…,Xp)' con vettore di speranze matematiche dato da: E(X) = m ß momento primo (multivariato) dall’origine e matrice di varianze e covarianze: V(X) = E[(X -m)(X - m)'] ß momento secondo centrale (multivariato) Vale la nota relazione in termini di momenti multivariati dall’origine: V(X) = E[(X - m)(X - m)'] = E(X X') - m m' Pertanto m è un vettore di p elementi, con elemento generico: • E(Xi) = µi e V(X) è una matrice simmetrica p×p di elemento generico: • σij={V(X)}ij= E[(Xi - µi )( Xj - µj)]= E(Xi Xj )- µi µj V(X)= 2 … σ 1i … σ 1p … … … … … σ i1 … σ i² … σ ip … … … … … σ p1 … σ pi … σp σ1 2 • Per gli elementi sulla diagonale principale, ossia per le varianze delle singole componenti, invece della notazione σij si impiega la notazione σ²i per uniformità col simbolismo nel caso univariato. Appunti del Prof. M. Chiodi per il corso di Statistica 3 a.a. 2000-2001 Prof. M. Chiodi Introduzione 20 • Ovviamente nella definizione si presuppone l'esistenza dei momenti primi e secondi delle varie componenti. • Evidentemente si può definire la matrice di correlazione di elementi: ρij ={R(X)}ij= σij/σiσj che ovviamente è simmetrica ed ha elementi diagonali tutti uguali ad uno: R(X)= 1 … ρ 1i … ρ 1p … … … … … ρ i1 … 1 … ρ ip … … … … … ρ p1 … ρ pi … 1 E’ possibile definire momenti multivariati di X centrali e non centrali di ordine superiore rispetto al secondo, ma per gli argomenti ora trattati non è necessario. Come per le variabili aleatorie semplici i momenti di ordine 3 e 4 forniscono degli indici di forma, i momenti multivariati di ordine superiore al secondo forniscono degli indici di forma multivariati, degli indicatori di allontanamento dalla multinormalità, indici di non linearità delle regressioni e di eteroscedasticità. • (vedere anche > > uso dei momenti bivariati nell'analisi dei residui ) • In effetti la matrice di varianze e covarianze fornisce informazioni solo sulla variabilità delle singole componenti e sulle loro correlazioni lineari, sia per le distribuzioni congiunte che per quelle condizionate (elementi della matrice inversa). Per le combinazioni lineari di variabili si useranno gli autovalori e gli autovettori della matrice di varianze e covarianze. (vedere anche > > schema delle relazioni lineari) • La normale multivariata dipende solo dai primi due momenti multivariati, per cui la conoscenza della matrice di varianza e covarianza è in quel caso sufficiente per valutare qualsiasi relazione di tipo lineare fra componenti (vedere anche > > ) Appunti del Prof. M. Chiodi per il corso di Statistica 3 a.a. 2000-2001 Prof. M. Chiodi Introduzione 21 C Momenti di una trasformata lineare di un vettore aleatorio: Sia ora Y una v.c. a k componenti, ottenuta mediante una qualsiasi trasformazione lineare di X: Y = A[k × p] X + c[k × 1] • La matrice A ha k righe e p colonne e per il resto è qualsiasi, nel senso che il suo rango può anche essere inferiore a min(k,p). • Il vettore c ha k elementi. Con semplici passaggi si vede come data la matrice A e il vettore c è possibile ottenere tutti i momenti di Y in funzione di quelli di X: E(Y) = E(A X+ c) = A E(X) + c = Α m+ c V(Y) = V(AX+ c) = E[(AX + c - Am- c)(AX + c - Am- c ) ']= =E[A(X - m)(X - m)'A']=A V(X) A' MOMENTI DI UNA TRASFORMATA LINEARE DI UN VETTORE ALEATORIO X: Y=A X+ c • E(A X+ c) = A E(X) + c Speranza matematica • V(A X+ c) = A V(X) A' Matrice di varianze e covarianze In particolare se k=1 allora A è un vettore riga b', c è uno scalare e Y è una v.c. semplice (ossia scalare) e si ha: ♦ E(Y)= b' E(X) +c = V(Y)= b'V(X) b = Y = b'X +c e quindi: b1 µ1 + b2 µ2 + … + bp µp+c b²1 σ1² +b²2 σ2² +…+b²i σ²i +…+b²p σp² + +2b1b2 σ12 + ...+ 2 bibj σij + + ... + 2bp-1bp σp-1,p Appunti del Prof. M. Chiodi per il corso di Statistica 3 a.a. 2000-2001 Prof. M. Chiodi Introduzione 22 Formule più complesse valgono per i momenti multivariati di ordine superiore al secondo, ma è sempre possibile ricavare tutti i momenti (multivariati) di grado k di Y, sia centrali che non centrali, a partire dalla conoscenza della matrice di trasformazione A e dei momenti multivariati di grado 1,2,...,k di X. Esempio § Si hanno n variabili casuali Xi normali indipendenti con E(Xi)= µi e Var(Xi)=σ²i , n § Quali sono i primi due momenti di Z= ∑ X2i ? i=1 § E’ facile vedere che per ogni Xi si ha: E(X2i )= µ2i +σ²i , V(X2i )= E(X4i )- (E(X2i ))2= (ricordando le proprietà dei momenti della normale) = µ4i +6σ²i µ²i +3σ4i – (µ2i +σ²i )2=2(σ4i +2σ²i µ²i ) e infine: n n 2 V(Z)=2 ∑ (σ4i +2σ²i µ²i ). E(Z)= ∑ (µ i +σ²i ); i=1 i=1 Funzione caratteristica di una trasformata lineare di un vettore aleatorio. • Se Y = AX + c Allora la funzione caratteristica di Y si ricava da quella di X mediante la relazione: φY(t)= exp[it'c]φX(At) Appunti del Prof. M. Chiodi per il corso di Statistica 3 a.a. 2000-2001 Prof. M. Chiodi Introduzione 23 Momenti di funzioni qualsiasi di vettori aleatori. E' possibile trovare delle approssimazioni per i momenti di funzioni qualsiasi di vettori aleatori con momenti noti, attraverso opportuni sviluppi in serie. Sia g(.) un vettore di k funzioni reali di p variabili reali, e si abbia quindi la generica trasformazione di vettori aleatori: Y=g(X), in cui X è un vettore aleatorio a p componenti e Y è un vettore aleatorio a k componenti. Sviluppando g(.) in serie di Taylor troncata al primo termine attorno a E(X) si hanno le espressioni più semplici: ∂ g( x ) § Y≅ g(E(X))+ .[X-E(X)] ∂ x x=E(X)) ∂ g( x ) ( è calcolata nel punto x=E(X)) ∂ x Prendendo la speranza matematica di ambo i membri si ha: ∂g( x ) = [X-E(X)] § E(Y) ≅ E{g(E(X))}+E . ∂x x= E(X) = g(E(X)) ∂ g( x ) (perchè E[X-E(X)]=0 e .è una costante e non una ∂ x x=E(X)) variabile aleatoria.) Sostituendo nell'espressione precedente: ∂ g( x ) § Y≅ E(Y)+ [ X-E(X) ] ∂x x=E(X)) per cui: ∂ g( x ) [X-E(X)] § Y-E(Y) ≅ ∂x x=E(X)) che è una relazione lineare approssimata fra gli scarti dei vettori aleatori. Applicando i teoremi sulle trasformazioni lineari si ha: ∂ g( x ) ∂ g( x ) ' ♦ V(Y) ≅ V(X). ∂x x=E(X)) ∂x x=E(X)) (In tutte le formule precedenti si intende che ∂g/∂X è calcolata nel punto x=E(X)) • Nel caso univariato (p=k=1): V(Y) ≅[g'(x)]2 V(X) Appunti del Prof. M. Chiodi per il corso di Statistica 3 a.a. 2000-2001 Prof. M. Chiodi Introduzione 24 esempio 1 A chiarimento di queste formule, e solo per dare un'idea del grado di approssimazione in alcuni casi di cui si conosce la soluzione esatta, riporto alcuni esempi, comunque non essenziali per gli argomenti immediatamente successivi. Come esempio si consideri la variabile casuale F di Snedecor, data dal rapporto di due variabili casuali χ2 indipendenti, divise per i rispettivi gradi di libertà. Per valutare l’approssimazione fornita dalle formule del paragrafo precedente, applichiamole per ottenere delle espressioni approssimate dei primi due momenti di F, le cui espressioni esatte sono comunque note. La funzione di trasformazione è: X 1/ ν 1 F= X / ν , essendo X1 e X2 due variabili casuali χ2 indipendenti, 2 2 rispettivamente con ν1 e ν2 gradi di libertà; quindi si ha in questo esempio k=1 e p=2. Definendo quindi il vettore aleatorio X={X1,X2}T, si ha per i primi due momenti, come è noto dalle proprietà della variabile chiquadro: ν1 2ν1 0 E[X]= ν ; V[X]= 0 2 ν 2 2 L’approssimazione (del primo ordine) al momento primo di F è data da: X 1/ ν 1 ν 1/ ν 1 = ν / ν =1. E(F)≅Fx=E(X) = X / ν 2 2 2 2 X={ν1, ν2}T Ricordando le proprietà della variabile F di Snedecor, sappiamo che il momento primo esatto è dato da: ν2 E(F) = ν -2 ; 2 l’approssimazione coincide col valore esatto solo al divergere di ν2; infatti: l i m E(F) = l i m ν 2 =1. ν2 → ∞ ν 2 → ∞ ν 2-2 Passando ora al calcolo dell’approssimazione alla varianza di F occorre valutare il gradiente di F (rispetto a X) nel punto E[X]: ∂F ∂ x x=E(X) = ν2 - ν 2X1 T = ν X , ν X 2 1 2 X={ν1, ν2}T 1 2 1 ν 1 , −1 ν 2 T ed infine sostituire nella formula: Appunti del Prof. M. Chiodi per il corso di Statistica 3 a.a. 2000-2001 Prof. M. Chiodi Introduzione = ∂F T ∂F V(F) ≅ V(X) = ∂x x=E(X)) ∂x x=E(X)) 1 −1 2 ν 1 0 1 −1 T 2 2 , 2 ν 2 ν 1 , ν 2 =ν 1 + ν 2 ν 1 ν 2 0 25 ; Sappiamo che la varianza esatta della F di Snedecor è data da: 2 ν 2 2( ν 1+ ν 2-2) V(F) = ν ( ν -4)( ν -2)2 ; 1 2 2 E’ facile vedere che il rapporto fra l’approssimazione ed il valore esatto della varianza di F tende a 1 al divergere di ν1 e ν2; infatti: 2 ν 2 2( ν 1+ ν 2-2) 2 ν 1 ( ν 2 -4)( ν 2-2) lim =1. ν 1, ν 2 → ∞ 2 2 +ν ν 1 2 esempio 2 Come altro esempio consideriamo la variabile casuale Beta, funzione di due variabili gamma indipendenti secondo la funzione di trasformazione: X1 B= X + X , essendo X1 e X2 due variabili casuali gamma indipendenti, 1 2 con parametri di scala unitari e parametri di forma rispettivamente α e β; quindi si ha anche in questo esempio k=1 e p=2. Definendo quindi il vettore aleatorio X={X1,X2}T, si ha per i primi due momenti, come è noto dalle proprietà della variabile gamma: α α 0 E[X]= β ; V[X]= β 0 L’approssimazione (del primo ordine) al momento primo di B è data da: X1 α E(B)≅Bx=E(X) = X + X = α+ β . 1 2 X={α, β}T Ricordando le proprietà della variabile B di Snedecor, vediamo che questa approssimazione coincide con il valore esatto: α E(B) = α+ β . Per quanto riguarda la varianza, il gradiente di B calcolato in corrispondenza del valore atteso è dato da: ∂B X2 -X1 T - α T β = (X + X )2, (X + X )2 = 2, 2 X={α, β}T ( α + β ) ( α + β ) 1 2 1 2 ∂x x=E(X) Appunti del Prof. M. Chiodi per il corso di Statistica 3 a.a. 2000-2001 Prof. M. Chiodi Introduzione 26 e infine sostituendo nella formula: ∂B ∂B T V(X) V(B)≅ = ∂x x=E(X)) ∂x x=E(X)) - α α 0 - α T β β 2 2 = 2, 2, β ( α + β) ( α + β) ( α + β ) ( α + β ) 0 αβ = ( α + β) 3 (dopo alcune semplificazioni elementari) Ricordando adesso che la varianza esatta della variabile Beta è data da: αβ V(B) = ( α + β) 2( α + β+1) Stavolta il rapporto fra l’approssimazione ed il valore esatto della varianza di F è dato da: Vappr(B) ( α + β+1) V(B) = ( α + β) si vede facilmente che questa quantità tende a 1 al divergere di α oppure di β (mentre per il rapporto F occorreva la divergenza di entrambi i parametri). esempio 3 Un altro esempio è tratto da variabili statistiche osservate: su un insieme di 1432 bambini sono state rilevate le variabili altezza e peso. Il vettore delle medie e la matrice di varianze e covarianze empiriche sono riportate di seguito: Variabile ALTEZZA (Metri) PESO (Kilogrammi) Media 1,5192 44,9909 Varianza 0,0103 115,6358 La matrice di varianza e covarianza delle variabili peso e altezza è data da: 115,6358 0,7851 V(X)= 0,7851 0,0103 Su questi 1432 soggetti viene calcolata la nuova variabile BMI (body Mass index), data da: Peso BMI= (Altezza)2 Questa variabile è impiegata in campo biomedico come indicatore per valutare il grado di adiposità di un soggetto. Appunti del Prof. M. Chiodi per il corso di Statistica 3 a.a. 2000-2001 Prof. M. Chiodi Introduzione 27 Se vogliamo una valutazione approssimata della media di BMI, senza calcolare materialmente i valori sui 1432 soggetti, ma basandoci sui momenti delle variabili altezza e peso otteniamo: 44,9909 M(Peso) M(BMI) ≅ (M(Altezza))2 = (1,51922) =19,4937 Per quanto rigurda la varianza si ha (indicando con X1 la variabile Peso e con X2 la variabile Altezza) per il gradiente di BMI: X1 BMI= X 2 2 T ∂BMI 1 -2X1 1 -2 × 44,9909 T = = X 2, X 3 2, 1,51923 = X=M(X) 1,5192 2 2 ∂x x=M(X) {0,4333;-25,6631}T. Quindi, sostituendo nella relazione: ∂BMI T ∂BMI V(BMI)≅ V(X) = ∂x x=E(X)) ∂x x=E(X)) - α α 0 - α T β β = ( α + β) 2 , ( α + β) 2 2, 2 β ( α + β) ( α + β) 0 si ottiene il valore approssimato della varianza di BMI: V(BMI)≅{0,4333;-25,6631} 115,6358 0,7851 T 0,7851 0,0103 {0,4333;-25,6631} = =11,0337 Il grado di validità di queste approssimazioni può essere verificato confrontando con i valori esatti dei primi due momenti di BMI calcolati sui 1432 valori trasformati: 2 BMI (Kg/mt ) Valori approssimati Media 19,3103 19,4937 Varianza 10,4356 11,0337 Ovviamente l’utilità di tali formule approssimate si ha quando non è possibile calcolare i momenti esatti (nel caso di variabili aleatorie) o se non sono disponibili i dati relativi alle singole osservazioni, per il calcolo dei valori trasformati, ma solo i primi due momenti delle variabili originari. Appunti del Prof. M. Chiodi per il corso di Statistica 3 a.a. 2000-2001 Prof. M. Chiodi Introduzione 28 C Forme quadratiche Se A è una matrice quadrata simmetrica p × p, e t è un vettore di p componenti, si definisce forma quadratica la funzione omogenea di secondo grado: Q=t'At=a11 t²1 + a22 t²2 +… aii t²i +…+ app t²p +2a12 t1t2 + +…+2aij titj + ... + 2ap-1,p tp-1tp se t' A t > 0 ,∀t, t≠00 : Þ A è definita positiva se t' A t ≥ 0 ,∀t, t≠00 : Þ A è semidefinita positiva In effetti si dice definita (o semidefinita) sia la matrice che la forma quadratica corrispondente. Una matrice di varianze e covarianze è sempre semidefinita positiva. Infatti, come visto precedentemente, dato un vettore aleatorio X, la varianza di una sua qualsiasi combinazione lineare Y = t' X (con , t≠0 )è data da: V(Y) = V(t' X) = t' V(X) t; essendo V(Y) ≥ 0, in quanto una varianza è sempre non negativa, allora: t' V(X) t ≥ 0 ,∀t, t≠00 e quindi, secondo la definizione data prima, V(X) è una matrice semidefinita positiva; è definita positiva se si esclude il caso di collinearità esatta fra le p variabili, e quindi se V(X) è di rango pieno p. • A è semidefinita positiva, se e solo se si può scrivere come: A=XX' (con X qualsiasi, anche rettangolare) per esempio se X è una matrice di dati (n osservazioni e p variabili), e Z la matrice degli scarti dalle rispettive medie aritmetiche, allora Z'Z è la matrice delle devianze e codevianze delle p variabili che, come si sa, è semidefinita positiva. Analogamente vengono definite le forme quadratiche definite e semidefinite negative. Appunti del Prof. M. Chiodi per il corso di Statistica 3 a.a. 2000-2001 Prof. M. Chiodi Introduzione 29 Significato geometrico delle forme quadratiche Una forma quadratica definita positiva definisce un'ellissoide in uno spazio p-dimensionale mediante l'equazione t'At = k. Il volume di tale ellissoide è funzione del determinante della matrice A. Questo aspetto verrà ripreso quando si riparlerà di distribuzione normale multivariata. Momenti di forme quadratiche Per una forma quadratica in X, con E(X) = m, si ha: E(X' A X)= tr(A V(X)) + m'Am Appunti del Prof. M. Chiodi per il corso di Statistica 3 a.a. 2000-2001 Prof. M. Chiodi Introduzione 30 C Rango di una matrice Il rango di una matrice A qualsiasi, ρ(A), è definito come: • il massimo numero di righe (o colonne) linearmente indipendenti oppure: • il massimo ordine per il quale si possono estrarre minori non tutti nulli da una matrice qualsiasi A. Alcune proprietà del rango di una matrice: ρ(A')=ρ(A) ρ(A'A)= ρ(AA')= ρ(A) ρ(AB)≤min(ρ(A), ρ(B)) ρ(A+B)≤ ρ(A)+ρ(B) Rango della matrice di varianza e covarianza di un vettore aleatorio: • Se in un vettore aleatorio composto da p v.a. elementari, una componente è combinazione lineare delle altre, allora il rango della matrice di varianza e covarianza di X risulta uguale a p-1; • in generale il rango di V(X) risulta uguale a p-k se k componenti sono ottenuti attraverso combinazioni lineari (indipendenti) degli elementi di X. • il rango di V(X) risulta uguale esattamente a p (ossia a rango pieno) se e solo se le componenti di X sono linearmente indipendenti. La sola conoscenza del rango di una matrice di varianza e covarianza ci dice poco sul tipo di interrelazioni (eventualmente lineari) esistenti fra le p componenti: ci dice solo se esiste uno o più legami lineari esatti. (vedere anche > > )GRAFICO con nuvola di punti in 3D di punti molto correlati, tuttavia il rango della matrice di varianza e covarianze è 3 perchè non vi sono vincoli lineari esatti. • Esistono altri indicatori associati alle matrici che ci consentiranno di sapere qualcosa di più su tali interrelazioni. Appunti del Prof. M. Chiodi per il corso di Statistica 3 a.a. 2000-2001 Prof. M. Chiodi Introduzione 31 Esempio Ad esempio sia X una variabile aleatoria doppia, con componenti X1 e X2 con speranze matematiche nulle e matrice di varianza e covarianza: V(X)= σ 1² σ 12 σ 12 σ 2² Se otteniamo ora un nuovo vettore aleatorio Y a tre componenti, con: • Y1=X1; • Y2=X2; • Y3= 2X1 + 3X2, abbiamo utilizzato in pratica una matrice di traformazione: 1 A= 0 2 0 1 3 , così che Y=A X corrisponde alla trasformazione prima definita. Per cui per ottenere la matrice di varianza e covarianza di Y dovremo utilizzare la regola: V(Y)=A V(X) A', ottenendo: V(Y)= σ1 2 σ 12 2 σ 1 2+3 σ 1 2 2 2 σ 1 2+3 σ 2 2 σ 12 σ2 2 σ 1 2+3 σ 1 2 2 σ 1 2+3 σ 2 2 4 σ 1 2+12 σ 1 2+9 σ 2 2 E' immediato verificare che la terza riga (colonna) di V(Y) si ottiene come combinazione lineare delle prime due righe: r3= 2r1+3r2, ossia lo stesso vincolo lineare esistente fra le componenti di Y. Pertanto ρ(V(Y))=3-1=2. Appunti del Prof. M. Chiodi per il corso di Statistica 3 a.a. 2000-2001 Prof. M. Chiodi Introduzione 32 C Traccia di una matrice: La traccia di una matrice A[p×p] quadrata, tr(A), è definita come la somma degli elementi sulla diagonale principale: p tr(A)= ∑ aii i=1 Alcune proprietà della traccia di una matrice (A e B quadrate dello stesso tr(AB)= tr(A) tr(B) ordine) p k tr(A'A)= tr(AA')= ∑ ∑ a²ij i=1j=1 (A con p righe e k colonne) Significato statistico Se X è un qualsiasi vettore aleatorio a p componenti con matrice di varianza e covarianza V(X), la traccia di V(X) corrisponde alla somma delle varianze delle componenti di X, ossia alla somma delle dispersioni lungo gli assi coordinati: p p tr(V(X))= ∑ V(Xi)= ∑ σ²i i=1 i=1 Varianza generalizzata Un'altra misura di variabilità di una variabile aleatoria multipla X è la varianza generalizzata (Wilks, 1932) Vg(X)=Det[V(X)]. Il significato, anche in termini geometrici, di tale misura sarà più chiaro dopo, in termini di autovalori e di ellissoidi di equiprobabilità per variabili normali multiple. Possiamo però vedere che Vg(X) può essere nulla anche se tutte le varianze sono maggiori di zero, e precisamente nel caso in cui V(X) è di rango non pieno, ossia esiste almeno un vincolo lineare esatto sulle componenti di X.(vedere anche > > la varianza generalizzata per distribuzioni condizionate ;Prodotto degli autovalori, ossia delle varianze delle componenti principali;Volume dell'ellissoide di equiprobabilità Appunti del Prof. M. Chiodi per il corso di Statistica 3 a.a. 2000-2001 Prof. M. Chiodi Introduzione 33 C Matrice inversa: Data una matrice quadrata A, (A[p × p]), con |A| ≠ 0, si definisce inversa di A, e si indica con A-¹, una matrice tale che: AA-¹= A-¹A = Ip (matrice identità) La condizione |A| ≠ 0, ossia A è di rango pieno, è necessaria e sufficiente per l'esistenza di A-¹ E' noto che l'elemento generico della matrice inversa è dato da: {A-¹}ij = Aji/| A | essendo Aij il cofattore di aij per cui l'inversa è uguale alla trasposta della matrice aggiunta diviso il determinante della matrice. Ovviamente è una definizione utile solo per la dimostrare l'esistenza dell' inversa, ma non è conveniente numericamente per il calcolo: meglio ricorrere al metodo di Gauss-Siedel, o ad altri metodi di riduzione con la ricerca di elementi di pivot. E' evidente che si farà ricorso, come sempre, ad apposito software matematico statistico, ormai fornito sempre di buone routines per il calcolo dei determinanti e dell'inversa di una matrice: occorre comunque sempre accertarsi del grado di precisione fornito dal software usato, e cercare di usare la massima precisione numerica possibile; ad esempio il software STATISTICA nel modulo di regressione multipla, fornisce l'opzione "extended precision calculation" che è sempre bene evidenziare ALCUNE PROPRIETÀ DELL'INVERSA DI UNA MATRICE (A')-¹=( A-¹)' (A quadrata di rango pieno) - (A ¹) ¹= A; A-¹ è simmetrica se e solo se A è simmetrica |A-¹|=|A|-¹; (A quadrata di rango pieno) (AB) ¹=B ¹A ¹ (A e B quadrate di rango pieno) Significato degli elementi dell'inversa di una matrice di varianze e covarianze Anche gli elementi dell' inversa di una matrice di varianze e covarianze hanno un preciso significato statistico in termini di distribuzioni conndizionate, (vedere anche > > normale multivariata )come si vedrà più avanti a proposito della normale multivariata. Appunti del Prof. M. Chiodi per il corso di Statistica 3 a.a. 2000-2001 Prof. M. Chiodi Introduzione 34 Gli elementi non diagonali sono funzione della correlazione lineare condizionata, mentre gli elementi diagonali sono legati alla correlazione multipla. Appunti del Prof. M. Chiodi per il corso di Statistica 3 a.a. 2000-2001 Prof. M. Chiodi Introduzione 35 Inversa di una matrice simmetrica partizionata Si ha una matrice simmetrica partizionata in quattro blocchi (primo e quarto blocco quadrato): A11 A= A'12 A12 A22 -1 Ponendo A11.2= A11-A12A22 A'12 (e il perché di questa notazione sarà chiarissimo quando si faranno le distribuzioni condizionate di variabili -1 normali multivariate) si può dimostrare che, se esiste A22 , l'inversa della matrice partizionata può essere espressa come: -1 A = -1 -1 -1 +I] A12 A22 [A'12 A11.2 A22 -1 -1 A12 A22 - A11.2 -1 A11.2 -1 -1 A12 A22 - A11.2 ♦ Si ha anche: -1 A'12||A22|=|A11.2||A22| ♦ |A|=|A11-A12A22 Il risultato sull'inversa, arduo da ricordare, si dimostra effettuando il prodotto (sia destro che sinistro) per la matrice originaria e verificando che si ottiene la matrice identità. Questo risultato è utile per ricavare distribuzioni condizionate di variabili normali multiple. Nella regressione lineare multipla può servire il risultato particolare nel caso in cui A11 è uno scalare a e quindi A12 è un vettore riga che indico con y'. (utile per esempio quando si aggiunge una riga, ossia si aggiunge una variabile, ad una matrice di varianze e covarianze di cui già si conosce l'inversa) Abbiamo quindi: a A= y y' A22 Si ha allora: -1 a11.2= a- y'A22 y Appunti del Prof. M. Chiodi per il corso di Statistica 3 a.a. 2000-2001 Prof. M. Chiodi Introduzione 36 e quindi: -1 A = -1 -1 A22 [yy' A22 /a11.2+I] -1 - y' A22 /a11.2 1/a11.2 -1 - y' A22 /a11.2 semplificabile in: -1 A = 1 -1 - y' A22 /a 11.2 -1 -1 A22 [yy' A22 +I a11.2] -1 - y' A22 Si ha in questo caso anche: -1 |A|=| a- y'A22 y ||A22|=|a11.2||A22| Appunti del Prof. M. Chiodi per il corso di Statistica 3 a.a. 2000-2001 Prof. M. Chiodi Introduzione 37 Matrice inversa generalizzata In certi casi, ad esempio per la risoluzione di sistemi di equazioni lineari a rango non pieno, conviene ricorrere alla cosiddetta inversa generalizzata. Data una matrice di rango qualsiasi A, si definisce inversa generalizzata di A, e si indica con A-, una matrice tale che: A A- A = A L'inversa generalizzata di una qualsiasi matrice non è unica, tranne che per le matrici quadrate di rango pieno, per le quali si ha chiaramente: A- = A-1 L'inversa generalizzata fornisce una delle soluzioni del sistema di equazioni lineari: Ax=b di rango anche non pieno, ed essendo soddisfatte le condizioni per l'esistenza di soluzioni, ossia ρ(A)= ρ(A|b). Infatti con successive trasformazioni: (A)x=b; (AA-A)x=b; (AA-)(Ax)=b (AA-) b = b; e infine: A(A-b) = b, per cui x=A-b è una soluzione del sistema. Se la matrice A è simmetrica valgono ulteriori proprietà. (Si vedrà poi che mediante la decomposizione spettrale è possibile determinare una inversa generalizzata di una matrice simmetrica. In effetti la definizione di inversa generalizzata è utile quanto meno perchè consente di esprimere in modo compatto una generica soluzione di un sistema di equazioni lineari anche di rango non pieno). Appunti del Prof. M. Chiodi per il corso di Statistica 3 a.a. 2000-2001 Prof. M. Chiodi Introduzione 38 C Risultati utili sulle derivate di matrici e vettori. Gradiente di combinazioni lineari di variabili: ∂ x' b =b ∂x (x e b vettori di p componenti) Infatti: x'b = b1 x1+ b2 x2 + … + bp xp per cui: ∂(x'b)/∂xi = bi, i=1,2,…,p, e quindi il risultato in forma vettoriale: ∂ x' b = b In generale: ∂x ∂Bx =B ∂x x vettore di p componenti B matrice di k×p elementi e di elemento generico bij Gradiente di una forma quadratica: ∂ x' Ax = 2Ax ∂x ∂ x' Ax ∂ x ∂ x' 2 = 2A ♦ x vettore (colonna!) di p componenti ♦ A è una matrice simmetrica di p×p elementi e di elemento generico aij Infatti: Q = x' A x = a11 x²1 + a22 x²2 +… aii x²i +…+ app x²p +2a12 x1x2 + +…+2aij xixj + ... + 2ap-1,p xp-1xp ∂ Q / ∂ xi = ∂ x'Ax/∂ xi =2 aii xi+2 ai1 x1...+ 2aijxj + ... + 2aipxp= =2 ai' x essendo ai' l'i-esima riga di A. Quindi segue il risultato in forma vettoriale, tenendo presente che derivando rispetto a tutti gli elementi di x, le righe ai ricostituiscono la matrice A: Appunti del Prof. M. Chiodi per il corso di Statistica 3 a.a. 2000-2001 Prof. M. Chiodi Introduzione ∂ x' Ax ∂x 39 = 2Ax Per le derivate seconde di una forma quadratica si vede facilmente: ∂2 x' Ax ∂x ∂x' = 2A Jacobiano di una trasformazione lineare Sia A una matrice quadrata; data la trasformazione lineare: x =Ay+b, lo Jacobiano di tale trasformazione è dato da: J(y)=| ∂ x /∂ y|=mod|A| ossia il valore assoluto del determinante di A Derivate di inverse e di determinanti: Se B= A -1, di elemento generico bij = Aji/|A|, avendo indicato con Aij il cofattore di aij in A si può dimostrare che: ∂ bij • = -bih bkj = Ahi Ajk /|A|2 ∂ ahk Se A=A': ∂ | A| • = Aii ∂ aii ∂ | A| • = 2Aij ∂ aij Appunti del Prof. M. Chiodi per il corso di Statistica 3 a.a. 2000-2001 Prof. M. Chiodi Introduzione 40 Autovalori e autovettori • autovalore, radice caratteristica, characteristic roots, eigenvalue • autovettore, vettore caratteristico, eigenvector • Gli autovalori e gli autovettori sono delle quantità associate ad una matrice quadrata, che ne riassumono alcune caratteristiche essenziali. • In particolare per una matrice simmetrica si possono dimostrare proprietà molto forti. • Se poi la matrice simmetrica è una matrice di varianza e covarianza, si possono attribuire particolari significati a tali quantità, sia nel caso di matrici di varianze e covarianze di vettori di variabili aleatorie che nel caso di matrici di varianze e covarianze empiriche di vettori di variabili statistiche osservate, sebbene la loro interpretabilità, dal punto di vista dello statistico, non sia sempre agevole, se non in particolari contesti. Sono comunque importanti per determinare il grado di collinearità presente in un insieme di dati multivariati o in un vettore di variabili aleatorie. In questo corso saranno impiegati in particolare per lo studio della multicollinearità nella regressione multipla; per quanto riguarda i vettori aleatori, si vedrà presto l'interpretazione migliore degli autovettori e degli autovalori per vettori aleatori distribuiti secondo una normale multivariata. Nelle pagine che seguono vengono brevemente richiamate le proprietà algebriche e geometriche degli autovalori e degli autovettori, con riferimento in particolare alle caratteristiche che verranno successivamente sfruttate. Resta sottinteso che si tratta semplicemente di un richiamo di nozioni che in modo più completo e sistematico vanno approfondite, se non lo si è già fatto, in un corso di algebra lineare. Appunti del Prof. M. Chiodi per il corso di Statistica 3 a.a. 2000-2001 Prof. M. Chiodi Introduzione 41 C Definizione di autovettore e autovalore: Data la matrice quadrata A, si vuole trovare la soluzione non banale g del sistema di equazioni: Ag = λgg Si vuole quindi trovare un vettore g la cui proiezione secondo lo spazio definito da A sia parallela al vettore stesso. Si tratta di un sistema omogeneo nell'incognita g, infatti: Ag - λgg=0p e quindi: [A - λ Ip]g=0p Condizione necessaria per avere una soluzione g diversa dal vettore nullo è che: |A - λIp|=0. • La precedente è un' equazione di grado p in λ, per cui vi saranno p autovalori complessi (distinti e non): • λ1, λ2 ,...,λi ,..., λp. • Di solito si conviene di normalizzare gli autovettori in modo tale che: g' g = 1. infatti in corrispondenza di ciascun autovalore λi vi sarà certamente un'infinità di autovettori proporzionali gi. (Si vede subito dalla definizione di autovettore: se gi.è un autovettore lo è anche kgi.). In ogni caso resta l'ambiguità sul segno di g. Appunti del Prof. M. Chiodi per il corso di Statistica 3 a.a. 2000-2001 Prof. M. Chiodi Introduzione 42 C Proprietà generali degli autovalori Dall'equazione fondamentale: |A-λ Ip |=0, si vede che il polinomio di grado p: q(λ)=|A - λ Ip | si può esprimere in funzione delle p radici complesse λi: p q(λ)=|A - λ Ip | = ∏ (λi -λ) (si può dimostrare) i=1 Per cui si ha subito (sfruttando le proprietà dei polinomi): p q(0)=|A| = ∏ λi i=1 p tr(A) = ∑ λi i=1 • Il determinante di una matrice è uguale al prodotto dei suoi autovalori • La traccia di una matrice è uguale alla somma dei suoi autovalori Appunti del Prof. M. Chiodi per il corso di Statistica 3 a.a. 2000-2001 Prof. M. Chiodi Introduzione 43 C Autovalori e autovettori di matrici simmetriche Per gli autovalori e gli autovettori di una matrice simmetrica A si possono dimostrare proprietà molto forti, corrispondenti a molte caratteristiche essenziali della matrice (in generale molte proprietà valgono anche per matrici hermitiane, ossia con elementi aij e aji complessi coniugati, tuttavia per gli argomenti da noi trattati è sufficiente riferirci a matrici simmetriche reali) • Se A è simmetrica tutti gli autovalori e gli autovettori sono reali, per cui convenzionalmente vengono indicizzati in ordine decrescente: λ1≥ λ2 ≥...≥ λi ≥...≥ λp . • Se A è simmetrica, il numero degli autovalori non nulli è uguale a ρ(A) (rango di A) • Se per i≠j i corrispondenti autovalori λi e λj sono distinti si ha: Ø Ø gi' gj = 0 (ortogonalità) gi' A gj = 0 Infatti λi e λj, insieme ai corrispondenti autovettori, forniscono due soluzioni distinte del sistema di equazioni: Ag = λgg, e quindi valgono contemporaneamente i due gruppi di eguaglianze: Ag i = λ i g i Ag j = λ j g j Premoltiplicando ambo i membri del primo sistema per gj' e i due membri del secondo per gi' otteniamo due eguaglianze fra scalari: g j'A g i = g j' λ i g i g i'A g j = g i' λ j g j in cui i primi membri sono uguali, perchè gj'Agi è la trasposta di gi'Agj, ed essendo scalari sono uguali, per cui uguagliando i secondi membri si ha: gj'λi gi = gi'λj gj, e quindi: gi'gj (λi-λj)=0 e infine, avendo supposto distinti i due autovalori, (λi-λj)≠0, per cui deve essere: gi'gj=0. Appunti del Prof. M. Chiodi per il corso di Statistica 3 a.a. 2000-2001 Prof. M. Chiodi Introduzione 44 Saranno quindi nulli anche i primi membri, per cui: gi'Agj=0. In ogni caso per ogni autovalore di molteplicità m, m autovettori corrispondenti possono essere rimpiazzati da m loro combinazioni lineari indipendenti. Gli autovettori possono essere scelti in modo da soddisfare i vincoli di ortogonalità per ogni coppia i≠j gi' gj = 0 ed anche gi' A gj = 0 Pertanto se G è la matrice che ha come colonne gli autovettori yi, allora per l'ortogonalità fra gli autovettori si ha: • Γ' Γ = I; • ed anche: Γ-1=Γ', • e quindi: Γ Γ' = I. (queste ultime proprietà valgono comunque per matrici ortogonali) Diagonalizzazione di una matrice simmetrica Dalla definizione di autovettore si anche l'importante proprietà: (avendo posto Λ =Diag(λ)). Γ' A Γ = Diag(λ)=Λ Λ Diagonalizzazione di una matrice simmetrica sarà importante quando A è una matrice di varianze e covarianze Dalla definizione si ha infatti: A gi = λigi Premoltiplicando ambo i membri per gj' si ha: se i=j: se i≠j: gi' A gi = λi gj' A gi = 0 Dal risultato fondamentale sulla diagonalizzazione di una matrice simmetrica si può ricavare un altro risultato molto utile: • Data una matrice simmetrica definita positiva A di rango pieno è possibile sempre trovare una matrice B tale che: B'AB=I Appunti del Prof. M. Chiodi per il corso di Statistica 3 a.a. 2000-2001 Prof. M. Chiodi Introduzione 45 E' facile vedere che le colonne della matrice B si ottengono riscalando gli autovettori di A, ossia con: gi/√λi (dal momento che la matrice è di rango pieno i suoi autovalori sono tutti positivi) Decomposizione spettrale di una matrice simmetrica Dalla relazione G' A G = L, si ha anche, premoltiplicando ambo i membri per G e postmoltiplicando per G': A = Γ Λ Γ' = = λ1g1g1' + λ2g2g2' +...+λpgpgp' Decomposizione spettrale) di A canonica (o relazione fondamentale per la ricostruzione di una matrice simmetrica a partire dagli autovettori. I primi k termini (k<p) forniscono un'approssimazione della matrice A. Autovalori di inverse e di potenze Inoltre operando ancora sull'equazione che definisce gli autovalori: A gi = λigi • Se il rango di A è pieno, premoltiplicando ambo i membri per A-1, si vede facilmente che: -1 –1 λi(A ) = [λi (A)] (a meno di un riordinamento degli indici) • Qualunque sia il rango di A, premoltiplicando ripetutamente ambo i membri per A, si dimostra per induzione che: k k λi(A ) = [λi(A)] • In entrambi i casi gli autovettori sono sempre quelli di A. Appunti del Prof. M. Chiodi per il corso di Statistica 3 a.a. 2000-2001 Prof. M. Chiodi Introduzione Matrice A Autovalori Autovettori λi gi A-1 (|A|≠0) λi Ak k intero λi -1 gi k gi 46 Decomposizione canonica p Α=Γ Λ Γ'= ∑ λigigi' i=1 p A-1 =Γ Λ-1 Γ'= ∑ gigi'/λi i=1 p k k A =Γ Λ Γ'= ∑ λik gigi' i=1 Autovalori di una forma quadratica definita positiva • A è definita positiva, se e solo se tutti i suoi autovalori sono positivi. • A è semidefinita positiva, se e solo se tutti i suoi autovalori sono non negativi. Infatti ricorrendo agli autovalori ed agli autovettori di A si può scrivere A secondo la decomposizione canonica: Q(x)= x' A x = x' Γ Λ Γ' x Ponendo ora y=Γ'x, si ha: p Q(x)= y' Λ y= ∑ λiyi2 i=1 da cui deriva il risultato sulla positività di Q(x). Si vede anche che una forma quadratica si può sempre esprimere come somma ponderata di quadrati di variabili ruotate secondo gli autovettori di A. Infatti si è può sempre trasformare un ellissoide qualsiasi, mediante opportune trasformazioni lineari ortogonali, in un ellissoide ad assi paralleli a quelli coordinati, e quindi, mediante cambiamenti di scala, in un ipersfera. Appunti del Prof. M. Chiodi per il corso di Statistica 3 a.a. 2000-2001 Prof. M. Chiodi Introduzione 47 C Analisi delle componenti principali (cenni) Si ha un vettore aleatorio X di p componenti con: E(X)=0 (media nulla) V(X)=Σ Si vuole trovare una nuova variabile casuale Z (unidimensionale), combinazione lineare di X, che abbia la massima varianza possibile, ossia si cerca un vettore di coefficienti y tali che: Z = y'X ha varianza massima col vincolo y'y=1 (y é un vettore unitario; il vincolo sui coefficienti è necessario, altrimenti sarebbe possibile trovare combinazioni di varianza grande a piacere). 1° Problema di ottimo vincolato: • Occorre massimizzare rispetto a y la varianza di Z = y'X: • col vincolo che y sia un vettore di lunghezza 1: V(Z)= y'Σy y' y =1 Il lagrangiano per questo problema è dato da: L(y,λ)= y'Σy -λy'y+λ Derivando rispetto a y si ha: 2Σy -2λy = 0, e quindi: Σy = λy La soluzione y é dunque fornita dagli autovalori di Σ Per stabilire quale autovalore fornisce il massimo della funzione obiettivo, premoltiplichiamo nell'ultima equazione ambo i membri per y': y'Σy= y'λy Da questa uguaglianza vediamo che: § il primo membro è uguale a V(Z); § Il secondo membro è uguale a λ, per soddisfare il vincolo y'y=1; In definitiva si ha: V(Z)= λ, per cui l'ottimo si ha in corrispondenza del massimo autovalore di Σ. Pertanto la soluzione ottima y è data dall'autovettore g1 corrispondente al 1° autovalore. λ1 di V(X) Appunti del Prof. M. Chiodi per il corso di Statistica 3 a.a. 2000-2001 Prof. M. Chiodi Introduzione 48 La nuova variabile Z è dunque data da: Z1= γ1 'X. Per comodità indico questa nuova variabile con Z1 anziché con Z. Se ora vogliamo trovare una nuova variabile semplice Z2, ancora combinazione lineare di X, che abbia ancora la maggior varianza, ma con l'ulteriore componente vincolo trovata di Z1, non essere dobbiamo correlata impostare un con nuovo la prima problema di massimo: 2° Problema di ottimo vincolato: • Occorre massimizzare la varianza di Z2=y'X • col 1° vincolo che y sia sempre un vettore V(Z2)= y'Σy y'y=1 di lunghezza 1: • col 2° vincolo che Z2 non sia correlata con la y'Σγ1=0 prima componente Z1: Il lagrangiano per questo secondo problema è dato da: L(y,λ)= y'Σy -λy'y+λ−δy'Σg1 Derivando rispetto a y si ha: 2Σy -2λy -δΣΣg1=0 • Si può vedere come la soluzione a questo secondo problema è fornita dall'autovettore di Σ corrispondente al secondo autovalore λ2; • Inoltre V(Z2)= λ2. In definitiva, ripetendo il procedimento fino a giungere a Zp, è possibile trovare p nuove variabili aleatorie, combinazioni lineari di X, a due a due non correlate, e tali che ciascuna Zi abbia varianza massima subordinatamente al vincolo di non correlazione con le precedenti variabili Z1, Z2,…, Zi-1 ed al vincolo di unitarietà dei vettori dei coefficienti. Ciascuna variabile è data da: Zi=gi'X, con varianza: Appunti del Prof. M. Chiodi per il corso di Statistica 3 V(Zi)=λi a.a. 2000-2001 Prof. M. Chiodi Introduzione 49 In definitiva attraverso la matrice Γ costituita dagli autovettori di Σ, è possibile trovare un nuovo vettore aleatorio Z, dato da: Z=Γ' X, tale che: V(Z)=Λ. Dal momento che Γ' Γ=I, la trasformazione corrisponde ad una rotazione ortogonale degli assi. I nuovi assi definiti dallo spazio degli autovettori sono detti assi principali, e le nuove variabili Z sono le componenti principali di X. In effetti, potremmo impostare il problema al contario, alla luce anche della finalità che ci eravamo proposti prima, ossia di trovare un modo per misurare l'esistenza di vincoli lineari non esatti fra le variabili: Dal momento che un vincolo lineare esatto fra variabili aleatorie corrisponde ad una variabile con varianza nulla, potremmo cercare, fra le combinazione generate da rotazioni degli assi, quella di minima varianza, ossia quella che più si avvicina, con i vincoli imposti, ad una combinazione lineare esatta. Significato principali statistico e probabilistico delle componenti Possiamo ora migliorare l'informazione fornita dal rango di una matrice di varianza e covarianza, sia essa teorica o empirica. Infatti anche se V(X) è a rango pieno, se dall'esame della sequenza degli autovalori risulta che il più piccolo degli autovalori è molto vicino a zero (relativamente all'ordine di grandezza degli autovalori stessi) ciò implica che esiste una combinazione lineare delle componenti del vettore aleatorio X a varianza molto bassa. E' interessante notare che in questo caso la varianza generalizzata |V(X)| risulterà piccola rispetto a tr(V(X)), a conferma del fatto che la varianza generalizzata fornisce delle informazioni non tanto sulla variabilità delle singole componenti, quanto sulla variazione congiunta. Altre interpretazioni geometriche delle componenti principali si hanno per vettori aleatori normali, in termini di assi degli ellissoidi di equiprobabilità, come si vedrà fra breve. In effetti l'analisi in componenti principali viene spesso usata nell'analisi esplorativa di dati, specialmente in presenza di un gran numero di variabili rilevate per cercare di lavorare su poche variabili che spieghino molta variabilità dell'insieme dei dati. L'utilità pratica di questo tecnica sta nella possibilità di attribuire un significato ai vari fattori. Questo aspetto esplorativo sarà per ora tralasciato. Appunti del Prof. M. Chiodi per il corso di Statistica 3 a.a. 2000-2001 Prof. M. Chiodi Introduzione 50 Non affronto per niente in questo corso, l'argomento dell'eventuale ricerca di combinazioni non lineari di variabili aleatorie che ne spieghino buona parte della varianza. Nel caso dio componenti quadratiche il problema è analiticamente affrontabile sebbene computazionalmente più pesante. Appunti del Prof. M. Chiodi per il corso di Statistica 3 a.a. 2000-2001 Prof. M. Chiodi Introduzione 51 C Matrici idempotenti Si definisce idempotente una matrice quadrata A di p righe e p colonne tale che: A=AA Definizione di matrice idempotente Se A è idempotente allora valgono le seguenti proprietà: A = A A = ... = An n>0 ∀n, A è uguale a tutte le sue potenze An è idempotente∀n, n>0 Tutte le potenze di A sono idempotenti [I - A] è idempotente; infatti: [I - A] [I - A]=I2-2 A+A2= I-2 A+A=I-A Indicando con λi gli autovalori Infatti dal momento che gli autovalori delle potenze di una matrice sono di A si ha: uguali alle potenze degli autovalori, λi = 1 se i = 1,2,..., ρ(A) essendo A = A A, si deve avere λi=λi2, λi = 0 se i = ρ(A)+1,...,p per cui λi può essere solo 0 o 1 tr(A)= ρ(A) La traccia di A è uguale al suo rango Risulta ovvio dalla definizione che l'unica matrice idempotente di rango pieno è la matrice identità. Esempio: A= X ( X' X )-¹ X', ∀X, purchè esista ( X' X )-¹ è una matrice idempotente (con ρ(A) = ρ(X)), come si verifica facilmente effettuando il prodotto: AA = X(X'X)-¹X' X(X'X)-¹X' = X(X'X)-¹X'=A. L'introduzione del questo momento utilissimo per lo normali, e per lo modelli lineari. concetto di matrice idempotenti, sebbene poco rilevante in del corso, è uno strumento tecnico che ci sarà fra breve studio delle proprietà delle forme quadratiche in variabili studio di particolari quantità che scaturiscono dall'analisi dei Appunti del Prof. M. Chiodi per il corso di Statistica 3 a.a. 2000-2001 Prof. M. Chiodi Introduzione 52 Esempi di matrici idempotenti di rango 2: Come è facile verificare mediante calcolo diretto, le seguenti matrici sono tutte idempotenti: A= 9/17 8/17 -2/17 -2/17 8/17 9/17 2/17 2/17 -2/17 2/17 8/17 8/17 -2/17 2/17 8/17 8/17 2/3 B= -1/3 1/3 1 C= 0 0 -1/3 2/3 1/3 0 1/5 2/5 1/3 1/3 2/3 2/5 4/5 0 Appunti del Prof. M. Chiodi per il corso di Statistica 3 a.a. 2000-2001 Prof. M. Chiodi Introduzione 53 LA DISTRIBUZIONE NORMALE MULTIVARIATA. La distribuzione normale multipla può essere introdotta in numerosi modi, ed espressa con diverse caratterizzazioni. ♦ Qui viene introdotta come la distribuzione congiunta di combinazioni lineari di variabili normali. Sia X un vettore di variabili casuali a p componenti indipendenti, X1, X2,…,Xp, ciascuna distribuita secondo una normale standardizzata. La densità di tale distribuzione, data l'indipendenza, è data da: p p fX(x)= ∏ f(xi) = (2π)-p/2 exp[- ∑ xi2/2] i=1 i=1 =(2π)-p/2 exp[-x'x/2] Densità congiunta di p variabili normali standardizzate e indipendenti La funzione caratteristica è: φX(t)= exp[- ½t't] Ovviamente i primi due momenti di X, per le ipotesi fatte, sono: E(X)=0p e V(X)=Ip E' noto, ed è facile comunque vederlo attraverso la funzione caratteristica, che una singola combinazione lineare Z del vettore aleatorio X si distribuisce secondo una normale univariata, con media e varianza ricavabili dalle note relazioni: Infatti se: Z = b'X +c, allora i primi due momenti di Z sono dati da: § E(Z)= b' E(X) +c = c § V(Z)= b' Σ (X) b = b'b = b²1+ b²2 +… +b²i +…+ b²p e Z∼N(E(Z),V(Z)). Adesso occorre però studiare la distribuzione congiunta di p combinazioni lineari di variabili normali indipendenti. Appunti del Prof. M. Chiodi per il corso di Statistica 3 a.a. 2000-2001 Prof. M. Chiodi Introduzione 54 C La distribuzione congiunta di p combinazioni lineari di p variabili normali indipendenti Consideriamo allora il vettore aleatorio Y, trasformazione lineare del vettore aleatorio X, definito dalla relazione: • Y=A'X+m, essendo: • A una matrice quadrata di dimensione p e rango pieno; • m un vettore di p elementi; sarà poi possibile rango non pieno; generalizzare a trasformazioni (rispetto alla notazione ordinaria si è indicata trasposta, perché di solito si dà un significato componente di Y corrisponde ad una colonna di partire da p variabili standardizzate Xi oppure siano indipendenti) anche singolari, ossia a la trasformazione mediante una matrice geometrico alle colonne di A, ed ogni A; inoltre è irrilevante ai fini del risultato a varianza qualsiasi: l'importante è che Per le proprietà sui momenti di trasformate lineari di v.a. i momenti di Y sono dati da: ♦ E(Y) = A' E(X) + m=m ♦ V(Y)= A' V(X) A=A'A Per ricavare la densità di Y è conveniente ricorrere alla trasformazione inversa: relazione diretta: relazione inversa: Y=A'X+m, X= B'[Y-m], avendo posto: B=A-1 Pertanto la densità di Y è data da: fY(y)= fX(B'[y-m]) J = J(2π)-p/2 exp(-[y-m]'BB'[y-m]/2) essendo J lo Jacobiano della trasformazione da Y a X, che ovviamente è dato da J=mod|B|, per cui si ha: fY(y)=mod|B| (2π)-p/2 exp(-[y-m]'BB'[y-m]/2) Questa è la densità richiesta, tuttavia è meglio parametrizzare questa distribuzione in modo che sia esplicito, se possibile, il legame con i momenti di Y. Indichiamo con Σ la matrice di varianza e covarianza di Y, ossia V(Y), che abbiamo già visto essere uguale a A'A. Appunti del Prof. M. Chiodi per il corso di Statistica 3 a.a. 2000-2001 Prof. M. Chiodi Introduzione 55 Se vogliamo esprimere V(X) in funzione di V(Y) si ha: V(X)=B' V(Y) B=B'ΣB. Per ipotesi abbiamo però che V(X)=Ip, per cui: • B'ΣB=I e quindi la matrice B diagonalizza Σ, per cui ha colonne proporzionali agli autovettori di Σ divisi per le radici dei rispettivi autovalori (si rivedano eventualmente i teoremi relativi alla diagonalizzazione di matrici, agli autovalori ed agli autovettori). Inoltre, prendendo in esame la relazione B'ΣB=I, premoltiplicando ambo i membri per B e postmoltiplicando per B', si ottiene: BB'ΣBB'=BB' Postmoltiplicando (o premoltiplicando) ora ambo i membri per (BB')-1 (che esiste sempre essendo B, e quindi anche BB', a rango pieno p) si ha: BB'ΣBB'(BB')-1 =BB'(BB')-1 e quindi: BB'Σ =I . Per cui in definitiva si ha: BB' = Σ-1 • • Per cui nella forma quadratica ad esponente nell'espressione di fY(y) potremo sostituire BB' con Σ-1; per potere ottenere il determinante di B che compare in fY(y), basta applicare le note regole sui determinanti delle trasposte, dei prodotti e delle inverse, per vedere che: | B |=| B' | = | BB' |1/2=| Σ-1 |1/2 = | Σ |-1/2 Inoltre essendo Σ definita positiva, il suo determinante è certamente positivo. Appunti del Prof. M. Chiodi per il corso di Statistica 3 a.a. 2000-2001 Prof. M. Chiodi Introduzione 56 C Densità della distribuzione normale multivariata: In conclusione, sostituendo nella densità di y: fY(y)=mod|B| (2π)-p/2 exp[-[y-m]'BB'[y-m]/2] abbiamo: § densità della distribuzione normale (non singolare) multivariata di parametri µ e Σ: fY(y)= | Σ |-1/2(2π)-p/2 exp[-[y-m]'Σ-1[y-m]/2] o anche: fY(y)= 1 | Σ |(2 π) p [y- m ]' Σ -1[y- m ] 2 e con: ♦ E (Y) = m ♦ V (Y)= Σ con funzione caratteristica data da: ♦ φY(t)= exp[it'm-½t'Σt] (i momenti possono essere eventualmente ricavati dalle opportune derivate di φY(t)). Si vede quindi, in analogia al caso univariato, che la distribuzione normale multivariata dipende soltanto dai primi due momenti (multivariati) di Y. Inoltre è evidente che l'indipendenza si può avere solo quando la fY(y) è fattorizzabile nelle rispettive densità marginali, il che può avvenire se (e solo se) Σ è diagonale, ossia con covarianze nulle, e quindi correlazioni lineari semplici nulle, il che porta un'altra fondamentale proprietà della normale multivariata: • il vettore aleatorio Y è a componenti indipendenti se le correlazioni lineari fra le sue componenti prese a due a due sono nulle, ossia se la matrice di varianza e covarianza è diagonale. • Se due variabili sono congiuntamente normali, l'assenza di correlazione implica l'indipendenza. Appunti del Prof. M. Chiodi per il corso di Statistica 3 a.a. 2000-2001 Prof. M. Chiodi Introduzione 57 Inoltre è possibile far vedere, rifacendo a ritroso i passaggi precedenti, che qualsiasi vettore aleatorio Y la cui densità è data da: fY(y)= |C|1/2(2π)-p/2 exp[-[y-m]' C [y-m]/2] (con C definita positiva di rango p) è distribuito secondo una normale multivariata di parametri m e Σ=C-1. Esiste inoltre una trasformazione lineare di Y che conduce ad un vettore aleatorio X a componenti standardizzate e indipendenti: X = B'[Y -m], in cui B è tale che: B'ΣB=I • La distribuzione marginale di un qualsiasi sottoinsieme di componenti di un vettore aleatorio distribuito secondo una normale multivariata è ancora distribuito secondo una normale multivariata con parametri uguali ai corrispondenti sottoinsiemi di m e Σ.Σ • In particolare tutte le distribuzioni marginali delle singole componenti sono normali univariate. • Se il vettore Y è suddiviso in due sottovettori [Y1,Y2], corrispondentemente suddividiamo il vettore delle medie e la matrice di varianza e covarianza: m= Y1 e Y2 m1 m2 Σ= Σ 11 Σ ' 12 Σ 12 Σ 22 (vettori aleatori normali) sono indipendenti se e solo se Σ12=0. Appunti del Prof. M. Chiodi per il corso di Statistica 3 a.a. 2000-2001 Prof. M. Chiodi Introduzione 58 C Distribuzione di combinazioni lineari di variabili normali qualsiasi. Mediante la funzione caratteristica è possibile vedere ora che qualsiasi combinazione lineare di un vettore aleatorio distribuito secondo una qualsiasi normale multivariata si distribuisce ancora secondo una distribuzione normale multivariata: • Infatti dal momento che se Y = AZ, si ha: φY(t)= φZ(t'A), se Z∼Np(mZ , Σ Z) allora: φY(t)=exp[it'AmZ -½t'AΣZ A't] per cui è immediato vedere che questa è ancora la funzione caratteristica di una normale multivariata di parametri AmZ e AΣZA'. Caratterizzazione della distribuzione normale multivariata. Le proprietà viste prima sulla distribuzione congiunta di combinazioni lineari di variabili normali costituiscono addirittura una caratterizzazione della distribuzione normale multivariata. Infatti si ricorda una importante proprietà che caratterizza la distribuzione normale multivariata (di cui non si fornisce la dimostrazione): • X, vettore aleatorio a p componenti, è distribuito secondo una normale multivariata se e solo se b'X è distribuito secondo una normale (univariata) per qualsiasi vettore b di p componenti. E' appena il caso di dire che il calcolo delle probabilità integrali su domini rettangolari della normale multivariata è estremamente complesso, e comunque non riconducibile a trasformazioni semplici di integrali unidimensionali, se le variabili sono correlate. Appunti del Prof. M. Chiodi per il corso di Statistica 3 a.a. 2000-2001 Prof. M. Chiodi Introduzione 59 Ancora va chiarito, sulla genesi della normale multivariata utilizzata in queste righe, che questa è una impostazione utile per ricavare la distribuzione di combinazioni lineari di variabili normali indipendenti: nell'analisi di fenomeni reali ovviamente non è quasi mai ragionevole pensare che delle variabili osservate correlate siano state effettivamente ottenute come combinazione di fattori o variabili non correlate. Appunti del Prof. M. Chiodi per il corso di Statistica 3 a.a. 2000-2001 Prof. M. Chiodi Introduzione 60 Assi principali degli ellissoidi di equiprobabilità E' immediato vedere che le curve con densità f(y) costante per la normale multivariata di parametri m e Σ sono, in uno spazio pdimensionale, degli ellissoidi di centro in m, e di equazione: | Σ |-1/2(2π)-p/2 exp(-[y-m]'Σ-1[y-m]/2)=costante e quindi: [y-m]'Σ-1[y-m]=k § E' facile vedere quindi che al variare del livello costante k, cambia solo il volume dell'ellissoide, ma le proporzioni fra gli assi restano inalterate; § le equazioni degli assi principali di tali ellissoidi sono date dagli autovettori di Σ; § i quadrati delle lunghezze degli assi principali di tali ellissoidi sono proporzionali agli autovalori di Σ. § Se Σ è diagonale, gli ellissoidi hanno assi paralleli agli assi coordinati e lunghezza proporzionale agli scarti quadratici medi delle singole componenti. § Si può fare vedere che gli autovettori danno le direzioni degli assi principali impostando ancora un problema di massimo, ossia cercando i due punti sulla superficie dell'ellisse che hanno distanza massima. Appunti del Prof. M. Chiodi per il corso di Statistica 3 a.a. 2000-2001 Prof. M. Chiodi Introduzione 61 Densità di una normale bivariata standard due variabili standardizzate e indipendenti superficie e curve di livello Densità di una normale bivariata non standard due variabili standardizzate e con correlazione r=0,7 superficie e curve di livello Appunti del Prof. M. Chiodi per il corso di Statistica 3 a.a. 2000-2001 Prof. M. Chiodi Introduzione 62 Esempi e grafici sulla normale trivariata 1). Normale trivariata a media nulla con Matrice di varianze e covarianze: Con autovalori: Ellissoidi di equidensità (sono due sezioni tridimensionali della densità (a 4D) Scalato in modo tale che la Scalato in modo tale che la probabilità che un punto probabilità che un punto risulti interno all'ellissoide è risulti interno all'ellissoide è del 90% del 50% Appunti del Prof. M. Chiodi per il corso di Statistica 3 a.a. 2000-2001 Prof. M. Chiodi Introduzione 63 2. Normale trivariata a media nulla con Matrice di varianze e covarianze: Con autovalori: Ellissoidi di equidensità (sono due sezioni tridimensionali della densità (a 4D) Scalato in modo tale Scalato in modo tale che la che la probabilità che probabilità che un punto risulti un punto risulti interno interno all'ellissoide è del 50% all'ellissoide è del 90% Dalla figura a fianco si vedono le caratteristiche della distribuzioni condizionate. Appunti del Prof. M. Chiodi per il corso di Statistica 3 a.a. 2000-2001 Prof. M. Chiodi Introduzione 64 2. Normale trivariata a media nulla con Matrice di varianze e covarianze: Ellissoide di equidensità (è una sezione tridimensionale della densità (a 4D) Scalato in modo tale che la probabilità che un punto risulti interno all'ellissoide è del 50% Appunti del Prof. M. Chiodi per il corso di Statistica 3 a.a. 2000-2001 Prof. M. Chiodi Introduzione 65 C Forme quadratiche in variabili normali standardizzate e indipendenti. Sia X un vettore di variabili casuali a p componenti indipendenti, ciascuna distribuita secondo una normale standardizzata, ossia X∼Np(0p,Ip). p E’ noto che ∑ Xi2∼χ2p, (oppure X' X∼χ2p). i=1 In effetti questa è proprio la definizione di una variabile casuale di tipo chi-quadrato con p gradi di libertà, che risulta avere una distribuzione gamma di parametro di forma c=p/2 e parametro di scala λ. Più in generale ci si potrebbe chiedere se si può ricavare la distribuzione di una forma quadratica qualsiasi in variabili normali standardizzate, ossia Q=X' A X, e per quali matrici A questa forma quadratica risulta ancora distribuita come una chi-quadrato. E’ facile vedere che la forma quadratica p Q= X' A X si distribuisce come ∑ λiχ²1, i=1 ove i λi sono gli autovalori di A; Questo risultato si ricava facilmente dalla decomposizione spettrale della matrice A, in quanto si può scrivere: A= ΓΛΓ', per cui: Q= X' ΓΛΓ'X, e il vettore aleatorio W = Γ'X è ovviamente normale a componenti standardizzate e indipendenti, data l'ortogonalità di Γ (una rotazione ortogonale di una iper-sfera conduce sempre ad una iper-sfera!). Quindi segue facilmente in modo naturale il risultato scritto prima. Esprimendo in modo più formale si ha: posto W = Γ'X, essendo le colonne di Γ gli autovettori (ortogonali: Γ'Γ=Ι) di A, si ha per i momenti di W: E(W) = Γ'E(X)=0 e V(W)= Γ'V(X) Γ= Γ' I Γ=I Il vettore aleatorio W è dunque composto da p variabili normali, standardizzate e indipendenti. Tornando ora alla forma quadratica Q si ha: Appunti del Prof. M. Chiodi per il corso di Statistica 3 a.a. 2000-2001 Prof. M. Chiodi Introduzione 66 p Q= X' A X = X' ΓΛΓ'X = W' Λ W= ∑ λiWi2 i=1 Le componenti Wi2 sono chiaramente distribuite come delle chiquadrato (indipendenti) con un grado di libertà. Pertanto Q è distribuita come una combinazione lineare di p variabili casuali chi-quadrato indipendenti con un grado di libertà, con coefficienti dati dagli autovalori di A. In ogni caso è possibile calcolare i momenti di Q in quanto combinazione lineare di v.c. χ²1 indipendenti: p p E(Q)= ∑ λi E(χ²1) = ∑ λi i=1 i=1 p p 2 V(Q)= ∑ λi V(χ²1) = 2 ∑ λi2 i=1 i=1 Se (e solo se) gli autovalori di A sono tutti uguali a 0 o a 1, ossia se (e solo se) A è idempotente, Q=X'AX si distribuisce come una variabile casuale χ²r, per la proprietà additiva delle v.c. χ², essendo r il rango di A, ossia il numero degli autovalori λi uguali ad uno Infatti si vede immediatamente che, se A è idempotente di rango r, si ha: λ1 = λ2 =...= λr=1 e λr+1 = λr+2 =...= λp=0 p r p r per cui: ∑ λiχ²1= ∑ 1⋅χ²1 + ∑ 0⋅χ²1= ∑ χ²1 ∼ χ²r i=1 i=1 i=r+1 i=1 Per dimostrare che l'idempotenza di A è condizione necessaria e sufficiente perchè Q sia distribuita come una chi-quadrato (prima abbiano visto che l'idempotenza di A è condizione sufficiente), conviene ricorrere alla funzione caratteristica di Q, che è data da: p 2 φQ(t)=E{exp(i t X' A X)}=E{exp(i t ∑ λi Xi )}= i=1 Appunti del Prof. M. Chiodi per il corso di Statistica 3 a.a. 2000-2001 Prof. M. Chiodi Introduzione 67 p p = ∏ E{exp(i t λi Xi2)}= ∏ (1-2 i t λi)-1/2 i=1 i=1 (dato che Xi2 è distribuito come una chi-quadrato con un grado di libertà, l'ultimo passaggio deriva dalla funzione caratteristica della v.c. chi-quadrato). Ancora si può osservare che 1-2 i t λi è un autovalore della matrice: I-2 i t A e quindi la produttoria di tali autovalori (1-2 i t λi) è uguale al determinante della suddetta matrice: p φ(t)= ∏ (1-2 i t λi)-1/2=| I-2 i t A|-1/2 i=1 Perché Q sia distribuita come una chi-quadrato, occorre che la sua funzione caratteristica φQ(t) sia identicamente uguale a quella di una v.c. χ2 per qualsiasi valore dell’argomento t. Poichè la funzione caratteristica di una v.c. χ2 con ν gradi di libertà è data da: φχ2(t)=(1-2 i t)- ν/2, mentre per la funzione caratteristica di Q si è visto che: p -1/2 φQ(t)= ∏ (1-2 i tλi) . i=1 Per avere φχ2(t)= φQ(t) per qualsiasi t, occorre che i coefficienti λi siano o zero o uno, di modo che i corrispondenti termini della produttoria in -1/2 φQ(t) siano uguali ad uno (se λi =0) oppure a (1-2it) (se λi=1); se sono r (rango di A) quelli uguali ad uno, si avrà in definitiva: -r/2 φQ(t)= (1-2 i t) , che è la funzione caratteristica di una chi-quadrato con r gradi di libertà. Esempio Ad esempio si consideri la matrice seguente: 16/25 A = 12/25 12/25 9/25 Appunti del Prof. M. Chiodi per il corso di Statistica 3 a.a. 2000-2001 Prof. M. Chiodi Introduzione 68 Tale matrice simmetrica risulta idempotente di rango 1, come è facile verificare effettuando il prodotto AA, oppure verificando che λ1=1 e λ2=0. Supponendo di avere un vettore aleatorio X costituito da due variabili casuali normali standardizzate e indipendenti, X1 e X2, la forma quadratica Q=X'AX risulta data da: Q=a11X²1 + a22X²2 + 2a12X1X2= (16X²1 + 9X²2 + 24X1X2)/25, e infine: Q=[(4/5)X1 + (3/5)X2] 2 E' immediato verificare che Q si distribuisce secondo una chi-quadrato con un grado di libertà, senza bisogno di applicare il teorema generale sulla distribuzione delle forme quadratiche. Infatti la variabile: Z=(4/5)X1 + (3/5)X2 è distribuita normalmente (in quanto combinazione lineare di variabili normali) con media zero e varianza unitaria. Infatti: E[Z] ==(4/5)E[X1] + (3/5)E [X2]=0 Var[Z] =(4/5)2Var[X1] + (3/5) 2Var [X2]=16/25+9/25=1 (Cov[X1,X2]=0 per l'indipendenza). Quindi Q è uguale al quadrato di una normale standardizzata, e quindi segue una distribuzione chi-quadrato con un grado di libertà. Forme quadratiche scarti dalla media. idempotenti: somma dei quadrati degli Prendiamo ora in esame una forma quadratiche già nota, ossia la somma dei quadrati degli scarti dalla propria media aritmetica di n variabili casuali normali indipendenti Xi. Tipicamente le variabili saranno quelle corrispondenti ad un campione a n componenti i.i.d.(e quindi il vettore aleatorio è al solito: XT= {X1,...,Xn}). Interessa dunque la distribuzione della quantità: n Q= ∑ (Xi – M)2 i=1 avendo indicato con M la variabile casuale media aritmetica delle n componenti Xi: Appunti del Prof. M. Chiodi per il corso di Statistica 3 a.a. 2000-2001 Prof. M. Chiodi Introduzione 69 n M = ∑ Xi/n che si può anche scrivere: M = 1nTX /n, i=1 essendo al solito 1n un vettore di n elementi uguali ad uno. Allora la somma dei quadrati vettoriale con semplici passaggi: degli scarti si può scrivere in notazione n Q= ∑ (Xi – M)2=[X-1n M]'[X-1n M]= i=1 =[X-1n 1nTX /n]'[X-1n 1nTX /n] =X' [I-1n 1nT/n]'[I-1n 1nT/n]X T Posto ora U=1n 1n /n, è facile vedere che U è idempotente di rango 1: è composta da n×n elementi tutti uguali a 1/n; quindi sono idempotenti (ma di rango n-1) anche I-U, e [I-U]'[I-U], per cui possiamo scrivere: n 2 Q= ∑ (Xi – M) = X'[I -U]X i=1 e Q è distribuita secondo una χ²n-1. Esempio numerico Con n=5 si supponga di avere le 5 osservazioni xi: {3,5,8,9,10}, con media aritmetica M=7. La somma dei quadrati degli scarti (osservati!) è data da: n Q= ∑ (xi – M)2=16+4+1+4+9=34. i=1 E' facile vedere che la matrice U è data da: U= 0,2 0,2 0,2 0,2 0,2 0,2 0,2 0,2 0,2 0,2 0,2 0,2 0,2 0,2 0,2 0,2 0,2 0,2 0,2 0,2 0,2 0,2 0,2 0,2 0,2 Indicato quindi con x il vettore delle 5 osservazioni, si verifichi il risultato fornito dal prodotto x'[I -U]x: Appunti del Prof. M. Chiodi per il corso di Statistica 3 a.a. 2000-2001 Prof. M. Chiodi Introduzione x'[I -U]x=( 3 5 8 9 10 ) 0,8 -0,2 -0,2 0,8 -0,2 -0,2 -0,2 -0,2 -0,2 -0,2 -0,2 -0,2 0,8 -0,2 -0,2 70 -0,2 -0,2 -0,2 -0,2 -0,2 -0,2 0,8 -0,2 -0,2 0,8 3 5 8 = 9 10 = 32×0,8+52×0,8+...+102×0,8-2×0,2×3×5-...= 34 Distribuzione multivariata. dell'esponente della distribuzione normale Sia Y un vettore di variabili casuali a p componenti, distribuita secondo una normale multivariata qualsiasi, ossia Y∼ Np(m , Σ) Si può dimostrare che la variabile casuale corrispondente alla forma quadratica che figura al numeratore dell’esponente della funzione di densità, ossia: Q=(Y-m)' Σ-1 (Y-m), segue una distribuzione chi-quadrato con p gradi di libertà. Infatti il risultato si mostra facilmente ricorrendo ad una opportuna trasformazione lineare (già impiegata) X = B'[Y -m], in cui B è tale che: B'ΣB=I, e Σ-1 =BB'. Pertanto: Q =(Y-m)' Σ-1 (Y-m)=(Y-m)' BB' (Y-m)= =[(Y-m)' B][B' (Y-m)]= X'X ∼χ²p Per cui Q si distribuisce come la somma di p variabili normali standardizzate, ossia come una chi-quadrato con p gradi di libertà In definitiva: se Y∼Np(m , Σ), allora (Y-m)' Σ-1(Y-m) ∼ χ²p Esempio numerico Y∼N2(0 , Σ), Appunti del Prof. M. Chiodi per il corso di Statistica 3 a.a. 2000-2001 Prof. M. Chiodi Introduzione 1 2 1 con Σ= 1 1 e quindi Σ-1= -1 pertanto la forma quadratica: 1 Q =Y' -1 71 -1 2 ; -1 2 Y= Y²1 +2 Y²2 -2 Y²1 Y²2 ∼χ²2. segue una distribuzione chi-quadro con due gradi di libertà. Appunti del Prof. M. Chiodi per il corso di Statistica 3 a.a. 2000-2001 Prof. M. Chiodi Introduzione 72 Indipendenza di forme quadratiche e combinazioni lineari di variabili normali. Sia X un vettore di variabili casuali a p componenti indipendenti, ciascuna distribuita secondo una normale standardizzata, ossia X∼Np(0p,Ip). Valgono alcuni teoremi sull’indipendenza fra forme quadratiche in X e combinazioni lineari in X, che si basano sulle proprietà dei vettori dei coefficienti che determinano le forme quadratiche e le combinazioni lineari. Si abbiano due forme quadratichein variabili normali indipendenti: Q1= X' A1 X • e Q2= X' A2 X Le due forme quadratiche Q1 e Q2 sono indipendenti se e solo se A1 A2 = 0(pxp) (essendo ovviamente A1 e A2 matrici quadrate simmetriche, ed essendo 0(p×p) una matrice quadrata composta di zeri); Si abbia la forma quadratica Q=X' A' X, e la combinazione lineare Z=b'X • La forma quadratica Q e la combinazione lineare Z sono indipendenti se e solo se A b = 0p (essendo b un vettore di p elementi e 0p il vettore nullo di p componenti) Appunti del Prof. M. Chiodi per il corso di Statistica 3 a.a. 2000-2001 Prof. M. Chiodi Introduzione 73 C Teorema di Cochran: Supponiamo di avere una somma di quadrati di p variabili normali standardizzate e indipendenti, ossia: Q=X' X o, più in generale, una forma quadratica Q=X' A X, con A idempotente di rango p. In questo caso il numero delle componenti di X potrà essere in generale maggiore di p; il punto essenziale è che Q abbia una distribuzione chi-quadrato con p gradi di libertà. Supponiamo di saper scomporre algebricamente Q nella somma di k forme quadratiche: k k Q = X' X = ∑ X' Ai X = ∑ Qi, i=1 i=1 avendo posto: Qi= X' Ai X, ed essendo per ipotesi: Q ∼ χ²p Il teorema di Cochran stabilisce delle relazioni di importanza fondamentale in merito alle caratteristiche delle distribuzioni delle singole componenti Qi. Appunti del Prof. M. Chiodi per il corso di Statistica 3 a.a. 2000-2001 Prof. M. Chiodi Introduzione 74 TEOREMA DI COCHRAN Una qualsiasi delle seguenti tre condizioni implica le altre due: ♦ k ∑ ρ(Ai) = p= ρ(A) i=1 1 (in generale la somma dei ranghi delle singole componenti deve eguagliare il rango di A) ♦ tutte le k forme quadratiche Qi= X' Ai X hanno una distribuzione χ² 2 che corrisponde a : tutte le Ai devono essere idempotenti; ♦ tutte le k forme quadratiche Qi= X' Ai X sono a due a due indipendenti, 3 che corrisponde a: Ai Aj =0 per qualsiasi coppia i≠j. L'importanza di tale teorema nell'ambito della teoria normale sui modelli lineari è cruciale; in generale a ciascuna delle k componenti si farà corrispondere una particolare fonte di variabilità o un gruppo di parametri. Ai fini pratici se per esempio se si vuole applicare ad una particolare scomposizione la proprietà 2, per poi dedurne la 1 e la 3, non è necessario esplicitare le singole matrici Ai, ma è sufficiente sapere che si è scomposta Q in forme quadratiche nelle variabili aleatorie Xi. In effetti esiste una formulazione ancora più generale del teorema, che prende in considerazione distribuzioni χ² non centrali, ossia forme quadratiche in variabili normali con speranza matematica diversa da zero, utile per la generalizzazione alla distribuzione di determinate quantità test non solo sotto H0 ma anche sotto H1. Per non appesantire questi appunti non riporto questa generalizzazione: se ne farà cenno più avanti soltanto quando sarà necessario. Esempio. Come esempio si rifletta sulla nota scomposizione per la somma dei quadrati di n variabili normali standardizzate indipendenti: Appunti del Prof. M. Chiodi per il corso di Statistica 3 a.a. 2000-2001 Prof. M. Chiodi Introduzione n n i=1 i=1 75 ∑ Xi2= ∑ (Xi – M)2 +nM2 Per applicare il teorema di Cochran è sufficiente far vedere che i due addendi sulla destra sono forme quadratiche in variabili normali di rango n-1 e 1: è immediato verificarlo senza bisogno di esplicitare le matrici, n perché ∑ (Xi – M)2 è palesemente una forma quadratica con un vincolo i=1 n lineare ( ∑ (Xi – M)=0), mentre M2 ha ovviamente un solo grado di libertà. i=1 Appunti del Prof. M. Chiodi per il corso di Statistica 3 a.a. 2000-2001 Prof. M. Chiodi Introduzione 76 C Distribuzioni condizionate Una proprietà fondamentale della normale, che oltretutto la caratterizza, riguarda le distribuzioni di un gruppo di componenti condizionatamente ai valori di un altro gruppo di componenti. Questo argomento viene trattato adesso, senza limitarci ad esporre i risultati fondamentali, ma anzi entrando con un certo dettaglio, per tre ordini di ragioni: § La peculiarità delle caratteristiche delle distribuzioni condizionate nella normale multivariata, che ne rappresenta un aspetto fondamentale; § La possibilità di dare un significato statistico autonomo agli elementi dell'inversa della matrice di correlazione di una variabile multipla normale § Come premessa indispensabile ai modelli lineari che tratteremo ampiamente in questo corso Come si vedrà nelle pagine successive, la distribuzione di un gruppo di variabili YA condizionata ad un particolare valore yB assunto da un altro gruppo di YB è ancora normale ed inoltre: • La funzione di regressione di una componente YA rispetto alle altre componenti è lineare. • La distribuzione ha una matrice di varianze e covarianze che non dipende dai valori della componente condizionante (omoscedasticità). I risultati esposti in queste pagine generalizzano le proprietà note per distribuzioni normali bivariate, in cui le due funzioni di regressione di ciascuna delle due variabili rispetto all'altra è lineare, ed inoltre le distribuzioni condizionate sono normali e di uguale varianza. In effetti ci porremo il problema nella forma più generale della distribuzione di un gruppo di variabili normali condizionatamente ad un altro gruppo di variabili normali, nota la loro distribuzione congiunta. Significato degli elementi dell'inversa della matrice di varianza e covarianza. Sarà anche possibile dare un significato agli elementi dell'inversa di . in termini di distribuzioni condizionate. Infatti si dimostrerà che se C=Σ-1, allora: § cij=0 è condizione necessaria e sufficiente perché le variabili Yi e Yj siano indipendenti condizionatamente alle altre p-2 variabili. Appunti del Prof. M. Chiodi per il corso di Statistica 3 a.a. 2000-2001 Prof. M. Chiodi Introduzione 77 Distribuzione condizionata nel caso generale di un gruppo di componenti rispetto ad un altro gruppo di componenti. Supponiamo di avere un vettore Y di p componenti, con distribuzione normale multivariata, suddiviso nel caso più generale in due sottovettori [YA,YB], con corrispondente suddivisione del vettore delle medie e della matrice di varianze e covarianze: YA Y= YB Σ = m= µA µB Σ AA Σ ' AB ΣΑB ΣΒΒ I due insiemi di indici A e B costuituiscono una partizione dell'insieme di indici I={1,2,...,p} così che: A∪B=I A∩B=∅ A≠∅ B≠∅ per il resto A e B sono costituiti da sottoinsiemi di indici qualsiasi (con la restrizione che esistano le inverse delle matrici di varianze e covarianze che si richiederanno nel seguito). • Ci chiediamo qual è la funzione di regressione di YA su YB, ossia la speranza matematica di YA condizionata ad un particolare valore yB di YB: E[YA| YB=yB]= ?? • In generale ci chiediamo direttamente qual è la distribuzione di YA condizionata ad un particolare valore yB di YB. Per trovare la funzione di regressione nel caso generale, ricaviamo prima la densità della distribuzione di YA condizionata ad un particolare valore yB assunto da YB. Per comodità lavoriamo con variabili XA, XB con speranze matematiche nulle, ponendo: XA= YA-mA XB= YB-mB Appunti del Prof. M. Chiodi per il corso di Statistica 3 a.a. 2000-2001 Prof. M. Chiodi Introduzione 78 Ovviamente la matrice di varianze e covarianze di X è uguale a quella di Y. E' opportuno richiamare le formule per la semplificazione degli elementi dell'inversa della matrice partizionata delle varianze e covarianze di Y: -1 Σ = -1 -1 -1 - Σ AA.B Σ AB Σ BB -1 Σ BB +I] -1 -1 - Σ AA.B Σ AB Σ BB Σ AA.B -1 -1 Σ BB [ Σ ' AB Σ AA.B Σ AB avendo posto: -1 ΣAA.B= ΣAA-ΣABΣBB Σ'AB. Indichiamo con ΣST il blocco corrispondente al posto di ΣST (S=A,B;T=A,B) nell'inversa Σ-1, così che: Σ AA -1 ; =ΣAA.B Σ AB Σ BA Σ BB -1 -1 ΣAB ΣBB ; = -ΣAA.B -1 -1 Σ'AB ΣAA.B ; = - ΣBB -1 -1 -1 ΣAB ΣBB +I]. [Σ'AB ΣAA.B =Σ BB ad esempio ΣAA (blocco dell'inversa Σ-1 -1 (inversa del blocco di Σ corrispondente agli indici AA) con ΣAA corrispondente agli indici AA) (coincidono solo se ΣAB=0) Non si confonda Ricaviamo dai noti teoremi del calcolo delle probabilità la densità della distribuzione condizionata di XA: f XA|XB=xB (xA|XB=xB)= fX A X B( x A, x B) fX B( x B) E' più comodo lavorare sui logaritmi ed in particolare su –2log f (in modo da trasformare solo le forme quadratiche a numeratore dell'esponente nella densità normale), indicando per brevità con K la costante di normalizzazione, che si può determinare dopo: -2 log [f(xA,xB)/f(xB)]= -1 = K + x' Σ-1 x - xB' ΣBB xB= -1 = K + xA' ΣAA xA+2xA' ΣABxB+xB' ΣBB xB - xB' ΣBB xB= (sostituendo gli opportuni blocchi di Σ-1) Appunti del Prof. M. Chiodi per il corso di Statistica 3 a.a. 2000-2001 Prof. M. Chiodi Introduzione 79 -1 -1 -1 = K + xA' ΣAA.B xA-2xA' ΣAA.B ΣAB ΣBB xB+ -1 -1 -1 -1 +xB' ΣBB [Σ'AB ΣAA.B ΣAB ΣBB +I]xB- xB' ΣBB xB= -1 -1 -1 = K + xA' ΣAA.B xA-2xA' ΣAA.B [ΣAB ΣBB xB]+ -1 -1 -1 +[xB' ΣBB Σ'AB] ΣAA.B [ΣAB ΣBB xB ]= -1 -1 -1 = K + [xA- ΣAB ΣBB xB]'ΣAA.B [xA- ΣAB ΣBB xB] Per cui è chiaro dall'ultima forma quadratica, che si tratta del numeratore dell'esponente di una distribuzione normale di parametri ♦ mX | -1 = ΣAB ΣBB xB | -1 AA -1 = ΣAA.B=ΣAA-ΣABΣBB Σ'AB = (Σ ) A XB=xB ♦ ΣX A XB=xB (La costante K è ricavabile dalla condizione di normalizzazione, ma si può comunque verificare effettuando il rapporto fra i termini costanti delle due densità, tenendo presente che per matrici partizionate si ha: ♦ -1 Σ 'AB|| Σ BB|=| Σ AA.B|| Σ BB| | Σ |=| Σ AA- Σ AB Σ BB Per cui la distribuzione condizionata è: -1 XA|xB∼N[ΣAB ΣBB xB; Σ AA.B] e quindi si ha: Appunti del Prof. M. Chiodi per il corso di Statistica 3 a.a. 2000-2001 Prof. M. Chiodi Introduzione 80 Distribuzioni condizionate nel caso generale di vettori aleatori normali: • -1 YA|yB∼N[mA+ΣABΣBB (yB-mB); Σ AA.B] La distribuzione condizionata è normale multivariata • -1 E(YA|yB)= mA + ΣAB ΣBB (yB-mB) la funzione di regressione (speranza matematica condizionata) è lineare in yB • -1 AA -1 V(YA|yB)= ΣAA.B= ΣAA-ΣABΣBB Σ'AB= (Σ ) la matrice di varianze e covarianze condizionate non dipende da yB (omoscedasticità) • i vettori casuali: -1 [YB-mB]) e YB YA – (mA+ΣABΣBB -1 YB e YB) (oppure YA –ΣABΣBB risultano indipendenti (si verifica subito calcolndo E(YA YB') (vedere anche > > )(figure varie) Appunti del Prof. M. Chiodi per il corso di Statistica 3 a.a. 2000-2001 Prof. M. Chiodi Introduzione 81 Esempio numerico: Si consideri la matrice 3×3 di varianza e covarianza relativa a 3 variabili normali: 3 1 1 1 2 1 . Σ= 1 1 1 Consideriamo la distribuzione della variabile 1 condizionatamente alla 2 e alla 3. La matrice di varianze e covarianze va quindi partizionata seguente modo: Σ= 3 1 1 1 2 1 1 1 1 2 Mentre ΣBB= 1 1 1 Appunti del Prof. M. Chiodi per il corso di Statistica 3 a.a. 2000-2001 Prof. M. Chiodi Introduzione 82 C Significato degli elementi dell'inversa della matrice di varianza e covarianza. E' possibile dare anche un significato agli elementi dell'inversa di Σ, in termini di distribuzioni condizionate, nel caso in cui Σ sia la matrice di varianza e covarianza di variabili aleatorie normali; si vedrà come tali concetti possano essere estesi al caso di variabili aleatorie non normali o, meglio, nell'analisi di dati multivariati, al caso di variabili statistiche osservate. Gli elementi parziale non diagonali dell'inversa: la correlazione Intanto, con riferimento ad una distribuzione normale multivariata con matrice dik varianze e covarianze Σ, si può dimostrare che se C=Σ-1, allora: § cij=0 è condizione necessaria e sufficiente perché le variabili Yi e Yj siano indipendenti condizionatamente alle altre p-2 variabili YB. Si può giungere al risultato in due modi: 1. Dalla densità normale multivariata si vede direttamente che: se e solo se cij=0 si ha la fattorizzazione: f(y)= f(yi, yB) f(yj, yB) che è una condizione necessaria e sufficiente per l'indipendenza condizionata di due variabili aleatorie qualsiasi dotate di densità. Infatti, ponendo YA=(Yi,Yj)' e indicando con YB tutte le altre componenti, avendo indicato con C l'inversa della matrice di varianza e covarianza opportunamente partizionata: C= cii cij cij cjj c iB c jB c iB' c jB' C BB si ha: f(y)= f(yi, yj, yB)= K×exp[-(y'C y)/2] = K×exp[-(ciiyi2+ cjj yj2+2 cij yi yj+2yiciB' yB+2yjcjB' yB+ yB'CBB yB)/2] Se ora cij=0 allora si può facilmente operare su f(y): Appunti del Prof. M. Chiodi per il corso di Statistica 3 a.a. 2000-2001 Prof. M. Chiodi Introduzione 83 f(y)= K×exp[-(ciiyi2+ cjj yj2+2yiciB' yB+2yjcjB' yB+ yB'CBB yB)/2]= =K 2 ×exp[-(ciiyi 2 ×exp[-(cjj yj +2yiciB' yB+ yB'CBB yB)/2] g(yi, yB)× +2yjcjB' yB)/2] g(yj, yB) in modo da ottenere la fattorizzazione desiderata in due funzioni, in cui non compaiono simultaneamente termini in yi e yj 2. Per una interpretazione in generale del significato dei termini dell'inversa, e non solo per il caso estremo cij=0, conviene riferirsi alle distribuzioni condizionate. Dalla distribuzione di YA condizionata a YB=yB, ponendo YA=(Yi,Yj)' (e quindi nella notazione della sezione precedente A è uguale alla coppia di indici {i,j} e B all'insieme degli altri p-2 indici) si ricava che essendo la distribuzione condizionata di YA ancora normale, l'indipendenza condizionata si ha se e solo se Yi,Yj risultano non correlati, condizionatamente a YB=yB. § Si è visto che: AA -1 -1 -1 Σ'AB= (Σ ) = ΣAA-ΣABΣBB V(YA|yB)= ΣAA.B cioè la varianza condizionata di YA è uguale all'inversa del blocco di elementi corrispondenti ad YA nell'inversa di Σ. Nel caso di due variabili i e j, occorre invertire la matrice 2×2 di elementi: Σ = AA cii cij cij cjj e quindi: (Σ Σ cjj ) = -c ij AA -1 -cij 2 cii /(cii cjj- cij ) pertanto Yi e Yj sono non correlati condizionatamente alle altre p-2 variabili, e quindi indipendenti data la normalità della distribuzione condizionata, se e solo se cij=0. Appunti del Prof. M. Chiodi per il corso di Statistica 3 a.a. 2000-2001 Prof. M. Chiodi • Introduzione 84 Dagli elementi di (ΣΣAA)-1 è possibile calcolare l'indice di correlazione fra Yi e Yj condizionatamente a YB: • corr(Yi,Yj|YB=yB)= -cij cii cjj = - σ ij ii σ σ jj (essendo σij il cofattore di σij in Σ) indice di correlazione lineare parziale ossia correlazione fra due variabili eliminata l'influenza delle altre p-2 variabili Appunti del Prof. M. Chiodi per il corso di Statistica 3 a.a. 2000-2001 Prof. M. Chiodi Introduzione Esempi sulla differenza l'indipendenza marginale fra 85 l'indipendenza condizionata e L'indipendenza condizionata e l'indipendenza marginale sono due concetti diversi, e nessuno dei due implica l'altro: Esempio: Si ha una tavola 2×2×2 di tre mutabili A,B, e C. Le due tavole A×B condizionate ai valori di C sono: C=c1 a1 a2 tot. b1 0,24 0,56 0,80 b2 0,06 0,14 0,20 tot. 0,30 0,70 1,00 C=c2 a1 a2 tot. b1 0,12 0,18 0,30 b2 0,28 0,42 0,70 tot. 0,4 0,6 1,00 § In queste distribuzioni condizionate A e B sono indipendenti se P(C=c1)= P(C=c1)=1/2 la tavola marginale A×B è: b1 0,18 0,37 0,55 C tot. a1 a2 tot. § b2 0,17 0,28 0,45 tot. 0,35 0,65 1,00 Nella distribuzione marginale A e B non sono indipendenti. Si può presentare il caso opposto, di caratteri indipendenti marginalmente e associati condizionatamente (paradosso di Simpson). Si ha un'altra tavola 2×2×2 di tre mutabili A,B, e C. Le due tavole A×B condizionate ai valori di C sono ora: C=c1 a1 a2 tot. b1 0,5 0 0,5 b2 0 0,5 0,5 tot. 0,5 0,5 1 C=c2 a1 a2 tot. b1 0 0,5 0,5 b2 0,5 0 0,5 tot. 0,5 0,5 1 § In queste distribuzioni condizionate A e B sono associati (addirittura sono massimamente associati) se P(C=c1)= P(C=c1)=1/2 la tavola marginale A×B è: C tot. a1 a2 tot. § b1 0,25 0,25 0,5 b2 0,25 0,25 0,5 tot. 0,5 0,5 1 Nella distribuzione marginale A e B sono indipendenti (addirittura equidistribuite) Appunti del Prof. M. Chiodi per il corso di Statistica 3 a.a. 2000-2001 Prof. M. Chiodi Gli elementi multipla Introduzione non diagonali dell'inversa: 86 la correlazione Anche gli elementi sulla diagonale principale di Σ-1 sono interpretabili tenendo conto delle distribuzioni condizionate, ma in termini di variabilità spiegata di una variabile rispetto a tutte le altre, concetto che rivedremo poi nel caso di modelli lineari generali. Infatti se ora consideriamo l'insieme YA costituito da una sola variabile Yi (e quindi nella notazione adottata finora A è uguale all'indice i e B all'insieme degli altri p-1 indici), si ha per la varianza di Yi condizionata ai valori delle altre p-1 variabili: V(Yi |yB)=( Σ AA)-1=1/cii= |Σ|/σii § Quindi l'inverso di un elemento diagonale dell'inversa della matrice di varianze e covarianze esprime la varianza della variabile di posto corrispondente condizionatamente alle altre p-1 variabili. § Il massimo di questa quantità è proprio la varianza della componente i-esima, ossia σ2i Se Σ è una matrice Z di correlazione, allora 1/cii indica la variabilità di Yi non spiegata dalle altre p-1 variabili, per cui si può costruire il coefficiente di determinazione multipla: R2i.{B}=1-|Z|/zii =1-1/cii=1- V(Yi | Y B) V(Yi) ; Misura quanta parte della variabilità di Yi è spiegata dalle altre p-1 variabili del vettore aleatorio YB In generale l'indice di correlazione lineare multipla è dato da: Ri.{B}= 1-| Σ |/[ σ 2i σ ii] = 1-1/( σ 2i cii) Appunti del Prof. M. Chiodi per il corso di Statistica 3 a.a. 2000-2001 Prof. M. Chiodi Introduzione 87 Esempio Date le rilevazioni di p=7 misure antropometriche su un insieme di n=1432 bambini, si è calcolata la matrice di correlazione Z che segue: Z= i j j j j j j j j j j j j j j j j j j k 1.000 0.719 0.584 0.464 0.751 0.734 0.890 0.719 1.000 0.912 0.519 0.754 0.838 0.690 0.584 0.912 1.000 0.469 0.695 0.771 0.578 0.464 0.519 0.469 1.000 0.488 0.474 0.461 0.751 0.754 0.695 0.488 1.000 0.765 0.779 0.734 0.838 0.771 0.474 0.765 1.000 0.706 0.890 y z 0.690 z z z z 0.578 z z z 0.461 z z z z 0.779 z z z z 0.706 z z 1.000 { Ad esempio la correlazione lineare (marginale, ossia senza tenere conto della presenza delle altre variabili) fra le prime due variabili è di 0,719. Da questa matrice di correlazione si è calcolata l'inversa C: C= i j j j j j j j j j j j j j j j j j j k 5.785 -1.832 1.346 -1.832 9.666 -6.124 -0.407 -0.134 -1.775 0.053 -6.124 1.346 -0.090 -0.216 -0.784 -3.902 6.593 -0.030 -0.667 -0.467 0.075 -0.090 -0.407 -0.030 1.423 -0.216 -0.134 -0.667 -0.207 -0.207 -0.008 -0.112 3.603 -0.784 -1.775 -0.467 -0.008 -0.862 -0.862 -1.432 -0.036 4.111 -3.902 y z 0.053 z z z z 0.075 z z z z -0.112 z z z -1.432 z z z z -0.036 z z 5.586 { e quindi si è calcolata la matrice P che ha come elemento generico -cij , correlazione parziale fra due variabili, Xi e Xj, tenute rij.B= cii cjj costanti le altre 5: P= i j j j j j j j j j j j j j j j j j j k -1.000 0.245 -0.218 0.245 -0.218 0.031 0.047 0.161 0.686 -1.000 0.767 -1.000 0.010 0.137 0.090 -0.012 0.767 0.110 0.023 0.282 -0.007 0.031 0.110 0.010 -1.000 0.091 0.003 0.040 0.047 0.023 0.137 0.091 -1.000 0.224 0.319 0.161 0.282 0.090 0.003 0.224 -1.000 0.007 0.686 y z -0.007 z z z z -0.012 z z z 0.040 z z z z 0.319 z z z z 0.007 z z -1.000 { (ovviamente in questa matrice gli elementi diagonali non vanno considerati) Si vede che la correlazione lineare (parziale, o meglio condizionata, ossia tenute costanti le altre variabili) fra le prime due variabili è di 0,245. Buona parte quindi della correlazione marginale è indotta dall'influenza delle altre 5 variabili, ossia la covariazione delle prime due variabili insieme alle altre 5. Se invece trasformiamo gli elementi diagonali di C, mediante la relazione: Appunti del Prof. M. Chiodi per il corso di Statistica 3 a.a. 2000-2001 Prof. M. Chiodi Introduzione 88 R2i.{B}=1-|Z|/zii =1-1/cii otteniamo i 7 indici di determinazione multipla, di ciascuna variabile condizionatamente alle altre 6: {0.827137,0.896544,0.848327,0.297231,0.722443,0.756753,0.82098} Si noti che la matrice di correlazione ha 7 autovalori dati da: ' l ={5.06451,0.674288,0.635871,0.245914,0.207684,0.105888,0.06584} La successione di tali valori indica chiaramente la presenza di correlazioni lineari fra combinazioni lineari di variabili molto forti. Impiego delle multivariati. informazioni dell'inversa C nell'analisi di dati Come si è visto, l'analisi degli elementi dell'inversa della matrice di correlazione può fornire degli elementi utili per indagare sulla dipendenza fra variabili sia in termini marginali che in termini condizionati. Appunti del Prof. M. Chiodi per il corso di Statistica 3 a.a. 2000-2001 Prof. M. Chiodi Introduzione 89 Esempio di variabili condizionatamente non correlate Sezioni della distribuzione marginale di X 1 ,X 2 (con correlazione non nulla) f(x 1 ,x 2 )=k x3 Piano x 3 =0 Sezione della distribuzione congiunta f(X 1 ,X 2 , X 3 )=h (ellissoide 3D) x1 x2 Sezioni della distribuzione condizionata di X 1 ,X 2 (con correlazione nulla) f(x 1 ,x 2 | X 3 =x 3 )=k Matrice di correlazione riportare da Maple Appunti del Prof. M. Chiodi per il corso di Statistica 3 a.a. 2000-2001 Prof. M. Chiodi Introduzione 90 C Regressioni lineari approssimate per vettori aleatori qualsiasi In generale vettori aleatori con distribuzioni qualsiasi avranno funzioni di regressione di forma qualsiasi (anche non lineare) e con varianze diverse (eteroscedasticità). In generale se Z è un vettore aleatorio con distribuzione qualsiasi, e ZA e ZB sono due vettori ottenuti dalle componenti di Z, allora la funzione di regressione di ZA su ZB è la speranza matematica di ZA condizionatamente a particolari valori di ZB: ♦ E(ZA|ZB=zB) è una funzione analitica di zB di forma qualsiasi (in generale non lineare). ♦ Inoltre la distribuzione (condizionata) di ZA è in generale non normale; ♦ può dipendere dai particolari valori fissati di zB. In particolare quindi può essere con varianze non costanti. o Tuttavia se si considerano le regressioni parziali lineari approssimate (ossia le relazioni lineari che approssimano, secondo i minimi quadrati, le curve di regressione) si ritrovano le stesse espressioni (come funzioni della matrice di varianza e covarianza) che abbiamo trovato per la normale multivariata. • ♦ Nel caso normale però queste relazioni sono esatte Le relazioni di regressione lineare approssimate in generale si trovano minimizzando rispetto alla matrice W la quantità: tr[V(ZA- WZB)] (equivalente a E(ZA- WZB)2 se si lavora con vettori aleatori a media nulla). Si ottiene comunque: -1 W=ΣABΣBB ♦ Le regressioni però saranno esattamente lineari e omoscedastiche solo nel caso normale multivariato. (figure varie) (vedere anche > >regressione parziale e condizionata ) Appunti del Prof. M. Chiodi per il corso di Statistica 3 a.a. 2000-2001 Prof. M. Chiodi Introduzione 91 Analisi delle correlazioni lineari presenti in data set osservati E' il caso di fare comunque delle considerazioni sui momenti del secondo ordine quando si opera con variabili che non sono normali multiple, o quando si ha a disposizione un insieme di dati per il quale non si può ipotizzare che si tratti di un campione proveniente da una distribuzione normale multivariata. Per esempio quando si utilizzano delle relazioni lineari approssimate secondo quanto visto in precedenza, si sta implicitamente ipotizzando, oltre la linearità, l'uguaglianza fra le varianze delle distribuzioni parziali e l'uguaglianza fra le correlazioni e le covarianze delle distribuzioni parziali, indipendentemente dai particolari valori fissati per le variabili indipendenti (o condizionanti). Si stanno cioè ipotizzando relazioni condizionate o parziali che non cambiano forma al variare delle condizioni. Supponiamo per esempio di avere in un insieme di dati (n unità×p variabili) relativo a p variabili Xi, in cui le n unità sono suddivise in kZ gruppi secondo le modalità zh (h=1,2,..., kZ) di una ulteriore variabile Z, supponendo quindi di avere delle osservazioni ripetute in corrispondenza di ciascuna delle kZ modalità di Z. Possiamo allora calcolare le varianze delle p variabili Xi e le loro correlazioni in coppia per ciascuno dei kZ gruppi. Se per esempio osserviamo che le varianze di una o più variabili cambiano in modo sostanziale da un gruppo ad un altro oppure se le correlazioni fra alcune variabili cambiano in modo marcato in corrispondenza delle varie modalità di Z, questo può essere un indizio del fatto che l'approssimazione dei minimi quadrati delle vere regressioni non sarà appropriata e che quindi i dati presentano caratteristiche diverse da quelle di una normale multivariata, per cui questo può essere indizio di assenza di multinormalità. In questi casi occorrerà ricorre ad altre approssimazioni, non lineari, o eteroscedastiche, che tengano eventualmente in conto momenti diversi dai primi due. Appunti del Prof. M. Chiodi per il corso di Statistica 3 a.a. 2000-2001 Prof. M. Chiodi Introduzione 92 C Sintesi delle informazioni sui vari tipi di correlazione e dipendenza lineare ricavabile dai primi 2 momenti multivariati I momenti multivariati primo e secondo, ossia il vettore delle speranze matematiche e la matrice di varianze e covarianze contengono tutte (e sole) le informazioni che servono per la quantificazione e l'analisi di tutti i tipi di dipendenza e correlazioni lineari relative a coppie o gruppi di variabili, sia nelle distribuzioni marginali che in quelle condizionate. Riassumo nella tavola che segue le relazioni lineari e loro connessione con i momenti primi e secondi per variabili multiple X a p componenti X1, X2,…,Xp, con momenti primi nulli (quindi si tratta di variabili centrate), secondo quanto fin qui studiato. Si è indicata con Σ la matrice di varianze e covarianze e matrice di correlazione R, i cui elementi sono al solito dati da: σ ij rij = σ σ ; i j con σi2 si è indicata la varianza della i-esima componente, ossia l'elemento i-esimo della diagonale di Σ, di modo che σi è lo scostamento quadratico medio della i-esima variabile. In effetti se con D indichiamo una matrice diagonale i cui elementi sono le varianze delle singole componenti, per cui dij=0 se i≠j e dii=σi2, si può esprime la matrice di correlazione in termini matriciali: R= D-1/2 Σ D-1/2, Secondo il simbolismo già adottato, con C di elemento generico cij, si è indicata l'inversa diΣ, esprimibile al solito in termini dei cofattori σij degli elementi di posto i,j della matrice Σ: cij= σij/|Σ| Appunti del Prof. M. Chiodi per il corso di Statistica 3 a.a. 2000-2001 Prof. M. Chiodi Introduzione 93 relazioni lineari e loro connessione con i momenti primi e secondi per variabili multiple X 2 varianza di una componente Xi σi varianze e covarianze di una combinazione lineare AΣA' Y= AX varianza di tutte le componenti tr(Σ) varianza generalizzata (di Wilks) |Σ| correlazione lineare semplice fra due variabili Xi, σ ij r ij= Xj σi σ j coefficiente di regressione lineare semplice di una bi,j= σij/σj2 variabile Xi rispetto ad un'altra, Xj § correlazione multipla: correlazione fra una variabile ed una combinazione lineare (la migliore, nel senso dei minimi quadrati!) delle Ri.{B}= altre p-1 variabili, che sono le componenti ii 2 vettore aleatorio XB, con B={1,2,..., j-1, = 1-| Σ |/[ σ i σ ] j+1,...,p} 2 § dipendenza lineare di una variabile dalle altre = 1-1/( σ i cii) = p-1 variabili (combinate linearmente nel miglior V(Xi | XB) 1- V(X ) modo possibile). i § frazione della varianza di Xi spiegata dalle altre p-1 variabili. V(Xi | XB) frazione della varianza della distribuzione di Xi in V(Xi) dipendenza da XB matrice di varianze e covarianze della regressione lineare di un gruppo di variabili XA in dipendenza di -1 Σ -Σ ΣBB Σ'AB= una latro gruppo di variabili XB (per il simbolismo AA AB AA = (Σ )-1 sulle matrici partizionate si veda la sezione sulla normale multivariata) combinazioni lineari a coefficienti normalizzati di Si ricavano dagli massima varianza (e retta di minima distanza dall'insieme di dati autovettori di Σ multivariato) varianza massima di una combinazione lineare l1 delle Xi (a coefficienti normalizzati) varianza minima di una combinazione lineare delle lp Xi (a coefficienti normalizzati) combinazioni lineari di gruppi di variabili con correlazione massima. analisi delle correlazioni solo accennata canoniche Appunti del Prof. M. Chiodi per il corso di Statistica 3 a.a. 2000-2001 Prof. M. Chiodi Introduzione 94 Per l'analisi di relazioni di tipo non lineare (o di regressioni lineari per esempio eteroscedastiche), occorre far ricorso ad altri momenti multivariati oltre il secondo. Si faranno degli esempi nell'ambito dell' analisi dei residui nella regressione multipla lineare. In effetti si vedrà più avanti come anche nel modello lineare in senso generale, l'analisi della dipendenza lineare e delle proprietà degli stimatori, sotto certe ipotesi semplificatrici sono legate alla struttura delle varianze e delle covarianze fra variabili dipendenti e indipendenti. Appunti del Prof. M. Chiodi per il corso di Statistica 3 a.a. 2000-2001 Prof. M. Chiodi Introduzione 95 C Esempi di distribuzioni multivariate non normali L'estensione al caso multivariato di distribuzioni non-normali a componenti non indipendenti è sempre ardua, perché le possibilità di estensione di sistemi di curve univariate al caso multivariato possono essere di diversa natura, mentre dalla distribuzione normale univariata si può arrivare alla sua estensione multivariata con diverse impostazioni giungendo sempre alla stessa forma multivariata; ad esempio: § dalla densità o dalla funzione caratteristica, sostituendo ad un quadrato una forma quadratica; § se x'a é normale per qualsiasi a, allora x é normale multivariato § come distribuzione di x=µ+Ay (con y a componenti indipendenti) § da distribuzioni condizionate normali e omoscedastiche con funzioni di regressione lineari. una particolare di Dirichlet) distribuzione beta multivariata (distribuzione La distribuzione di Dirichlet a k componenti, che costituisce una particolare generalizzazione multivariata della distribuzione Beta, è definita come segue: • si considerino k+1 v.a. indipendenti Xi (i=0,1,2,...,k), ciascuna con distribuzione Gamma con lo stesso parametro di scala λ e di parametri di forma ci; • k indicata con S la loro somma, S= ∑ Xi, la distribuzione di Dirichlet i=0 è la distribuzione congiunta delle k nuove variabili definite dalle relazioni: Yi =Xi/S i=1,2,...,k. La densità di tale distribuzione è data da: k c -1 k c -1 k k f(y1,y2,...,yk)= ∏ yi i [1- ∑ yi] 0 Γ( ∑ ci)/ ∏ Γ(ci), i=1 i=1 i=0 i=0 ed è definita sul simplesso: yi≥0, i=1,2,...,k; k ∑ yi≤1. i=1 Appunti del Prof. M. Chiodi per il corso di Statistica 3 a.a. 2000-2001 Prof. M. Chiodi Introduzione 96 Questa distribuzione è importante ad esempio per la descrizione della distribuzione simultanea di rapporti di composizione; si vedano nelle figure che seguono, per il caso bivariato, alcuni esempi di densità per diverse combinazioni dei parametri c0,c1 e c2.(indicati nel seguito con a,b,c nel caso bivariato) Se ci≥1 (i=0,1,....,k), la densità ha sempre un massimo unico in corrispondenza di: k y =(ci-1)/ ∑ (ci-1), i=0 * i (i=1,2,...,k). ♦ Tutte le distribuzioni marginali univariate sono delle distribuzioni Beta. ♦ Le distribuzioni condizionate sono ancora delle Beta ♦ Nella distribuzione bivariata (indicando le due componenti con X,Y, e i parametri con a,b,c)) la distribuzione di Y condizionata a X=x è proporzionale ad una variabile con distribuzione Beta univariata. In particolare si dimostra che: ♦ Y/(1-x)|{X=x} si distribuisce come una Beta[b,c] ♦ per cui E(Y) varia linearmente con x, ma anche V(Y) varia con x Esempi di densità di distribuzioni di Dirichlet: c0=1,2 c1=0,9 c2=0,9 Appunti del Prof. M. Chiodi per il corso di Statistica 3 a.a. 2000-2001 Prof. M. Chiodi Introduzione 97 c0=1,2 c1=1,3 c2=1,8 c0=3 c1=4 c2=5. Rappresentazione in 3D di una regressione lineare non normale eteroscedastica; Distribuzione congiunta bivariata di dirichlet; E(y)=0,6(1-x) Y/(1-x) si distribuisce come una Beta(2,4; 1,6) f(y|x i) f(y|x i) y Appunti del Prof. M. Chiodi per il corso di Statistica 3 xi a.a. 2000-2001 Prof. M. Chiodi Introduzione 98 Altri esempi di distribuzioni multivariate non normali Distribuzione Logistica Doppia F(x,y)=1/(1+Exp[-x]+Exp[-y]) 0.06 4 0.04 2 0.02 0 -4 0 -2 -2 0 2 4 -4 4 2 0 -2 -4 -4 -2 0 2 Appunti del Prof. M. Chiodi per il corso di Statistica 3 4 a.a. 2000-2001 Prof. M. Chiodi Introduzione 99 Plot3D[fexp,{x,0.,1.5},{y,0.,1.5},PlotRange->All, >35,Shading->False] c1=ContourPlot[fexp,{x,0.,1.5},{y,0.,1.5},PlotRange>All, Contours->25,>35,ContourShading->False] Distribuzione Esponenziale Bivariata (a=0,7) F(x,y)=(1-Exp[-x])(1-Exp[-y])( (1+a Exp[-x-y]) 1.5 1.5 1 0.5 1 0 0.5 0.5 1 1.5 0 1.4 1.2 1 0.8 0.6 0.4 0.2 0 0 0.2 0.4 0.6 0.8 1 1.2 1.4 Plot3D[betaese1[x,y],{x,0.,1},{y,0.,1.},PlotRange->All, >35,Shading->False] c1=ContourPlot[betaese1[x,y],{x,0.,1},{y,0.,1.}, >All, Appunti del Prof. M. Chiodi per il corso di Statistica 3 a.a. 2000-2001 Prof. M. Chiodi Introduzione 100 Contours->25,PlotPoints->35,ContourShading->True] Distribuzione Bivariata Dirichlet (Beta-bivariata) a=1,5; b=1,6; c=2,1 0.1 0.075 1 0.05 0.8 0.025 0 0 0.6 0.2 0.4 0.4 0.2 0.6 0.8 1 0 1 0.8 0.6 0.4 0.2 0 0 0.2 0.4 0.6 0.8 1 Plot3D[betaese2[x,y],{x,0.,1},{y,0.,1.},PlotRange->All, >35,Shading->False] c1=ContourPlot[betaese2[x,y],{x,0.,1},{y,0.,1.}, >All, Appunti del Prof. M. Chiodi per il corso di Statistica 3 a.a. 2000-2001 Prof. M. Chiodi Introduzione 101 Contours->25,PlotPoints->35,ContourShading->True] 0.00015 0.0001 0.00005 1 0.8 0 0 0.6 0.4 0.2 0.4 0.2 0.6 0.8 10 … SurfaceGraphics … 1 0.8 0.6 0.4 0.2 0 0 0.2 0.4 0.6 0.8 1 … ContourGraphics … Distribuzione Bivariata Dirichlet (Beta-bivariata) a=4; b=4; c=3 Appunti del Prof. M. Chiodi per il corso di Statistica 3 a.a. 2000-2001 Prof. M. Chiodi Introduzione 102 0.00015 1 0.0001 0.8 0.00005 0 0 0.6 0.2 0.4 0.4 0.2 0.6 0.8 1 0 1 0.8 0.6 0.4 0.2 0 0 0.2 0.4 0.6 0.8 1 Distribuzione Bivariata Dirichlet (Beta-bivariata) a=1.1; b=1.1; c=0.9 Plot3D[betaese3[x,y],{x,0.,1},{y,0.,1.},PlotRange->All, >35,Shading->False] Appunti del Prof. M. Chiodi per il corso di Statistica 3 a.a. 2000-2001 Prof. M. Chiodi Introduzione 103 c1=ContourPlot[betaese3[x,y],{x,0.,1},{y,0.,1.}, >All, Contours->25,PlotPoints->35,ContourShading->True] 1 1 0.5 0.8 0 0 0.6 0.4 0.2 0.4 0.2 0.6 0.8 1 0 … SurfaceGraphics … 1 0.8 0.6 0.4 0.2 0 0 0.2 0.4 0.6 0.8 1 … ContourGraphics … Appunti del Prof. M. Chiodi per il corso di Statistica 3 a.a. 2000-2001 Prof. M. Chiodi Introduzione 104 costruzione di variabili correlate Uno schema generale di costruzione di variabili aleatorie correlate da p+1 variabili aleatorie indipendenti Xj (j=0,1,...,p), è quello di considerare p variabili aleatorie sommando a tutte la componente X0. In dettaglio otteniamo ora un nuovo vettore aleatorio Y a p componenti, ponendo: Y...1= X0+X1 Yj= X0+Xj ... Yp= X0 +Xp In pratica la componente X0 è quella che determina la covarianza fra le componenti di Y. E' facile calcolare i momenti di Y da quelli di X, mentre può essere in generale arduo calcolare la distribuzione di Y (perchè spesso è complicato integrare rispetto a X0 nella densità congiunta di X0, X1,…, Xp,). Come esercizio si calcoli la correlazione e la covarianza fra due generiche componenti di Y o, direttamente, la matrice di varianze e covarianze e la matrice di correlazione di Y. V(Yj)= V(X0)+V(Xj); Cov(Yj,Yk)=V(X0) Appunti del Prof. M. Chiodi per il corso di Statistica 3 a.a. 2000-2001