U NIVERSITÀ S CUOLA DI B OLOGNA C ORSO DI L AUREA M AGISTRALE IN E CONOMIA E P ROFESSIONE DI E CONOMIA , M ANAGEMENT E S TATISTICA S TATISTICA PER L’ ANALISI DEI DATI Monia Lupparelli Dipartimento di Scienze Statistiche Via Belle Arti, 41 [email protected] http://www2.stat.unibo.it/lupparelli Indice 1 Tabelle di contingenza 1.1 Introduzione . . . . . . . . . . . . . . . . . 1.2 Tabelle a doppia entrata . . . . . . . . . . 1.3 Dipendenza in una distribuzione doppia 1.3.1 L’indice χ2 . . . . . . . . . . . . . . 1.3.2 L’odds ratio . . . . . . . . . . . . . 1.4 Tabelle a tre vie . . . . . . . . . . . . . . . 1.4.1 Distribuzioni marginali . . . . . . 1.4.2 Distribuzioni condizionate . . . . 1.5 Tabelle multiple . . . . . . . . . . . . . . . 1.5.1 La distribuzione multinomiale . . 1.6 Esercizi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2 La distribuzione normale multivariata 2.1 Introduzione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.2 La distribuzione normale univariata . . . . . . . . . . . . . . . 2.3 La funzione di densità della normale multipla . . . . . . . . . 2.4 Ellissoidi di concentrazione e proprietà della normale multipla 2.5 La normale bivariata . . . . . . . . . . . . . . . . . . . . . . . . 2.6 Combinazioni lineari di variabili normali . . . . . . . . . . . . 2.7 Distribuzioni marginali e condizionate . . . . . . . . . . . . . . 2.8 Misure di associazione fra variabili casuali normali . . . . . . 2.9 Esercizi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . iii . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1 1 2 7 7 8 11 12 14 16 17 19 . . . . . . . . . 21 21 23 25 27 27 31 33 35 38 iv INDICE Capitolo 1 Tabelle di contingenza 1.1 Introduzione Si consideri un’indagine effettuata per due variabili X ed Y di tipo qualitativo (ordinabile o sconnesso) o quantitativo (discreto o continuo). I dati rilevati vengono raccolti sotto forma di distribuzione semplice in una tabella dalla quale si può facilmente risalire alla categoria o al valore assunto dalle singole unità campionarie. Unità Variabile X Variabile Y 1 .. . x1 .. . y1 .. . n xn yn Nonostante questa tabella contenga i dati in modo dettagliato e completo, questa configurazione non sempre facilita il calcolo degli indici statistici e l’applicazione di procedure statistiche più complesse. Pertanto è necessaria una riclassificazione dei dati per favorire l’analisi e l’interpretazione dei fenomeni analizzati. Una prima operazione consiste nell’individuare un numero finito di categorie che sintetizzano al meglio le modalità con cui i fenomeni X ed Y possono verificarsi . Se la variabile ha carattere quantitativo (discreto o continuo), i dati vengono classificati attraverso modalità o classi numeriche. Rientrano nella tipologia di variabili quantitative il numero di addetti, l’età, il reddito pro-capite, il fatturato annuo, etc... Se la variabile ha carattere qualitativo (ordinabile o sconnesso), i dati vengono classificati secondo categorie opportune; per questo motivo tali variabili vengono anche dette categoriali. Il carattere sesso si articola secondo le categorie maschio e femmina, il carattere settore di attività può essere individuato dalle categorie agricolo, artigianale, industriale, terziario, etc... Si considerino il fenomeno X a carattere quantitativo articolato secondo le madalità 1, 2 e 3 ed il fenomeno Y a carattere qualitativo classificabile tramite le categorie a e b. 1 Tabelle di contingenza 2 Unità Variabile X Variabile Y modalità 1 modalità 2 modalità 3 categoria a categoria b 1 1 0 0 0 1 2 .. . 0 .. . 0 .. . 1 .. . 1 .. . 0 .. . n 1 0 0 1 0 n10 n20 n30 n01 n02 n Tabella 1.1: Sulla base di quanto detto, i dati rilevati, piuttosto che sotto forma di distribuzione unitaria, sono illustrati all’interno della tabella 1.1 in cui, per ogni unità statistica, i valori 1 e 0 indicano rispettivamente l’assenza e la presenza della variabile nella specifica modalità o categoria. Grazie a questa configurazione, risulta immediato il passaggio da una distribuzione unitaria ad una distribuzione di frequenza: sommando verticalmente le unità contenute nelle celle, nell’ultima riga della tabella si ottiene, per ognuna delle due variabili, il numero di unità che presenta una specifica modalità o categoria. Le n unità non sono più elencate consecutivamente, ma raggruppate e ripartite fra le modalità/categorie presenti. Si ottengono quindi le due distribuzioni marginali di frequenza, Variabile X Variabile Y modalità 1 modalità 2 modalità 3 tot categoria a categoria b tot n10 in cui ni0 = n20 P2 j=1 nij , n0j = n30 P3 i=1 nij e n P3 i=1 ni0 = n01 P2 j=1 n02 n n0j = n. 1.2 Tabelle a doppia entrata Le variabili X ed Y fino ad ora sono state analizzate separatamente, ma è possibile che il verificarsi di X/Y con una determinata modalità/categoria dipenda dal manifestarsi di Y /X e viceversa. Per valutare e misurare la relazione esistente fra i due fenomeni si considerano sia le distribuzioni marginali, sia le distribuzioni di frequenza congiunte di X ed Y . Data la tabella 1.1, si possono ripartire le frequenze ni0 (i = 1, 2, 3) a seconda della categoria assunta nella variabile Y , così come si possono ripartire le frequenze n0j (j = 1, 2) sulla base della modalità assunta nella variabile X. Il risultato di tale operazione è contenuto nella seguente tabella. 1.2 Tabelle a doppia entrata 3 Y categoria b categoria b tot modalità 1 n11 n12 n10 X modalità 2 n21 n22 n20 modalità 3 n31 n32 n30 tot n01 n02 n Tramite questa nuova configurazione dei dati, le variabili X ed Y diventano rispettivamente le variabili riga e colonna della tabella a doppia entrata (3 × 2) così definita in quanto permette di accedere ai dati con due chiavi di lettura distinte. L’ultima colonna e l’ultima riga della tabella sono il risultato della somma orizzontale e verticale dei dati e rappresentano le distribuzioni di frequenza marginali della variabile riga (ni0 ) e della variabile colonna (n0j ). I valori all’interno della tabella nij indicano le frequenze di cella di una distribuzione congiunta, ossia il numero di casi che presentano modalità i-esima della variabile X e categoria j-esima della variabile Y ; da una lettura orizzontale dei dati si ottiene la distribuzione di frequenza della variabile riga ripartita per le categorie della variabile colonna, mentre, da una lettura verticale della tabella, si ha la distribuzione di frequenza della variabile Y ripartita per le modalità della variabile X. Fino ad ora sono state considerate le frequenze assolute, ma spesso è più comodo n lavorare con le frequenze relative congiunte fij = nij . Y categoria 1 categoria 2 tot modalità 1 f11 f12 f10 X modalità 2 f21 f22 f20 modalità 3 f31 f32 f30 tot f01 f02 1 In questa cross table i valori fij esprimono il rapporto fra le frequenze assolute ed il totale delle unità. Per costruzione, la somma di tutte le frequenze relative è pari ad 1. XX i fij = j X X nij i j n = 1 XX nij = 1 . n i j I valori fi0 = ni0 /n e f0j = n0j /n rappresentano le frequenze relative marginali rispettivamente della variabile X e Y ed, anche in questo caso, la loro somma è ovviamente pari ad 1 X X fi0 = = f0j = 1 . i j Tabelle di contingenza 4 I valori fi0 e f0j si ottengono rispettivamente dalla somma orizzontale ed verticale delle frequenze relative congiunte fij X X fi0 = fij , f0j = fij . j i Le frequenze relative congiunte fij rapportano la frequenza dell’evento al totale dei casi considerati. Nell’approccio frequentista della probabilità, la frequenza relativa f ij si interpreta come stima della probabilità che si verifichino congiuntamente due eventi sulla base del campione rilevato. Pertanto, denotiamo con πij nij πij = = P (X = i, Y = j) . n la probabilità che un’unità statistica assuma modalità i della variabile X e categoria j della variabile Y . Si possono inoltre calcolare le frequenze relative condizionate fi|j = nij /n0j e fj|i = nij /ni0 da cui deriva l’interpretazion in termini di la probabilità condizionate nij nij πi|j = = P (X = i|Y = j), πj|i = = P (Y = j|X = i), n0j ni0 cioè la probabilità che si verifichi una modalità/categoria per la variabile X/Y condizionatamente al fatto che si sia già verificata una categoria/modalità per la variabile Y /X. Questo ci consente di costruire la tabella dei profili riga nella quale ogni riga rappresenta la ditribuzione di Y condizionata alla variabile X Y categoria a categoria b tot modalità 1 r11 r12 1 X modalità 2 r21 r22 1 modalità 3 r31 r32 1 f01 f02 1 Ogni cella rij = nij /ni0 è data dal rapporto fra la frequenza assoluta ed il totale di riga1 . Come si può intuire, l’ultima riga non si ottiene come somma verticale dei profili riga. Mentre, per costruzione, la somma orizzontale di ogni riga è 1. 1 Il valore rij si può ottenere anche rapportando le frequenze realtive congiunte fij alla frequenza relativa marginale fi0 della variabile X rij = nij fij = = fj|i . ni0 fi0 Pertanto i profili riga rappresentano la frequenza relativa dei casi j condizionata al fatto che si sia verificato i. 1.2 Tabelle a doppia entrata 5 Se i profili riga sono uguali fra loro ed uguali al profilo marginale della Y rij = ri0 j = f0j , ∀i, i0 , j significa che il verificarsi di una delle modalità di X non condiziona2 la variabile Y . I profili riga si interpretano come probabilità condizionate πj|i = rij = P (Y = j|X = i). Se r11 = r21 = r31 = f01 e r12 = r22 = r32 = f02 , vuole dire che la probabilità condizionata della Y è uguale alla sua probabilità marginale P (Y = 1|X = 1) = P (Y = 1|X = 2) = P (Y = 1|X = 3) = P (Y = 1) P (Y = 2|X = 1) = P (Y = 2|X = 2) = P (Y = 2|X = 3) = P (Y = 2). Quindi, se P (Y |X) = P (Y ), le due variabili sono indipendenti, X⊥⊥Y e P (X, Y ) = P (X)P (Y ). Allo stesso modo si può costruire la tabella dei profili colonna nella quale ogni colonna rappresenta la distribuzione di X condizionata alla variabile Y Y categoria a categoria b tot modalità 1 c11 c12 f10 X modalità 2 c21 c22 f20 modalità 3 c31 c32 f30 1 1 1 Ogni cella cij = nij /n0j è data dal rapporto fra la frequenza assoluta ed il totale colonna3 . Anche in questo caso, l’ultima colonna non è il risultato della somma orizzontale dei profili colonna. La somma di ogni colonna è 1. 2 Quindi si ha che fj|i = f0j fj|i = nij n0j = = f0j . n0i n 3 Il valore cij si può ottenere anche rapportando le frequenze realtive congiunte fij alla frequenza relativa marginale f0j della variabile Y cij = nij fij = = fi|j . n0j f0j Pertanto i profili colonna rappresentano la frequenza relativa dei casi i condizionata al fatto che si sia verificato j. Tabelle di contingenza 6 I profili colonna si interpretano come probabilità condizionate πi|j = cij = P (X = i|Y = j). Se c11 = c12 = f10 , c21 = r22 = f20 e c31 = r32 = f30 , vuole dire che la probabilità condizionata della X è uguale alla sua probabilità marginale P (X = 1|Y = 1) = P (X = 1|Y = 2) = P (X = 1) P (X = 2|Y = 1) = P (X = 2|Y = 2) = P (X = 2) P (X = 3|Y = 1) = P (X = 3|Y = 2) = P (X = 3). Quindi, se P (X|Y ) = P (X), le due variabili sono indipendenti, X⊥⊥Y . Ne deriva che l’indipendeza probabilistica è bilaterale: se i profili riga sono uguali, anche i profili colonna sono fra di loro uguali e X⊥⊥Y . In generale, date le due distribuzioni marginali {πi0 } e {π0j }, non è possibile ricostruire la distribuzione congiunta {πij } delle due variabili X e Y a meno che le due variabili non siano indipendenti. Nel caso in cui X⊥⊥Y , la loro distribuzione congiunta si può ottenere come prodotto delle probabilità marginali, πij = πi0 × π0j . Ne deriva che, nel caso di indipendenza, le frequenze della tabella sono date dal prodotto delle frequenze marginali ni0 n0j nij = . n Esempio 1. Consideriamo la tabella doppia relativa alla rilevazione di due variabili qualitative, il Sesso e l’Orientamento politico Orientamento politico democratici indipendenti repubblicani Sesso tot femmine 573 516 422 1511 maschi 386 475 399 1260 tot 959 991 821 2771 Consideriamo i profilo riga rij per vedere se le due variabili sono associate. Orientamento politico democratici indipendenti repubblicani tot Sesso femmine 0.38 0.34 0.28 1 maschi 0.31 0.38 0.31 1 tot 0.35 0.35 0.30 1 I profili riga sono diversi fra di loro. Questo significa che il sesso e l’orientamente politico sono variabili associate. 1.3 Dipendenza in una distribuzione doppia 7 1.3 Dipendenza in una distribuzione doppia Sulla base di quanto è stato appena detto, le distribuzioni congiunte consentono di valutare la probabilità che si verifichino contemporaneamente due fenomeni distinti; ma, da un’analisi della tabella, si potrebbe ipotizzare una connessione fra gli accadimenti, tanto da prendere in esame la possibilità che il manifestarsi di X/Y in una specifica modalità/categoria possa influenzare la variabile Y /X. Quindi consideriamo alcuni indici utili per misurare l’associazione fra le variabili. 1.3.1 L’indice χ2 Per valutare l’intensità di questa dipendenza, si utilizza l’indice χ2 , il quale misura lo scostamento fra la tabella presa in esame ed il caso limite di una tabella di indipendenza. Quest’ultima si ha qualora non ci sia alcuna interazione fra gli accadimenti e, per costruzione, i dati ñij contenuti nelle celle sono dati dal prodotto delle frequenze marginali, fratto il totale delle unità4 ñij = ni0 n0j . n Maggiore è lo scostamento fra i valori della tabella presa in esame e quelli della tabella teorica di indipendenza e maggiore è il grado di dipendenza e associazione fra le due variabili. Indicando con zij nij − ñij zij = ñij la differenza relativa fra la frequenza effettiva e la frequenza teorica, si giunge alla formula del χ2 calcolando la media quadratica delle zij ponderata con le frequenze teoriche. Dopo opportune semplificazioni si ha l’indice χ2 I X J X (nij − ñij )2 χ = . ñij i=1 j=1 2 Sapendo che tale statistica si distribuisce come una χ2(I−1)(J−1) (i = 1, . . . , I, j = 1, . . . J), sulla base del valore ottenuto si può accettare o rifiutare l’ipotesi di indipendenza per le variabili X ed Y considerate. Il test preso in esame è il seguente: date due variabili XeY H0 : X⊥⊥Y H1 : X⊥⊥ / Y. 4 La condizione di indipendenza deriva dal fatto che i profili riga (colonna) rij = nij /ni0 (cij = nij /n0j ) sono uguali al profilo marginale f0j = n0j /n (fi0 = n0j /n). nij = ni0 n0j . n Tabelle di contingenza 8 Sotto l’ipotesi H0 , la statistica si distribuisce come una χ2r con r = (I − 1)(J − 1) gradi di libertà. Dato un valore k calcolato per la statistica test, si rifiuta l’ipotesi di indipendenza se P (χ2(r) > k) < α dove α è il livello di significatività sufficientemente piccolo fissato per il test (di solito 0.10, 0.05, 0.01). Consideriamo la tabella dell’esempio 1 e calcoliamo la tabella teorica di indipendenza Orientamento politico democratici indipendenti repubblicani Sesso tot femmine 523 540 448 1511 . maschi 436 451 373 1260 tot 959 991 821 2771 L’indice χ2(2) con gradi di libertà (2 − 1) × (3 − 1) = 2 è χ22 = (399 − 373)2 (573 − 523)2 +···+ = 16.2. 523 373 Pertanto, si rifiuta l’ipotesi di indipendenza perché P (χ2(2) > 16.2) = 0.001. Nonostante la statistica χ2 sia molto nota ed utilizzzata per misurare l’associazione fra due variabili categoriali, ha dei forti limiti. Prima di tutto è un indice assoluto con il quale possiamo testare l’assenza o la presenza di associazione, ma, qualora si rifiuti l’ipotesi di indipendenza, l’indice non ci dà alcuna informazione sull’intensità dell’associazione. Inoltre, non meno importante, il valore assunto dall’indice dipende molto dalla numerosità campionaria, in modo particolare, maggiore è n a parità di proporzioni f e maggiore è il valore che si ottiene per l’indice χ2 . Quindi, se osserviamo le due variabili su due campioni che hanno una tabella con stessa proporzioni fij , ma una numerosità n molto diversa, i risultati dei due test potrebbero essere diversi. Questo ci porta a prendere in esame altre misure di associazione. 1.3.2 L’odds ratio Consideriamo una variabile X con due modalità che in letteratura per comodità si indicano come successo ed insuccesso (ad esempio pensiamo al lancio di una moneta dove il successo corrisponde all’uscita di testa). L’odd o quota è definito come il rapporto di due probabilità odd= probabilità di successo . probabilità di insuccesso 1.3 Dipendenza in una distribuzione doppia 9 Supponiamo di osservare la variabile X con questa distribuzione di frequenza Variabile X successo insuccesso tot 25 75 100 La probabilità di successo ed insuccesso sono rispettovamente π1 = 0.25 e π2 = 0.75, da cui l’odd è 0.25 odd = = 0.3. 0.75 L’odd non è mai negativo, assume valori fra 0 ed 1 quando la probabilità di successo è inferiore alla probabilità di insuccesso e, viceversa, assume valori maggiori di 1 quando la probabilità di successo è maggiore. Se l’odd è pari a 3 significa che il successo è 3 volte più probabile dell’insuccesso, quindi ci aspettiamo che ci siano circa 3 successi ogni insuccesso. Se l’odd è 0.3 vuol dire che il successo è 3 volte meno probabile dell’insuccesso e ci aspettiamo circa 1 successo per ogni 3 insuccessi. Consideriamo ora la tabella realtiva a due variabili binarie, X: la razza dell’omicida e Y : la razza della vittima Razza della vittima Razza dell’omicida bianca nera tot bianca 3150 230 3380 nera 516 2984 3500 . 3150 230 Se consideriamo solo il caso degli assassini bianchi, l’odd della variabile Y è 3380 / 3380 = 13.7. Significa, che nel caso in cui l’omicida sia stato un bianco, ci sono state 13.7 vittime bianche per ogni vittima nera. Nel caso di assassini neri, l’odd della variabile 516 2984 Y è 3500 / 3500 = 0.173, significa che nel caso di omicida nero, ci sono 1/0.173 = 5.8 vittime nere per ogni vittima bianca. Quindi sembrerebbe che ci sia una forte associazione fra la razza dell’omicida e quella della vittima. Per misurare questa associazione utilizziamo l’odds ratio, o rapporto di quote θ XY = odd per gli assassini bianchi 13.7 = = 79.2. odd per gli assassini neri 0.173 Questo significa che, per gli assassini bianchi, l’odd di una vittima bianca è circa 79 volte più grande dell’odd di una vittima bianca per gli assassini neri. Quindi l’odds ratio è una naturale misura di associazione ottenuta come rapporti di odd delle variabili X ed Y . Nel caso di una tabella 2 × 2, è anche detto rapporto dei prodotti incrociati, poiché 3150 × 2984 θ XY = . 230 × 516 Proprietà dell’odds ratio: Tabelle di contingenza 10 • è sempre non negativo; • se θ XY = 1 vuol dire che gli odds sono uguali, perciò le due variabili X ed Y non sono associate: perché la quota dei successi di una variabile non varia al variare dell’altra, X⊥⊥Y ; • se θ XY > 1 vuol dire che l’odd di successo è maggiore nella prima riga; • se 0 < θ XY < 1 vuol dire che l’odd di successo è minore nelle prima riga; • in generale, se θ XY 6= 1, vuol dire che le variabili sono associate, X⊥/⊥ Y ; • più θ XY si allontana da 1 una in una delle due direzioni e maggiore è l’associazione; • per considerare in modo simmetrico l’allontamento dalla situazione di indipendenza in entrambe le direzioni, spesso come misura di associazione si considera il logaritmo log θ XY ; • se log θ XY = 0 le due variabili sono indipendenti; • se log θ XY ≷ 0, l’odd di successo è maggiore/minore nella prima riga: • più log θ XY si allontana da 0 una in una delle due direzioni e maggiore è l’associazione, in questo caso il confronto è simmetrico; XY • la si distribuisce come una normale con standard error SE = q statistica log θ 1 1 1 + n12 + n21 + n122 ; n11 • l’intervallo di confidenza per il logartimo dell’odds ratio pertanto si può costruire come log θ XY ± 1.96SE. Esempio 2. Consideriamo due variabili X: razza (bianchi, neri), Y : opinione sulle unioni civili di coppie dello stesso sesso (sì, no). Supponiamo di osservare queste variabili in 3 diversi campioni A, B e C. YA X YB YC sì no tot sì no bianca 49 51 100 98 102 200 4900 5100 10000 102 98 5100 4900 10000 nera 51 49 100 tot 200 sì no tot . La tabella riporta le frequenze osservate nei 3 campioni che hanno una diversa numerosità, nA = 100, nB = 200, nC = 10000, notare però che le frequenze relative fij sono le stesse. La statistica χ2 nei tre campioni assume valori molto diversi, proporzionali alla dimensione del campione (fra parentesi sono indicati i p-value) χ2A = 0.08 (0.78), χ2B = 0.16 (0.69), χ2C = 8 (0.005). 1.4 Tabelle a tre vie 11 Quindi, sulla base dei primi due campioni, si ha un valore molto basso della statistica che fa pensare all’ indipendenza fra le due variabili. Per avere un valore abbastanza alto della statistica che consenta di rifiutare l’ipotesi di indipendenza fra le variabili è necessaria una numerosità campionaria molto alta. Se invece calcoliamo l’odds ratio come misura di associazione, questo è indipendente dalla numerosità del campione θ XY = 49 × 49 98 × 98 4900 × 4900 = = = 0.92, 51 × 51 102 × 102 5100 × 5100 log(θ XY ) = −0.08. E’ naturale che il calcolo dell’errore standard dipende invece dal numero delle osservazioni, in particolare r r 1 1 1 1 1 1 1 1 + + + = 0.28, SEB = + + + = 0.20, SEA = 49 49 51 51 98 98 102 102 r 1 1 1 1 SEC = + + + = 0.03, 4900 4900 5100 5100 e gli intervalli di confidenza sono (−0.6288; 0.4688), (−0.472; 0.312), (−0.1388; −0.0212). 1.4 Tabelle a tre vie Consideriamo ora il caso di tre variabili X, Y e Z le cui frequenze congiunte si possono rappresentare in una tabella a tre dimensioni. La generica frequenza nijk indica il numero di unità che manifestano la i-esima modalità della X, la j-esima modalità della Y e la k-esima modalità della Z. Di conseguenza la probabilità congiunta è πijk = P (X = i, Y = j, Z = k). Considerando due variabili binarie X e Y ed una variabile Z a 3 livelli, la tabella a tre vie si può rappresentare nel seguente modo: Z=1 Y X 1 2 Z=2 tot 1 2 Z=3 tot 1 2 tot 1 n111 n121 n101 n112 n122 n102 n113 n123 n1032 2 n211 n221 n201 n212 n222 n202 n213 n223 . n203 Si ha che XXX i j nijk = n, k mentre le frequenze marginali si ottengono sommando rispetto alla variabile per cui si marginalizza X X X nijk , n0jk = nijk , nij0 = nijk , ni0k = k j i Tabelle di contingenza 12 ni00 = XX j nijk , n0j0 = XX i k nijk , n00k = XX i k nijk . j Analogamente si possono calcolare le stime delle probabilità marginali πi00 , π0j0 , π00k , πij0 , πi0k , π0jk . 1.4.1 Distribuzioni marginali Data una tabella a tre vie, le tabelle marginali doppie si possono ottenere attraverso delle somme: Y 1 tot 2 1 n110 = n111 + n112 + n113 n120 = n121 + n122 + n123 n100 = n101 + n102 + n103 X 2 n210 = n211 + n212 + n213 n220 = n221 + n222 + n223 n200 = n201 + n202 + n203 Y 1 tot 2 1 n011 = n111 + n211 n021 = n121 + n221 n101 + n201 Z 2 n012 = n112 + n212 n022 = n122 + n222 n102 + n202 3 n013 = n113 + n213 n023 = n123 + n223 n103 + n203 X 1 tot 2 1 n101 = n111 + n121 n201 = n112 + n122 n011 + n021 Z 2 n102 = n112 + n122 n202 = n212 + n222 n012 + n022 3 n103 = n113 + n123 n203 = n213 + n223 n013 + n023 Notare che la dimensione campionaria di ogni tabella marginale è sempre n= X nij0 = ij X ik ni0k = X n0jk . jk Marginalizzare significa ignorare una variabile e considerare le osservazioni congiunte delle restanti variabili sulla stessa popolazione. Se andiamo a misurare l’associazione in queste tabelle, stiamo misurando l’associazione marginale fra le coppie di variabili XY o XZ o Y Z, indipendentemente dal comportamento della terza variabile. L’odds ratio θ XY = n110 × n220 n120 × n210 1.4 Tabelle a tre vie 13 misura l’associazione in una tabella doppia fra le variabili X ed Y . Se θ XY = 1, si ha che le due variabili sono marginalmente indipendenti X⊥⊥Y , quindi πij0 = πi00 × π0j0 . Se θ XY ≷ 1, si ha che le due variabili sono marginalmente associate in una direzione o nell’altra e πij0 = πi0|j × π0j0 . Esempio 3. Cosideriamo tre variabili binarie X: atteggiamento religioso (non praticante, praticante), Y : atteggiamento politico (repubblicano, democratico) e Z: atteggiamento verso la pena di morte (favorevole, contrario) e la seguente tabella a 3 vie Z: favorevole Z: contrario Y rep. dem. tot rep. dem. tot non prat. 18 12 30 2 8 10 prat. 12 8 20 8 32 40 X . Costruiamo le 3 distribuzioni marginali rep. dem. tot Y X non prat. 20 20 40 prat. 20 40 60 fav. contr. tot Z non prat. 30 10 40 prat. 20 40 60 X fav. contr. tot Z Y rep. 30 10 40 . dem. 20 40 60 Calcoliamo i 3 odds ratio per misurare l’associazione marginale θ XY = 20 × 40 = 2, 20 × 20 θ XZ = 30 × 40 = 6, 10 × 20 θY Z = 30 × 40 = 6. 10 × 20 Gli odds ratio mostrano che le variabili sono marginalmente associate, in particolare l’associazione più forte è fra le variabili XZ e Y Z. Esempio 4. Cosideriamo tre variabili binarie X: sesso (maschio, femmina), Y : razza (bianca, nera) e Z: atteggiamento verso la pena di morte (favorevole, contrario) e la seguente tabella a 3 vie Z: favorevole Y Z: contrario bianchi neri tot maschi X femmine bianchi neri tot 6 12 18 4 18 22 2 3 5 6 21 27 . Costruiamo le 3 distribuzioni marginali Y b n tot m 10 30 40 X f 8 24 32 X Z fav. cont. tot Z fav. cont. tot m 18 22 40 b 8 15 23 . f 5 27 32 n 10 39 49 Y Tabelle di contingenza 14 Calcoliamo i 3 odds ration per misurare l’associazione marginale θ XY = 10 × 24 = 1, 8 × 30 θ XZ = 18 × 27 = 4.4, 5 × 22 θY Z = 8 × 39 = 2. 10 × 15 Gli odds ratio mostrano che le variabili X ed Y sono marginalmente indipendenti, X⊥⊥Y , mentre sono associate le coppie di variabili XZ e Y Z. 1.4.2 Distribuzioni condizionate Le probabilità condizionate si ottengono attraverso dei rapporti, πij|k = πijk , π00k πi|jk = πijk . πi0k Ad esempio, consideriamo le frequenze dell tabelle XY condizionate ai 3 livelli di Z: Z=1 Y 1 2 tot 1 n111 /n001 n121 /n001 n101 /n001 X 2 n211 /n001 n221 /n001 n201 /n001 Z=2 Y 1 2 tot 1 n112 /n002 n122 /n002 n102 /n002 X 2 n212 /n002 n222 /n002 n202 /n002 Z=3 Y 1 2 tot 1 n113 /n003 n123 /n003 n1032 /n003 X 2 n213 /n003 n223 /n003 . n203 /n003 Notare che la dimensione campionaria delle tabelle condizionate è diversa da n. Ad esempio, nella tabella XY |Z = 1, la dimensione campionaria è data dal condizionamento, cioè da tutte le unità n001 tali per cui Z = 1. Sommando la dimensione campionaria delle 3 tabelle condizionate si ottiene nuovamente la dimensione complessiva P n = k n00k . Condizionare ad un livello k della variabile Z, significa andare ad osservare le restanti variabili X ed Y nella sottopopolazione delle unità che assumono uno specifico livello della variabile di condizionamento. Una tabella a tre vie è sostanzialmente un insieme di tabelle doppie condizionate ai livelli della terza variabile. Ad esempio, la tabella sopra illustrata contiene 3 tabelle doppie XY condizionate ai 3 livelli della variabile Z: X, Y |Z = 1, X, Y |Z = 2, 1.4 Tabelle a tre vie 15 X, Y |Z = 3. Studiando l’associazione di queste 3 tabelle, studiamo in pratica l’associazione condizionata di X ed Y in base alle modalità assunte da Z. Ad esempio, se osserviamo i seguenti odds ratio condizionati (al pedice si indica il livello della variabile di condizionamento) θ1XY = 1, θ2XY < 1, θ3XY > 1 si ha che nel caso in cui Z = 1, X⊥⊥Y poiché l’odds ratio è 1, mentre nel caso cui cui Z = 2 e Z = 3, X ed Y sono associate, ma la loro associazione è nella direzione opposta. Qualora θkXY = 1 per ogni modalità k della variabile Z, si ha l’indipendenza condizionata X⊥⊥Y |Z, Questo vuol dire che condizionandoci a qualunque modalità che la Z può assumere, le due variabili X ed Y non sono associate. L’indipendenza condizionata implica che la probabilità congiunta πijk = πi|jk πj|k πk , si può anche ottenere come prodotto delle probabilità condizionate πijk = πi|k πj|k πk , poiché, se X⊥⊥Y |Z, πi|jk = πi|k . Come si può facilmente intuire, l’indipendenza condizionata fra due variabili non implica quella marginale e viceversa. Riprendiamo l’esempio 3 in cui le variabili sono tutte marginalmente associate. Se calcoliamo l’odds ratio nella distriuzione condizionata di XY |Z, notiamo che θ1XY = 18 × 8 = 1, 12 × 12 θ2XY = 2 × 32 = 1. 8×8 Quindi l’atteggiamento religioso e quello politico sono associate marginalmente, ma indipendenti condizionatamente all’atteggiamento nei confronti della pena di morte: X⊥⊥ / Y, X⊥⊥Y |Z. Analogamente, se consideriamo l’esempio 4, abbiamo che le variabili X ed Y sono marginalmente indipendenti, ma se andiamo a calcolare l’odds ratio nella distriuzione condizionata di XY |Z, notiamo che θ1XY = 6×3 = 0.75, 12 × 2 θ2XY = 4 × 21 = 0.8. 18 × 6 Quindi il sesso e la razza sono marginalmente indipendenti, ma associati condizionatamente all’atteggiamento nei confronti della pena di morte, X⊥⊥Y, X⊥/⊥ Y |Z. Tabelle di contingenza 16 1.5 Tabelle multiple Il caso più generale delle tabelle di contingenza è quello in cui si considera un insieme di k variabili C1 , . . . , Ck ognuna delle quali può assumere b1 , . . . , bk livelli. L’insieme Q delle possibili combinazioni dei livelli delle k variabili è data dal prodotto t = kj=1 bj . Ad esempio, consideriamo la variabile discreta C1 : soddifazione per il prodotto A (poco, abbastanza molto) e C2 : soddifazione per il prodotto B (poco, abbastanza molto); ogni variabile ha 3 modalità, perciò le combinazioni possibili sono t = 3 × 3 = 9: • poco soddisfatto (A), poco soddifatto (B) • poco soddisfatto (A), abbastanza soddifatto (B) • poco soddisfatto (A), molto soddifatto (B) • abbastanza soddisfatto (A), poco soddifatto (B) • abbastanza soddisfatto (A), abbastanza soddifatto (B) • abbastanza soddisfatto (A), molto soddifatto (B) • molto soddisfatto (A), poco soddifatto (B) • molto soddisfatto (A), abbastanza soddifatto (B) • molto soddisfatto (A), molto soddifatto (B). Le osservazioni relative a queste due variabili si possono rappresentare con una tabella doppia. Supponiamo di estendere la stessa indagine per osservare il livello di soddisfazione di k > 3 prodotti, abbiamo una tabella multidimensionale definita da una classe I di celle che rappresentano le combinazioni di tutti i possibili livelli delle variabili. Questa classe è definita come il prodotto cartesiano di tutti i livelli I = ×kj=1 bk e ogni cella i ∈ I della tabella rappresenta una possibile combinazione da cui ni è la frequenza di osservazioni nella cella i e πi è la probabilità che si verifichi quella specifica configurazione di modalità. Esempio 5. Consideriamo 5 variabili binarie osservate su 1128 individui in Germania fra 18 e 65 anni. U : unconcerned about environment (yes, no); P : no own political impact expected (yes, no), E: parents education, both at lower level (at most 10 years) (yes, no); A: age under 40 years(yes, no); S: gender (female, male). Queste osservazioni 1.5 Tabelle multiple 17 si collezionano in una tabella a 5 dimensioni con 25 = 32 celle. U yes no f m P yes no yes no yes no yes S f m A E no yes 6 8 7 27 no 4 0 1 9 2 2 11 6 0 1 0 2 yes yes no 66 186 8 64 28 159 4 75 no 24 230 4 60 16 130 8 80 1.5.1 La distribuzione multinomiale La distribuzione di probabilità associata ad una tabella multipla a k dimensioni è la distribuzione multinomiale. La variabile casuale multinomiale è una generalizzazione della variabile casuale Binomiale poiché si basa su una sequenza di prove indipendenti identicamente distribuite. La differenza consiste nel fatto che, ad ogni prova, si possono osservare un numero finito t ≥ 2 di risultati che non sono necessariamente un successo o un insuccesso. Un vettore X = (X1 , . . . , Xt ) si distribuisce come una multinomiale, X ∼ M n(n, π), π = (π1 , . . . , πt ), la cui funzione di probabilità è pX (n1 , . . . , nt ) = n π1n1 × · · · × πtnt n1 , . . . , n t P n n! . I parametri della distribuzione sono n = dove n1 ,...,n = i ni , il numero delle n !...n ! t t 1 prove e π1 , . . . , πt , le probabilità di ogni i-esima configurazione. Anche i parametri P relativi alla probabilità sono ovviamente vincolati poiché i πi = 1. Il valore atteso di una distribuzione multinomiale è E(X) = E(X1 ) nπ1 .. .. = . . . E(Xt ) nπt Le covarianze e le correlazioni fra le coppie Xi , Xj sono C(Xi , Xj ) = −nπi πj , Corr(Xi , Xj ) = − r πi πj . 1 − πi 1 − πj Esempio 6. Sia X una variabile casuale con distribuzione multinomiale associata ad Tabelle di contingenza 18 una tabella multipla 2 × 3 × 2 con vettore di probabilità π= π111 π112 π121 π122 π131 π132 π211 π212 π221 π222 π231 π232 = 0.01 0.20 0.10 0.09 0.09 0.03 0.07 0.09 0.20 0.02 0.04 0.06 . Consideriamo n = 200 prove indipendenti, la probabilità marginale P (X = 1, Z = 1) è π101 = π111 + π121 + π131 = π101 = 0.01 + 0.10 + 0.09 = 0.20 mentre il valore atteso associato a questo evento è E(n101 ) = 200×π101 = 200×0.2 = 40. La probabilità condizionata P (X = 1, Y = 1|Z = 2) è π11|2 = π112 π112 = = π002 π112 + π122 + π132 + π212 + π212 + π222 + π232 π11|2 = 0.20 0.20 = = 0.41 0.20 + 0.09 + 0.03 + 0.09 + 0.02 + 0.06 0.49 mentre il valore atteso associato a questo evento è E(n11|2 ) = (2 × 49) × 0.41 = 40.18. Notare che la dimensione campionaria della tavola XY |Z = 2 è data dal 49% del totale n = 200, poiché π002 = 0.49. Alcune proprietà della distribuzione multinomiale: • se X ∼ M n(nX , π) e Y ∼ M n(nY , π), la somma X + Y ∼ M n(nX + nY , π); questa proprietà si può generalizzare anche per la somma di m > 2 multinomiali • se X ∼ M n(nX , π), anche la distribuzione marginale X 1 ∼ M n(nX , π 1 ) è una distribuzione multinomiale • se X ∼ M n(nX , π), anche la distribuzione condizionata X 1 |X 2 ∼ M n(n1|2 , π 1|2 ) è una distribuzione multinomiale. 1.6 Esercizi 19 1.6 Esercizi 1. Si consideri la seguente tabella relativa a due variabili Y : result of crash (fatality, nonfatality), X: seat-belt use (yes, no). fatality nonfatality tot Y yes 13 34 no X 60 tot 52 107 • completare la tabella; • calcolare la tabella delle frequenze relative; • rappresentare la tabella di X|Y ; • rappresentare la tabella di Y |X; • verificare se c’è indipendenza fra le variabili. 2. Si consideri la seguenete tabella relativa a due variabili Y : job satisfaction (very dissatisfied, little dissatisfied, moderately satisfied, very satisfied), X: income (<15000, 15000-25000, 25000-40000, >40000). Y vd ld ms vs tot <15000 1 3 10 6 15000-25000 2 3 10 7 X 25000-40000 1 6 14 12 0 1 9 19 >40000 tot • completare i totali della tabella; • costruire la tabella di indipendenza; • verificare l’ipotesi di indipendenza attraverso il test χ2 ; • costruire la tabella 2 × 2 considerando le stesse variabili in cui vengono accorpate delle categorie Y : job satisfaction (dissatisfied, satisfied), X: income (<25000, >25000); • calcolare l’intervallo di confidenza per l’odds ratio in quest’ultima tabella. 3. Si consideri la seguente tabella relativa a due variabili Y : party identification (democrat, independent, republican), X: race (black, white). Y democratic independent republican black 103 15 11 X white 341 105 405 Tabelle di contingenza 20 • verificare l’ipotesi di indipendenza con il test χ2 ; • costruire la tabella ignorando la categoria independent della variabile Y ; • verificare l’ipotesi di indipendenza in questa nuova tabella con il test χ2 ; • nella stessa tabella 2 × 2 costruire l’intervallo di confidenza per l’odds ratio e valutare la presenza/assenza di indipendenza; • mantenendo lo stesso totale delle osservazioni della tabella 2 × 2 (ignorando gli indipendenti per la variabile Y ), riclassificare in modo arbitrario le unità considerate in due tabelle 2 × 2 considerando una terza variabile Z: gender (male, female); • calcolare l’odds ratio condizionato nelle due tabelle ottenute; confrontare il livello di associazione fra XY condizionatamente al genere. 4. Si consideri la seguente tabella relativa a tre variabili Y : death penalty verdict (yes,no), X: defendant’s race (white, black), Z: victim’s race (white, black). Z = white Y yes no white 53 X black 11 Z = black tot Y yes no 414 white 0 16 37 X black 4 139 tot • completare la tabella; • costruire le tabelle marginali XY , Y Z e XZ; • verificare l’indipendenza marginale per ognuna delle tre distribuzioni; • verificare l’indipendenza condizionata. 5. Si consideri una distribuzione multinomiale associata ad una tabella 3 × 3 di parametri n = 120 e vettore di probabilità π 0 = π11 π12 π13 π21 π22 π23 π31 π32 π33 = = 0.088 0.04 0.099 0.14 0.19 0.19 0.045 0.14 0.072 • calcolare le probabilità marginali π10 , π12 ; • calcolare le probabilità condizionate π2|2 , π1|3 ; • calcolare i seguenti valori attesi E(n21 ), E(n03 ), E(n2|1 ). . Capitolo 2 La distribuzione normale multivariata 2.1 Introduzione Le variabili casuali multiple ci consentono di studiare congiuntamente e contemporaneamente il comportamento di un insieme di fenomeni aleatori su una stessa popolazione di riferimento e, inoltre, di studiare le associazioni e le relazioni fra i singoli fenomeni presi in esame. Siano X1 , . . . , Xp , delle variabili casuali continue definite sullo stesso spazio di probabilità. Allora il vettore casuale X 1 .. X= . Xp costituisce una variabile casuale multipla o multivariata la cui funzione di densità di probabilità è fX (x). Il valore atteso della variabile X è definito come il vettore dei valori attesi delle singole componenti (sempre se estinono finiti) E(X1 ) .. E(X) = µ . . E(Xp ) La matrice di varianza e covarianza è definita come C(X1 , X2 ) · · · C(X1 , Xp ) V (X1 ) C(X2 , X1 ) V (X2 ) · · · C(X2 , Xp ) V (X) = .. .. .. .. . . . . C(Xp , X1 ) C(Xp , X2 ) · · · V (Xp ) Questa matrice è simmetrica e semidefinita positiva. 21 . La distribuzione normale multivariata 22 Così come per le variabili univariate, è possibile derivare la distribuzione di probabilità anche di combinazioni lineari di variabili casuali multiple. Sia A una matrice (k × p) e b un vettore (k × 1), si ottiene una variabile casuale multipla Y di dimensione k attraverso la seguente combinazione lineare Y = AX + b. Conoscere la distribuzione di combinazioni lineari di variabili è utile quando, più che al comportamento dei fenomeni presi in esame, si è interessati a studiare l’effetto di alcune loro trasformazioni. Ogni sottoinsieme di k < p componenti, definisce una variabile casuale multipla marginale X k di dimensione k. Marginalizzare significa ignorare p − k variabili che non vengono più considerate. La funzione di densità di probabilità fX k (xk ) della distribuzione marginale X k si ottiene integrando la funzione di densità della variabile multipla X rispetto alle p − k dimensioni che vengono ignorate, fX k (xk ) = Z x∈R(p−k) fX (x)dx. Supponiamo di osservare le seguenti variabili in una popolazione di riferimento: età, peso, pressione oculare, ore in media trascorse ogni giorno al computer. Stiamo facendo un’operazione di marginalizzazione se ci limitiamo a studiare il comportamento probabilistico nell’intera popolazione di riferimentosolo della pressione oculare e delle ore passate al computer ignorando le variabili età e peso. Diversa è invece la variabile casuale multipla condizionata X|X k che rappresenta la distribuzione di probabilità delle restanti p−k componenti dopo aver fissato una classe di valori per le k componenti. A differenza della marginalizzazione che osserva un ridotto numero di variabili sull’intera popolazione, l’operazione di condizionamento consente di studiare un ridotto numero di variabili su una sottopopolazione definita dalla classe di valori assunta dalle k variabili selezionate. Ad esempio, si studia il comportamento probabilistico delle variabili pressione oculare e delle ore passate al computer non su tutta la popolazione, ma solo su coloro che hanno fra i 40 e i 50 anni e hanno un peso compreso fra i 65 e i 70 kg. La funzione di densità di probabilità della variabile casuale condizionata X|X k di ottiene attraverso il rapporto fX |X k (x|xk ) = fX (x) fX k (xk ) della distribzione congiunta della variabile X e della distribuzione marginale della variabile X k a cui ci stiamo condizionando. 2.2 La distribuzione normale univariata Normale standard 0.4 0.35 23 mu = 0 sigma = 1 0.3 f(z) 0.25 0.2 0.15 0.1 0.05 0 −3 −2 −1 0 z 1 2 3 Figura 2.1: 2.2 La distribuzione normale univariata Prima di procedere con la normale multivariata, questo paragrafo richiama brevemente la funzione di densità di una variabile continua ed, in particolare, la normale univariata e le sue proprietà. Una distribuzione di probabilità univariata definita per un certo fenomeno aleatorio X di carattere continuo ci consente di studiare il comportamento di tale fenomeno in una popolazione di riferimento, ad esempio, il reddito, il lievllo dei consumi, l’altezza, etc... Pertanto, sia X una variabile casuale continua con funzione di densità di probabilità fX (x), il suo valore atteso e la sua varianza, se esistono finiti, sono definiti come Z Z E(X) = µ = xfX (x)dx, V (X) = (x − µ)2 fX (x)dx. Fra le distribuzioni di probabilità la più nota ed utilizzata è sicuramente la distribuzione normale. Questa distribuzione si adatta bene a descrivere il comportamento probabilistico di fenomeni quantitativi simmetrici. E’ caratterizzata da due parametri, un parametro di posizione, la media µ e un parametro di scala, la varianza σ 2 , che misura la dispersione del fenomeno attorno al valor medio. Minore è la varianza e maggiore è la probabilità che le realizzazioni del fenomeno preso in esame siano in un intorno della media. E’ una distribuzione che è molto utilizzata anche perché gode di ottime proprietà che verranno successivamente illustrate. Sia X una variabile casuale continua distribuita secondo una legge normale, i.e. X ∼ N (µ, σ). La funzione di densità della variabile X è fX (x) = 1 (x − µ)2 √ exp{− } 2σ 2 σ 2π dove µ e σ sono i parametri della distribuzione. Al variare dei parametri si ha una diversa distribuzione normale. Il caso particolare in cui µ = 0 e σ 2 = 1 definisce la variabile normale standardizzata, solitamente indicata come Z ∼ N (0, 1), vedi Fig. 2.1. La distribuzione normale multivariata 24 La probabilità che una variabile casuale normale standard assuma valori in un certo intervallo (a, b) si calcola attraverso l’integrale Z b P (a ≤ Z ≤ b) = fZ (z)dz. a Il calcolo dell’integrale non può essere svolto in forma analitica, ma numerica per cui si ricorre all’utilizzo di un software o delle tavole di probabilità. Circa il 90% della probabilità si concentra nell’intervallo di valori (−2, 2), mentre circa il 99% della probabilità nell’intervallo di valori (−3, 3). L’insieme di tutte le coppie di valori dei parametri (µ, σ 2 ), definisce la famiglia di distribuzioni normali. Ad esempio, se il fenomeno che vogliamo rappresentare è l’altezza, possiamo ipotizzare che X ∼ N (1.60, 0.1). Al variare del parametro media cambia la posizione della distribuzione, mentre al variare dei parametro varianza cambia la forma e la concentrazione della distribuzione attorno alla media (vedi Fig. 2.2). Data una variabile casuale normale X ∼ N (µ, σ 2 ) non standard, ci si può sempre ricondurre ad una variabile Z attraverso l’operazione di standardizzazione: X −µ . σ Z= Quindi se volessimo calcolare P (a ≤ X ≤ b), dobbiamo standardizzare gli estremi dell’intervallo ed ottenere così za = a−µ , σ zb = b−µ . σ La probabilità che una variabile X non standard sia compresa fra a e b è equivalente alla probabilità che una normale standard Z sia compresa fra za e zb : Z b Z zb P (a ≤ X ≤ b) = fX (x)dx = fZ (z)dz. a za Esempio 7. Sia X ∼ N (12, 4.5). Calcolare P (X ≥ 14). 14 − 12 P (X ≥ 14) = P (Z ≥ √ ) = P (Z ≥ 0.94) = 0.17361 4.5 Variazioni del parametro di posizione 8 media = 1.60 media = 1.50 media = 1.70 3.5 3 8 var = 0.1 var = 0.05 var = 0.2 7 6 5 f(x) 2.5 f(x) Variazioni del parametro di scala 2 7 media = 1.60 var = 0.1 6 media = 1.55 var = 0.05 4 4 1.5 3 3 1 2 2 0.5 1 1 0 1.3 1.4 1.5 1.6 x 1.7 1.8 1.9 2 0 1.3 Variazioni deli parametri media e varianza 5 f(x) 4 1.4 1.5 1.6 x 1.7 1.8 Figura 2.2: 1.9 2 0 1.3 1.4 1.5 1.6 x 1.7 1.8 1.9 2 2.3 La funzione di densità della normale multipla 25 Calcolare P (9 ≤ X ≤ 14). 9 − 12 14 − 12 P (9 ≤ X ≤ 1) = P ( p ≤Z≤ √ )= 4.5 (4.5 = P (Z ≤ 0.94) − P (Z ≤ −1.4142) = 0.82639 − 0.078652 = 0.74774. 2.3 La funzione di densità della normale multipla Un vettore X = (X1 , . . . , Xp ) di p variabili casuali che assume valori x = (X1 = x1 , . . . , Xp = xp ) con x ∈ Rp (spazio euclideo di dimensione p) si distribuisce come una normale multivariata a p dimensioni se la sua funzione di densità di probabilità è fX (x) = 1 (2π)p/2 (det Σ)1/2 1 exp{ (x − µ)0 Σ−1 (x − µ)}, 2 (2.1) dove µ = (µ1 , . . . , µp )0 ∈ Rp è il vettore dei parametri media e Σ è una matrice di varianza e covarianza simmetrica, definita positiva di dimensione (p × p) 2 σ σ12 · · · σ1p 1 σ21 σ22 · · · σip Σ= . .. .. con σij = σji , i, j = 1, . . . , p. .. . . . . . σp1 σp2 · · · σp2 La matrice Σ contiene sulla diagonale principale la varianza σi2 relativa alla variabile Xi , mentre al di fuori della diagonale principale ci sono le covarianze σij che rappresentano una misura di associazione lineare a coppia fra le variabili Xi e Xj . La covarianza è una misura di associazione bilaterale per cui σij = σji ; pertanto la matrice Σ è simmetrica. Data la funzione di densità, per ogni punto x = (x1 , . . . , xp ) in Rp , possiamo calcolare attraverso un integrale multiplo la probabilità congiunta che ogni variabile Xi assuma un valore inferiore a xi , contemporaneamente per ogni i = 1, . . . , p, Z x1 Z x2 Z xp P (X < x) = P (X1 , < x1 , . . . , Xp < xp ) = ... fX (x)dx. −∞ −∞ −∞ Esempio 8. Se consideriamo solo due variabili, possiamo calcolare la probabilità che la pressione oculare sia inferiore a 21 millimetri di mercurio e che le ore trascorse in media ogni giorno al pc siano meno di 8 nella popolazione di riferimento. Se il vettore X si distrbuisce come una normale multivariata a p dimensioni, i.e. X ∼ N (µ, Σ), ogni singola variabile Xi si distribuisce come una Normale univariata, i.e. N (µi , σi2 ), 1 (xi − µi )2 fXi (xi ) = √ exp{− }. (2.2) 2σi2 σi 2π La distribuzione normale multivariata 26 Se la matrice Σ è diagonale Σ= σ12 0 0 .. . σ22 .. . 0 0 ··· 0 ··· 0 . , .. . .. 2 · · · σp significa che tutte le covarianze sono nulle σij = 0. Per variabili casuali normali, la covarianza nulla è una condizione necessaria e sufficiente per l’indipendenza (questa condizione non è valida in generale): σij = 0 ⇐⇒ Xi⊥⊥Xj , i 6= j. Inoltre, sempre caso specifico di distribuzioni normali, l’indipendenza fra tutte le possibili coppie di variabili Xi e Xj implica quella che viene chiamata l’indipendenza mutua, Xi⊥⊥Xj , ∀(i, j) ⇐⇒ X1⊥⊥X2⊥⊥, . . . , ⊥⊥Xp . Questo implica che la funzione di densità per il vettore casuale X è il prodotto delle funzioni di densità di ogni singola variabile Xi ∼ N (µi , σi2 ) fX (x) = p Y i=1 1 √ σi 2π exp{− (xi − µi )2 }. 2σi2 Considerando l’esempio 2.3, se le due variabili sono indipendenti, la probabilità congiunta dell’evento è il prodotto fra la probabilità che la pressione oculare sia inferiore a 21 millimetri di mercurio e la probabilità che le ore trascorse in media ogni giorno al pc siano meno di 8. Dalla matrice di varianza e covarianza Σ si può ricavare la matrice di correlazione −1 R = D −1 σ ΣD σ R= 1 ρ21 .. . ρp1 ρ12 · · · ρ1p 1 · · · ρip .. .. .. . . . ρp2 · · · 1 con ρij = ρji , i, j = 1, . . . , p., dove D σ è la matrice diagonale di tutte le deviazioni standard. Anche questa è una maσ trice simmetrica il cui generico elemento ρij = σiijσj è il coefficiente di correlazione lineare fra le variabili Xi e Xj . Se le variabili sono indipendenti, la matrice di correlazione coincide con una matrice identità R = I di dimensione p. 2.4 Ellissoidi di concentrazione e proprietà della normale multipla 27 2.4 Ellissoidi di concentrazione e proprietà della normale multipla Dal momento che Σ è un matrice semidefinita positiva, (x − µ)0 Σ−1 (x − µ) ≥ 0, per ogni costante c > 0, l’equazione (x − µ)0 Σ−1 (x − µ) = c2 (2.3) definisce un ellissoide nello spazio Rp rispetto al quale la funzione di densità fX (x) di una normale p-dimensionale è costante. Al variare di c, si ha una famiglia di ellissoidi (detti di uguale concentrazione) che hanno lo stesso centro nel punto µ, mentre la forma e l’orientamento di questi ellissoidi dipende dalla matrice di varianza e covarianza Σ. Questa viene chiamata la famiglia degli ellissoidi di concentrazione. Tale nome deriva dal fatto che l’inversa della matrice di varianza e covarianza Σ−1 , viene anche detta matrice di concentrazione i cui elementi σ ij sono le concetrazioni per ogni coppia di variabili. Gli elementi σ ij si ottengono invertendo la matrice Σ, pertanto, σ ij 6= σij−1 . La normale multivariata gode di numerose e peculiari proprietà fra le quali ricordiamo le seguenti: • se X ∼ N (µ, Σ), allora Y = Σ−1/2 (X − µ) ∼ N (0, I) è una normale multipla a componenti indipendenti e standardizzate; √ • se X ∼ N (µ, Σ), allora per ogni vettore c non nullo c0 X 0 cc0 ∼ N (0, 1) è una normale standard univariata; • se X ∼ N (µ, Σ), allora la forma quadratica (x − µ)0 Σ−1 (x − µ) ∼ χ2p di distribuisce come una chi-quadrato con p gradi di libertà; • se X ∼ N (µ, Σ), allora AX e BX sono indipendenti se e solo se AΣB 0 = 0. Dalle proprietà della normale derivano importanti conseguenze relative alle combinazioni lineari, alle distribuzioni marginali e condizionate di una variabile normale multipla. 2.5 La normale bivariata Nel caso particolare in cui p = 2, il vettore X = (X1 , X2 ) si distribuisce come una normale bivariata di parametri µ = (µ1 , µ2 )0 e Σ= σ12 σ12 σ21 σ22 . La distribuzione normale multivariata 28 Normale bivariata mu1 = 1 mu2 = −2 sigma1 = 2 sigma2 = 1 rho = 0.6 0.08 y 0.06 0.04 0.02 0 2 1 0 −1 −2 x2 −3 −4 −5 −6 0 −2 −1 −3 −4 1 2 3 4 5 6 x1 Figura 2.3: La funzione di densità (2.1) si può anche scrivere in modo scalare fX1 ,X2 (x1 , x2 ) = 1 1 (x1 − µ1 )2 p − exp{− [ 2(1 − ρ212 ) σ12 (2π)σ1 σ2 ( 1 − ρ212 ) x1 − µ1 x2 − µ2 (x2 − µ2 )2 ]} −2ρ12 + σ1 σ2 σ22 dove ρ12 = σσ112σ2 è il coefficiente di correlazione lineare. La normale bivariata assume una forma campanulare e la sua funzione di densità si può rappresentare in R3 , lo spazio eluclideo tridimensionale, vedi Fig. 2.3. Un piano parallelo al piano (x1 , x2 ) interseca orizzontalmente la superficie formando l’ellisse di concentrazione definito in (2.3), tale per cui, in ogni punto (x1 , x2 ) appartente all’ellisse, la funzione di densità fX1 ,X2 (x1 , x2 ) è costante. Un piano perpendicolare al al piano (x1 , x2 ) interseca verticalmente la superficie e, per un fissato valore di x1 o x2 definisce una funzione di densità univariata condizionata fX2 (x2 |X1 = x1 ) o fX1 (x1 |X2 = x2 ). Nella Fig. 2.4 viene rappresentata la famiglia degli ellissi di concentrazione. Dato il coefficiente di correlazione ρ = 0.6 positivo, l’orientamento degli ellissi evidenzia un’associazione lineare positiva fra le variabili casuali. In presenza di coefficiente di correlazione ρ = −0.6 negativo, cambia l’orientamento della funzione di densità in Fig. 2.5 e di conseguenza quello della famiglia di ellissi di concentrazione in Fig. 2.6. Al variare del vettore dei parametri media cambia la posizione, in particolare il centro degli ellissoidi (vedi Fig. 2.7), mentre al variare della matrice di varianza e covarianza cambia l’orientamento e la dispersione degli ellissoidi (vedi Fig. 2.8). 2.5 La normale bivariata 29 Ellissi di concentrazione 2 mu1 = 1 mu2 = −2 sigma1 = 2 sigma2 = 1 rho = 0.6 1 0 x2 −1 −2 −3 −4 −5 −6 −3 −2 −1 0 1 x1 2 3 4 5 Figura 2.4: Normale bivariata mu1 = 1 mu2 = −2 sigma1 = 2 sigma2 = 1 rho = − 0.6 0.1 0.08 0.06 0.04 0.02 0 2 1 0 −1 −2 x2 −3 −4 −5 −6 0 −2 −1 −4 −3 Figura 2.5: x1 1 2 3 4 5 6 La distribuzione normale multivariata 30 Ellissi di concentrazione 2 mu1 = 1 mu2 = −2 sigma1 = 2 sigma2 = 1 rho = − 0.6 1 0 x2 −1 −2 −3 −4 −5 −6 −3 −2 −1 0 1 2 x1 3 4 5 1 2 Figura 2.6: Ellissi di concentrazione 8 7 6 mu1 = −2 mu2 = 4 sigma1 = 2 sigma2 = 1 rho = 0.6 x2 5 4 3 2 1 0 −6 −5 −4 −3 −2 x1 −1 Figura 2.7: 0 2.6 Combinazioni lineari di variabili normali 31 Ellissi di concentrazione 4 mu1 = 1 mu2 = −2 2 sigma1 = 2 sigma2 = 3 rho = 0.4 x2 0 −2 −4 −6 −8 −4 −2 0 x1 2 4 6 Figura 2.8: Due variabili casuali normali X1 ∼ N (µ1 , σ12 ) e X1 ∼ N (µ2 , σ22 ) sono indipendenti, se e solo se σ12 = 0 e di conseguenza ρ12 = 0. L’indipendenza fra due variabili si ha se e solo se la funzione di densità congiunta per la variabile X = (X1 , X2 ) è il prodotto delle funzioni di densità delle singole variabili. fX (x) = fX1 (x1 )fX2 (x2 ) = = 1 1 (x1 − µ1 )2 (x2 − µ2 )2 + ]}. exp{− [ (2π)σ1 σ2 2 σ12 σ22 Quando le due variabili sono indipendenti, ρ12 = 0, gli assi degli ellissi sono paralleli agli assi cartesiani (vedi Fig. 2.9). 2.6 Combinazioni lineari di variabili normali Sia X una variabile casuale di dimensione p che ha distribuzione normale multipla con parametri media µ e matrice di varianza e covarianza Σ. Consideriamo ora la variabile casuale multipla Y di dimensione k ottenuta dalla seguente combinazione lineare Y = AX + b dove A è una matrice k × p e b è un vettore k × 1. La variabile casuale Y si distribuisce come una normale multipla con valore atteso e varianza E(Y ) = Aµ + b, V (Y ) = AV (X)A0 rispettivamente di dimesioni (k × 1) e (k × k). La distribuzione normale multivariata 32 Ellissi di concentrazione 2 1 0 x2 −1 −2 −3 −4 mu1 = 1 mu2 = −2 −5 sigma1 = 2 −6 −3 sigma2 = 1 rho = 0 −2 −1 0 1 x1 2 3 4 5 Figura 2.9: Esempio 9. Sia (X1 , X2 ) un vettore casuale con distribuzione normale di parametri µ0 = (6.25, −3.58), σ12 = 9.84, σ22 = 4.65 e σ12 = −1.95. Consideriamo la variabile casuale W = X1 − 2X2 ottenuta con la seguente combinazione lineare X1 . W = 1 −2 X2 La variabile W ha distribuzione normale con media e varianza 6.25 = 6.25 + 2 ∗ 3.58 = 13.41 µW = 1 −2 −3.58 2 σW = 1 −2 9.84 −1.95 −1.95 4.65 1 −2 = 36.24 Esempio 10. Siano (X1 , X2 ) e (Y1 , Y2 ) vettori aleatori indipendenti entrambi con distri2 buzione normale con parametri µX = (5.25, 8.48), µY = (−1.34, −6.29), σX = 9.87, 1 2 2 2 σX2 = 2.81, σY1 = 1.26, σY2 = 8.66, σX1 ,X2 = −0.99, σY1 ,Y2 = 1.22. La variabile multipla W = (W1 , W2 ), con W1 = X1 + X2 − (Y1 + Y2 ) e W2 = (X1 − X2 ) + (Y1 − Y2 ) è ottenuta con la seguente combinazione lineare X1 X2 W1 1 1 −1 −1 = W = . Y W2 1 −1 1 −1 1 Y2 2.7 Distribuzioni marginali e condizionate 33 Quindi, la variabile W ha distribuzione normale multipla con parametri 5.25 21.36 1 1 −1 −1 8.48 . µW = = 1.72 1 −1 1 −1 −1.34 −6.29 9.87 −0.99 −1 0 0 −0.99 0 2.81 0 0 1 1 1 −1 ΣW = = 1 −1 1 0 1.26 1.22 −1 1 0 1.22 8.66 −1 −1 1 1 23.06 14.46 8.88 1.82 −2.48 −9.88 1 −1 = = 14.46 22.14 10.86 −3.8 0.04 −7.44 −1 1 −1 −1 1 1 −1 −1 0 2.7 Distribuzioni marginali e condizionate Sia X = (X 1 , X 2 )0 un vettore di variabili casuali normali con parametro media µ = (µ1 , µ2 ) e matrice di varianza e covarianza Σ11 Σ12 , Σ= Σ21 Σ22 dove, ad esempio, Σ11 indica il blocco della matrice di varianza e covarianza della componente multipla X 1 . La variabile casuale marginale X 1 ha distribuzione normale X 1 ∼ N (µ1 , Σ11 ). Esempio 11. Sia X = (X1 , X2 , X3 ) una variabile normale multipla di parametri µX = (2.25, −1.89, 0.56), σ12 = 10.25, σ22 = 8.72, σ32 = 15.33, σ12 = −0.45, σ13 = 0, σ23 = 0.99. La variabile marginale (X1 , X2 ) ha distribuzione normale bivariata di parametri 2.25 10.25 −0.45 , Σ1,2 = . µ1,2 = −1.89 −0.45 8.72 La variabile marginale (X1 , X3 ) ha distribuzione normale bivariata di parametri 2.25 10.25 0 , Σ1,3 = . µ1,3 = 0.56 0 15.33 34 La distribuzione normale multivariata Esempio 12. Sia X = (X1 , X2 ) una variabile normale bivariata di parametri µX = (13.10, −10.5) e matrice di concentrazione 0.07 −0.04 . Σ−1 = −0.04 0.9 La matrice di varianza e covarianza è 0.9 0.04 0.9 0.04 1 1 = = Σ= det(A) 0.07 ∗ 0.9 − 0.04 ∗ 0.04 0.04 0.07 0.04 0.07 1 0.9 0.04 14.66 0.65 = = , 0.0614 0.04 0.07 0.65 1.14 pertanto la variabile marginale X1 ha distribuzione normale con parametri µ1 = 13.10 e σ12 = 14.66. Inoltre, dato il vettore a blocchi X = (X 1 , X 2 )0 di variabili casuali normali la variabile X 2,1 = X 2 − Σ21 Σ−1 11 X 1 ha ancora distribuzione normale multipla −1 X 2,1 ∼ N (µ2 − Σ21 Σ−1 11 µ1 , Σ22 − Σ21 Σ11 Σ12 ). La variabile casuale condizionata X 2 |X 1 è ancora una variabile casuale normale multipla −1 X 2 |X 1 ∼ N (µ2 + Σ21 Σ−1 11 (X 1 − µ1 ), Σ22 − Σ21 Σ11 Σ12 ). Esempio 13. Consideriamo una variabile X multipla di dimensione 4 che ha parametri µ = (0.22, 4.35, −0.01, 2.25) e 12.33 0.1 −0.32 −0.01 0.1 2.84 −0.2 −0.15 Σ= . −0.32 −0.2 4.10 0.25 −0.01 −0.15 0.25 8.67 Consideriamo due blocchi di variabili X 1 = (X1 , X2 ) e X 2 = (X3 , X4 ) e i conseguenti blocchi di parametri associati 0.22 −0.01 µ2 = µ1 = 4.35 2.25 12.33 0.1 4.10 0.25 −0.32 −0.01 , Σ22 = , Σ12 = , Σ21 = Σ012 . Σ11 = 0.1 2.84 0.25 8.67 −0.2 −0.15 La variabile condizionata e X 2 |X 1 ha dstribuzione normale con matrice di varianza e covarianza Σ2|1 = Σ22 − Σ21 Σ−1 11 Σ12 = 2.8 Misure di associazione fra variabili casuali normali = 4.10 0.25 0.25 8.67 − −0.32 −0.2 −0.01 −0.15 0.08 35 −0.003 −0.003 4.10 0.25 = 0.25 8.67 0.35 −0.32 −0.01 −0.2 −0.15 = Per concludere, si consideri il caso più semplice di una normale bivariata Z = (X, Y ) con µz = (µx , µy )0 e matrice di varianza e covarianza 2 σx σxy . Σ= σyx σy2 La variabile marginale Y ha distribuzione normale, N (µy , σy2 ), analogamente anche la variabile marginale X ∼ N (µx , σx2 ). Si consideri la variabile casuale condizionata Y |X = x. Questa è ancora una variabile casuale normale σx E(Y |X = x) = µy + ρxy (x − µx ), V (Y |X = x) = σy2 (1 − ρ2xy ) σy Se le due variabili sono incorrelate, ρxy = 0, e quindi indipendenti, le distribuzioni marginali e condizionali coincidono poiché E(Y |X = x) = µy , V (Y |X = x) = σy2 . Esempio 14. Sia (X, Y ) un vettore di variabili casuali che si distribuiscono come una normale bivariata di parametri µX = 2.65, µY = −3.99, 2 σX = 9.24, σY2 = 9.32, σXY = −2.10, da cui ρXY = σσXXY = −0.23 La distribuzione condizionata di Y |X = x è ancora una σY variabile casuale normale con parametri µY |X = −3.99 + 0.23 3.04 (x − 2.65), 3.05 σY2 |X = 9.32(1 − 0.232 ) = 8.82. 2.8 Misure di associazione fra variabili casuali normali Mentre la covarianza σij è una misura di associazione marginale fra le variabili Xi e Xj , la concentrazione σ ij misura l’associazione fra le variabili Xi e Xj condizionatamente a tutte le altre variabili X −(ij) = X \ (Xi ∪ Xj ), cioè per un certo valore fissato per le altre variabili. Quindi, se la covarianza è nulla, le variabili sono marginalmente indipendenti σij = 0 ⇐⇒ Xi⊥⊥Xj , se la concentrazione è nulla, le variabili sono condizionalmente indipendenti σ ij = 0 ⇐⇒ Xi⊥⊥Xj | X −(i,j) . Lo studio dell’associazione ci consente di interpretare meglio le relazioni esistenti fra due o più variabili casuali. La distribuzione normale multivariata 36 Esempio 15. Consideriamo tre variabili casuali, X1 (peso), X2 (altezza), X3 (livello di colesterolo nel sangue). Supponiamo di sapere che, marginalmente (ignorando l’altezza), il peso e il livello di colesterolo non sono associati. Quindi, all’aumentare del peso, non possiamo dire nulla in merito alla probabilità che il livello di colesterolo aumenti o diminuisca. Invece, supponiamo di condizionarci alla sottopopolazione degli individui che hanno la stessa altezza (altezza compresa fra 1.65 e 1.70). Condizionatamente alla sottopopolazione di coloro che sono alti fra 1.65 e 1.70, il peso e il livello di colesterolo hanno una misura di associazione molto forte. Questo ci consente di dire che, condizionatamente ad alla classe di altezza considerata, all’aumentare del peso, c’è un’alta probabilità che il livello di colesterolo nel sangue sia più alto. La covarianza e la concentrazione sono misure di associazione entrambe non pure, cioè dipendono dall’unità di misura adottata per le variabili. Questi indici hanno un valore minimo pari a zero, ma non hanno un valore massimo. In entrambi i casi è possibile far riferimeto ad un indice di associazione relativo, puro, che non dipende dall’untà di misura, assume valori entro un certo intervallo e quindi ha un valore minimo e un valore massimo. Questi indici consentono di confrontare l’intensità dell’associazione anche fra coppie di variabili che hanno unità di misura diversa, ad esempio, consentono di confrontare la forza dell’associaione fra le variabili peso e altezza e fra le variabili tasso di interesse e investimenti. L’indice relativo di associazione marginale è il coefficiente di correlazione −1 ≤ ρij ≤ 1, ρij = σij . σi σj Quando l’indice assume i valori estremi ρij = ±1 c’è una perfetta associazione lineare positiva(negativa) fra Xi e Xj , per cui dato un certo valore Xi = xi , si può dire che Xj = xj con probabilità 1 sulla base di una certa relazione lineare esistente fra le due variabili. Se ρij = 0, vuol dire che σij = 0, quindi le due variabili sono marginalmente indipendenti, pertanto, dato un certo valore Xi = xi , in termini probabilistici non possiamo dire nulla sul valore che assumerà Xj . L’indice relativo di associazione condizionale è il coefficiente di correlazione parziale σ ij ij ij √ −1 ≤ ρ ≤ 1, ρ = σ ii σ jj Quando l’indice assume i valori estremi ρij = ±1 c’è una perfetta associazione lineare positiva(negativa) fra Xi e Xj condizionatamente al valore assunto dalle altre variabili X −(i,j) , per cui, dato un certo valore Xi = xi , si può dire che Xj = xj con probabilità 1 sulla base di una certa relazione lineare esistente fra le due variabili, condizionatamente al fatto che le altre variabili hanno assunto un valore X −(i,j) = x−(i,j) . Se ρij = 0, vuol dire che σ ij = 0, quindi le due variabili sono indipendenti condizionalmente al valore assunto dalle altre variabili X −(i,j) . Pertanto, dato un certo valore Xi = xi , i termini probabilistici non possiamo dire nulla sul valore che assumerà Xj . 2.8 Misure di associazione fra variabili casuali normali 37 Considerando l’esempio 15, abbiamo che la correlazione marginale fra il peso e il livello di colestoro è nulla, ρ13 = 0, quindi le variabili sono marginalmente indipendenti. Invece, condizionatamente all’altezza, le due variabili sono correlate positivamente, ρ13 > 0. A volte può accadere che date tre variabili X1 , X2 , X3 , due di esse siano indipendenti marginalmente poiché ρ13 = 0 ma non condizionalmente poiché ρ13 6= 0 o viceversa (ρ13 6= 0, ρ13 = 0). Esempio 16. Si consideri un vettore X = (X1 , X2 , X3 ) che ha una distribuzione normale multipla di parametri µ e 0.375 0.192 0.524 −1 Σ = 0.192 0.233 0.332 . 0.524 0.332 0.906 Per verificare se ci sono delle indipendenze marginali calcoliamo la matrice di varianza e covarianza 13.90 0.00 −8.04 Σ = 0.00 8.98 −3.29 −8.04 −3.29 6.96 da cui si ha che X1⊥⊥X2 . Procedura per invertire una matrice C di dimensioni 3 × 3 1 2 1 C= 2 1 2 . 1 −2 1 Prima di tutto si deve calcolare il det(C). Utilizziamo il metodo di Sarrus (valida solo per matrici 3 × 3): si accostano le prime due colonne alla terza, 1 2 1 1 1 2 1 2 2 1 . 1 −2 1 1 −2 Ora si calcola il determinate di C det(C) = (1 × 1 × 1) + (1 × 2 × 1) + (2 × 2 × −2)+ −(1 × 1 × 2) − (−2 × 2 × 1) − (1 × 2 × 1) = 1 + 2 − 8 − 2 + 4 − 2 = −5 Si considera poi la trasposta della matrice di partenza 1 1 2 C 0 = 1 1 −2 2 2 1 La distribuzione normale multivariata 38 e per ogni elemento della matrice C 0 si calcola il complemento algebrico hij , imponendo negativi quelli che occupano un posto dispari 1 −2 1 −2 1 1 = −5, h1,3 = det = 0, = 5, h1,2 = −det h1,1 = det 2 1 2 1 2 2 da cui seguono h2,1 = 0, h22 = −2, h23 = 2, h31 = −5, h32 = 3, h33 = −1. Consideriamo quindi la matrice dei complementi algebrici 0 5 −5 H = 0 −1 2 . −5 3 −1 Alla fine si ottiene l’inversa C −1 1 1 H=− = det(C) 5 1 0 0 −1 0 −1 2 = 0 1/5 −2/5 . −5 3 −1 1 −3/5 1/5 5 −5 2.9 Esercizi 1. Sia X = (X1 , X2 , X3 ) un vettore casuale con distribuzione normale multipla di parametri µ = (7.10, −2.20, 3.01), σ12 = 8.8, σ22 = 5.3, σ32 = 12.4, σ13 = −3.14, σ23 = 2.14 e con X1⊥⊥X2 . Calcolare i parametri della distribuzione W = X1 +1/2X2 −X3 . 2. Siano (X1 , X2 ) e (Y1 , Y2 ) vettori aleatori indipendenti entrambi con distribuzione 2 normale multipla di parametri µX = (3.10, −4.1), µY = (2.20, −3.16), σX = 8.25, 1 2 2 2 σX2 = 4.6, σY1 = 0.27, σY2 = 2.10, σX1 ,X2 = −2.19, σY1 ,Y2 = 2.41. Calcolare i parametri della distribuzione multipla W = (W1 , W2 ), con W1 = X1 + 1/2Y2 e W2 = X2 − 3Y1 . 3. Sia X = (X1 , X2 ) una variabile normale multipla di parametri µ = (7.4, −3.6), σ12 = 4.10, σ22 = 6.30, σ12 = −1.45. • calcolare i parametri delle distribuzioni marginali X1 e X2 ; • calcolare la matrice di concentrazione; • calcolare i parametri della distribuzioni condizionate X2 |X1 e X1 |X2 . 4. Sia X = (X1 , X2 , X3 ) una variabile normale multipla di parametri µ = (−2.30, +1.89, 0.56), σ12 = 8.25, σ22 = 10.72, σ32 = 13.33, σ12 = −1.45, σ13 = 1.10, σ23 = 0.99. 2.9 Esercizi 39 • verificare se ci sono indipendenze condizionate fra le variabili; • calcolare i parametri della distribuzione marginale (X2 , X3 ); • calcolare i parametri della distribuzione condizionata X3 |(X1 , X2 ). 5. Sia X = (X1 , X2 , X3 ) un vettore casuale con distribuzione normale di parametri µ = (−3.10, 4.20, 1.01), σ12 = 4.8, σ22 = 2.3, σ32 = 1.4, σ13 = −0.14, σ23 = 0 e con X1⊥⊥X2 . • calcolare la matrice di correlazione; • calcolare i 3 coefficienti di correlazione parziale. 6. Consideriamo una variabile X = (X1 , X2 , X3 , X4 ) normale multipla di dimensione 4 che ha parametri µ = (−0.10, 2.35, −0.20, 3.15) e 10.40 −0.1 0.32 0.01 −0.1 6.84 0.2 −0.15 Σ= . 0.32 0.2 5.10 −0.25 −0.01 −0.15 −0.25 4.67 Calcolare i parametri della distribuzione marginale X1 e della della distribuzione condizionata X1 |X2 .