MATRICI RICHIAMI DI ALGEBRA LINEARE Una matrice è un insieme di numeri reali ordinati per righe e per colonne. Matrice: struttura rettangolare di numeri reali (scalari) ordinati in n righe e p colonne. Le matrici vengono generalmente indicate con le lettere maiuscole. Ad esempio: A, A(nxp), A(n,p). Modelli per l’analisi statistica- Monica Rosciano, Dipartimento di Statistica e Matematica per la Ricerca Economica, [email protected] MATRICI RICHIAMI DI ALGEBRA LINEARE Ciascun elemento della matrice è indicato con una minuscola accompagnato dal numero della riga e dal numero della colonna in cui esso si trova. Ad esempio aij è l’elemento situato all’incrocio della iesima riga e j-esima colonna. A a14 = 8; = A3x4 a32 = 5; 1 2 3 8 3 1 2 4 4 5 6 9 ……………… Modelli per l’analisi statistica- Monica Rosciano, Dipartimento di Statistica e Matematica per la Ricerca Economica, [email protected] VETTORI Una matrice i cui elementi sono disposti su una sola riga prende il nome di VETTORE RIGA. Il vettore riga dunque, è una matrice di dimensione 1 x n. A 1 = 5 12 = a Una matrice i cui elementi sono disposti su una sola colonna prende il nome di VETTORE COLONNA. Il vettore colonna è una matrice di dimensione n x1. A = 4 1 6 = b In generale si dice VETTORE di n COMPONENTI una n-pla ORDINATA di elementi a = ( a1, a2, ………..an) Modelli per l’analisi statistica- Monica Rosciano, Dipartimento di Statistica e Matematica per la Ricerca Economica, [email protected] MATRICE QUADRATA Se in una matrice il numero di righe ed il numero di colonne sono uguali essa è detta MATRICE QUADRATA. L’ordine di una matrice quadrata può essere indicato con un solo numero (An). Ad esempio B(2) = 1 2 3 4 C(3) = 1 2 3 3 1 2 4 5 6 B e C sono rispettivamente di ordine 2 e 3 Data una matrice quadrata A di ordine m, la diagonale principale di A è l’insieme degli elementi aij per i quali i = j. Ad esempio, nella matrice C, gli elementi sulla diagonale principale sono costituiti da 1,1,6. Modelli per l’analisi statistica- Monica Rosciano, Dipartimento di Statistica e Matematica per la Ricerca Economica, [email protected] MATRICE SIMMETRICA. La matrice è simmetrica se aij = aji per ogni i e j =1,2,…. Gli elementi della prima riga sono uguali ai corrispondenti elementi della prima colonna. Gli elementi della seconda riga sono uguali ai corrispondenti elementi della seconda colonna e così via per ogni riga e colonna della matrice. Esempio: D= 3 2 1 2 3 3 1 3 4 Modelli per l’analisi statistica- Monica Rosciano, Dipartimento di Statistica e Matematica per la Ricerca Economica, [email protected] MATRICE DIAGONALE. aij = 0 per i ≠ j. La matrice è diagonale se gli elementi al di fuori della diagonale principale sono tutti uguali a 0. Esempio: E 3= 1 0 0 0 1 0 0 0 6 Modelli per l’analisi statistica- Monica Rosciano, Dipartimento di Statistica e Matematica per la Ricerca Economica, [email protected] MATRICE TRIANGOLARE SUPERIORE aij = 0 per i > j. Esempio: T= 1 4 2 0 1 3 0 0 6 MATRICE TRIANGOLARE INFERIORE aij = 0 per i < j. Esempio: U= 1 0 0 6 1 0 2 5 6 Modelli per l’analisi statistica- Monica Rosciano, Dipartimento di Statistica e Matematica per la Ricerca Economica, [email protected] MATRICE IDENTITA’ E’ una matrice diagonale in cui gli elementi sulla diagonale principale sono tutti uguali ad 1, in simboli aij = 0 per i ≠ j e aii = 1. I2 = 1 0 0 1 I3 = 1 0 0 0 1 0 0 0 1 Modelli per l’analisi statistica- Monica Rosciano, Dipartimento di Statistica e Matematica per la Ricerca Economica, [email protected] MATRICE TRASPOSTA. L’operazione di trasposizione consiste nel sostituire alle righe di una matrice le sue colonne e viceversa. L’operazione di trasposizione in genere si indica con un apice (‘) oppure con (T). A (2,3) = Se A = (aij) Se A’ = (aji) 1 2 2 3 4 1 1 2 2 MATRICE SIMMETRICA. A’ (3,2) = 3 4 1 A = A’ Modelli per l’analisi statistica- Monica Rosciano, Dipartimento di Statistica e Matematica per la Ricerca Economica, [email protected] MATRICE NULLA. Matrice i cui elementi sono tutti nulli. 0 0 0 O= 0 0 0 MATRICE UNITARIA. Matrice i cui elementi sono tutti 1. U= 1 1 1 1 1 1 Modelli per l’analisi statistica- Monica Rosciano, Dipartimento di Statistica e Matematica per la Ricerca Economica, [email protected] OPERAZIONI CON LE MATRICI Somma di matrici e di vettori: se due matrici (vettori) presentano la stessa dimensione la loro somma si effettua aggiungendo i rispettivi elementi. cij = aij + bij Somma A= -2 5 3 1 7 -6 B= C= 1 3 7 6 17 -9 3 -2 4 5 10 -3 La somma dunque si effettua tra matrici dello stesso ordine. Modelli per l’analisi statistica- Monica Rosciano, Dipartimento di Statistica e Matematica per la Ricerca Economica, [email protected] Moltiplicazione di matrici e di vettori. Affinché il prodotto di due matrici A e B sia definito, è necessario che il numero di colonne della matrice A (matrice premoltiplicante) sia uguale al numero di righe della matrice B (matrice postmoltiplicante). Se questa condizione è verificata, le matrici si dicono CONFORMABILI. L’elemento che si trova all’incrocio della riga i-esima e della colonna j-esima della matrice C = A x B è dato da Cij = k aikbkj La matrice prodotto risultante ha tante righe quante ne ha la matrice A e tante colonne quante ne ha la seconda matrice B Modelli per l’analisi statistica- Monica Rosciano, Dipartimento di Statistica e Matematica per la Ricerca Economica, [email protected] Esempio A= 1 2 2 3 4 1 AxB= B= 3 -2 4 5 10 -3 31 2 35 11 La trasposta di un prodotto è uguale al prodotto delle trasposte cambiate di ordine (A x B)’ = B’ x A’ Modelli per l’analisi statistica- Monica Rosciano, Dipartimento di Statistica e Matematica per la Ricerca Economica, [email protected] Moltiplicazione di uno scalare per una matrice. Il prodotto dello scalare (numero reale) α per una matrice A è la matrice B dello stesso ordine di A i cui elementi sono: bij = α aij A= 1 2 2 3 4 1 i = 1…m; j=1….n. α=2 B= 2 4 4 6 8 2 Modelli per l’analisi statistica- Monica Rosciano, Dipartimento di Statistica e Matematica per la Ricerca Economica, [email protected] Prodotto scalare e norma di un vettore Dati due vettori reali a,b il prodotto scalare o interno a x b è un numero reale che può essere definito sia in modo geometrico sia in modo analitico. Definizione geometrica: a · b = ll a ll ll b ll cos θ Definizione analitica: T a · b = ∑ ak bk = a b k Dove ll a ll è la lunghezza del vettore a e θ è l’angolo compreso tra a e b. La lunghezza ovvero la norma di un vettore può essere definita come grandezza derivata dal prodotto scalare llall = a·a Il prodotto fra due vettori è possibile se hanno lo stesso numero di componenti Modelli per l’analisi statistica- Monica Rosciano, Dipartimento di Statistica e Matematica per la Ricerca Economica, [email protected] Versore Si definisce VERSORE un generico vettore diviso per la sua norma u = x ll x ll Modelli per l’analisi statistica- Monica Rosciano, Dipartimento di Statistica e Matematica per la Ricerca Economica, [email protected] Determinante di una matrice. Data una matrice A quadrata di ordine m, il determinante det (A) è uno scalare che si ottiene come funzione di tutti gli elementi di A. Data una matrice A di ordine 2x2, il determinante è un numero pari al prodotto degli elementi della diagonale principale meno quello degli elementi della diagonale secondaria. Det A = a11 a22 – a21 a12 Una matrice quadrata è detta SINGOLARE se il suo Det =0. Se il suo determinante è diverso da 0 è detta non singolare o regolare. Modelli per l’analisi statistica- Monica Rosciano, Dipartimento di Statistica e Matematica per la Ricerca Economica, [email protected] Rango di una matrice. Il rango o caratteristica di una matrice è l’ordine della submatrice più grande, che ha un determinante diverso da 0. Il rango (r) è pari al numero massimo di righe e di colonne linearmente indipendenti, quindi r non può superare il minore fra n e p. Se r = min (r,p) si dice che la matrice ha rango pieno. Modelli per l’analisi statistica- Monica Rosciano, Dipartimento di Statistica e Matematica per la Ricerca Economica, [email protected] Combinazione lineare. Dati k vettori x1,….xk, ciascuno dei quali con n elementi, il vettore y = c1x1 + c2x2 + … …+ ckxk dove c1…ck sono numeri reali, è una combinazione lineare dei vettori x1…xk. Tali vettori sono linearmente indipendenti quando ogni possibile combinazione lineare è diversa dal vettore nullo, fatta eccezione per il caso banale in cui c1 = c2 =ck=0. Modelli per l’analisi statistica- Monica Rosciano, Dipartimento di Statistica e Matematica per la Ricerca Economica, [email protected] Matrice inversa. Data una matrice A di ordine nxn, A-1 è la matrice inversa di A se: A-1 A = A A-1 = In Traccia di una matrice. La traccia di una matrice quadrata è pari alla somma degli elementi diagonali. tr A =∑ aii Modelli per l’analisi statistica- Monica Rosciano, Dipartimento di Statistica e Matematica per la Ricerca Economica, [email protected] CODIFICA DELLE INFORMAZIONI E ORGANIZZAZIONE DEI DATI IN TABELLE Per procedere in uno studio statistico non è sufficiente avere a disposizione una “base di dati”: occorre predisporre le informazioni in matrici di dati utili, che rendano praticabile l’analisi multidimensionale. Quale che sia il tipo di matrice, gli elementi di riga e di colonna assumono, rispettivamente, ruolo di “oggetti” e di “attributi” dimensioni del fenomeno, ed ogni vettore (riga o colonna), attraverso le sue componenti, può essere visto come un “profilo” d’informazioni elementari. Modelli per l’analisi statistica- Monica Rosciano, Dipartimento di Statistica e Matematica per la Ricerca Economica, [email protected] Le diverse matrici di dati si possono ricondurre sostanzialmente ai seguenti tre tipi: <unità-variabili> (matrici n,k) <variabili-variabili> (matrici k,k) <unità-unità> (matrici n,n) (Bolasco, 1999). Matrici rettangolari e quadrate Modelli per l’analisi statistica- Monica Rosciano, Dipartimento di Statistica e Matematica per la Ricerca Economica, [email protected] La matrice UNITÀ – VARIABILI è il tipo più comune di matrice, d’applicazione che in trova molte innumerevoli tecniche di esempi analisi multidimensionale. x11 X (n,p) = x12 x1i x14 x1p x21 x22 x2i x24 x2p L’elemento x31 x32 xhi x34 x3p generico Xhi xn1 xn2 xni xnp …. rappresenta l’esito della rilevazione della variabile Xi presso l’unità statistica h Modelli per l’analisi statistica- Monica Rosciano, Dipartimento di Statistica e Matematica per la Ricerca Economica, [email protected] La matrice X è ripartibile in p vettori colonna di n elementi, oppure in n vettori riga di p elementi. Il vettore colonna i-esimo rappresenta l’insieme delle misurazioni della variabile Xi. Il vettore riga h-esimo rappresenta l’esito delle p misurazioni sull’unità statistica h. Poiché ogni riga della matrice può essere considerata un “profilo” dell’unità statistica pertinente, X è anche detta matrice dei profili Modelli per l’analisi statistica- Monica Rosciano, Dipartimento di Statistica e Matematica per la Ricerca Economica, [email protected] Se i dati sono QUANTITATIVI, ogni riga è rappresentabile geometricamente con un punto in uno spazio i cui assi coordinati sono le p variabili osservate. Analogamente, la colonna relativa a una variabile è rappresentabile con un punto nello spazio definito dalle n unità statistiche. Modelli per l’analisi statistica- Monica Rosciano, Dipartimento di Statistica e Matematica per la Ricerca Economica, [email protected] n3 Rn p1 p4 p3 p2 n2 n1 p3 Rp n1 n3 n2 p2 n4 p1 Modelli per l’analisi statistica- Monica Rosciano, Dipartimento di Statistica e Matematica per la Ricerca Economica, [email protected] Dalla matrice dei dati iniziali, si possono ottenere come matrici di dati unità-variabili: TABELLE DI INTENSITÀ, contengono delle misure che si esprimono con un’unità di misura: ad esempio, per ogni studente iscritto alla Facoltà di economia l’età (in anni), la statura (in cm), il peso (in kg), ecc. studente età statura peso 1 21 178 75 2 22 165 56 3 21 170 65 ….. ……… Modelli per l’analisi statistica- Monica Rosciano, Dipartimento di Statistica e Matematica per la Ricerca Economica, [email protected] Regione Depositi bancari autovetture Megawatt (en. Elettrica) Campania 13556000 2178500 2500000 Basilicata 2234980 876000 546987 Puglia 1786900 2348700 9678500 ….. ……… Non sono logicamente possibili operazioni di somma (o differenza) tra le modalità di variabili espresse in diverse unità di misura; per poter effettuare tali operazioni occorre rendere le xir numeri puri attraverso un’operazione di standardizzazione che elimini l’unità di misura Modelli per l’analisi statistica- Monica Rosciano, Dipartimento di Statistica e Matematica per la Ricerca Economica, [email protected] EVENTUALI TRASFORMAZIONI sui dati di una tabella DI INTENSITÀ. dati percentualizzati. dati centrati (questa trasformazione equivale a traslare l’origine nel centro della corrispondente distribuzione). dati standardizzati. dati ridotti (xij/sj). dati pro-capite o di densità Modelli per l’analisi statistica- Monica Rosciano, Dipartimento di Statistica e Matematica per la Ricerca Economica, [email protected] -TABELLE DI CONTINGENZA. Contengono frequenze assolute. Nel caso classico di una distribuzione doppia in una tabella di contingenza le modalità del carattere in riga assumono il ruolo di unità descritte dalle modalità (attributi) del carattere in colonna; Esempio. N (H, M) Var 1 1 . . h . H Totale 1 …. m …. Var 2 M n11 n1m n1M nh1 nhm nhM ……… ………….. n.1 n.m ……. n.M Totale n1. . . nh. . n Modelli per l’analisi statistica- Monica Rosciano, Dipartimento di Statistica e Matematica per la Ricerca Economica, [email protected] Rappresentazioni teatrali nel meridione d’Italia, anno … Modalità della variabile generi teatrali prosa lirica Modalità della variabile meridione opera totale Campania 10 13 20 43 Basilicata 3 2 15 20 Puglia 7 6 15 28 Calabria 15 14 12 41 Sicilia 12 15 17 44 Totale 47 50 79 176 Modelli per l’analisi statistica- Monica Rosciano, Dipartimento di Statistica e Matematica per la Ricerca Economica, [email protected] -TABELLE DI VALORI MEDI, dati quantitativi espressi in termini di valori medi di un carattere, secondo la distribuzione di due altre variabili. E’ un caso particolare di informazioni contenute in tabelle che incrociano modalità di due caratteri: ad esempio, una tabella professioni x età contenente, per ogni casella, il reddito medio degli nij individui appartenenti a quella casella. Non si tratta di una tabella di contingenza: i valori delle medie parziali sono a tutti gli effetti dei dati quantitativi; Modelli per l’analisi statistica- Monica Rosciano, Dipartimento di Statistica e Matematica per la Ricerca Economica, [email protected] -TABELLE DI PUNTEGGI, ciascuna unità esprime apprezzamenti (in genere mediante una scala di numeri interi) relativi a caratteristiche o attributi, entro un intervallo normalizzato (0-5; 010; 0-100) -Esempi. Valutazioni date esprimendo il proprio gradimento, soddisfazione su caratteristiche delle qualità delle vita; Punteggi riportati in diverse prove scolastiche; o punteggi in prove di tipo sportivo) Modelli per l’analisi statistica- Monica Rosciano, Dipartimento di Statistica e Matematica per la Ricerca Economica, [email protected] -TABELLE DI PREFERENZE, ogni unità esprime delle preferenze su prodotti, persone o altre entità. I valori espressi sono dei punteggi che variano da 1 a p, dove p è il numero di entità in gioco; Si chiede ad esempio a ogni unità statistica di classificare in ordine di preferenza k elementi di un insieme quali le k diverse marche di un prodotto, k spettacoli televisivi, k diversi modi di trascorrere il tempo libero. Le Xir SONO TALI GIUDIZI ESPRESSI Modelli per l’analisi statistica- Monica Rosciano, Dipartimento di Statistica e Matematica per la Ricerca Economica, [email protected] -TABELLE DI RANGHI, l’insieme delle n unità di osservazione è stato sottoposto a p prove e vengono stilate delle graduatorie. -I dati sono rappresentati dal posto in graduatoria (rango) ottenuto dall’individuo nelle diverse prove: per ciascuna colonna i valori variano da 1 a n. Tali tabelle possono derivare anche da una trasformazione di misure quantitative in variabili ordinali (ad esempio regioni italiane rispetto all’intensità del carattere considerato). Modelli per l’analisi statistica- Monica Rosciano, Dipartimento di Statistica e Matematica per la Ricerca Economica, [email protected] -TABELLE BOOLEANE, dati di tipo presenza/assenza o tavole di descrizione logica, le cui colonne sono definite da variabili indicatrici (modalità di variabili qualitative): se l’unità possiede l’attributo corrispondente alla modalità di quella colonna, la casella contiene un 1 altrimenti contiene uno 0. Queste tabelle si hanno: a) nel caso classico dell’informazione deducibile da un questionario, in cui da tabelle inventario si passa a matrici in forma disgiuntiva completa, ad esempio unità x (sesso, titolo di studio, ecc.) b) nel caso delle domande a risposta multipla (multiresponse), c) nel caso di dati testuali, quando per ogni frammento di testo si rileva la presenza/assenza di parole appartenenti ad un vocabolario; Modelli per l’analisi statistica- Monica Rosciano, Dipartimento di Statistica e Matematica per la Ricerca Economica, [email protected] Per caratteri qualitativi che presentino r modalità è possibile considerare una codifica disgiuntiva considerando r variabili indicatrici, cioè tali che Xih = 1 se la modalità h è presente nella i-esima unità; = 0 se la modalità h è assente nella i-esima unità ESEMPIO. 5 SOGGETTI IN RELAZIONE AL TITOLO DI STUDIO POSSEDUTO Soggetto Licenza Diploma elementare media inferiore Diploma media superiore Laurea 1 0 1 0 0 2 1 0 0 0 3 0 0 1 0 4 0 1 0 0 5 0 0 0 1 Modelli per l’analisi statistica- Monica Rosciano, Dipartimento di Statistica e Matematica per la Ricerca Economica, [email protected] Matrici VARIABILI- VARIABILI. Si considerano in questo ambito, tabelle J x J o J x J0 (con J0 ≠ J), in cui ciascun elemento dell’insieme J (o J0) è costituito da una variabile o da una modalità di una variabile. Si tratta di matrici di dispersione (devianze, varianze, e covarianze, correlazione) o di insiemi di tabelle di contingenza. Modelli per l’analisi statistica- Monica Rosciano, Dipartimento di Statistica e Matematica per la Ricerca Economica, [email protected] Matrice devianze e codevianze X1 Tk,k X1 devX1 X2 codX2X1 X2 cod X1X2 X3 Xk …. cod X1Xk dev X2 …. cod X2Xk X3 ……………………………………………………………… Xk Modelli per l’analisi statistica- Monica Rosciano, Dipartimento di Statistica e Matematica per la Ricerca Economica, [email protected] Matrice varianze e covarianze X1 Sk,k 1 Tk,k = n X2 X1 σ21 cov12 X2 cov12 σ22 …. X3 …. Xk cov1k cov 2k X3 ……………………………………………………………… Xk Modelli per l’analisi statistica- Monica Rosciano, Dipartimento di Statistica e Matematica per la Ricerca Economica, [email protected] Matrice di correlazione X1 Rk,k X2 X3 Xk X1 1 r12 …. r1k X2 r12 1 r2k …. X3 ……………………………………………………………… Xk rij indica il coefficiente di correlazione lineare di Bravais - Pearson Modelli per l’analisi statistica- Monica Rosciano, Dipartimento di Statistica e Matematica per la Ricerca Economica, [email protected] Matrici UNITA’ – UNITA’ Si tratta di matrici di relazione I x I, utili a stabilire una misura di similarità/dissimilarità fra le unità statistiche, di intensità di flussi in matrici di scambio o infine di semplice esistenza di relazione. Un esempio del primo tipo si ha nel caso di una matrice delle distanze fra unità (sia distanze fisiche, sia distanze multidimensionali); o di similarità fra individui: è il caso, nell’ambito psico/socio-metrico, delle matrici in cui la relazione interpersonale è graduata da una misura che varia all’interno di una norma 0-1 o 0-k. Modelli per l’analisi statistica- Monica Rosciano, Dipartimento di Statistica e Matematica per la Ricerca Economica, [email protected] Spesso la misura è simmetrica: in tal caso la matrice può essere considerata in forma triangolare, nella sua sola parte significativa delle n(n-1)/2 informazioni diverse. Ma può anche verificarsi il caso di misure di relazione non simmetriche: per esempio, il grado di empatia fra due persone è in genere diverso a seconda del soggetto; oppure la distanza misurata attraverso il tempo di percorrenza: spesso accade che quello di andata differisca da quello di ritorno; oppure in matrici input/output, le quantità scambiate (i,j) e (j,i) in genere sono assai diverse. Modelli per l’analisi statistica- Monica Rosciano, Dipartimento di Statistica e Matematica per la Ricerca Economica, [email protected] Matrice di distanze. Di distanze è la matrice quadrata Δ il cui elemento generico δ hk è una misura di distanza tra le entità h e k 1 …….. Δ h … n 1 0 …….. δ 1h δ 1n .. h δ h1 0 δ 1n δ n1 δ .. n nh 0 Modelli per l’analisi statistica- Monica Rosciano, Dipartimento di Statistica e Matematica per la Ricerca Economica, [email protected] Si dice DISTANZA, o METRICA, una misura tra entità caratterizzata dalle seguenti proprietà: la distanza dii tra un’unità e sé stessa è nulla dii = 0 (i= 1,.,n); la distanza tra due entità qualsiasi i e j è non negativa dij≥ 0 (i, j = 1,.,n); la distanza tra i e j è simmetrica dij =dji (i≠j = 1,…,n) la distanza tra due entità è non superiore alla somma delle distanze tra queste entità e una terza entità (disuguaglianza triangolare) dij ≤ dik + djk (i≠j≠k=1,…,n) Dove dik e djk sono le distanze tra la terza entità k e le entità i e j la distanza dij è nulla se e solo se i =j Modelli per l’analisi statistica- Monica Rosciano, Dipartimento di Statistica e Matematica per la Ricerca Economica, [email protected] Benzecrì, considerato il padre della moderna versione dell’analisi dei dati, definisce la qualità di una tabella di dati attraverso le seguenti caratteristiche: pertinenza; omogeneità; esaustività. Modelli per l’analisi statistica- Monica Rosciano, Dipartimento di Statistica e Matematica per la Ricerca Economica, [email protected] Pertinente nel senso che l’oggetto dei dati rilevati deve essere ben definito; il problema deve avere un senso logico. Omogenea perché non vanno mescolati nella stessa tabella dati sui quali non si può operare con operazioni di addizione o differenza per riga o colonna; occorre spesso chiedersi il significato dei dati di una riga nel loro complesso, cioè il loro profilo; Esaustiva, nel senso che le variabili rappresentino bene il fenomeno in esame. Ad esempio in uno studio sulla qualità della vita in diversi Paesi non sarà sufficiente raccogliere informazioni esclusivamente di natura economica. Modelli per l’analisi statistica- Monica Rosciano, Dipartimento di Statistica e Matematica per la Ricerca Economica, [email protected] METODI FATTORIALI Negli studi statistici nel campo delle scienze sociali o dell’economia, la ricerca si affida generalmente ad un insieme di variabili a volte numeroso le quali, possono contenere informazioni parzialmente sovrapposte, se non del tutto ridondanti, sul fenomeno che si intende esaminare Al fine di semplificare e riassumere le relazioni esistenti in un insieme di variabili può effettuarsi UN’ANALISI FATTORIALE. Modelli per l’analisi statistica- Monica Rosciano, Dipartimento di Statistica e Matematica per la Ricerca Economica, [email protected] METODI FATTORIALI I metodi fattoriali sono un insieme di tecniche che consentono di trasformare l’insieme delle variabili di una tabella multidimensionale in un insieme di altre variabili tra di esse ortogonali. Queste nuove variabili sono ottenute attraverso un procedimento di calcolo che ne determina il loro ordinamento sulla base del contributo decrescente che ognuna di esse comporta alla spiegazione della varianza complessiva delle variabili originarie. Modelli per l’analisi statistica- Monica Rosciano, Dipartimento di Statistica e Matematica per la Ricerca Economica, [email protected] METODI FATTORIALI In pratica, l’obiettivo di una tecnica fattoriale di tipo esplorativo consiste nel “DESCRIVERE/INTERPRETARE” la matrice dei dati attraverso la rappresentazione della forma della nube dei punti individui o dei punti variabili (e cioè della struttura esistente sugli elementi che definiscono le righe o colonne della matrice). Modelli per l’analisi statistica- Monica Rosciano, Dipartimento di Statistica e Matematica per la Ricerca Economica, [email protected] Le tecniche fattoriali hanno lo scopo di: -RIDURRE LA MULTIDIMENSIONALITÀ della matrice attraverso la trasformazione dei dati IN NUOVE VARIABILI (componenti principali o fattori) tra loro INCORRELATE; - costruire delle dimensioni sintetiche e inosservabili (assi fattoriali) aventi la caratteristica di continuum che rappresentino dei modelli teorici, capaci d’interpretare il fenomeno Modelli per l’analisi statistica- Monica Rosciano, Dipartimento di Statistica e Matematica per la Ricerca Economica, [email protected] Una matrice di dati X (n,p) descrive un insieme di vettori (riga o colonna) che a loro volta, individuano una nuvola di punti (rispettivamente unità o variabili). L’insieme delle distanze a due a due fra tutti i punti individua la FORMA della nuvola dei punti. Tale FORMA caratterizza la NATURA e L’INTENSITÀ delle relazioni tra i punti e quindi rivela la STRUTTURA dell’informazione contenuta nei dati Modelli per l’analisi statistica- Monica Rosciano, Dipartimento di Statistica e Matematica per la Ricerca Economica, [email protected] Un modo semplice per rendere visibile la forma della nuvola dei punti consiste nel PROIETTARLA su delle rette o su dei piani, MINIMIZZANDO la deformazione che è implicita in ogni proiezione. Il problema è dunque quello di RIDURRE LA QUANTITÀ DI DATI (informazioni) SENZA PERDITA SIGNIFICATIVA DI INFORMAZIONE (relazioni fra i dati). xi o i hi Proeizione Δu Si ricerca pertanto quel sottospazio che MASSIMIZZA la somma dei quadrati delle distanze tra le proiezioni sul sottospazio di tutte le coppie di punti Modelli per l’analisi statistica- Monica Rosciano, Dipartimento di Statistica e Matematica per la Ricerca Economica, [email protected] La proiezione ortogonale ohi, del segmento xi sul sottospazio Δu è pari al prodotto scalare fra il vettore oi e il vettore unitario (versore) u entrambi appartenenti a Rp. Ohi =xi’ u La proiezione dell’intera nuvola dei punti sull’asse Δu sarà: x11 Xu= ……………… x21 x31 xn1 x1p x2p xij …….. …. u1 …. …. uj xnp = ∑xij uj up Modelli per l’analisi statistica- Monica Rosciano, Dipartimento di Statistica e Matematica per la Ricerca Economica, [email protected] Ricordando che a z o a* b a· b = ll a ll · ll b ll cos z e che per definizione cos z = lla*ll/llall si ha che lla*ll =llall cos z Quindi il prodotto scalare è pari a a· b = ll a ll · ll b ll cos z = llbll · lla*ll Modelli per l’analisi statistica- Monica Rosciano, Dipartimento di Statistica e Matematica per la Ricerca Economica, [email protected] Algebricamente a cosa corrisponde la proiezione? Supponiamo di avere una matrice di dimensione (n x p) che si vuole ridurre alla dimensione (n x k) in cui k < p ? (n x p) = nxk Vettore o matrice di trasformazione dallo spazio Rp allo spazio Rk in cui k < p Ad es., sia A una matrice (3,4). Il prodotto della matrice A di dimensione (3, 4) per la matrice U di dimensione (4, 2) fornisce come risultato la matrice C di dimensione (3, 2) U 4x2 A 3x4 3 1 4 1 1 2 1 2 2 2 1 1 C 3x2 1 2 2 1 1 1 1 1 = 10 12 8 7 8 8 La matrice operatore di trasformazione ha dimensione (p, k), dove p-numero di righe è la dimensione dello spazio origine e knumero di colonne quello dello spazio proiezione, in questo caso esse assumono rispettivamente i valori p = 3 ed k = 2 e quindi l'operatore è una matrice. Se la quantità ohi si esprime in funzione di X e di u si può scrivere n∑ (Ohi)2 = (Xu)’ Xu = u’X’Xu i=1 Per trovare il vettore u, occorre cercare il MAX della forma quadratica u’X’Xu sotto il vincolo che u abbia norma unitaria (ossia che la somma dei quadrati delle componenti sia uguale a 1) cioè u’u =1. La ricerca dunque della retta per la quale risulti massima la somma delle proiezioni ohi dei vettori riga xi si effettua attraverso la risoluzione di un’equazione agli autovalori del tipo X’X u = λ u Modelli per l’analisi statistica- Monica Rosciano, Dipartimento di Statistica e Matematica per la Ricerca Economica, [email protected] Sia u1 il vettore cercato. Tale vettore unitario u1 è l’autovettore della matrice X’X di ordine p,p corrispondente al più grande autovalore λ1. Successivamente, si cerca il versore u2 ORTOGONALE (ui · uj = 0) di u1 che rende massima l’espressione u2X’Xu2 e così via. Una volta trovato il sottospazio ottimale, cioè l’insieme degli assi Δu che individuano la base {u1….uα…ul} l’individuo i-esimo avrà, per l’asse α-esimo del sottospazio, una coordinata che è pari all’estremità della suddetta proiezione ortogonale Ohi. Modelli per l’analisi statistica- Monica Rosciano, Dipartimento di Statistica e Matematica per la Ricerca Economica, [email protected] Soluzione del problema di ricerca di un massimo vincolato In generale per calcolare il max di una funzione f(x) vincolato a una g(x)=C, si ricorre al metodo dei cosiddetti moltiplicatori di Lagrange mediante una funzione del tipo L(x,λ) = f(x) – λ [g (x)-C] E si eguaglia 0 la derivata di L rispetto a x ovvero δL(x, λ) = δx δf(x) δx -λ δg(x) δx Modelli per l’analisi statistica- Monica Rosciano, Dipartimento di Statistica e Matematica per la Ricerca Economica, [email protected] Per la forma quadratica u’X’Xu sotto il vincolo u’u = 1 L = u’X’Xu – λ(u’u-1) δL = 2X’Xu – 2λu = 0 δu Da cui X’Xu =λu Premoltiplicando i due membri dell’equazione per u’ u’X’Xu =λu’u E tenendo conto della condizione di normalizzazione u’X’Xu = λ λ è il massimo cercato Modelli per l’analisi statistica- Monica Rosciano, Dipartimento di Statistica e Matematica per la Ricerca Economica, [email protected] AUTOVALORI E AUTOVETTORI Considerata una matrice quadrata A (X’X) di ordine nxn, un autovalore (o radice caratteristica) della matrice A è uno scalare tale che A u = u dove u è un vettore nx1 definito AUTOVETTORE di A relativo all’autovalore Modelli per l’analisi statistica- Monica Rosciano, Dipartimento di Statistica e Matematica per la Ricerca Economica, [email protected] AUTOVALORI E AUTOVETTORI Per identificare gli autovalori di A è necessario risolvere il seguente sistema di equazioni lineari: Equazione caratteristica A u - u = 0 da cui (A - I) u = 0 Questo è un sistema omogeneo di equazioni che ammette soluzioni reali non banali (ovvero soluzioni in cui u ≠ 0) se e solo se il DETERMINANTE della matrice del sistema è uguale a 0 Modelli per l’analisi statistica- Monica Rosciano, Dipartimento di Statistica e Matematica per la Ricerca Economica, [email protected] Ovvero se |A-I|=0 Risolvendo l’equazione del determinante si calcolano gli autovalori e gli autovettori di A. Il rango di A è uguale al numero di autovalori diversi da 0. Modelli per l’analisi statistica- Monica Rosciano, Dipartimento di Statistica e Matematica per la Ricerca Economica, [email protected] Considerando la generica matrice A A= a 11 a 12 a 21 a 22 Per calcolare gli autovalori di A, si considera innanzitutto la matrice che si ottiene sottraendo da A la matrice I, dove è un generico autovalore di A A - I Modelli per l’analisi statistica- Monica Rosciano, Dipartimento di Statistica e Matematica per la Ricerca Economica, [email protected] A - I = a 11 a 12 a 21 a 22 - 0 0 = a 11 - a 21 a 12 a 22 - Il determinante della matrice deve essere uguale a 0, affinché ci siano soluzioni reali non banali del sistema di equazioni omogeneo, quindi |A - I| = (a 11 - )(a 22 - )- a12 a 21 = 0 2 - (a11 + a22) + ( a11 a22 – a12 a21) = 0 Le soluzioni reali di questa equazione trovate attraverso - b ± b2 – 4ac 2a costituiscono i due autovalori di A Modelli per l’analisi statistica- Monica Rosciano, Dipartimento di Statistica e Matematica per la Ricerca Economica, [email protected] ESEMPIO A- λI = Det (A- λI) 1- λ 0,50 0,50 1- λ 1- - + 2 - 0,25 2 - 2 + 0,75 = 0 2± 22 – 4* 1 *0,75 2 =0 Polinomio caratteristico 1 = 1,5 2 = 0,5 Per trovare gli autovettori relativi ai due autovalori bisogna sostituire il valori di 1 e 2 nella espressione (A - I) u =0 Modelli per l’analisi statistica- Monica Rosciano, Dipartimento di Statistica e Matematica per la Ricerca Economica, [email protected] Per il primo autovettore u1 relativo al primo autovalore 1 si ha: A 1 0,50 0,50 1 λI 1,50 0 0 1,50 Da cui -0,5 u + 0,5u = 0 e 11 12 0,5u11 – 0,5u12 = 0 u11 u12 = 0 0 quindi u11 = u12 Assegnando valori arbitrari a u11 si ottengono infiniti autovettori (tra di essi paralleli) associati al primo autovalore. Modelli per l’analisi statistica- Monica Rosciano, Dipartimento di Statistica e Matematica per la Ricerca Economica, [email protected] Per il secondo autovettore u2 relativo al primo autovalore 2 si ha: A 1 0,50 0,50 1 λI 0,50 0 0 0,50 0,5 u21 + 0,5u22 =0 u21 = 0 u22 0 quindi u21 = - u22 u2 u1 Inoltre rispettando il vincolo che u’1u1 =1 nell’esempio si ha u112 + u122 =1 2u122= 1 u12 = ±√1/2 Modelli per l’analisi statistica- Monica Rosciano, Dipartimento di Statistica e Matematica per la Ricerca Economica, [email protected] Qualche osservazione sui metodi fattoriali Data una matrice quadrata A di ordine n: la traccia della matrice è uguale alla somma degli autovalori. In generale si definisce “traccia di A” (considerando A una matrice quadrata di n righe e n colonne) la somma degli elementi sulla diagonale principale: tr A = ∑j ∑j aij con i = j. il determinante della matrice è uguale al prodotto degli autovalori; Modelli per l’analisi statistica- Monica Rosciano, Dipartimento di Statistica e Matematica per la Ricerca Economica, [email protected] Qualche osservazione sui metodi fattoriali se A ha n autovalori distinti, L è la matrice degli autovalori, V è la matrice degli autovettori, allora V-1 AV = L, ovvero gli autovettori di A consentono di trasformare A in una matrice diagonale L che contiene i suoi valori; se A è simmetrica, e gli autovalori di A sono tutti maggiori di 0 e diversi (ovvero i ≠ j per ogni i, per ogni j, i ≠ j ) allora x’ixj =0 dove xi e xj sono due generici autovettori di A (ovvero gli autovettori sono ortogonali) Modelli per l’analisi statistica- Monica Rosciano, Dipartimento di Statistica e Matematica per la Ricerca Economica, [email protected] Fra le analisi fattoriali di tipo esplorativo, vi sono: l’analisi in componenti principali (ACP) che si applica nel caso di variabili quantitative; l’analisi delle corrispondenze (AC) che viene applicata a variabili qualitative; l’analisi canonica per lo studio della correlazione fra due o più gruppi di variabili quantitative. Modelli per l’analisi statistica- Monica Rosciano, Dipartimento di Statistica e Matematica per la Ricerca Economica, [email protected] ANALISI DELLE COMPONENTI PRINCIPALI Una soluzione al problema di trovare il punto di arrivo del processo di fattorializzazione e di farlo in modo tale che il numero di fattori sia strettamente minore del numero di variabili osservate è rappresentata dal calcolo delle componenti principali. L’analisi in componenti principali è un metodo statistico multivariato che trasforma un set di p variabili quantitative rilevate su n unità, in un insieme ridotto di k (<p) nuove variabili, dette componenti principali, tra loro incorrelate, le quali contengono la maggiore informazione possibile dell’insieme originale di caratteri. Modelli per l’analisi statistica- Monica Rosciano, Dipartimento di Statistica e Matematica per la Ricerca Economica, [email protected] ANALISI DELLE COMPONENTI PRINCIPALI Le componenti principali sono delle combinazioni lineari delle variabili originarie. Dati k vettori x1,…xk ciascuno dei quali aventi n elementi, il vettore c = a1x1 + a2x2+….+apxp, è una combinazione lineare dei vettori x1…xk dove a1,…ak sono numeri reali e sono relativamente ad ogni componente principale gli elementi dell’autovettore associato all’autovalore. Modelli per l’analisi statistica- Monica Rosciano, Dipartimento di Statistica e Matematica per la Ricerca Economica, [email protected] Una combinazione lineare, in quanto risultante da una somma ponderata delle variabili originarie, risulta un modello utile per costruire indicatori “globali”, in grado di riassumere fenomeni complessi. Nel contesto del metodo, la misura dell’informazione di ciascuna variabile corrisponde alla sua variabilità, nel senso che una variabile casuale con una forte dispersione sulle unità statistiche, fornisce più informazioni sul fenomeno che si intende studiare rispetto ad una variabile pressoché costante sulle stesse osservazioni Modelli per l’analisi statistica- Monica Rosciano, Dipartimento di Statistica e Matematica per la Ricerca Economica, [email protected] L’obiettivo del metodo è dunque quello di trovare r trasformazioni lineari ci delle variabili osservate (dove r è il rango della matrice di partenza) ci = a1ix1 + a2ix2 + ….apixp 1 = 1,2,….p Dove : ci indica l’i-esima combinazione lineare individuata dall’analisi; xj indica la j-esima variabile originaria; aji è il coefficiente della j-esima variabile nella i-esima combinazione lineare Ogni combinazione lineare è funzione di tutte le variabili originarie, ma si correla in particolare ad alcune di esse. Modelli per l’analisi statistica- Monica Rosciano, Dipartimento di Statistica e Matematica per la Ricerca Economica, [email protected] Le componenti sono non correlate tra di loro e apportano dunque un contenuto informativo differenziato, il loro numero massimo è pari al numero di variabili originarie (p). ci = a1ix1 + a2ix2 + ….apixp ai’ ai = 1 i = 1,2,….p ai aj = 0 Le componenti (dalla prima alla p-esima) riassumono una percentuale decrescente di “contenuto informativo” (ovvero di varianza dei dati). Modelli per l’analisi statistica- Monica Rosciano, Dipartimento di Statistica e Matematica per la Ricerca Economica, [email protected] In sintesi le componenti principali sono nello stesso numero k delle variabili della matrice X (n,k). le componenti principali sono ortogonali. Ciò significa che i coefficienti di correlazione lineare calcolati tra le componenti sono sempre nulli. Modelli per l’analisi statistica- Monica Rosciano, Dipartimento di Statistica e Matematica per la Ricerca Economica, [email protected] la traccia della matrice ∑ è uguale alla somma delle varianze delle singole variabili. Poiché l’r-esimo autovalore rappresenta la varianza della r-ma componente principale nelle condizioni dette precedentemente e operando su variabili standardizzate si può scrivere tr ∑ = k = ∑ i (i =1..,k) Modelli per l’analisi statistica- Monica Rosciano, Dipartimento di Statistica e Matematica per la Ricerca Economica, [email protected] il contributo della r-esima componente principale alla spiegazione della variabilità complessiva si può misurare percentualmente con il rapporto i 100 k ∑ i i=1 l’input effettivo della tecnica è costituito dalla matrice di correlazione tra le variabili: più forte è mediamente tale correlazione, maggiore sarà la capacità di sintesi dell’analisi fattoriale. Se la matrice di correlazione R è diagonale, cioè se tutte le variabili sono incorrelate le componenti principali sono le stesse k variabili Modelli per l’analisi statistica- Monica Rosciano, Dipartimento di Statistica e Matematica per la Ricerca Economica, [email protected] L’analisi delle componenti principali sostituisce le variabili iniziali con delle variabili non correlate di varianza massima e di importanza decrescente. Il numero di autovalori non nulli fornisce la dimensione dello spazio nel quale sono immerse le variabili. Se un autovalore è nullo esiste relazione lineare tra le variabili. Modelli per l’analisi statistica- Monica Rosciano, Dipartimento di Statistica e Matematica per la Ricerca Economica, [email protected]