MATRICI
RICHIAMI DI ALGEBRA LINEARE
Una matrice è un insieme di numeri reali ordinati per
righe e per colonne.
Matrice: struttura rettangolare di numeri reali (scalari)
ordinati in n righe e p colonne.
Le matrici vengono generalmente indicate con le lettere
maiuscole.
Ad esempio: A, A(nxp), A(n,p).
Modelli per l’analisi statistica- Monica Rosciano, Dipartimento di Statistica e Matematica per la Ricerca Economica, [email protected]
MATRICI
RICHIAMI DI ALGEBRA LINEARE
Ciascun elemento della matrice è indicato con una
minuscola accompagnato dal numero della riga e dal
numero della colonna in cui esso si trova.
Ad esempio aij è l’elemento situato all’incrocio della iesima riga e j-esima colonna.
A
a14 = 8;
= A3x4
a32 = 5;
1 2 3 8
3 1 2 4
4 5 6 9
………………
Modelli per l’analisi statistica- Monica Rosciano, Dipartimento di Statistica e Matematica per la Ricerca Economica, [email protected]
VETTORI
Una matrice i cui elementi sono disposti su una sola riga
prende il nome di VETTORE RIGA.
Il vettore riga dunque, è una matrice di dimensione 1 x n.
A
1
=
5 12
= a
Una matrice i cui elementi sono disposti su una sola colonna
prende il nome di VETTORE COLONNA.
Il vettore colonna è una matrice di dimensione n x1.
A
=
4
1
6
= b
In generale si dice VETTORE di n COMPONENTI una n-pla
ORDINATA di elementi
a = ( a1, a2, ………..an)
Modelli per l’analisi statistica- Monica Rosciano, Dipartimento di Statistica e Matematica per la Ricerca Economica, [email protected]
MATRICE QUADRATA
Se in una matrice il numero di righe ed il numero di colonne
sono uguali essa è detta MATRICE QUADRATA.
L’ordine di una matrice quadrata può essere indicato con un
solo numero (An).
Ad esempio
B(2) =
1 2
3 4
C(3) =
1 2 3
3 1 2
4 5 6
B e C sono rispettivamente di ordine 2 e 3
Data una matrice quadrata A di ordine m, la diagonale
principale di A è l’insieme degli elementi aij per i quali i = j.
Ad esempio, nella matrice C, gli elementi sulla diagonale
principale sono costituiti da 1,1,6.
Modelli per l’analisi statistica- Monica Rosciano, Dipartimento di Statistica e Matematica per la Ricerca Economica, [email protected]
MATRICE SIMMETRICA.
La matrice è simmetrica se aij = aji per ogni i e j =1,2,….
Gli elementi della prima riga sono uguali ai corrispondenti
elementi della prima colonna.
Gli elementi della seconda riga sono uguali ai corrispondenti
elementi della seconda colonna e così via per ogni riga e
colonna della matrice.
Esempio:
D=
3 2 1
2 3 3
1 3 4
Modelli per l’analisi statistica- Monica Rosciano, Dipartimento di Statistica e Matematica per la Ricerca Economica, [email protected]
MATRICE DIAGONALE.
aij = 0 per i ≠ j.
La matrice è diagonale se gli elementi al di fuori della
diagonale principale sono tutti uguali a 0.
Esempio:
E 3=
1 0 0
0 1 0
0 0 6
Modelli per l’analisi statistica- Monica Rosciano, Dipartimento di Statistica e Matematica per la Ricerca Economica, [email protected]
MATRICE TRIANGOLARE SUPERIORE
aij = 0 per i > j.
Esempio:
T=
1 4 2
0 1 3
0 0 6
MATRICE TRIANGOLARE INFERIORE
aij = 0 per i < j.
Esempio:
U=
1 0 0
6 1 0
2 5 6
Modelli per l’analisi statistica- Monica Rosciano, Dipartimento di Statistica e Matematica per la Ricerca Economica, [email protected]
MATRICE IDENTITA’
E’ una matrice diagonale in cui gli elementi sulla diagonale
principale sono tutti uguali ad 1, in simboli aij = 0 per i ≠ j e
aii = 1.
I2 =
1 0
0 1
I3 =
1 0 0
0 1 0
0 0 1
Modelli per l’analisi statistica- Monica Rosciano, Dipartimento di Statistica e Matematica per la Ricerca Economica, [email protected]
MATRICE TRASPOSTA.
L’operazione di trasposizione consiste nel sostituire alle
righe di una matrice le sue colonne e viceversa.
L’operazione di trasposizione in genere si indica con un
apice (‘) oppure con (T).
A (2,3) =
Se A = (aij)
Se A’ = (aji)
1 2 2
3 4 1
1
2
2
MATRICE SIMMETRICA.
A’ (3,2) =
3
4
1
A = A’
Modelli per l’analisi statistica- Monica Rosciano, Dipartimento di Statistica e Matematica per la Ricerca Economica, [email protected]
MATRICE NULLA.
Matrice i cui elementi sono tutti nulli.
0 0 0
O=
0 0 0
MATRICE UNITARIA.
Matrice i cui elementi sono tutti 1.
U=
1 1 1
1 1 1
Modelli per l’analisi statistica- Monica Rosciano, Dipartimento di Statistica e Matematica per la Ricerca Economica, [email protected]
OPERAZIONI CON LE MATRICI
Somma di matrici e di vettori: se due matrici (vettori)
presentano la stessa dimensione la loro somma si effettua
aggiungendo i rispettivi elementi.
cij = aij + bij
Somma
A=
-2 5
3 1
7 -6
B=
C=
1 3
7 6
17 -9
3 -2
4 5
10 -3
La somma dunque si effettua tra matrici dello stesso ordine.
Modelli per l’analisi statistica- Monica Rosciano, Dipartimento di Statistica e Matematica per la Ricerca Economica, [email protected]
Moltiplicazione di matrici e di vettori.
Affinché il prodotto di due matrici A e B sia definito, è
necessario che il numero di colonne della matrice A
(matrice premoltiplicante) sia uguale al numero di righe
della matrice B (matrice postmoltiplicante).
Se questa condizione è verificata, le matrici si dicono
CONFORMABILI.
L’elemento che si trova all’incrocio della riga i-esima e
della colonna j-esima della matrice C = A x B è dato da
Cij =
k
aikbkj
La matrice prodotto risultante ha tante righe quante ne
ha la matrice A e tante colonne quante ne ha la seconda
matrice B
Modelli per l’analisi statistica- Monica Rosciano, Dipartimento di Statistica e Matematica per la Ricerca Economica, [email protected]
Esempio
A=
1 2 2
3 4 1
AxB=
B=
3 -2
4 5
10 -3
31 2
35 11
La trasposta di un prodotto è uguale al prodotto delle
trasposte cambiate di ordine
(A x B)’ = B’ x A’
Modelli per l’analisi statistica- Monica Rosciano, Dipartimento di Statistica e Matematica per la Ricerca Economica, [email protected]
Moltiplicazione di uno scalare per una matrice.
Il prodotto dello scalare (numero reale) α per una matrice
A è la matrice B dello stesso ordine di A i cui elementi
sono:
bij = α aij
A=
1 2 2
3 4 1
i = 1…m; j=1….n.
α=2
B=
2 4 4
6 8 2
Modelli per l’analisi statistica- Monica Rosciano, Dipartimento di Statistica e Matematica per la Ricerca Economica, [email protected]
Prodotto scalare e norma di un vettore
Dati due vettori reali a,b il prodotto scalare o interno a x b è un
numero reale che può essere definito sia in modo geometrico sia
in modo analitico.
Definizione geometrica: a · b = ll a ll ll b ll cos θ
Definizione analitica:
T
a · b = ∑ ak bk = a b
k
Dove ll a ll è la lunghezza del vettore a e
θ
è l’angolo compreso tra
a e b.
La lunghezza ovvero la norma di un vettore può essere definita
come grandezza derivata dal prodotto scalare
llall =
a·a
Il prodotto fra due vettori è possibile se hanno lo stesso numero
di componenti
Modelli per l’analisi statistica- Monica Rosciano, Dipartimento di Statistica e Matematica per la Ricerca Economica, [email protected]
Versore
Si definisce VERSORE un generico vettore diviso per la sua
norma
u =
x
ll x ll
Modelli per l’analisi statistica- Monica Rosciano, Dipartimento di Statistica e Matematica per la Ricerca Economica, [email protected]
Determinante di una matrice.
Data una matrice A quadrata di ordine m, il determinante
det (A) è uno scalare che si ottiene come funzione di
tutti gli elementi di A.
Data una matrice A di ordine 2x2, il determinante è un
numero pari al prodotto degli elementi della diagonale
principale meno quello degli elementi della diagonale
secondaria.
Det A = a11 a22 – a21 a12
Una matrice quadrata è detta SINGOLARE se il suo Det =0.
Se il suo determinante è diverso da 0 è detta non singolare o
regolare.
Modelli per l’analisi statistica- Monica Rosciano, Dipartimento di Statistica e Matematica per la Ricerca Economica, [email protected]
Rango di una matrice.
Il rango o caratteristica di una matrice è l’ordine della
submatrice più grande, che ha un determinante diverso da
0.
Il rango (r) è pari al numero massimo di righe e di colonne
linearmente indipendenti, quindi r non può superare il
minore fra n e p. Se r = min (r,p) si dice che la matrice ha
rango pieno.
Modelli per l’analisi statistica- Monica Rosciano, Dipartimento di Statistica e Matematica per la Ricerca Economica, [email protected]
Combinazione lineare.
Dati k vettori x1,….xk, ciascuno dei quali con n elementi,
il vettore y = c1x1 + c2x2 + … …+ ckxk
dove c1…ck sono numeri reali, è una combinazione lineare
dei vettori x1…xk.
Tali vettori sono linearmente indipendenti quando ogni
possibile combinazione lineare è diversa dal vettore
nullo, fatta eccezione per il caso banale in cui
c1 = c2 =ck=0.
Modelli per l’analisi statistica- Monica Rosciano, Dipartimento di Statistica e Matematica per la Ricerca Economica, [email protected]
Matrice inversa.
Data una matrice A di ordine nxn, A-1 è la matrice inversa
di A se:
A-1 A = A A-1 = In
Traccia di una matrice.
La traccia di una matrice quadrata è pari alla somma degli
elementi diagonali.
tr A =∑ aii
Modelli per l’analisi statistica- Monica Rosciano, Dipartimento di Statistica e Matematica per la Ricerca Economica, [email protected]
CODIFICA DELLE INFORMAZIONI E
ORGANIZZAZIONE DEI DATI IN TABELLE
Per procedere in uno studio statistico non è sufficiente
avere a disposizione una “base di dati”: occorre predisporre
le informazioni in matrici di dati utili, che rendano
praticabile l’analisi multidimensionale.
Quale che sia il tipo di matrice, gli elementi di riga e di
colonna assumono, rispettivamente, ruolo di “oggetti” e di
“attributi” dimensioni del fenomeno, ed ogni vettore (riga
o colonna), attraverso le sue componenti, può essere visto
come un “profilo” d’informazioni elementari.
Modelli per l’analisi statistica- Monica Rosciano, Dipartimento di Statistica e Matematica per la Ricerca Economica, [email protected]
Le diverse matrici di dati si possono ricondurre
sostanzialmente ai seguenti tre tipi:
 <unità-variabili> (matrici n,k)
<variabili-variabili> (matrici k,k)
<unità-unità> (matrici n,n)
(Bolasco, 1999).
Matrici rettangolari e quadrate
Modelli per l’analisi statistica- Monica Rosciano, Dipartimento di Statistica e Matematica per la Ricerca Economica, [email protected]
La matrice UNITÀ – VARIABILI è il tipo più comune
di
matrice,
d’applicazione
che
in
trova
molte
innumerevoli
tecniche
di
esempi
analisi
multidimensionale.
x11
X
(n,p)
=
x12 x1i
x14
x1p
x21
x22 x2i x24
x2p
L’elemento
x31
x32 xhi x34
x3p
generico Xhi
xn1
xn2 xni
xnp
….
rappresenta l’esito
della rilevazione della
variabile Xi presso
l’unità statistica h
Modelli per l’analisi statistica- Monica Rosciano, Dipartimento di Statistica e Matematica per la Ricerca Economica, [email protected]
La matrice X è ripartibile in p vettori colonna di n
elementi, oppure in n vettori riga di p elementi.
Il vettore colonna i-esimo
rappresenta l’insieme
delle misurazioni della variabile Xi.
Il vettore riga h-esimo rappresenta l’esito delle p
misurazioni sull’unità statistica h.
Poiché ogni riga della matrice può essere considerata
un “profilo” dell’unità statistica pertinente, X è
anche detta matrice dei profili
Modelli per l’analisi statistica- Monica Rosciano, Dipartimento di Statistica e Matematica per la Ricerca Economica, [email protected]
Se i dati sono QUANTITATIVI, ogni riga è
rappresentabile geometricamente con un punto in
uno spazio i cui assi coordinati sono le p variabili
osservate.
Analogamente, la colonna relativa a una variabile è
rappresentabile con un punto nello spazio definito
dalle n unità statistiche.
Modelli per l’analisi statistica- Monica Rosciano, Dipartimento di Statistica e Matematica per la Ricerca Economica, [email protected]
n3
Rn
p1
p4
p3
p2
n2
n1
p3
Rp
n1
n3
n2
p2
n4
p1
Modelli per l’analisi statistica- Monica Rosciano, Dipartimento di Statistica e Matematica per la Ricerca Economica, [email protected]
Dalla matrice dei dati iniziali, si possono ottenere come
matrici di dati unità-variabili:
TABELLE DI INTENSITÀ, contengono delle misure che
si esprimono con un’unità di misura: ad esempio, per
ogni studente iscritto alla Facoltà di economia l’età (in
anni), la statura (in cm), il peso (in kg), ecc.
studente
età
statura
peso
1
21
178
75
2
22
165
56
3
21
170
65
…..
………
Modelli per l’analisi statistica- Monica Rosciano, Dipartimento di Statistica e Matematica per la Ricerca Economica, [email protected]
Regione
Depositi
bancari
autovetture
Megawatt (en.
Elettrica)
Campania 13556000
2178500
2500000
Basilicata 2234980
876000
546987
Puglia
1786900
2348700
9678500
…..
………
Non sono logicamente possibili operazioni di somma (o
differenza) tra le modalità di variabili espresse in
diverse unità di misura; per poter effettuare tali
operazioni occorre rendere le xir numeri puri attraverso
un’operazione di standardizzazione che elimini l’unità di
misura
Modelli per l’analisi statistica- Monica Rosciano, Dipartimento di Statistica e Matematica per la Ricerca Economica, [email protected]
EVENTUALI TRASFORMAZIONI sui dati di una
tabella DI INTENSITÀ.
 dati percentualizzati.
 dati centrati (questa trasformazione equivale a
traslare l’origine nel centro della corrispondente
distribuzione).
dati standardizzati.
 dati ridotti (xij/sj).
 dati pro-capite o di densità
Modelli per l’analisi statistica- Monica Rosciano, Dipartimento di Statistica e Matematica per la Ricerca Economica, [email protected]
-TABELLE DI CONTINGENZA. Contengono frequenze
assolute.
Nel caso classico di una distribuzione doppia in una tabella
di contingenza le modalità del carattere in riga assumono il
ruolo di unità descritte dalle modalità (attributi) del
carattere in colonna;
Esempio. N (H, M)
Var 1 1
.
.
h
.
H
Totale
1
…. m ….
Var 2
M
n11
n1m
n1M
nh1
nhm
nhM
………
…………..
n.1
n.m
…….
n.M
Totale
n1.
.
.
nh.
.
n
Modelli per l’analisi statistica- Monica Rosciano, Dipartimento di Statistica e Matematica per la Ricerca Economica, [email protected]
Rappresentazioni teatrali nel meridione d’Italia, anno …
Modalità della variabile generi teatrali
prosa lirica
Modalità
della
variabile
meridione
opera
totale
Campania
10
13
20
43
Basilicata
3
2
15
20
Puglia
7
6
15
28
Calabria
15
14
12
41
Sicilia
12
15
17
44
Totale
47
50
79
176
Modelli per l’analisi statistica- Monica Rosciano, Dipartimento di Statistica e Matematica per la Ricerca Economica, [email protected]
-TABELLE DI VALORI MEDI, dati quantitativi
espressi in termini di valori medi di un carattere,
secondo la distribuzione di due altre variabili. E’ un
caso particolare di informazioni contenute in tabelle
che incrociano modalità di due caratteri:
ad esempio, una tabella professioni x età contenente,
per ogni casella, il reddito medio degli nij individui
appartenenti a quella casella.
Non si tratta di una tabella di contingenza: i valori
delle medie parziali sono a tutti gli effetti dei dati
quantitativi;
Modelli per l’analisi statistica- Monica Rosciano, Dipartimento di Statistica e Matematica per la Ricerca Economica, [email protected]
-TABELLE DI PUNTEGGI, ciascuna unità esprime
apprezzamenti (in genere mediante una scala di
numeri interi) relativi a caratteristiche o
attributi, entro un intervallo normalizzato (0-5; 010; 0-100)
-Esempi.
Valutazioni date esprimendo il proprio
gradimento, soddisfazione su caratteristiche delle
qualità delle vita;
Punteggi riportati in diverse prove scolastiche; o
punteggi in prove di tipo sportivo)
Modelli per l’analisi statistica- Monica Rosciano, Dipartimento di Statistica e Matematica per la Ricerca Economica, [email protected]
-TABELLE DI PREFERENZE, ogni unità esprime
delle preferenze su prodotti, persone o altre
entità. I valori espressi sono dei punteggi che
variano da 1 a p, dove p è il numero di entità in
gioco;
Si chiede ad esempio a ogni unità statistica di
classificare in ordine di preferenza k elementi
di un insieme quali le k diverse marche di un
prodotto, k spettacoli televisivi, k diversi modi
di trascorrere il tempo libero.
Le Xir SONO TALI GIUDIZI ESPRESSI
Modelli per l’analisi statistica- Monica Rosciano, Dipartimento di Statistica e Matematica per la Ricerca Economica, [email protected]
-TABELLE DI RANGHI, l’insieme delle n unità di
osservazione è stato sottoposto a p prove e
vengono stilate delle graduatorie.
-I dati sono rappresentati dal posto in
graduatoria (rango) ottenuto dall’individuo nelle
diverse prove: per ciascuna colonna i valori
variano da 1 a n.
Tali tabelle possono derivare anche da una
trasformazione di misure quantitative in variabili
ordinali (ad esempio regioni italiane rispetto
all’intensità del carattere considerato).
Modelli per l’analisi statistica- Monica Rosciano, Dipartimento di Statistica e Matematica per la Ricerca Economica, [email protected]
-TABELLE BOOLEANE, dati di tipo presenza/assenza
o tavole di descrizione logica, le cui colonne sono
definite da variabili indicatrici (modalità di variabili
qualitative): se l’unità possiede l’attributo
corrispondente alla modalità di quella colonna, la casella
contiene un 1 altrimenti contiene uno 0.
Queste tabelle si hanno:
a) nel caso classico dell’informazione deducibile da un
questionario, in cui da tabelle inventario si passa a
matrici in forma disgiuntiva completa, ad esempio unità
x (sesso, titolo di studio, ecc.)
b) nel caso delle domande a risposta multipla
(multiresponse),
c) nel caso di dati testuali, quando per ogni frammento
di testo si rileva la presenza/assenza di parole
appartenenti ad un vocabolario;
Modelli per l’analisi statistica- Monica Rosciano, Dipartimento di Statistica e Matematica per la Ricerca Economica, [email protected]
Per caratteri qualitativi che presentino r modalità è possibile
considerare una codifica disgiuntiva considerando r variabili
indicatrici, cioè tali che
Xih = 1 se la modalità h è presente nella i-esima unità;
= 0 se la modalità h è assente nella i-esima unità
ESEMPIO. 5 SOGGETTI IN RELAZIONE AL TITOLO DI
STUDIO POSSEDUTO
Soggetto Licenza
Diploma
elementare media
inferiore
Diploma media
superiore
Laurea
1
0
1
0
0
2
1
0
0
0
3
0
0
1
0
4
0
1
0
0
5
0
0
0
1
Modelli per l’analisi statistica- Monica Rosciano, Dipartimento di Statistica e Matematica per la Ricerca Economica, [email protected]
Matrici VARIABILI- VARIABILI.
Si considerano in questo ambito, tabelle J x J o
J x J0 (con J0 ≠ J), in cui ciascun elemento
dell’insieme J (o J0) è costituito da una variabile o
da una modalità di una variabile.
Si tratta di matrici di dispersione (devianze,
varianze, e covarianze, correlazione) o di insiemi di
tabelle di contingenza.
Modelli per l’analisi statistica- Monica Rosciano, Dipartimento di Statistica e Matematica per la Ricerca Economica, [email protected]
Matrice devianze e codevianze
X1
Tk,k
X1 devX1
X2 codX2X1
X2
cod X1X2
X3
Xk
….
cod X1Xk
dev X2 ….
cod X2Xk
X3 ………………………………………………………………
Xk
Modelli per l’analisi statistica- Monica Rosciano, Dipartimento di Statistica e Matematica per la Ricerca Economica, [email protected]
Matrice varianze e covarianze
X1
Sk,k
1 Tk,k
= n
X2
X1 σ21
cov12
X2 cov12
σ22 ….
X3
….
Xk
cov1k
cov 2k
X3 ………………………………………………………………
Xk
Modelli per l’analisi statistica- Monica Rosciano, Dipartimento di Statistica e Matematica per la Ricerca Economica, [email protected]
Matrice di correlazione
X1
Rk,k
X2
X3
Xk
X1 1
r12 ….
r1k
X2 r12
1
r2k
….
X3 ………………………………………………………………
Xk
rij indica il coefficiente di correlazione lineare di
Bravais - Pearson
Modelli per l’analisi statistica- Monica Rosciano, Dipartimento di Statistica e Matematica per la Ricerca Economica, [email protected]
Matrici UNITA’ – UNITA’
Si tratta di matrici di relazione I x I, utili a stabilire
una misura di similarità/dissimilarità fra le unità
statistiche, di intensità di flussi in matrici di scambio o
infine di semplice esistenza di relazione.
Un esempio del primo tipo si ha nel caso di una matrice
delle distanze fra unità (sia distanze fisiche, sia
distanze multidimensionali); o di similarità fra individui:
è il caso, nell’ambito psico/socio-metrico, delle matrici
in cui la relazione interpersonale è graduata da una
misura che varia all’interno di una norma 0-1 o 0-k.
Modelli per l’analisi statistica- Monica Rosciano, Dipartimento di Statistica e Matematica per la Ricerca Economica, [email protected]
Spesso la misura è simmetrica: in tal caso la matrice può
essere considerata in forma triangolare, nella sua sola
parte significativa delle n(n-1)/2 informazioni diverse.
Ma può anche verificarsi il caso di misure di relazione
non simmetriche: per esempio, il grado di empatia fra
due persone è in genere diverso a seconda del soggetto;
oppure la distanza misurata attraverso il tempo di
percorrenza: spesso accade che quello di andata
differisca da quello di ritorno; oppure in matrici
input/output, le quantità scambiate (i,j) e (j,i) in genere
sono assai diverse.
Modelli per l’analisi statistica- Monica Rosciano, Dipartimento di Statistica e Matematica per la Ricerca Economica, [email protected]
Matrice di distanze.
Di distanze è la matrice quadrata Δ il cui elemento
generico δ hk è una misura di distanza tra le entità h e k
1 ……..
Δ
h
…
n
1
0 …….. δ 1h
δ
1n
..
h
δ h1
0
δ
1n
δ n1
δ
..
n
nh
0
Modelli per l’analisi statistica- Monica Rosciano, Dipartimento di Statistica e Matematica per la Ricerca Economica, [email protected]
Si dice DISTANZA, o METRICA, una misura tra entità
caratterizzata dalle seguenti proprietà:
 la distanza dii tra un’unità e sé stessa è nulla
dii = 0 (i= 1,.,n);
 la distanza tra due entità qualsiasi i e j è non negativa
dij≥ 0 (i, j = 1,.,n);
 la distanza tra i e j è simmetrica
dij =dji (i≠j = 1,…,n)
 la distanza tra due entità è non superiore alla somma delle
distanze tra queste entità e una terza entità (disuguaglianza
triangolare)
dij ≤ dik + djk (i≠j≠k=1,…,n)
Dove dik e djk sono le distanze tra la terza entità k e le
entità i e j
 la distanza dij è nulla se e solo se i =j
Modelli per l’analisi statistica- Monica Rosciano, Dipartimento di Statistica e Matematica per la Ricerca Economica, [email protected]
Benzecrì, considerato il padre della moderna versione
dell’analisi dei dati, definisce la qualità di una tabella
di dati attraverso le seguenti caratteristiche:
 pertinenza;
 omogeneità;
 esaustività.
Modelli per l’analisi statistica- Monica Rosciano, Dipartimento di Statistica e Matematica per la Ricerca Economica, [email protected]
 Pertinente nel senso che l’oggetto dei dati rilevati
deve essere ben definito; il problema deve avere un
senso logico.
 Omogenea perché non vanno mescolati nella stessa
tabella dati sui quali non si può operare con operazioni
di addizione o differenza per riga o colonna; occorre
spesso chiedersi il significato dei dati di una riga nel
loro complesso, cioè il loro profilo;
 Esaustiva, nel senso che le variabili rappresentino
bene il fenomeno in esame. Ad esempio in uno studio
sulla qualità della vita in diversi Paesi non sarà
sufficiente raccogliere informazioni esclusivamente di
natura economica.
Modelli per l’analisi statistica- Monica Rosciano, Dipartimento di Statistica e Matematica per la Ricerca Economica, [email protected]
METODI FATTORIALI
Negli studi statistici nel campo delle scienze sociali o
dell’economia, la ricerca si affida generalmente ad un
insieme di variabili a volte numeroso le quali, possono
contenere informazioni parzialmente sovrapposte, se non
del tutto ridondanti, sul fenomeno che si intende
esaminare
Al fine di semplificare e riassumere le relazioni
esistenti in un insieme di variabili può effettuarsi
UN’ANALISI FATTORIALE.
Modelli per l’analisi statistica- Monica Rosciano, Dipartimento di Statistica e Matematica per la Ricerca Economica, [email protected]
METODI FATTORIALI
I metodi fattoriali sono un insieme di tecniche che
consentono di trasformare l’insieme delle variabili di una
tabella multidimensionale in un insieme di altre variabili tra di
esse ortogonali.
Queste nuove variabili sono ottenute attraverso un
procedimento di calcolo che ne determina il loro ordinamento
sulla base del contributo decrescente che ognuna di esse
comporta alla spiegazione della varianza complessiva delle
variabili originarie.
Modelli per l’analisi statistica- Monica Rosciano, Dipartimento di Statistica e Matematica per la Ricerca Economica, [email protected]
METODI FATTORIALI
In pratica, l’obiettivo di una tecnica fattoriale di tipo
esplorativo consiste nel
“DESCRIVERE/INTERPRETARE”
la matrice dei dati attraverso la rappresentazione della
forma della nube dei punti individui o dei punti variabili (e
cioè della struttura esistente sugli elementi che
definiscono le righe o colonne della matrice).
Modelli per l’analisi statistica- Monica Rosciano, Dipartimento di Statistica e Matematica per la Ricerca Economica, [email protected]
Le tecniche fattoriali hanno lo scopo di:
-RIDURRE LA MULTIDIMENSIONALITÀ della matrice
attraverso la trasformazione dei dati IN NUOVE
VARIABILI (componenti principali o fattori) tra loro
INCORRELATE;
- costruire delle dimensioni sintetiche e inosservabili
(assi fattoriali) aventi la caratteristica di continuum che
rappresentino dei modelli teorici, capaci d’interpretare il
fenomeno
Modelli per l’analisi statistica- Monica Rosciano, Dipartimento di Statistica e Matematica per la Ricerca Economica, [email protected]
Una matrice di dati X (n,p) descrive un insieme di vettori
(riga o colonna) che a loro volta, individuano una nuvola di
punti (rispettivamente unità o variabili).
L’insieme delle distanze a due a due fra tutti i punti
individua la FORMA della nuvola dei punti.
Tale FORMA caratterizza la NATURA e L’INTENSITÀ
delle relazioni tra i punti e quindi rivela la STRUTTURA
dell’informazione contenuta nei dati
Modelli per l’analisi statistica- Monica Rosciano, Dipartimento di Statistica e Matematica per la Ricerca Economica, [email protected]
Un modo semplice per rendere visibile la forma della nuvola dei
punti consiste nel PROIETTARLA su delle rette o su dei piani,
MINIMIZZANDO la deformazione che è implicita in ogni
proiezione.
Il problema è dunque quello di RIDURRE LA QUANTITÀ DI
DATI (informazioni) SENZA PERDITA SIGNIFICATIVA DI
INFORMAZIONE (relazioni fra i dati).
xi
o
i
hi
Proeizione
Δu
Si ricerca pertanto quel
sottospazio che MASSIMIZZA la
somma dei quadrati delle distanze
tra le proiezioni sul sottospazio di
tutte le coppie di punti
Modelli per l’analisi statistica- Monica Rosciano, Dipartimento di Statistica e Matematica per la Ricerca Economica, [email protected]
La proiezione ortogonale ohi, del segmento xi sul sottospazio
Δu è pari al prodotto scalare fra il vettore oi e il vettore
unitario (versore) u entrambi appartenenti a Rp.
Ohi =xi’ u
La proiezione dell’intera nuvola dei punti sull’asse
Δu sarà:
x11
Xu=
………………
x21
x31
xn1
x1p
x2p
xij
……..
….
u1
….
….
uj
xnp
=
∑xij uj
up
Modelli per l’analisi statistica- Monica Rosciano, Dipartimento di Statistica e Matematica per la Ricerca Economica, [email protected]
Ricordando che
a
z
o
a*
b
a· b = ll a ll · ll b ll cos z e che per definizione
cos z = lla*ll/llall si ha che
lla*ll =llall cos z
Quindi il prodotto scalare è pari a
a· b = ll a ll · ll b ll cos z = llbll · lla*ll
Modelli per l’analisi statistica- Monica Rosciano, Dipartimento di Statistica e Matematica per la Ricerca Economica, [email protected]
Algebricamente a cosa corrisponde la proiezione?
Supponiamo di avere una matrice di dimensione (n x p) che
si vuole ridurre alla dimensione (n x k) in cui k < p
?
(n x p)
=
nxk
Vettore o matrice di
trasformazione dallo spazio
Rp allo spazio Rk
in cui k < p
Ad es., sia A una matrice (3,4). Il prodotto della matrice A di
dimensione (3, 4) per la matrice U di dimensione (4, 2) fornisce
come risultato la matrice C di dimensione (3, 2)
U 4x2
A 3x4
3
1
4
1
1
2
1
2
2
2
1
1
C 3x2
1 2
2 1
1 1
1 1
=
10
12
8
7
8
8
La matrice operatore di trasformazione ha dimensione (p, k),
dove p-numero di righe è la dimensione dello spazio origine e knumero di colonne quello dello spazio proiezione, in questo caso
esse assumono rispettivamente i valori p = 3 ed k = 2 e quindi
l'operatore è una matrice.
Se la quantità ohi si esprime in funzione di X e di u
si può scrivere
n∑ (Ohi)2 = (Xu)’ Xu = u’X’Xu
i=1
Per trovare il vettore u, occorre cercare il MAX della forma
quadratica u’X’Xu
sotto il vincolo che u abbia norma unitaria (ossia che la somma
dei quadrati delle componenti sia uguale a 1)
cioè u’u =1.
La ricerca dunque della retta per la quale risulti massima la
somma delle proiezioni ohi dei vettori riga xi si effettua
attraverso la risoluzione di un’equazione agli autovalori del
tipo X’X u = λ u
Modelli per l’analisi statistica- Monica Rosciano, Dipartimento di Statistica e Matematica per la Ricerca Economica, [email protected]
Sia u1 il vettore cercato. Tale vettore unitario u1 è
l’autovettore della matrice X’X di ordine p,p corrispondente
al più grande autovalore λ1. Successivamente, si cerca il
versore u2 ORTOGONALE (ui · uj = 0) di u1 che rende
massima l’espressione u2X’Xu2 e così via.
Una volta trovato il sottospazio ottimale, cioè l’insieme degli
assi Δu che individuano la base {u1….uα…ul} l’individuo i-esimo
avrà, per l’asse α-esimo del sottospazio, una coordinata che è
pari all’estremità della suddetta proiezione ortogonale Ohi.
Modelli per l’analisi statistica- Monica Rosciano, Dipartimento di Statistica e Matematica per la Ricerca Economica, [email protected]
Soluzione del problema di ricerca di un massimo vincolato
In generale per calcolare il max di una funzione f(x)
vincolato a una g(x)=C, si ricorre al metodo dei cosiddetti
moltiplicatori di Lagrange mediante una funzione del tipo
L(x,λ) = f(x) – λ [g (x)-C]
E si eguaglia 0 la derivata di L rispetto a x ovvero
δL(x, λ) =
δx
δf(x)
δx
-λ
δg(x)
δx
Modelli per l’analisi statistica- Monica Rosciano, Dipartimento di Statistica e Matematica per la Ricerca Economica, [email protected]
Per la forma quadratica u’X’Xu sotto il vincolo u’u = 1
L = u’X’Xu – λ(u’u-1)
δL = 2X’Xu – 2λu = 0
δu
Da cui
X’Xu =λu
Premoltiplicando i due membri dell’equazione per u’
u’X’Xu =λu’u
E tenendo conto della condizione di normalizzazione
u’X’Xu = λ
λ è il massimo cercato
Modelli per l’analisi statistica- Monica Rosciano, Dipartimento di Statistica e Matematica per la Ricerca Economica, [email protected]
AUTOVALORI E AUTOVETTORI
Considerata una matrice quadrata A (X’X) di ordine nxn,
un autovalore  (o radice caratteristica) della matrice A è
uno scalare tale che
A u =  u
dove u è un vettore nx1
definito AUTOVETTORE di A
relativo all’autovalore 
Modelli per l’analisi statistica- Monica Rosciano, Dipartimento di Statistica e Matematica per la Ricerca Economica, [email protected]
AUTOVALORI E AUTOVETTORI
Per identificare gli autovalori di A è necessario risolvere il
seguente sistema di equazioni lineari:
Equazione
caratteristica
A u -  u = 0 da cui
(A -  I) u = 0
Questo è un sistema omogeneo di equazioni che ammette
soluzioni reali non banali (ovvero soluzioni in cui u ≠ 0) se e
solo se il DETERMINANTE della matrice del sistema è
uguale a 0
Modelli per l’analisi statistica- Monica Rosciano, Dipartimento di Statistica e Matematica per la Ricerca Economica, [email protected]
Ovvero se
|A-I|=0
Risolvendo l’equazione del determinante si calcolano gli
autovalori e gli autovettori di A.
Il rango di A è uguale al numero di autovalori diversi da
0.
Modelli per l’analisi statistica- Monica Rosciano, Dipartimento di Statistica e Matematica per la Ricerca Economica, [email protected]
Considerando la generica matrice A
A=
a 11 a 12
a 21 a 22
Per calcolare gli autovalori di A, si considera innanzitutto
la matrice che si ottiene sottraendo da A la matrice I,
dove  è un generico autovalore di A
A - I
Modelli per l’analisi statistica- Monica Rosciano, Dipartimento di Statistica e Matematica per la Ricerca Economica, [email protected]
A - I =
a 11 a 12
a 21 a 22 -

0
0

=
a 11 - 
a 21
a 12
a 22 - 
Il determinante della matrice deve essere uguale a 0, affinché
ci siano soluzioni reali non banali del sistema di equazioni
omogeneo, quindi
|A - I| = (a 11 - )(a 22 - )- a12 a 21 = 0
2 -  (a11 + a22) + ( a11 a22 – a12 a21) = 0
Le soluzioni reali di questa equazione trovate attraverso
- b ± b2 – 4ac
2a
costituiscono i due autovalori di A
Modelli per l’analisi statistica- Monica Rosciano, Dipartimento di Statistica e Matematica per la Ricerca Economica, [email protected]
ESEMPIO
A- λI =
Det (A- λI)
1- λ
0,50
0,50
1- λ
1-  -  + 2 - 0,25
2 - 2 + 0,75 = 0
2±
22 – 4* 1 *0,75
2
=0
Polinomio
caratteristico
1 = 1,5
2 = 0,5
Per trovare gli autovettori relativi ai due autovalori bisogna
sostituire il valori di 1 e 2 nella espressione
(A - I) u =0
Modelli per l’analisi statistica- Monica Rosciano, Dipartimento di Statistica e Matematica per la Ricerca Economica, [email protected]
Per il primo autovettore u1 relativo al primo autovalore 1 si ha:
A
1
0,50
0,50 1
λI
1,50 0
0 1,50
Da cui -0,5 u + 0,5u = 0 e
11
12
0,5u11 – 0,5u12 = 0
u11
u12
= 0
0
quindi u11 = u12
Assegnando valori arbitrari a u11 si ottengono infiniti
autovettori (tra di essi paralleli) associati al primo autovalore.
Modelli per l’analisi statistica- Monica Rosciano, Dipartimento di Statistica e Matematica per la Ricerca Economica, [email protected]
Per il secondo autovettore u2 relativo al primo autovalore 2
si ha:
A
1
0,50
0,50 1
λI
0,50 0
0 0,50
0,5 u21 + 0,5u22 =0
u21 = 0
u22
0
quindi u21 = - u22
u2
u1
Inoltre rispettando il
vincolo che u’1u1 =1
nell’esempio si ha
u112 + u122 =1
2u122= 1
u12 = ±√1/2
Modelli per l’analisi statistica- Monica Rosciano, Dipartimento di Statistica e Matematica per la Ricerca Economica, [email protected]
Qualche osservazione sui metodi fattoriali
Data una matrice quadrata A di ordine n:
 la traccia della matrice è uguale alla somma degli autovalori.
In generale si definisce “traccia di A” (considerando A una
matrice quadrata di n righe e n colonne) la somma degli
elementi sulla diagonale principale:
tr A = ∑j ∑j aij con i = j.
 il determinante della matrice è uguale al prodotto degli
autovalori;
Modelli per l’analisi statistica- Monica Rosciano, Dipartimento di Statistica e Matematica per la Ricerca Economica, [email protected]
Qualche osservazione sui metodi fattoriali
 se A ha n autovalori distinti, L è la matrice degli autovalori,
V è la matrice degli autovettori, allora V-1 AV = L, ovvero gli
autovettori di A consentono di trasformare A in una matrice
diagonale L che contiene i suoi valori;
 se A è simmetrica, e gli autovalori di A sono tutti maggiori
di 0 e diversi (ovvero i ≠ j per ogni i, per ogni j, i ≠ j ) allora
x’ixj =0 dove xi e xj sono due generici autovettori di A (ovvero
gli autovettori sono ortogonali)
Modelli per l’analisi statistica- Monica Rosciano, Dipartimento di Statistica e Matematica per la Ricerca Economica, [email protected]
Fra le analisi fattoriali di tipo esplorativo, vi sono:
l’analisi in componenti principali (ACP) che si applica nel
caso di variabili quantitative;
l’analisi delle corrispondenze (AC) che viene applicata a
variabili qualitative;
l’analisi canonica per lo studio della correlazione fra due o
più gruppi di variabili quantitative.
Modelli per l’analisi statistica- Monica Rosciano, Dipartimento di Statistica e Matematica per la Ricerca Economica, [email protected]
ANALISI DELLE COMPONENTI PRINCIPALI
Una soluzione al problema di trovare il punto di arrivo del
processo di fattorializzazione e di farlo in modo tale che il
numero di fattori sia strettamente minore del numero di
variabili osservate è rappresentata dal calcolo delle
componenti principali.
L’analisi in componenti principali è un metodo statistico
multivariato che trasforma un set di p variabili quantitative
rilevate su n unità, in un insieme ridotto di k (<p) nuove
variabili, dette componenti principali, tra loro incorrelate, le
quali contengono la maggiore informazione possibile
dell’insieme originale di caratteri.
Modelli per l’analisi statistica- Monica Rosciano, Dipartimento di Statistica e Matematica per la Ricerca Economica, [email protected]
ANALISI DELLE COMPONENTI PRINCIPALI
Le componenti principali sono delle combinazioni lineari delle
variabili originarie.
Dati k vettori x1,…xk ciascuno dei quali aventi n elementi, il
vettore c = a1x1 + a2x2+….+apxp,
è una combinazione lineare dei vettori x1…xk
dove a1,…ak sono numeri reali e sono relativamente ad ogni
componente principale gli elementi dell’autovettore associato
all’autovalore.
Modelli per l’analisi statistica- Monica Rosciano, Dipartimento di Statistica e Matematica per la Ricerca Economica, [email protected]
Una combinazione lineare, in quanto risultante da una somma
ponderata delle variabili originarie, risulta un modello utile
per costruire indicatori “globali”, in grado di riassumere
fenomeni complessi.
Nel contesto del metodo, la misura dell’informazione di
ciascuna variabile corrisponde alla sua variabilità, nel senso
che una variabile casuale con una forte dispersione sulle
unità statistiche, fornisce più informazioni sul fenomeno
che si intende studiare rispetto ad una variabile pressoché
costante sulle stesse osservazioni
Modelli per l’analisi statistica- Monica Rosciano, Dipartimento di Statistica e Matematica per la Ricerca Economica, [email protected]
L’obiettivo del metodo è dunque quello di trovare r
trasformazioni lineari ci delle variabili osservate (dove r è il
rango della matrice di partenza)
ci = a1ix1 + a2ix2 + ….apixp
1 = 1,2,….p
Dove :
ci indica l’i-esima combinazione lineare individuata dall’analisi;
xj indica la j-esima variabile originaria;
aji è il coefficiente della j-esima variabile nella i-esima
combinazione lineare
Ogni combinazione lineare è funzione di tutte le variabili
originarie, ma si correla in particolare ad alcune di esse.
Modelli per l’analisi statistica- Monica Rosciano, Dipartimento di Statistica e Matematica per la Ricerca Economica, [email protected]
Le componenti sono non correlate tra di loro e apportano
dunque un contenuto informativo differenziato, il loro
numero massimo è pari al numero di variabili originarie (p).
ci = a1ix1 + a2ix2 + ….apixp
ai’ ai = 1
i = 1,2,….p
ai aj = 0
Le componenti (dalla prima alla p-esima) riassumono una
percentuale decrescente di “contenuto informativo” (ovvero di
varianza dei dati).
Modelli per l’analisi statistica- Monica Rosciano, Dipartimento di Statistica e Matematica per la Ricerca Economica, [email protected]
In sintesi
 le componenti principali sono nello stesso numero k delle
variabili della matrice X (n,k).
 le componenti principali sono ortogonali. Ciò significa che
i coefficienti di correlazione lineare calcolati tra le
componenti sono sempre nulli.
Modelli per l’analisi statistica- Monica Rosciano, Dipartimento di Statistica e Matematica per la Ricerca Economica, [email protected]
 la traccia della matrice ∑ è uguale alla somma delle
varianze delle singole variabili.
Poiché l’r-esimo autovalore rappresenta la varianza della
r-ma
componente
principale
nelle
condizioni
dette
precedentemente e operando su variabili standardizzate
si può scrivere
tr ∑ = k = ∑ i (i =1..,k)
Modelli per l’analisi statistica- Monica Rosciano, Dipartimento di Statistica e Matematica per la Ricerca Economica, [email protected]
 il contributo della r-esima componente principale alla
spiegazione della variabilità complessiva si può misurare
percentualmente con il rapporto
i
100
k
∑ i
i=1
 l’input effettivo della tecnica è costituito dalla matrice di
correlazione tra le variabili: più forte è mediamente tale
correlazione, maggiore sarà la capacità di sintesi dell’analisi
fattoriale.
Se la matrice di correlazione R è diagonale, cioè se tutte le
variabili sono incorrelate le componenti principali sono le
stesse k variabili
Modelli per l’analisi statistica- Monica Rosciano, Dipartimento di Statistica e Matematica per la Ricerca Economica, [email protected]
 L’analisi delle componenti principali sostituisce le
variabili iniziali con delle variabili non correlate di
varianza massima e di importanza decrescente.
 Il numero di autovalori non nulli fornisce la dimensione
dello spazio nel quale sono immerse le variabili. Se un
autovalore è nullo esiste relazione lineare tra le variabili.
Modelli per l’analisi statistica- Monica Rosciano, Dipartimento di Statistica e Matematica per la Ricerca Economica, [email protected]