LA MATRICE DEI DATI
Risultato di una rilevazione statistica effettuata su n unità statistiche con riferimento a p fenomeni
(detti anche caratteri, variabili)
Esempi di:
unità
variabili
individui
imprese
comuni
….
Reddito, sesso, titolo di studio…
Fatturato, addetti, ragione sociale…
Ampiezza dem., regione, presenza di stazione ferr.…
…
___________________________________________________________________________________________________________________________________________
Unità 2 - Corso di Statistica aziendale (prof. M.R. Ferrante)
Laurea Magistrale in Economia e Gestione Aziendale - Facoltà di Economia, Polo di Forlì, Università di Bologna
1
Questionario - Indagine su reddito, consumo e fruizione dei quotidiani in Emilia Romagna
Tipo di variabile
I caratteri (variabili) possono essere
o qualitativi (sconnessi o ordinali)
o quantitativi (discreti o continui)
Fenomeno indagato
VARIABILI
1. sesso
2. età
3. titolo di studio
Possibili risposte
MODALITA’
maschio
femmina
_____ (in anni compiuti)
elementare
diploma
media inferiore
laurea
dottorato
TIPO DI VARIABILE
Qualitativo sconnesso (dicotomico)
Quantitativo
Qualitativo ordinabile
(politomico)
4. reddito mensile
______ (in euro)
Quantitativo
5. consumo mensile
______ (in euro)
Quantitativo
6. acquista almeno un
quotidiano al giorno?
si
no
Qualitativo sconnesso
(dicotomico)
___________________________________________________________________________________________________________________________________________
Unità 2 - Corso di Statistica aziendale (prof. M.R. Ferrante)
Laurea Magistrale in Economia e Gestione Aziendale - Facoltà di Economia, Polo di Forlì, Università di Bologna
2
Si possono codificare le modalità di variabili qualitative:
Sesso
Titolo di studio
Acquisto quotidiano
M=0; F=1
Elem.=1, Media inf.=2, Media sup.=3, Laurea=4, Dottorato=5
SI=1; NO=0
Matrice dei dati
X=
0
0
1
1
1
1
1
0
0
1
20
19
21
75
45
35
21
60
18
12
Dimensioni
1
3
3
2
4
5
2
2
2
1
1050
1000
2000
1200
2200
2500
1250
1800
1640
1400
800
900
1300
1000
800
1500
1000
1100
1350
1000
1
1
1
0
1
0
0
1
1
1
10 x 6
N. B. : le variabili quantitative non sono espresse nella stessa unità di misura (anni, euro…)
___________________________________________________________________________________________________________________________________________
Unità 2 - Corso di Statistica aziendale (prof. M.R. Ferrante)
Laurea Magistrale in Economia e Gestione Aziendale - Facoltà di Economia, Polo di Forlì, Università di Bologna
3
MATRICE
 x11
 ...

 xi1
 ...

 xn1
dei dati X, di dimensioni n x p ( n righe e p colonne)
... x1s
...
...
...
xis
...
...
... xns
... x1 p 
... ... 

... xip 
... ... 
... xnp 
Notiamo che
i = 1,…,n
s= 1,…,p
unità
variabili
matrice X - unità x variabile
Matrice composta da
•
n vettori riga: ad ogni riga, xi , corrisponde una unità (elemento del campione o della
popolazione studiata) e la riga i-esima fornisce le modalità osservate dei p caratteri per l’unità
statistica i-sima;
•
p vettori colonna: ad ogni colonna corrisponde un carattere, una variabile, e la colonna s-esima
X s fornisce la distribuzione delle modalità della variabile s fra le n unità statistiche;
•
l’elemento xis all’interno della matrice rappresenta il valore del carattere s nella i-esima unità
statistica.
___________________________________________________________________________________________________________________________________________
Unità 2 - Corso di Statistica aziendale (prof. M.R. Ferrante)
Laurea Magistrale in Economia e Gestione Aziendale - Facoltà di Economia, Polo di Forlì, Università di Bologna
4
Con riferimento alla matrice dei dati possiamo analizzare:
• un singolo fenomeno (analisi di tipo unidimensionale, riferita alla singola variabile) attraverso
l'uso di medie, indici di variabilità, ecc.):
Qual è l'età media con riferimento alle 10 unità in oggetto? E quale il consumo medio mensile?
• due fenomeni e la relazione che li lega (analisi di tipo bidimensionale):
Che relazione c'è tra età e consumo?
• una pluralità di fenomeni (analisi multidimensionale o multivariata – generalizzazione di quella
bidim.)
Ci occuperemo dell'ANALISI MULTIDIMENSIONALE DEI DATI i cui obiettivi si possono
sintetizzare nei seguenti punti:
• sintesi delle relazioni tra le p variabili
• analisi della dipendenza lineare e non lineare di una variabile rispetto a p covariate
• misura della diversità/somiglianza tra le n unità statistiche, con riferimento ai p fenomeni
indagati
• classificazione delle unità in gruppi omogenei
• ricerca di regole discriminanti tra due o più gruppi, sulla base di una pluralità di fenomeni
___________________________________________________________________________________________________________________________________________
Unità 2 - Corso di Statistica aziendale (prof. M.R. Ferrante)
Laurea Magistrale in Economia e Gestione Aziendale - Facoltà di Economia, Polo di Forlì, Università di Bologna
5
RAPPRESENTAZIONE GRAFICA DELLE UNITA' secondo le VARIABILI (quantitative)
Supponiamo di aver osservato il reddito e il consumo di 3 unità statistiche (in euro):
unità
1
2
3
Media
Reddito mens.
1000
1200
850
1017
Consumo mens.
600
900
800
767
X=
1000
1200
850
600
900
800
3x2
Possiamo rappresentare le 3 unità statistiche in R2:
1100
1000
900
consumo
800
700
600
500
700
800
900
1000 1100 1200 1300
reddito
___________________________________________________________________________________________________________________________________________
Unità 2 - Corso di Statistica aziendale (prof. M.R. Ferrante)
Laurea Magistrale in Economia e Gestione Aziendale - Facoltà di Economia, Polo di Forlì, Università di Bologna
6
Per p variabili: SPAZIO DELLE UNITA’
nella matrice unità x variabile, i vettori riga di dimensione p possono essere rappresentati in Rp
(spazio a p dimensioni, delle unità o degli individui)
Due o più unità saranno tanto più simili, in relazione alle variabili considerate, quanto più sono
vicine nello spazio delle unità.
Possiamo individuare il vettore delle medie delle p variabili detto centroide (o baricentro):
x′ = [x1 , ..., xs , ..., x p ]
nell'esempio: x = [1017, 767]
1100
1000
900
consumo
800
700
600
500
700
800
900
1000 1100 1200 1300
reddito
___________________________________________________________________________________________________________________________________________
Unità 2 - Corso di Statistica aziendale (prof. M.R. Ferrante)
Laurea Magistrale in Economia e Gestione Aziendale - Facoltà di Economia, Polo di Forlì, Università di Bologna
7
LA MATRICE DEGLI SCOSTAMENTI (O SCARTI) DALLA MEDIA
variabile Xs , di tipo quantitativo, consideriamo gli scarti dalla media:
~
~
xis = xis − xs
X = [~
xis ]
per i = 1, ..., n
s=1,…, p
Nell'esempio:
Scarto riferito al
Reddito mens.
1000-1017=
1200-1017=
850-1017=
unità
1
2
3
Matrice
~
X
- 17
+183
-167
Scarto riferito al
Consumo mens.
600-767= -167
900-767=
133
800-767=
33
degli scarti dalla media:
- 17
+183
-167
-167
133
33
~
L'impiego di X
equivale a considerare in Rp un nuovo sistema di assi cartesiani, uguale a quello
dei dati originari se non per l'origine che, in tale nuovo sistema, è nel centroide:
la nuvola di punti presenta il medesimo aspetto, è l'origine degli assi che si sposta nel punto che ha
come coordinate le medie delle p variabili
___________________________________________________________________________________________________________________________________________
Unità 2 - Corso di Statistica aziendale (prof. M.R. Ferrante)
Laurea Magistrale in Economia e Gestione Aziendale - Facoltà di Economia, Polo di Forlì, Università di Bologna
8
LA MATRICE DEGLI SCARTI STANDARDIZZATI
Per ogni variabile, consideriamo gli scarti standardizzati, cioè gli scarti dalla media in rapporto
allo scarto quadratico medio:
zis =
xis − xs
σs
=
~
xis
σs
i = 1, ..., n
per
Matrice degli scarti standardizzati:
Z = [zis ]
i=1,…, n
s=1,…, p
Caratteristiche delle p variabili considerate nella matrice Z (p scostamenti standardizzati), cioè dei
vettori colonna z s :
• sono numeri puri, cioè non hanno unità di misura e non risentono dell'ordine medio di grandezza
della variabile originaria
• hanno media pari a 0 e varianza pari ad 1
___________________________________________________________________________________________________________________________________________
Unità 2 - Corso di Statistica aziendale (prof. M.R. Ferrante)
Laurea Magistrale in Economia e Gestione Aziendale - Facoltà di Economia, Polo di Forlì, Università di Bologna
9
Perché consideriamo la matrice degli scarti standardizzati?
Essa consente di analizzare congiuntamente variabili che hanno, in origine, diversa unità di misura
e/o diverso ordine medio di grandezza/variabilità trasformandole in variabili che non hanno unità
di misura e stesso ordine medio di grandezza/var..
sono “confrontabili”
1,5
Matrice Z riferita all'esempio
precedente:
-0.1162
1.2787
-1.1625
-1.3363
1.0690
0.2673
scost. stand. consumo
1
0,5
0
-0,5
-1
-1,5
-1,5
-1
-0,5
0
0,5
1
1,5
scost. stand. reddito
___________________________________________________________________________________________________________________________________________ 10
Unità 2 - Corso di Statistica aziendale (prof. M.R. Ferrante)
Laurea Magistrale in Economia e Gestione Aziendale - Facoltà di Economia, Polo di Forlì, Università di Bologna
LA MATRICE DI COVARIANZA E LA MATRICE DI CORRELAZIONE
Misura la relazione lineare tra due variabili di tipo quantitativo
Consideriamo due generici vettori colonna della matrice X,
contengono i valori delle p variabili, con riferimento ad n unità.
I dati sono rappresentati dalle coppie di valori
Si definiscono gli scarti dalle rispettive medie
( xis , xik )
xɶs = ( xis − xs )
xs ed xk (di dim. n x1), che
i = 1,… , n
xɶk = ( xik − xɶk )
Se a valori di xk maggiori (minori) della media corrispondono valori di xs maggiori (minori) della
media, allora si dice che tra le due variabili esiste una relazione diretta
la maggior parte degli scarti
~
xk e ~
x s ha lo stesso segno concordanza tra le var.
Se a valori di xk maggiori (minori) della media corrispondono valori di xh minori (maggiori)
della media, allora si dice che tra le due variabili esiste una relazione inversa
la maggior parte degli scarti
~
xk e ~
x s ha segno opposto discordanza tra le var.
___________________________________________________________________________________________________________________________________________ 11
Unità 2 - Corso di Statistica aziendale (prof. M.R. Ferrante)
Laurea Magistrale in Economia e Gestione Aziendale - Facoltà di Economia, Polo di Forlì, Università di Bologna
Una misura sintetica della relazione LINEARE tra le due variabili è la covarianza (media
aritmetica dei prodotti degli scarti)
1 n
ssk = cov( X s , X k ) = ∑ ( xis − xs )( xik − xk )
n i =1
(la troveremo indicata anche come σ sk )
Si noti che
1 n
s k = var( X k ) = ∑ ( xik − xk )2
n i =1
2
(la troveremo indicata anche come σ k2 )
La COVARIANZA:
• è positiva se a valori crescenti di Xs si associano valori crescenti di Xk (analogamente se a valori
decrescenti di Xs si associano valori decrescenti di Xk).
• è negativa se a valori crescenti di Xs si associano valori decrescenti di Xk (e viceversa).
• cresce in valore assoluto quanto più è forte la relazione lineare tra le variabili.
• è tanto più piccola e vicina allo zero in assenza di una relazione lineare tra le due variabili.
___________________________________________________________________________________________________________________________________________ 12
Unità 2 - Corso di Statistica aziendale (prof. M.R. Ferrante)
Laurea Magistrale in Economia e Gestione Aziendale - Facoltà di Economia, Polo di Forlì, Università di Bologna
Esempio di relazione non lineare non individuabile attraverso la Covarianza:
(1,3) (2,2) (3,1) (4,1) (5,2) (6,3)
3.5
3
2.5
2
1.5
1
0.5
0
0
2
4
6
8
⇒Cov(Xs, Xk)=0 !!!
Cov ( X s , X k ) ≠ 0 , non consente di stabilire l’entità del legame (la covarianza non è un numero
puro): per ottenere un indice normalizzato occorre rapportare la covarianza al suo massimo
E’ noto che:
cov 2 ( X s , X k ) ≤ var( X s ) var( X k )
cov( X s , X k ) ≤ var( X s ) var( X k )
___________________________________________________________________________________________________________________________________________ 13
Unità 2 - Corso di Statistica aziendale (prof. M.R. Ferrante)
Laurea Magistrale in Economia e Gestione Aziendale - Facoltà di Economia, Polo di Forlì, Università di Bologna
quindi possiamo definire il coefficiente di correlazione (lineare)
corr( X s , X k ) =
rsk =
cov( X s , X k )
var( X s ) var( X k )
ssk
s s sk
− 1 ≤ corr( X s , X k ) ≤ 1
− 1 ≤r sk ≤ 1
• rsk r=-1 : i dati sono allineati su una retta con coefficiente angolare negativo (perfetta rel. lineare
inversa)
• rsk =1 : i dati sono perfettamente allineati su una retta con coefficiente angolare positivo (perfetta
rel. lineare diretta)
• rsk =0 : non c’è associazione lineare tra le due variabili
• -1< rsk <0 : esiste associazione (lineare) negativa tra le due variabili, cioè al crescere dell’una
decresce l’altra;
• 0< rsk <1: esiste associazione (lineare) positiva, cioè al crescere dell’una cresce anche l’altra;
___________________________________________________________________________________________________________________________________________ 14
Unità 2 - Corso di Statistica aziendale (prof. M.R. Ferrante)
Laurea Magistrale in Economia e Gestione Aziendale - Facoltà di Economia, Polo di Forlì, Università di Bologna
Si noti che:
Cov ( Z s , Z k ) ≡ Corr ( X s , X k )
Correlazione spuria: può manifestarsi tra variabili per cui r ≠ 0 ma non vi è una effettiva relazione
Con riferimento alla matrice X dei dati originari, consideriamo la
covarianza tra tutte le possibili coppie di variabili (in numero pari a p x p):
Cov( X s , X k ) = ssk
per s,k =1,…, p
e il coefficiente di correlazione tra tutte le possibili coppie di variabili:
Corr ( X s , X k ) = rsk
per s, k =1,…, p
___________________________________________________________________________________________________________________________________________ 15
Unità 2 - Corso di Statistica aziendale (prof. M.R. Ferrante)
Laurea Magistrale in Economia e Gestione Aziendale - Facoltà di Economia, Polo di Forlì, Università di Bologna
LA MATRICE DI COVARIANZA
Possiamo riorganizzare le p x p covarianze nella matrice di covarianza:
 s12

 s21
 ...
SX = 
 sk 1
 ...

 s p1
s12 ... s1k
s22
...
...
... ...
... ...
... sk2
...
...
...
...
...
...
... s1 p 

... ... 
... ... 

... ... 
... ... 

... s 2p 
• è una matrice quadrata di dim. p x p
• è una matrice simmetrica in quanto Cov( xs , xk ) = Cov( xk , xs ) ∀ s, k
• sulla diagonale principale ha le varianze in quanto Cov( xs , xs ) = Var ( xs ) ∀ s
• la matrice di covarianza può essere ottenuta in funzione della matrice degli scarti dalla media:
1~ ~
S X = X′ X
n
___________________________________________________________________________________________________________________________________________ 16
Unità 2 - Corso di Statistica aziendale (prof. M.R. Ferrante)
Laurea Magistrale in Economia e Gestione Aziendale - Facoltà di Economia, Polo di Forlì, Università di Bologna
LA MATRICE DI CORRELAZIONE
 r11 = 1

 r21
 ...
R=
 rs1
 ...

 rp1
r12
...
r1 k
...
...
... ...
...
...
... ...
...
rss = 1 rsk
...
...
...
...
... ...
...
...
... ...
r1 p 

... 
... 

... 
... 

rpp = 1
• è una matrice quadrata di dim. p x p
• è una matrice simmetrica in quanto rsk = rks ∀ s, k
• sulla diagonale principale ha valori pari ad 1
La matrice di correlazione può essere ottenuta in funzione della matrice degli scarti standardizzati:
1
R = Z′ Z
n
___________________________________________________________________________________________________________________________________________ 17
Unità 2 - Corso di Statistica aziendale (prof. M.R. Ferrante)
Laurea Magistrale in Economia e Gestione Aziendale - Facoltà di Economia, Polo di Forlì, Università di Bologna
Strumento molto importante dell'analisi multidimensionale dei dati: pone in luce le relazioni
lineari tra tutte le coppie di variabili.
Più in dettaglio tale matrice ci indica:
• quali coppie di variabili forniscono all'incirca le medesime informazioni ( rsk ≅ 1), in tal caso la
considerazione di entrambe le variabili potrebbe portare ad una ridondanza di informazioni
oppure una di queste due variabili potrebbe risultare utile per "prevedere" l'altra (analisi di
regressione)
• quali coppie di variabili non sono correlate linearmente ( rsk ≅ 0 ) - caso in cui le due variabili
“portano” informazioni diverse
___________________________________________________________________________________________________________________________________________ 18
Unità 2 - Corso di Statistica aziendale (prof. M.R. Ferrante)
Laurea Magistrale in Economia e Gestione Aziendale - Facoltà di Economia, Polo di Forlì, Università di Bologna
Esempio
Consideriamo i dati relativi alle variabili quantitative
all’esempio 1 precedente:
Età, Reddito e Consumo riferite
Matrice dei dati (10 x 3)
X=
20
19
21
75
45
35
21
60
18
12
1050
1000
2000
1200
2200
2500
1250
1800
1640
1400
800
900
1300
1000
800
1500
1000
1100
1350
1000
Matrice di Covarianza
S=
396
1617
-325
1617
235644
65100
(3 x 3)
-325
65100
50625
Matrice di Correlazione
R=
1 0,167
0,167
1
-0,072 0,596
(3 x 3)
-0,072
0,596
1
___________________________________________________________________________________________________________________________________________ 19
Unità 2 - Corso di Statistica aziendale (prof. M.R. Ferrante)
Laurea Magistrale in Economia e Gestione Aziendale - Facoltà di Economia, Polo di Forlì, Università di Bologna
ETÀ
REDDITO
CONSUMO
___________________________________________________________________________________________________________________________________________ 20
Unità 2 - Corso di Statistica aziendale (prof. M.R. Ferrante)
Laurea Magistrale in Economia e Gestione Aziendale - Facoltà di Economia, Polo di Forlì, Università di Bologna
LA MATRICE DELLE DISTANZE/DISSOMIGLIANZE
Consideriamo il concetto di
prossimità/diversità tra unità statistiche
…prossimità = somiglianza = similarità
(tuttavia, quest'ultimo termine ha un significato ben preciso…)
…diversità = dissomiglianza = dissimilarità
La prossimità viene definita tra coppie di individui
matrice di dim. n x n
Indici di prossimità:
• distanze
• similarità
per variabili quantitative
per variabili qualitative
___________________________________________________________________________________________________________________________________________ 21
Unità 2 - Corso di Statistica aziendale (prof. M.R. Ferrante)
Laurea Magistrale in Economia e Gestione Aziendale - Facoltà di Economia, Polo di Forlì, Università di Bologna
distanza
La distanza tra due generiche unità statistiche i e j sarà, in generale, calcolata con riferimento a
due vettori riga della matrice X, xi e xj:
(
)
d xi , x j = dij
per i , j = 1,..., n
MATRICE DELLE DISTANZE
d11 = 0 d12
 d
0
 21
...
 ...
D=
...
 di1
 ...
...

...
 d n1
... d1 j
... ...
... ...
... dij
... ...
... ...
di dim. n x n:
... d1n 
... ... 

... ... 

... ... 
... ... 

... 0 
…ma non abbiamo ancora definito dij …..
___________________________________________________________________________________________________________________________________________ 22
Unità 2 - Corso di Statistica aziendale (prof. M.R. Ferrante)
Laurea Magistrale in Economia e Gestione Aziendale - Facoltà di Economia, Polo di Forlì, Università di Bologna
Alcuni tipi di distanza
LA DISTANZA EUCLIDEA
Consideriamo il reddito ed il consumo mensile con riferimento ai primi 2 individui (esempio 1):
(1050, 800)
(1000, 900)
( x js , x jk )
( xis , xik )
Xk
consumo
1000
975
950
925
xik
900
875
850
825
xjk
800
775
750
980
990
1000
xis
1010
1020
1030
1040
1050
xjs
1060
Xs
reddito
___________________________________________________________________________________________________________________________________________ 23
Unità 2 - Corso di Statistica aziendale (prof. M.R. Ferrante)
Laurea Magistrale in Economia e Gestione Aziendale - Facoltà di Economia, Polo di Forlì, Università di Bologna
Distanza euclidea tra i due individui, con riferimento a due variabili, reddito e consumo:
(1050 - 1000) 2 + (800 - 900) 2 = 111,8
Con riferimento a p variabili:
2 d ij
2 d ij
=
= ( xis − x js ) 2 + ( xik − x jk ) 2
p
2
∑ ( xis − x js )
s =1
Con riferimento alle variabili Età, Reddito e Consumo (Esempio 1):
Matrice delle distanze
1
1
2
3
4
5
6
7
8
9
10
112
1074
256
1150
1610
283
809
807
403
2
3
4
112 1074 256
1077 231
1077
856
231 856
1204 539 1020
1616 539 1393
269 808
74
826 286 608
782 363 565
412 671 210
Distanza euclidea
5
6
7
1150 1610
283
1204 1616
269
539 539
808
1020 1393
74
762
971
762
1346
971 1346
500 807
560
785 873
524
825 1209
150
8
809
826
286
608
500
807
560
300
415
9
807
782
363
565
785
873
524
300
10
403
412
671
210
825
1209
150
415
424
Attenzione!!!
Questa matrice presenta un
problema: le variabili non sono
espresse nella stessa unità di
misura …le distanze calcolate
risentono di tale problema….
424
Questa è una matrice di dissimilarità
___________________________________________________________________________________________________________________________________________ 24
Unità 2 - Corso di Statistica aziendale (prof. M.R. Ferrante)
Laurea Magistrale in Economia e Gestione Aziendale - Facoltà di Economia, Polo di Forlì, Università di Bologna
LA DISTANZA DI MINKOWSKI
Definizione più generale, distanza di ordine q:
1q
q
p
d
=
x
−
x
∑
q ij
is
js 

 s =1

q ≥1
Attenzione: le somme considerate, e, quindi, le relative distanze, hanno senso solo se tutte le
variabili sono espresse nella stessa unità di misura
Anche in tal caso, tuttavia, le distanze considerate non sono del tutto appropriate per misurare la
diversità tra le unità in quanto esse risultano influenzate dai caratteri con più elevato ordine di
grandezza e maggiore variabilità (che presentano differenze preponderanti rispetto alle altre)
Ad esempio
X1 = (45
X2 = (30000
2
d12
=((45-43)2+(30000-35000)2)1/2=5000
43
35000
47)
34000)
il peso di X1 sul calcolo di d è trascurabile!
Come superare tale problema?
___________________________________________________________________________________________________________________________________________ 25
Unità 2 - Corso di Statistica aziendale (prof. M.R. Ferrante)
Laurea Magistrale in Economia e Gestione Aziendale - Facoltà di Economia, Polo di Forlì, Università di Bologna
Ad esempio, calcolando le distanze con riferimento agli scarti standardizzati Z:
Matrice delle distanze
Cas
o
1
2
3
4
5
6
7
8
9
10
1
,44
2,81
2,77
2,54
4,15
,93
2,72
2,59
1,15
2
,44
2,58
2,73
2,69
3,95
,65
2,64
2,27
,95
3
2,81
2,58
3,27
2,43
1,45
1,94
2,08
,75
1,78
Distanza euclidea
4
5
6
2,77 2,54
4,15
2,73 2,69
3,95
3,27 2,43
1,45
2,56
3,81
2,56
3,05
3,81 3,05
2,58 2,34
3,30
1,44 1,65
2,48
3,21 2,87
1,97
3,03 2,37
3,20
7
,93
,65
1,94
2,58
2,34
3,30
2,19
1,67
,52
8
2,72
2,64
2,08
1,44
1,65
2,48
2,19
2,28
2,46
9
2,59
2,27
,75
3,21
2,87
1,97
1,67
2,28
10
1,15
,95
1,78
3,03
2,37
3,20
,52
2,46
1,57
1,57
Questa è una matrice di dissimilarità
anche se la standardizzazione attenua le differenze…
___________________________________________________________________________________________________________________________________________ 26
Unità 2 - Corso di Statistica aziendale (prof. M.R. Ferrante)
Laurea Magistrale in Economia e Gestione Aziendale - Facoltà di Economia, Polo di Forlì, Università di Bologna
Distanza di Mahalanobis
Consente di “eliminare” la correlazione tra le variabili:
[
]
′ S −1 (x − x )
(
)
d
=
x
−
x
M ij
i
j
i
j
1
2
coincide con la dist. euclidea su var. stand. incorrelate
Le distanze ponderate
Nel caso in cui si voglia attribuire diversa importanza ad ogni variabile (anche se la
determinazione dei pesi lascia ampi margini alla soggettività).
Distanza di MINKOWSKI PONDERATA
Definizione più generale, distanza di ordine q:
1q
q
p

d
=
x
−
x
w
∑
q ij
is
js
s

 s =1

q ≥1
in cui ws è il peso attribuito alla variabile s-sima
___________________________________________________________________________________________________________________________________________ 27
Unità 2 - Corso di Statistica aziendale (prof. M.R. Ferrante)
Laurea Magistrale in Economia e Gestione Aziendale - Facoltà di Economia, Polo di Forlì, Università di Bologna
RELAZIONE TRA
1) DISTANZA EUCLIDEA CALCOLATA TRA LE SINGOLE OSSERVAZIONI ED IL PUNTO MEDIO E
DEVIANZA (NUMERATORE DELLA VARIANZA)
Con riferimento alle p variabili (s=1,…,p) consideriamo i valori medi xs (vettore dei valori medi):
2)
centroide
x = (x1 , x2 ,..., xs ,..., x p )
6
5
4
M(X2)
3
2
1
0
M(X1)
___________________________________________________________________________________________________________________________________________ 28
Unità 2 - Corso di Statistica aziendale (prof. M.R. Ferrante)
Laurea Magistrale in Economia e Gestione Aziendale - Facoltà di Economia, Polo di Forlì, Università di Bologna
Somma delle Devianze riferite alle p variabili = somma delle distanze euclidee al quadrato
tra le singole osservazioni ed il centroide x :
∑ ∑ ( xis
p n
s =1 i =1
− xs ) = ∑ ∑ ( xis − xs ) = ∑ 2 d 2 (i , x
2
n p
2
i =1s =1
n
i =1
)
INDICI DI SIMILARITA' Sij
Per fenomeni dicotomici (….1=presenza, 0=assenza…)
Supponiamo di considerare p caratteri dicotomici.
La misura della similarità tra due unità statistiche i e j si basa sulla seguente tabella
i\j
1
0
tot
1
a
c
a+c
0
b
d
b+d
tot
a+b
c+d
p
a = n. di fenomeni presenti contemp. nelle 2 unità (co-presenze)
d = numero di fenomeni assenti in entrambe le unità (co-assenze)
b = numero di fenomeni presenti in i ma non in j
c = numero di fenomeni presenti in j ma non in i
• a e d segnalano similarità (anche se a concorre maggiormente a definire la similarità)
• b e c segnalano dissimilarità
___________________________________________________________________________________________________________________________________________ 29
Unità 2 - Corso di Statistica aziendale (prof. M.R. Ferrante)
Laurea Magistrale in Economia e Gestione Aziendale - Facoltà di Economia, Polo di Forlì, Università di Bologna
Esempio
Con riferimento a due città osserviamo la presenza dell'aeroporto (AP), della stazione ferroviaria
(SF), dell'ingresso in autostrada (IA), del porto (P)
-- Si noti che sono possibili più
risposte….(simile a più variabili di tipo dicotomico)
Città 1
Città 2
Città 1 \ città 2
1
0
tot
…alcuni indici…
AP
0
1
SF
1
0
IA
1
1
P
0
1
c
b
a
c
1
1
2
3
0
1
0
1
tot
2
2
4
Indice di similarità di Russel e Rao:
1 S ij =
a
= 1/ 4
p
___________________________________________________________________________________________________________________________________________ 30
Unità 2 - Corso di Statistica aziendale (prof. M.R. Ferrante)
Laurea Magistrale in Economia e Gestione Aziendale - Facoltà di Economia, Polo di Forlì, Università di Bologna
Indice di similarità di Jaccard
2 S ij =
a
= 1/ 4
a+b+c
(usato se le co-assenze sono ritenute poco significative)
PER FENOMENI POLITOMICI (AD ES.: TITOLO DI STUDIO)
E' necessario innanzitutto passare ad una codifica di tipo disgiuntivo di ognuna delle variabili
qualitative.
In questo caso le co-assenze non hanno nessun significato e quindi gli indici da impiegare sono
quelli che valutano la similarità sono in funzione delle co-presenze (I. di Jaccard)
Ci sono alcuni indici che valutano la somiglianza con riferimento a variabili quantitative e
qualitative considerate congiuntamente…
___________________________________________________________________________________________________________________________________________ 31
Unità 2 - Corso di Statistica aziendale (prof. M.R. Ferrante)
Laurea Magistrale in Economia e Gestione Aziendale - Facoltà di Economia, Polo di Forlì, Università di Bologna