Diapositiva 1

Statistica per le ricerche di
mercato
A.A. 2013/14
09. Matrice dei dati e analisi
preliminari
La classificazione dei caratteri statistici [Stevens, 1946]
Esame del carattere statistico:
si denota concetto di quantità?
Sì
No
Carattere quantitativo
Esame del carattere statistico:
si individua zero assoluto?
Carattere qualitativo
Esame del carattere statistico:
le modalità sono ordinabili?
Sì
No
Sì
No
Scala di
rapporti
Scala di
intervalli
Scala
ordinale
Scala
nominale
2
Esempio di dataset (1/2)
ID
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
Qualitativa
ordinale
dicotomica
CORSO LAUREA
SESSO
MEDIA VOTI
CREDITI
RENDIMENTO
SAM
SAM
SAM
SAM
SAM
SAM
SAM
SAM
SAM
SAM
SAM
SAM
SPO
SPO
SPO
SPO
SPO
ORU
ORU
ORU
M
F
M
F
F
M
F
M
F
F
M
M
F
M
F
F
M
M
F
F
22.1
24.4
21.8
26.4
27.9
26.0
25.1
24.1
27.8
24.0
26.0
30.0
29.2
27.4
23.4
27.9
28.5
29.2
28.8
26.3
6
71
19
27
9
10
18
27
10
17
18
18
84
27
9
30
33
30
48
66
discreto
buono
discreto
buono
ottimo
buono
buono
buono
ottimo
buono
buono
ottimo
ottimo
ottimo
discreto
ottimo
ottimo
ottimo
ottimo
buono
Qualitativa
nominale
Quantitativa
continua
Quantitativa
discreta
(è una media!)
(deriva da un conteggio!)
3
Esempio di dataset (2/2)
4
La matrice dei dati
(1/5)
E’ una “tabella” contenente le informazioni disponibili
relativamente ad un insieme di unità statistiche.
Ciascuna riga della matrice contiene le informazioni
relative ad una determinata unità, mentre ciascuna colonna
contiene le modalità assunte da un determinato carattere
nelle diverse unità.
In generale, supponendo di aver osservato i valori di p
caratteri su un collettivo di n unità statistiche, la matrice di
dati, denotata X avrà dimensione n x p.
5
La matrice dei dati
X
(2/5)
x11
x12
... x1h
... x1 j
... x1 p
x21
...
xi1
x22
... x2 h ... x2 j
... x2 p
xi 2
... xih
... xij
... xip
...
xr 1
xr 2
... xrh
... xrj
... xrp
...
xn1
xn 2 ... xnh
... xnj
... xnp
6
La matrice dei dati
(3/5)
La matrice può essere vista come un insieme di n vettori riga
(di dimensioni 1 x p) contenenti ciascuno il profilo di una unità
statistica, ovvero i valori che in essa assumono le p variabili
osservate.
X
x11
x12
... x1h
... x1 j
... x1 p
x21
...
xi1
x22
... x2 h
... x2 j
... x2 p
xi 2
...
xih
...
xij
...
xip
xr 2
... xrh
...
xrj
...
xrp
xn 2
... xnh
...
xnj
... xnp
...
xr 1
...
xn1
o, alternativamente, indicando con xi il generico vettore
colonna contenente il profilo della i-esima unità.
7
La matrice dei dati
xi
(4/5)
xi1
xi 2
...
xi p
La matrice X può dunque essere considerata
X
x1 , x 2 ,...,xi ,...x n
8
La matrice dei dati
(5/5)
La matrice può essere composta da caratteri qualitativi (in scala
nominale o in scala ordinale, che prevedono modalità non
numeriche e non ordinabili) o da caratteri quantitativi (in scala ad
intervalli o in scala di rapporti, che prevedono modalità
numeriche). Spesso è composta da variabili miste, alcune
qualitative e altre quantitative.
Come le variabili, anche le unità statistiche possono essere di varia natura.
Nelle analisi intra-aziendali per esempio, le unità osservate possono essere i
singoli prodotti dell’azienda, oppure i diversi stabilimenti produttivi, i diversi
reparti di uno stabilimento, i dipendenti o i clienti dell’azienda.
Nelle analisi inter-aziendali, invece, le unità osservate possono essere
costituite dalle diverse aziende concorrenti o da un campione di consumatori
dei prodotti del settore.
9
La qualità dei dati e le mancate risposte parziali
Una volta costruita la matrice dei dati, un problema da
affrontare in via preliminare riguarda la qualità delle
informazioni in essa contenute.
I due principali problemi di qualità in una matrice dei dati
sono costituiti dalla presenza di valori errati o di valori
mancanti.
10
I valori errati
1/3
Nel caso di dati rilevati tramite indagine i valori errati possono
derivare da:
Errore di risposta dell’intervistato
Errore dell’intervistatore nel porre il quesito
Errore nel data-entry o negli strumenti automatici di
acquisizione su supporto informatico dei questionari
cartacei;
11
I valori errati
2/3
La presenza di valori errati può essere segnalata da:
 Valori fuori dominio: ossia valori non appartenenti a un
insieme predefinito di valori ammissibili;
 Valori anomali (outlier): valori significativamente diversi da
quelli osservati nella maggior parte delle unità;
 Incompatibilità di risposte all’interno dello stesso
questionario: si ha quando i valori di una o più variabili rilevate
contraddicono predefinite regole di natura logica e/o relazioni di
tipo matematico.
12
I valori errati
3/3
L’individuazione di valori errati in genere si avvale di una serie di controlli
classificabili come segue:
 Controlli di consistenza: verificano che prefissate
combinazioni di valori assunti da variabili rilevate in una stessa
unità soddisfino determinati requisiti (regole di incompatibilità);
 Controlli di validità o di range: verificano che i valori assunti
da una data variabile siano interni all’intervallo di definizione
della variabile stessa;
 Controlli per gli outlier: sono utilizzati per isolare le unità
statistiche che presentano, per alcune delle variabili, valori che
si discostano in modo significativo dai valori che le stesse
assumono nel resto delle unità rilevate o rispetto a rilevazioni
precedenti.
13
Le analisi sui profili di colonna
1/23
Le analisi bivariate sui profili di colonna sono volte
allo studio dell’associazione esistente tra le diverse
variabili considerate a coppie. Si ottiene una matrice
di associazione di dimensioni p x p
L’indice con cui misurare questa associazione
dipende dal tipo delle variabili presenti nella
matrice dei dati
14
Le analisi sui profili di colonna
2/23
In generale, l’obiettivo delle analisi bivariate è ottenere, a partire dalla matrice
dei dati X (di dimensione n x p) una matrice delle associazioni A (di dimensione
p x p) del tipo seguente:
a11
a21
a12
a22
... a1h
... a2 h
... a1 j
... a2 j
... a1 p
... a2 p
ah 2
... ahh
... ahj
... ahp
a j1 a j 2 ... a jh ... a jj
...
a p1 a p 2 ... a ph ... a pj
... a jp
...
A
ah1
...
... a pp
15
Le analisi sui profili di colonna
Nella matrice A, l’elemento
ahj
3/23
è una misura dell’associazione esistente tra
la h-esima e la j-esima variabile.
La misura di tale associazione dipende dal tipo
variabili considerate nel loro insieme che possono
essere:
• qualitative sconnesse;
• qualitative ordinali;
• quantitative;
• miste.
16
Le analisi sui profili di colonna
4/23
Variabili qualitative sconnesse
A partire da ciascuna coppia di variabili può essere costruita una tabella a
doppia entrata e, da questa può essere ricavato l’indice Chi-quadrato
S
T
2
s 1 t 1
2
cst
nst
S e T sono rispettivamente il numero di modalità del primo e del secondo
carattere;
n’st sono le frequenze teoriche di indipendenza nella tabella doppia, cioè le
frequenze che si sarebbero osservate, dati i valori marginali di riga e di
colonna, nel caso di perfetta indipendenza tra i due caratteri;
cst = nst – n’st sono le contingenze, cioè le differenze tra le frequenze
osservate e quelle teoriche di indipendenza.
17
Le analisi sui profili di colonna
5/23
Variabili qualitative sconnesse
L’indice Chi-quadrato vale zero quando tutte le contingenze sono pari a zero e assume
valori via via crescenti quanto maggiore è l’associazione tra i due caratteri.
Il valore dell’indice risulta comunque influenzato dalla numerosità del collettivo e dal
numero di modalità dei due caratteri il che non consente il confronto tra due valori
dell’indice.
Una misura relativa di associazione (variabile tra zero e uno) è data dall’indice v di
Cramer:
2
v
1/ 2
n
min S 1 , (T 1)
L’indice v vale zero quando i due caratteri sono indipendenti, mentre assume valore
pari a uno quando tra i due caratteri vi è massima associazione.
16
Le analisi sui profili di colonna
6/23
Variabili qualitative ordinali
Un indice utilizzabile per variabili (almeno) qualitative ordinali è l’indice di
associazione tra graduatorie di Spearman (coefficiente di correlazione tra
ranghi):
n
6
rs
1
di
i 1
2
n( n
2
1)
di indica la differenza tra le posizioni in graduatoria, per i due caratteri in
esame, relativa alla i-esima unità.
19
Le analisi sui profili di colonna
7/23
Variabili qualitative ordinali
Il criterio sul quale si basa l’indice di Spearman, nella misurazione della
relazione esistente tra due fenomeni (variabili) H e J, consiste nella sostituzione
delle modalità di ciascun fenomeno con i rispettivi posti d’ordine o “gradi”
(ranks) che esse occupano nella graduatoria ordinata delle osservazioni.
Proprio perché si considerano solo i posti d’ordine, questo criterio è applicabile,
oltre che per le variabili quantitative, anche per le variabile rilevate su scala
ordinale.
Si
definisce
quindi
cograduazione
(rank
correlation) la metodologia statistica che studia le
relazioni tra i posti d’ordine delle modalità di variabili
quantitative oppure ordinali.
20
Le analisi sui profili di colonna
8/23
Variabili qualitative ordinali
Si considerino due fenomeni (variabili) H e J, rilevati almeno su scala ordinale, per i
quali si conoscono le modalità xih e xij in corrispondenza delle n unità statistiche;
Si suppone che per ciascuna variabile le modalità siano tutte distinguibili fra loro (non vi
siano cioè modalità ripetute);
Se si sostituiscono alle modalità xih e xij di ciascun fenomeno i rispettivi “gradi”, g (xih) e g
(xij), che esse occupano nella successione ordinata in senso crescente, lo studio delle
relazioni tra H e J può essere condotto sui seguenti vettori:
g x1h ...g xih ...g xnh
g x1 j ...g xij ...g xnj
ciascuno dei quali contiene i numeri da 1 a n (in un ordine che dipende dalle
modalità dei due fenomeni).
21
Le analisi sui profili di colonna
9/23
Variabili qualitative ordinali
Si dice che tra due fenomeni H e J esiste:
perfetta cograduazione se:
g(xih) = g(xij)
per i = 1, 2, …, n
cioè quando al primo posto nella graduatoria d’un fenomeno corrisponde il
primo posto nella graduatoria dell’altro fenomeno, al secondo corrisponde il
secondo, e così via;
perfetta contrograduazione se:
g(xih) = n + 1 – g(xij)
per i = 1, 2, …, n
cioè quando al primo posto nella graduatoria di un fenomeno corrisponde
l’ultimo posto nella graduatoria dell’altro fenomeno, al secondo corrisponde il
penultimo, etc.
22
Le analisi sui profili di colonna
10/23
Variabili quantitative
La più comune misura di associazione per caratteri quantitativi è la covarianza
n
( xi h
shj
xh )( xij
xj)
i 1
n
Il segno della covarianza sarà:
• positivo se al numeratore prevalgono prodotti di segno positivo che
indicano concordanza (valori di xh e xj congiuntamente o maggiori delle
rispettive medie aritmetiche, o minori di esse);
• negativo se al numeratore prevalgono prodotti di segno negativo che
indicano discordanza.
Valori pari a zero si hanno quando la somma algebrica dei prodotti al
numeratore si annulla  ovvero i due caratteri sono linearmente
19
indipendenti.
Le analisi sui profili di colonna
11/23
Variabili quantitative
Calcolata la covarianza per tutte le coppie di caratteri si può costruire la
matrice di associazione (p x p) detta matrice delle covarianze
S
s11
s12
... s1h
... s1 j
s21
...
sh1
s22
... s2 h ... s2 j ... s2 p
sh 2 ... shh ... shj
...
s j1 s j 2 ... s jh ... s jj
...
s p1 s p 2 ... s ph ... s pj
... s1 p
... shp
La matrice è simmetrica e
sulla diagonale principale
presenta le varianze delle p
variabili.
n
... s jp
n
( xi h
shh
xh )( xih
i 1
xh )
( xih
i 1
n
n
xh ) 2
2
h
... s pp
I valori assunti dalle covarianze dipendono dalle scale di misura dei diversi caratteri e
non sono direttamente confrontabili, al fine di valutare se tra una coppia di variabili vi sia
una associazione maggiore o minore rispetto ad un’altra.
24
Le analisi sui profili di colonna
12/23
Variabili quantitative
Si può utilizzare il coefficiente di correlazione lineare di Bravais-Pearson
definito come la covarianza diviso il prodotto delle due deviazioni standard
COVARIANZA
rhj
shj
h
hj
j
h
j
dove σh e σj sono le deviazioni standard dei due caratteri.
25
Le analisi sui profili di colonna
13/23
Variabili quantitative
Il coefficiente di correlazione lineare assume lo stesso segno della covarianza
ed è compreso tra –1 e 1.
rhj= -1 : tra la variabile h e la variabile j vi è perfetta correlazione lineare
negativa ossia una perfetta relazione lineare di tipo inverso;
rhj= 0 : le variabili h e j sono tra loro indipendenti e non esiste alcun legame
di tipo lineare tra le due variabili;
rhj= 1 : tra la variabile h e la variabile j vi è perfetta correlazione lineare
positiva ossia una perfetta relazione lineare di tipo diretto;
26
Le analisi sui profili di colonna
14/23
Variabili quantitative
Calcolata la correlazione per tutte le coppie di caratteri si può costruire la matrice di
associazione R (di dimensione pxp) detta matrice delle correlazioni
R
r11
r12
... r1h
... r1 j
... r1 p
r21
...
rh1
r22
... r2 h
... r2 j
... r2 p
rh 2
... rhh
... rhj
... rhp
...
rj1 rj 2 ... rjh ... rjj
...
rp1 rp 2 ... rph ... rpj
La matrice è simmetrica e con
valori unitari sulla diagonale
principale.
... rjp
... rpp
27
Le analisi sui profili di colonna
15/23
Variabili quantitative
Per mettere in evidenza la relazione lineare esistente tra due caratteri è
possibile rappresentare l’insieme delle coppie di punti su un asse cartesiano (in
cui sull’asse delle ascisse viene riportata, come di consueto, la variabile H e
sull’asse delle ordinate la variabile J).
Il grafico derivante prende il nome di grafico di dispersione (o scatter plot).
Dalla forma che assume la nuvola di punti è possibile “stabilire” il tipo di
correlazione lineare esistente tra le due variabili.
28
Le analisi sui profili di colonna
16/23
Variabili quantitative
I quadrante
II quadrante
rhj
j
shj
h
0
j
j
III quadrante
IV quadrante
h
h
29
Le analisi sui profili di colonna
17/23
Variabili quantitative
I quadrante
II quadrante
rhj
j
shj
h
0
j
j
III quadrante
IV quadrante
h
h
30
Le analisi sui profili di colonna
18/23
Variabili quantitative
I quadrante
II quadrante
rhj
j
shj
h
0
j
j
III quadrante
IV quadrante
h
h
31
Le analisi sui profili di colonna
19/23
Relazioni tra gli indici di correlazione e cograduazione
Come già specificato, gli indici di cograduazione sono applicabili anche a fenomeni
puramente ordinali, per i quali non è possibile determinare la correlazione.
In presenza di variabili quantitative, invece, l’indice di cograduazione rappresenta un
criterio alternativo rispetto al coefficiente di correlazione lineare.
L’esistenza di perfetta relazione lineare diretta (inversa) implica perfetta
cograduazione (controcograduazione), ma non viceversa, ovvero:
rxy
1
rs
1
rxy
1
rs
1
rxy
1
rs
1
rxy
1
Ma:
rs
1
32
Le analisi sui profili di colonna
20/23
Esempio
Unità statistiche
Valori di X
Valori di Y
Valori di Y
A
100
210
150
B
400
810
810
C
250
510
510
D
300
610
800
In questa tabella esiste perfetta correlazione lineare, in quanto:
yi = 2xi + 10
per cui risulta:
 rxy = 1;
 rs = 1.
Sostituendo in Y il valore 150 a 210 (unità A) ed il valore 800 a 610 (unità
D), vi è ancora perfetta cograduazione, poiché i posti d’ordine delle due
variabili rimangono immutati, ma non vi è più perfetta correlazione lineare
(rxy = 0,948).
33
Le analisi sui profili di colonna
21/23
L’applicazione di un indice di correlazione o cograduazione si
traduce in un differente approccio all’analisi dei dati:
 con la correlazione si considerano i valori effettivi che assumono le variabili;
 con la cograduazione si tiene conto soltanto delle loro posizioni nelle
graduatorie ordinate.
34
Le analisi sui profili di colonna
22/23
Variabili miste
Nelle analisi statistiche di dati aziendali o di mercato, la matrice dei dati è spesso a
carattere misto, con alcune variabili quantitative e altre qualitative, ordinali o
sconnesse.
I possibili casi sono:
1. Variabili qualitative sconnesse con qualitative ordinali
2. Variabili qualitative sconnesse con quantitative
3. Variabili qualitative ordinali con quantitative
Un indice che può essere applicato nei casi 2 e 3 è il rapporto di correlazione η2y/x di
Pearson, specificato come segue:
2
2
y/x
media( y / x )
2
y
x e y indicano la variabile qualitativa (sconnessa o ordinale) e quella quantitativa, rispettivamente;
σy2 è la varianza della variabile quantitativa;
σ2media(y/x) è la varianza delle medie del carattere quantitativo condizionata alle modalità di quello qualitativo.
28
Le analisi sui profili di colonna
23/23
Variabili miste
Il rapporto di correlazione η2y/x esprime la quota della varianza complessiva
di una variabile quantitativa spiegata dalle medie condizionate alle modalità di
una variabile qualitativa.
Quando tali medie sono uguali tra loro vuol dire
che la variabile y non dipende, in media, dalle
modalità della variabile x e l’indice vale zero;
Quando tali medie sono invece diverse tra loro,
vuol dire che esiste una relazione tra le modalità
delle due variabili, che ha intensità massima
quando tutta la varianza di y è spiegata dalla
variabilità tra le medie condizionate, l’indice in
questo caso vale uno.
36
Le analisi sui profili di riga
1/9
Le analisi sui profili di riga hanno l’obiettivo di misurare in modo sintetico la
distanza o la similarità tra coppie di unità del collettivo statistico, che sono
appunto collocate nelle righe della matrice dei dati.
La distanza non è intesa in senso spaziale, bensì come differenza, tra le due
unità, relativamente ai valori assunti dalle variabili contenute nella matrice dei
dati. La distanza tra due unità tiene quindi conto di quanto esse sono diverse in
relazione alle caratteristiche rilevate.
Ad esempio, ipotizziamo di aver condotto una indagine volta a misurare il livello
di soddisfazione da parte dei clienti di una compagnia aerea in relazione a
diverse caratteristiche (qualità dei servizi di terra, puntualità dei voli, cortesia
del personale di volo, qualità del servizio di ristorazione). Misurare la distanza
tra due clienti significa pervenire a una misura sintetica di quanto essi
sono tra loro diversi in relazione alle caratteristiche rilevate.
37
Le analisi sui profili di riga
2/9
Indicando con dir la distanza tra l’unità i-esima e l’unità r-esima, la misura di distanza
individuata dovrebbe godere delle seguenti proprietà:
 Non negatività: (dir≥0)
 Valori sulla diagonale pari a zero (dii=0)
 Simmetria (dir=dri)
SPAZIO
METRICO
 Diseguaglianza triangolare: dir≤dis+dsr
38
Le analisi sui profili di riga
3/9
A partire dalla matrice dei dati X, una volta calcolate tutte le
distanze tra le n unità statistiche si ottiene una matrice delle
distanze D (nxn)
D
d11
d12
... d1i
... d1r
... d1n
d 21
...
d i1
...
d 22
... d 2i
... d 2 r
... d 2 n
di 2
... d ii
... d ir
... d in
d r1
...
d r 2 ... d ri
... d rr
... d rn
d n1
d n 2 ... d ni
... d nr
... d nn
39
Le analisi sui profili di riga
4/9
Variabili quantitative
La più elementare misura di distanza per variabili quantitative è
la distanza euclidea, definita come la radice quadrata della
somma delle differenze al quadrato tra le modalità delle due
unità in esame relative a tutti i caratteri presenti nella matrice dei
dati.
1/ 2
p
d ir
xik
xrk
2
k 1
dove xik e xrk rappresentano le modalità assunte dalla variabile k nelle unità i e r
1/2
dir
xi
xr
xi
xr
xi
xr
40
Le analisi sui profili di riga
5/9
Variabili quantitative
I due principali problemi della distanza euclidea sono
i. Problema di scala – l’ipotesi che si adotta è che, ai fini del
calcolo della distanza tra le due unità, una differenza di
una unità espressa nell’unità di misura di un carattere
abbia la stessa importanza di una differenza di una unità
espressa nell’unità di misura di un altro carattere.
Una possibile soluzione consiste nella preventiva standardizzazione della
matrice dei dati depurando le variabili dall’effetto delle diverse unità di misura
adottate e poi calcolare la distanza euclidea tra i profili standardizzati.
41
Le analisi sui profili di riga
6/9
Variabili quantitative
La forma più comune di standardizzazione è quella che consiste nel sottrarre a
ciascun elemento della matrice dei dati la media di colonna e dividere per la relativa
deviazione standard, come specificato nella seguente espressione:
zik
xik
xk
k
La matrice dei dati standardizzati è di conseguenza adimensionale con tutti i vettori
colonna che presentano media pari a zero e varianza unitaria.
42
Le analisi sui profili di riga
Limiti della
distanza Euclidea
7/9
Variabili quantitative
ii. Correlazione tra le variabili – la distanza euclidea non
tiene conto della possibile correlazione tra le variabili
presenti nella matrice dei dati, nel senso che tiene conto
più volte delle differenze relative a variabili, almeno in parte
espressione dello stesso fenomeno (dello stesso fattore).
Una possibile soluzione a questo fenomeno consiste
nel calcolare la distanza euclidea ponderata.
43
Le analisi sui profili di riga
8/9
Variabili quantitative
Distanza euclidea ponderata
1/ 2
p
d ir
( xik
xrk ) 2 wk
k 1
1/2
dir
xi
x r W (xi
xr )
dove:
wk è il coefficiente di ponderazione della k-esima variabile. W è una matrice
diagonale (di dimensione p x p) contenente i coefficienti di ponderazione delle p
variabili.
44
Le analisi sui profili di riga
9/9
Variabili quantitative
Distanza di Mahalanobis
E’ un caso particolare di distanza euclidea ponderata utilizzando come matrice
di ponderazione W, l’inversa della matrice delle covarianze (che è una matrice
simmetrica piena).
1/ 2
d ir
xi
1
x r S (x i
xr )
La distanza di Mahalanobis costituisce una misura della distanza calcolata al
netto della correlazione esistente tra le variabili.
Allo stesso tempo, elimina anche l’effetto derivante dalle diverse scale di
misura adottate per le variabili e può essere quindi calcolata direttamente sulle
variabili rilevate.
45