http://www.mauroennas.eu
Elementi di linear discriminant analysis
per la classificazione e il posizionamento
nelle ricerche di marketing
Mauro Ennas
Linear Discriminant Analysis – http://www.mauroennas.eu
Allegati
Simulazioni SPSS
1 ADL_finale_confronto_Excel.sav
OUTPUT_ADL_finale_3gruppi_finale.spv
Fogli di calcolo Excel
1 002a_PW_PARMA_ENNAS_ADL_finale_due_gruppi_EXCEL_like.xls
002b_PW_PARMA_ENNAS_ADL_finale_due_gruppi_SPSS_like.xls
002c_PW_PARMA_ENNAS_ADL_finale_tre_gruppi_SPSS_like.xls
002d_PW_PARMA_ENNAS_ANOVA_dati_adl.xls
© 2010
Mauro Ennas – Elementi di linear discriminant analysis per la classificazione ed il posizionamento nelle ricerche di marketing.
2
Linear Discriminant Analysis – http://www.mauroennas.eu
Indice degli argomenti
Indice delle figure............................................................................................................................................. 3
Indice delle tabelle ........................................................................................................................................... 4
Indice syntax e script....................................................................................................................................... 4
Analisi discriminante lineare........................................................................................................................... 7
Separazione tra gruppi................................................................................................................................... 8
Esempio numerico: calcolo della percentuale di varianza spiegata......................................................... 10
Errore di classificazione ............................................................................................................................... 11
Esempio numerico: calcolo delle matrici di covarianza............................................................................ 13
Esempio con Excel: calcolo delle funzioni discriminanti .......................................................................... 15
Esempio con R: predizione dell’appartenenza ad un gruppo................................................................... 20
Analisi discriminante lineare con SPSS ....................................................................................................... 22
Limiti dell’analisi discriminante lineare ......................................................................................................... 29
Glossario......................................................................................................................................................... 32
Bibliografia ..................................................................................................................................................... 37
Indice dei nomi ............................................................................................................................................... 40
Indice delle figure
Figura 7 – Le variabili indipendenti Xc=(X1,X2) rappresentano le caratteristiche X1c e X2c per ognuno degli
n=25 eventi osservati e classificati; Z=(Z1,Z2) sono le variabili standardizzate corrispondenti e F=(f1,f2) i
valori delle due funzioni discriminanti lineari ricavare tramite il metodo bayesiano della minimizzazione
della probabilità di errore (Tabella Excel nel caso di due gruppi). ........................................................... 15
Figura 8 – Matrici di covarianza nel caso con due gruppi: la matrice della covarianza nei gruppi (pooled within
group, PWG) è stata ricavata come combinazione lineare dei coefficienti delle matrici W1 e W2 con pesi
le probabilità a priori (frequenze relative) di appartenere al gruppo........................................................ 16
Figura 9 – I punti nel piano X1X2 rappresentano le osservazioni xio con i=1…n nel caso con due gruppi; il
punto in evidenza è il nuovo punto classificato nel gruppo 1 mediante ADL. .......................................... 16
Figura 10 – Nel piano delle funzioni discriminanti lineari f1f2 i punti trasformati a partire dalle variabili
standardizzate (Z1, Z2) delle variabili indipendenti (X1,X2) nel caso di due gruppi si dispongono su una
retta: il caso in esame equivale al caso, monodimensionale, di appartenenza o meno al gruppo, ruotando
la retta si può rappresentare su un solo asse senza perdita d’informazione. .......................................... 16
Figura 11 – Le funzioni discriminanti lineari F=(f1,f2, f3) nel caso di tre gruppi (Tabella Excel, K=3)................. 17
Figura 13 - Rappresentazione degli oggetti standardizzati Z1, Z2 nei piano trasformato delle prime due
funzioni canoniche f1f2 (nel caso con tre gruppi): si evidenzia una consistenza della rappresentazione
in tre gruppi distinguibili; sono assenti punti isolati rilevanti che avrebbero potuto introdurre errori di
classificazione. ........................................................................................................................................ 18
Figura 14 – Rappresentazione degli oggetti standardizzati Z1Z2 nei piano trasformato delle funzioni
discriminanti lineari: f2f3 (nel caso con tre gruppi).............................................................................. 19
Figura 15 – Rappresentazione degli oggetti standardizzati Z1Z2 nei piano trasformato delle funzioni
discriminanti lineari: f1f3 (nel caso con tre gruppi).............................................................................. 19
Figura 16 - Diagrammi delle funzioni discriminanti nel caso di 3 gruppi (calcolati con R). ............................... 21
Figura 17 - Mappa del territorio. ....................................................................................................................... 27
Figura 18 - Rappresentazione dei tre gruppi (SPSS). ...................................................................................... 28
Mauro Ennas – Elementi di linear discriminant analysis per la classificazione ed il posizionamento nelle ricerche di marketing.
3
Linear Discriminant Analysis – http://www.mauroennas.eu
Indice delle tabelle
Tabella 20- Statistiche di gruppo...................................................................................................................... 23
Tabella 21 - Test di uguaglianza delle medie di gruppo. .................................................................................. 23
Tabella 22 - Test di Box. .................................................................................................................................. 23
Tabella 23 - Autovalori. .................................................................................................................................... 23
Tabella 24 - Lambda di Wilks. .......................................................................................................................... 24
Tabella 25 - Matrice di struttura........................................................................................................................ 24
Tabella 26 - Coefficienti standardizzati delle funzioni discriminanti canoniche................................................. 24
Tabella 27 - Matrice di covarianza inter-gruppo. .............................................................................................. 25
Tabella 28 - Matrici di covarianza..................................................................................................................... 25
Tabella 29 - Coefficienti delle funzioni discriminanti canoniche........................................................................ 25
Tabella 30 - Probabilità a priori. ....................................................................................................................... 26
Tabella 31 - Coefficienti della funzione di classificazione................................................................................. 26
Tabella 32 - Gradi di libertà. ............................................................................................................................. 26
Tabella 33 - F ratio. .......................................................................................................................................... 26
Tabella 34 - Devianze calcolate (ANOVA). ...................................................................................................... 26
Tabella 35 - Risultati della classificazione. ....................................................................................................... 28
Indice syntax e script
Syntax 3 - SPSS Analisi Discriminante Lineare................................................................................................ 22
Script 1 - Script R per l'analisi ADL e la classificazione predittiva di un nuovo elemento [28]. ......................... 20
Mauro Ennas – Elementi di linear discriminant analysis per la classificazione ed il posizionamento nelle ricerche di marketing.
4
Linear Discriminant Analysis – http://www.mauroennas.eu
Mauro Ennas – Elementi di linear discriminant analysis per la classificazione ed il posizionamento nelle ricerche di marketing.
5
Linear Discriminant Analysis – http://www.mauroennas.eu
Mauro Ennas – Elementi di linear discriminant analysis per la classificazione ed il posizionamento nelle ricerche di marketing.
6
Linear Discriminant Analysis – http://www.mauroennas.eu
Analisi discriminante lineare
L'obiettivo dell'analisi discriminante è quello di classificare oggetti informativi, ossia profili di persone, di clienti,
di prodotti e quant'altro sia descrivibile tramite una serie di valori assegnati agli attributi dell'oggetto in esame.
La classificazione differenzierà gli oggetti analizzati in più gruppi rispetto ai loro attributi, che potranno essere
demografici, economici, pesi e punteggi di svariata natura (qualitativa e/o quantitativa). I gruppi nei quali
saranno classificati gli oggetti sono noti a priori e non sono ordinati.
Il processo di classificazione si propone di costruire aggregati omogenei a partire da una molteplicità di oggetti
con un numero limitato di attributi "significativi in qualche senso". Un prerequisito dell'analisi discriminante è la
selezione degli attributi (caratteristiche significative degli oggetti); tale tematica non sarà discussa nel presente
capitolo e rientra nelle metodiche dell'analisi fattoriale. Nel seguito verrà discusso come individuare criteri
(regole) e semplici modelli che ci permettano di comprendere come separare al meglio i gruppi di oggetti
analizzati. I modelli o criteri introdotti nel seguito saranno di due tipi:
•
·
•
massimizzazione delle omogeneità all'interno di ogni gruppo (intra-gruppo) e massimizzazione delle
differenze tra i gruppi (inter-gruppo) in modo da separare quanto più possibile le classi di oggetti
sottoposti all'analisi (analisi canonica);
minimizzazione dell'errore totale di classificazione (TEC, Total Error of Classification) per rendere il
numero di oggetti classificati in modo errato quanto più piccolo possibile.
Ciò che si vuole determinare è una funzione lineare1
y = a1 ⋅ xi1 + a2 ⋅ xi 2 + ... + aq ⋅ xiq = aT ⋅ xi ,
indicando con aT = [a1, a2, ...aq] un vettore di coefficienti da determinare per
discriminare gli oggetti informativi rappresentati dai profili x o =[xi1,xi2,...xiq] delle caratteristiche significative
x c =[x1j,x2j,...xnj] degli oggetti in esame, con q caratteristiche, j ∈ [1, q ] e i ∈ [1, n] dove n è il numero totale
di oggetti osservati.
1
Tale funzione è determinata a meno di una costante, oppure considerando un termine aggiuntivo
a 0 xi 0 , per x i 0 = 1 .
Mauro Ennas – Elementi di linear discriminant analysis per la classificazione ed il posizionamento nelle ricerche di marketing.
7
Linear Discriminant Analysis – http://www.mauroennas.eu
x1o
x 2o
...
xio
...
x no
x1c
x 2c
...
x cj
x11
x 21
...
xi 2
...
x n1
x12
x 22
...
...
...
...
... x1 j
... x 2 j
... ...
... xij
... ...
... x nj
...
x qc
... x1q
... x 2 q
... ...
... xiq
... ....
... x nq
r
I coefficienti del vettore a caratterizzeranno linearmente il comportamento della funzione discriminante yi
dipendente dai profili xi attraverso la relazione
r
r
y = Xˆ ⋅ a
(2.1)
Tale funzione discriminante lineare dovrà essere conforme con uno dei criteri indicati. In particolare, con
l'approccio finalizzato alla minimizzazione dell'errore totale di classificazione si farà riferimento alle probabilità
condizionate di appartenenza ad un gruppo, mentre con l'approccio di massimizzazione della varianza totale
tra gruppi e minimizzazione della varianza totale nei gruppi, si farà riferimento all'analisi canonica ed in
particolare a criteri di ottimizzazione di una funzione, indicatore dell'efficienza della separazione tra gruppi.
Separazione tra gruppi
Sia X̂ una matrice di K blocchi, formata da q variabili quantitative provenienti da n osservazioni distinte in K
gruppi di nk profili ciascuno, k ∈ [1, K ] :
 X1 


 ... 
X =  Xk ,


 ... 
X 
 K
con K blocchi Xk di dimensione nk x q. Ciò equivale a dire che gli elementi xij di ogni blocco Xk sono vettori di
dimensione q e numerosità nk pari al numero di profili degli oggetti informativi che appartengono al gruppo kesimo, con k ∈ [1, K ] e tali che la somma degli elementi di ciascun gruppo sia pari alla totalità degli osservati
K
∑n
k
=n
(2.2)
k =1
ossia, indicando con n numero totale di osservazioni (che sono i profili informativi degli oggetti
in esame). Con riferimento all'equazione (2.1) distinguiamo le combinazioni lineari rispetto al gruppo di
appartenenza, indicando con yik la combinazione lineare i-esima del gruppo k-esimo con i ∈ [1, nk ] e
k ∈ [1, K ] . Indicheremo con yk e y rispettivamente la media del gruppo k-esimo e la media complessiva
della variabile dipendente y. Scriveremo:
nk
∑y
yk =
ik
i =1
(2.3)
nk
K
∑n
y =
k
⋅ yk
k =1
n
Mauro Ennas – Elementi di linear discriminant analysis per la classificazione ed il posizionamento nelle ricerche di marketing.
(2.4)
8
Linear Discriminant Analysis – http://www.mauroennas.eu
Utilizzando il criterio della massima separazione tra i gruppi, l'obiettivo dell'analisi discriminante è quello di
r
determinare le componenti del vettore a che ha massima capacità discriminante tra i gruppi. A questo scopo
ricordiamo che dalla teoria dell'analisi della varianza, la scomposizione della devianza (ossia degli scarti
quadratici di una variabile) può sintetizzarsi come segue:
devianza totale = devianza entro i gruppi + devianza fra i gruppi
n
nk
K
K
D y = ∑ ( y − y ) = ∑∑ ( y hk − y k ) 2 + ∑ nk ⋅ ( y k − y ) 2
2
i =1
k =1 h =1
(2.5)
k =1
Ciò significa che la devianza totale della variabile y è composta da due componenti, la prima delle quali
rappresenta la devianza all'interno dello stesso gruppo (Within, Wy), la seconda la devianza tra gruppi
(Between, By). Scopo dell'analisi discriminante è massimizzare la varianza tra gruppi ( Ŝ Bx ), (e quindi la
devianza) e minimizzare la varianza all'interno dello stesso gruppo ( ŜWx ). Definiamo η y il rapporto della
varianza tra gruppi con la varianza nei gruppi:
K
∑n
Sˆ B y =
k
⋅ ( yk − y) 2
(2.6)
k =1
K −1
K
nk
∑∑ ( y
SˆW y =
hk
− yk ) 2
(2.7)
k =1 h =1
n−K


nk ⋅ ( y k − y ) 2
ˆ
S By  ∑
η y = ) =  kK=1 nk
SW y
 ∑∑ ( y hk − y k ) 2
 k =1 h =1
K


⋅ n − K 
  K − 1 


(2.8)
che può anche essere scritta in termini delle devianze B y e W y
Sˆ B y  B y   n − K 
⋅
η y = ) = 
(2.9)

SW y  W y   K − 1 
Massimizzare la separazione tra gruppi significa massimizzare η y . Passando dal caso univariato a quello
multivariato, la variabile dipendente y sarà legata da una relazione lineare con le variabili indipendenti x e la
devianza totale ( D̂ x , devianze e codevianze totali) e le sue parti ( Ŵ x , devianze e codevianze dei gruppi; B̂ x ,
devianze e codevianze tra i gruppi) diventeranno trasformazioni lineari rappresentate da matrici simmetriche
q×q.
n
K
nk
K
Dˆ x = ∑ ( xi − x )( xi − x ) T = ∑∑ ( x hk − x k )( x hk − x k ) T + ∑ nk ⋅ ( x k − x )( x k − x ) T
i =1
k =1 h =1
k =1
Nel caso in cui la matrice X̂ sia composta da variabili standardizzate di media nulla e varianza unitaria, si
K
dimostra che D̂ x = Xˆ T Xˆ e Bˆ x = ∑k =1 nk ⋅ xkT xk , con xk un vettore di q elementi, contenente le medie di
gruppo delle q variabili presenti nella matrice dei dati. La scomposizione nel caso multivariato è esprimibile in
forma matriciale come:
Dˆ x = Wˆ x + Bˆ x
(2.10)
e in temini di varianza, analogamente
Sˆ x = SˆWx + Sˆ Bx
(2.11)
Mauro Ennas – Elementi di linear discriminant analysis per la classificazione ed il posizionamento nelle ricerche di marketing.
9
Linear Discriminant Analysis – http://www.mauroennas.eu
Posto che yi = aT X si ricava che D̂ y = aT D̂ x a, Ŵ y = aT Ŵ x a e B̂ y = aT B̂ x a. Nel caso multivariato, separare
r
i gruppi significa trovare a = [a1, a2, ...aq] che massimizza l'espressione:
T
a T Bˆ x a n − K a Sˆ Bx a
ˆ
(2.12)
⋅
=
E x (a) = T
a Wˆ a K − 1 a T Sˆ a
x
Bx
con Ŝ Bx e ŜWx , rispettivamente, matrici di covarianza tra e all'interno dei gruppi. La massimizzazione
dell'equazione (2.12) deve avvenire sotto la condizione aTa = 1, senza la quale la soluzione perde la
r
caratteristica di unicità, scalando il vettore senza modificare il rapporto. Differenziando (2.12) rispetto ad a ,
r r
ossia calcolando ∂E x (a ) ∂a = 0 otteniamo:
(2.13)
Sˆ ⋅ a − λ ⋅ Sˆ ⋅ a = 0
Bx
Wx
con λ = (a Sˆ Bx a) (a SˆWx a) .
T
T
r
r
r
r
L'equazione (2.13) può vedersi come la ricerca del massimo di f( a )= Ŝ Bx a vincolato a g( a )= ŜWx a = 0 e
può scriversi come
r r
−1
( SˆWx Sˆ Bx − λ ⋅ Iˆ) ⋅ a = 0
(2.14)
r
−1
ciò significa che λ è autovalore di SˆWx Ŝ Bx e a l'autovettore corrispondente nel caso in cui ŜWx ammetta
r
inversa. Le componenti del vettore a sono i coefficienti della prima funzione discriminante lineare (di Fisher),
r
detta anche prima variabile canonica. Con i q profili degli oggetti osservati e le q componenti del vettore a è
possibile calcolare la prima funzione discriminante. Le variabili canoniche sono pari al numero di autovalori
−1
non nulli della matrice SˆWx Ŝ Bx ed è pari al min(q, K - 1); una volta che gli autovalori sono stati ordinati in
modulo, la seconda variabile canonica è quella che si ricava in corrispondenza del secondo autovalore e del
corrispondente autovettore, e così via sino all'ultimo. Il contributo delle variabili canoniche alla discriminazione
finale è via via decrescente col modulo dell'autovalore corrispondente.
Esempio numerico: calcolo della percentuale di varianza spiegata
Supponiamo di avere le matrici ŜWx e Ŝ Bx , siano:
 0.3427 − 0.0964 

SˆWz = 
 − 0.0964 0.1628 
 0.6420 − 0.2221

Sˆ Bz = 
 − 0.2221 0.8197 
 3.38028 2.0041 
−1

SˆWz
= 
2
.
0041
7
.
3314


 3.38028 2.0041  0.6420 − 0.2221  1.7267 0.8916   a b 
−1 ˆ

 = 
 = 

Γˆ = SˆWz
S Bz = 
 2.0041 7.3314  − 0.2221 0.8197   − 0.3415 5.5648   c d 
Il determinante di Γ̂ vale det( Γ̂ )= ad - bc = 1.7267 5.5648 + 0.8916 (-0.3415) = 9.9132, mentre la traccia
(somma degli elementi della diagonale) è pari a: traccia( Γ̂ ) = a+d = 1.7267+5.5648 = 7.2915.
Gli autovalori della matrice Γ̂ si calcolano a partire dal determinante della matrice indicata nell’equazione
(2.14) cui corrispondono le radici del polinomio di secondo grado
p (λ ) = (a − λ )(d − λ ) − b ⋅ c = λ2 − (a + d ) ⋅ λ + (a ⋅ d − b ⋅ c) = λ2 − traccia (Γˆ ) ⋅ λ + det(Γˆ ) = 0
ossia
Mauro Ennas – Elementi di linear discriminant analysis per la classificazione ed il posizionamento nelle ricerche di marketing.
10
Linear Discriminant Analysis – http://www.mauroennas.eu
λ1, 2
2
− b ± b 2 − 4 ⋅ a ⋅ c traccia (Γˆ ) ± traccia (Γˆ ) − 4 ⋅ det(Γˆ )
=
=
.
2a
2
Gli autovalori corrispondenti alle soluzioni saranno λ1 = 5.4838 e λ 2 = 1.8077 . Si noti che
∑ λi = λ1 + λ2 = traccia(Γˆ ) ed inoltre ∏ λi = λ1 ⋅ λ2 = det(Γˆ ) . La varianza spiegata da ciascuno degli
i
i
autovalori è espressa come:
δi =
λi
, ∀i ∈ [1,2]
traccia(Γˆ )
per cui avremo che δ 1 = 0.7521 e δ 2 = 0.2479 che corrisponde rispettivamente a circa il 75% di varianza
spiegata dal primo autovalore e circa il 25% dal secondo. Analogamente può calcolarsi il Λ di Wilks
complessivo
1
1
1



Λ Wilks = ∏
=

 = 0.0549 .
 1 + 5.4838  1 + 1.8077 
i 1 + λi
Il valore del Λ di Wilks è il prodotto delle varianze non spiegate delle variabili indipendenti, rappresenta
quantitativamente il rapporto tra la varianza errore e la varianza totale e per l’esempio in esame è trascurabile.
Errore di classificazione
Utilizzando il criterio di minimizzazione dell'errore totale di classificazione (TEC), si cercherà di determinare la
probabilità di errore nella classificazione di un oggetto. Il criterio di classificazione che verrà utilizzato sarà
quello di assegnare l'oggetto al gruppo con maggiore probabilità [5][18] condizionata di appartenere al gruppo.
In pratica, se avessimo k gruppi, la condizione di Bayes affinché l'oggetto x appartenga al gruppo i, con i ≠ j,
sarebbe espressa attraverso la disuguaglianza P(i | x) > P(j | x). Ciò che si vuole ottenere è la probabilità
condizionata P(i | x) che un oggetto x appartenga al gruppo i. La probabilità che si vuole determinare discende
dalla "conoscenza" dell'oggetto indagato e da una serie di osservazioni che guidano la discriminazione tra ciò
che riteniamo appartenente ad un gruppo piuttosto che non appartenervi affatto. Il criterio che utilizzeremo per
esemplificare questo comportamento sarà quello di considerare un nuovo oggetto da classificare una volta
individuata una serie di oggetti classificati secondo il nostro criterio o metodo di appartenenza ai gruppi
predeterminati. Per semplicità è utile una descrizione tramite due attributi X1 e X2 di oggetti x1 e x2, e si
considererà un unico gruppo, o meglio l'appartenenza o meno a questo gruppo. Il Teorema di Bayes è d’aiuto
in questo, infatti la relazione che lega due probabilità condizionate è la seguente:
P( x | i ) ⋅ P(i )
P(i | x) =
(2.15)
∑ P( x | j ) ⋅ P( j )
j
La probabilità P(i) è la probabilità a priori di appartenere al gruppo i, ∀ i ≠ j, nota a priori rispetto alla misura
dovuta all'applicazione del metodo di discriminazione. Si assume che la probabilità a priori sia uguale per ogni
elemento di un insieme di campioni in ciascuno dei gruppi. L'applicazione del Teorema di Bayes risulta poco
pratico nel caso multivariato perché necessità di un grande numero di campioni noti dai quali estrarre le
frequenze relative di appartenenza ai gruppi. Per semplificare l'approccio si stabilisce che la probabilità di
appartenenza ai gruppi sia quella teorica di una Distribuzione Normale Multivariata (DNM), ossia:
1
− ⋅( x − µ )T Cˆ −1 ( x − µi )
1
(2.16)
P( x | i) =
⋅e 2 i
K
ˆ
(2 ⋅ π ) ⋅ Ci
Mauro Ennas – Elementi di linear discriminant analysis per la classificazione ed il posizionamento nelle ricerche di marketing.
11
Linear Discriminant Analysis – http://www.mauroennas.eu
Nella quale µi è il vettore delle medie e Ci è la matrice di covarianza del gruppo i e |Ci| il suo determinante, K è
il numero di gruppi utilizzati nella classificazione. Applicando il Teorema di Bayes avremo che l'oggetto x
apparterrà al gruppo i se:
P ( x | i ) ⋅ P (i ) > P ( x | j ) ⋅ P ( j ) ,
(2.17)
ossia quando è verificata la seguente disuguaglianza, ottenuta sostituendo la funzione di distribuzione della
probabilità a priori:
1
1
− ⋅ ( x − µ i ) T Cˆ i −1 ( x − µ i )
− ⋅ ( x − µ j ) T Cˆ j −1 ( x − µ j )
1
1
⋅e 2
>
⋅e 2
(2 ⋅ π )K ⋅ Cˆ
(2 ⋅ π )K ⋅ Cˆ
i
j
che equivale a scrivere
1
Cˆ i
⋅e
1
− ⋅( x − µ i )T Cˆ i −1 ( x − µ i )
2
>
1
Cˆ j
⋅e
1
− ⋅( x − µ j )T Cˆ j −1 ( x − µ j )
2
a partire dalla quale, applicando il logaritmo naturale ad ambo i membri e moltiplicando per -2, otteniamo la
seguente disuguaglianza
1
1
−1
−1
− 2 ⋅ ln P (i ) + ln Ci − ⋅ ( x − µi )T Cˆ i ( x − µi ) > −2 ⋅ ln P ( j ) + ln C j − ⋅ ( x − µ j )T Cˆ j ( x − µ j )
2
2
Quest'ultima espressione può essere riscritta nel modo seguente
d i ( x) − 2 ⋅ ln Ci < d j ( x) − 2 ⋅ ln C j
(2.18)
che rappresenta una funzione discriminante quadratica. Indicando con
−1
d i ( x) = ln Ci + ⋅( x − µi )T Cˆ i ( x − µi )
(2.19)
e, considerando le matrici di covarianza uguali per i due oggetti i e j, si semplifica ulteriormente la relazione
che, posto C = Ci = Cj, assumerà la forma
−1
−1
−1
−1
T
− 2 ⋅ ln P (i ) − 2 ⋅ µiCˆ i xT + µiCˆ i µ T < −2 ⋅ ln P ( j ) − 2 ⋅ µ j Cˆ j xT + µ j Cˆ j µ j ,
avendo posto
−1
−1
−1
−1 T
( x − µi )T Cˆ i ( x − µi ) = xCˆ i xT − 2 ⋅ µi Cˆ i xT + µiCˆ i µi ,
e sottolineando che
−1
T
(2.20)
d M = µ i Cˆ i µ i
rappresenta la cosiddetta distanza di Mahalanobis. Infine, moltiplicando ambo i membri della (2.20) per − 1 2 ,
otteniamo l'espressione
1
1
−1
−1
−1
−1
T
ln P (i ) + µ i Cˆ i x T − µ i Cˆ i µ T > ln P ( j ) + µ j Cˆ j x T − µ j Cˆ j µ j .
2
2
Ponendo
1
−1
−1
f i = ln P (i ) + µ i Cˆ i x T − µ i Cˆ i µ T
(2.21)
2
abbiamo trovato la nostra funzione discriminante lineare. In base a tale risultato si assegna l'oggetto x al
gruppo i se fi > fj, ∀i ≠ j . Per l'analisi discriminante lineare, mediante minimizzazione dell'errore di
classificazione, si è assunto che la funzione di distribuzione delle variabili in gioco sia una Distribuzione
Normale Multivariata e che le variabili abbiano la stessa matrice di covarianza. Nel caso in cui i gruppi fossero
tre sarebbe necessario che f1 > f2 e f1 > f3 per appartenere al gruppo 1, f2 > f1 e f2 > f3 per appartenere al
gruppo 2 ed infine f3 > f1 e f3 > f2 per appartenere al gruppo 3.
Mauro Ennas – Elementi di linear discriminant analysis per la classificazione ed il posizionamento nelle ricerche di marketing.
12
Linear Discriminant Analysis – http://www.mauroennas.eu
Esempio numerico: calcolo delle matrici di covarianza
Si considerino due caratteristiche misurabili automaticamente di un prodotto industriale2 di nuova produzione e
si indichi il risultato di un test di controllo della qualità in una lista contenente le serie di campioni analizzati
nella fase di test dell'impianto di produzione. All'arrivo di un nuovo campione vogliamo verificare se è conforme
alle caratteristiche degli altri campioni che hanno superato il test. Si indica il risultato del test in termini di non
superato (1) e superato (2). A questo scopo si costruisce la matrice dei dati, che nel caso specifico sarà
costituita da una matrice X̂ formata da due blocchi X̂ = [X1, X2], il primo (X1) di sette elementi (n1 = 7) e il
secondo (X2) di tredici elementi (n2 = 13), per un totale di
2
n = ∑k =1 nk = n1 + n2 = 20
r
elementi osservati; si indichi con y la collezione dei risultati del test. I blocchi corrispondono al numero di
gruppi di discriminazione che nel caso in esame è due (K = 2):
Le due colonne della matrice X̂ rappresentano i vettori delle caratteristiche x1c e x2c, mentre le venti righe
rappresentano i venti vettori bidimensionali delle osservazioni xio, che per i = 7 (che non ha superato il test, y7
= 1) vale x7o = [x7,1 x7,2] = [5,500 5,008] e analogamente per i = 20 (che ha superato il test, y20 = 2) vale x20o =
[x20,1 x20,2] = [3,103 4,204]. I due blocchi di misure relativi ai due gruppi di discriminazione X1 e X2.
Per il primo gruppo (associato alla matrice X1 di dimensione 2×7) calcoliamo la media colonna per colonna
∀i ∈ [1, n1 ] :
n1
 n1

 ∑ xi1 ∑ xi 2 
µ1 =  k =1 , k =1  = (6.177,4.645)
n
n1
 1



Analogamente per il secondo gruppo (associato alla matrice X2 di dimensione 2 × 13) si calcola la media
colonna per colonna ∀i ∈ [1, n2 ] :
2
E’ stato scelto un esempio nel caso industriale per enfatizzare le caratteristiche metriche dei dati di input. Nelle ricerche di
marketing verranno utilizzati dei punteggi (score) assegnati a risposte a questionari da parte dei clienti: tali scale sono per ipotesi
quantitative.
Mauro Ennas – Elementi di linear discriminant analysis per la classificazione ed il posizionamento nelle ricerche di marketing.
13
Linear Discriminant Analysis – http://www.mauroennas.eu
n2
 n2

 ∑ xi1 ∑ xi 2 
µ 2 =  k =1 , k =1  = (4.266,4.035)
n
n2
 2



r
r
r
r
La media totale µ sarà data da µ = (n1µ1 + n2 µ 2 ) / n = [4,935 4,249]. Per il calcolo delle matrici di
covarianza si considerano le variabili standardizzate Z1 e Z2 tali che Z = (X-µ)/σ: tali variabili assumeranno
media nulla e varianza unitaria.
Le matrici di covarianza nei due gruppi sono3 date da Wk = Z kT Z k nk e sono
La matrice di covarianza complessiva è data da
con w11 =
7
20
⋅1,330 + 13
20 ⋅ 0,744 = 0, 465 + 0,484 =
7
20
⋅1,863 + 13
20 ⋅ 0, 457 = 0,949 , si procede allo stesso
modo per calcolare w12 = w21 = 0, 115. L'inversa della matrice Ŵ con det( Ŵ ) ≠ 0 è
Il vettore delle probabilità a priori (basate sulle frequenze relative) per ogni gruppo i ∈ [1, K ] sono pari
rispettivamente a P1 =
n1
n
=
7
20
= 0,35 e P2 =
n2
n
=
13
20
= 0,65 :
A questo punto abbiamo tutti gli elementi per calcolare le funzioni discriminanti lineari ∀i ∈ [1,2]
1
−1
−1
f i = ln P (i ) + µ i Cˆ i x T − µ i Cˆ i µ T .
2
Tale calcolo porterà alla determinazione dei valori come mostrato in Figura 1, che ci permette di assegnare al
gruppo k-esimo con k ∈ [1,2] il profilo xi se fi > fj, ∀i ≠ j .
3
In pratica SPSS calcola la covarianza con la formula
~ ~
~
Wk = Z kT Z k (nk − 1) , dove Z k = ( Z k − Z k ) , con Z k la media
del groppo k, e non con la covarianza standardizzata (che richiederebbe un’ulteriore divisione per la deviazione standard).
Chiaramente valori differenti delle matrici di covarianza portano a risultati differenti della discriminazione lineare, come illustrato nel
file PW_PARMA_ENNAS_ADL_finale_due_gruppi_SPSS_like.xls, dove questo esempio numerico è stato ricalcolano utilizzando le
stesse definizioni degli algoritmi di SPSS.
Mauro Ennas – Elementi di linear discriminant analysis per la classificazione ed il posizionamento nelle ricerche di marketing.
14
Linear Discriminant Analysis – http://www.mauroennas.eu
Esempio con Excel: calcolo delle funzioni discriminanti
I calcoli eseguiti nel precedente paragrafo possono essere realizzati praticamente con un foglio di calcolo
come MS Excel. La Figura 1 esemplifica la tabella dei dati d'ingresso. Le matrici calcolate a partire dai dati
della tabella di input, sono indicate nella Figura 1. Disponendo i dati d'ingresso nel piano γ delle
caratteristiche X1c × X2c (2.3) e i punti rappresentativi dei profili degli oggetti (Figura 4) nel piano trasformato
delle funzioni discriminanti f1 × f2, notiamo che il nuovo punto Pnuovo = (5,500 4,680) viene classificato nel
gruppo 1 (test non superato) con f (Pnuovo )= (23,230 23,165). Nella Figura 2 abbiamo rappresentato il
risultato del calcolo delle matrici di covarianza usando Excel e le formule di calcolo utilizzate da SPSS. Le
matrici calcolate sono quelle delle covarianza nei gruppi 1 (W1) e 2 (W2), la covarianza totale (W) e la
covarianza tra i gruppi (pooled within group, PWD). Quest’ultima è data dalla somma pesata delle covarianza
nei gruppi, con pesi le probabilità di appartenenza ai gruppi (rappresentate dalle frequenze relative P1=n1/n e
P2=n2/n).
a priori
variabili
variabili standardizzate
funzioni discriminanti
a posteriori
gruppo
X1
X2
Z1
Z2
f1
f2
discrimina
1
6,907
4,004
1,652
-0,395
-0,278
-1,435
1
1
6,523
3,800
1,331
-0,724
-0,790
-1,160
1
1
5,300
5,700
0,306
2,343
-0,158
-1,500
1
1
6,898
3,700
1,645
-0,885
-0,556
-1,286
1
1
5,903
4,900
0,811
1,052
-0,348
-1,398
1
1
6,206
5,405
1,065
1,867
0,361
-1,779
1
1
5,500
5,008
0,474
1,226
-0,600
-1,262
1
2
5,305
4,104
0,310
-0,233
-1,570
-0,740
2
2
4,705
4,204
-0,192
-0,072
-1,998
-0,509
2
2
5,205
4,204
0,227
-0,072
-1,567
-0,741
2
2
3,904
4,004
-0,863
-0,395
-2,866
-0,042
2
2
5,405
3,704
0,394
-0,879
-1,839
-0,595
2
2
4,304
3,804
-0,528
-0,717
-2,699
-0,132
2
2
3,103
4,605
-1,534
0,575
-3,023
0,043
2
2
3,904
4,104
-0,863
-0,233
-2,777
-0,090
2
2
4,104
4,505
-0,696
0,414
-2,249
-0,374
2
2
4,304
3,103
-0,528
-1,849
-3,321
0,203
2
2
4,905
4,004
-0,025
-0,395
-2,003
-0,506
2
2
3,203
3,904
-1,450
-0,556
-3,559
0,331
2
2
3,103
4,204
-1,534
-0,072
-3,379
0,234
2
nuovo
5,500
4,680
0,474
0,696
-0,891
-1,106
1
media
4,935
4,249
0,000
0,000
-1,761
-0,637
varianza
1,425
0,384
1,000
1,000
1,497
0,434
Dev. std.
1,194
0,620
1,000
1,000
1,224
0,659
Figura 1 – Le variabili indipendenti Xc=(X1,X2) rappresentano le caratteristiche X1c e X2c per ognuno
degli n=25 eventi osservati e classificati; Z=(Z1,Z2) sono le variabili standardizzate corrispondenti e
F=(f1,f2) i valori delle due funzioni discriminanti lineari ricavare tramite il metodo bayesiano della
minimizzazione della probabilità di errore (Tabella Excel nel caso di due gruppi).
Mauro Ennas – Elementi di linear discriminant analysis per la classificazione ed il posizionamento nelle ricerche di marketing.
15
Linear Discriminant Analysis – http://www.mauroennas.eu
W1
PWD
1,331
0,153
0,153
1,864
0,950
0,115
0,115
0,950
W2
iPWD
0,745
0,095
0,095
0,458
1,068
-0,129
-0,129
1,068
(P1, P2)
nk
Frequenze
Media X1
Media X2
Gruppo 1
7,000
0,350
1,041
0,640
Mg1
Gruppo 2
13,000
0,650
-0,560
-0,345
Mg2
n
20,000
1,000
0,000
0,000
Figura 2 – Matrici di covarianza nel caso con due gruppi: la matrice della covarianza nei gruppi (pooled
within group, PWG) è stata ricavata come combinazione lineare dei coefficienti delle matrici W1 e W2
con pesi le probabilità a priori (frequenze relative) di appartenere al gruppo.
Figura 3 – I punti nel piano X1X2 rappresentano le osservazioni xio con i=1…n nel caso con due
gruppi; il punto in evidenza è il nuovo punto classificato nel gruppo 1 mediante ADL.
Figura 4 – Nel piano delle funzioni discriminanti lineari f1f2 i punti trasformati a partire dalle variabili
standardizzate (Z1, Z2) delle variabili indipendenti (X1,X2) nel caso di due gruppi si dispongono su una
retta: il caso in esame equivale al caso, monodimensionale, di appartenenza o meno al gruppo,
ruotando la retta si può rappresentare su un solo asse senza perdita d’informazione.
Mauro Ennas – Elementi di linear discriminant analysis per la classificazione ed il posizionamento nelle ricerche di marketing.
16
Linear Discriminant Analysis – http://www.mauroennas.eu
variabili
standardizzate
funzioni
discriminanti
a priori
variabili
gruppo
X1
X2
Z1
Z2
f1
1
6,91
4,00
1,48
0,27
-0,13
-2,17 -4,67
1
1
6,52
3,80
1,16
0,12
-0,77
-1,94 -4,37
1
1
5,30
5,70
0,11
1,49
0,13
-0,64 -9,01
1
1
6,90
3,70
1,48
0,05
-0,49
-2,23 -4,01
1
1
5,90
4,90
0,63
0,91
-0,15
-1,25 -7,02
1
1
6,21
5,41
0,89
1,27
0,75
-1,35 -8,02
1
1
5,50
5,01
0,28
0,99
-0,45
-0,94 -7,41
1
2
5,31
4,10
0,12
0,34
-1,70
-1,01 -5,49
2
2
4,71
4,20
-0,39
0,41
-2,22
-0,56 -5,93
2
2
5,21
4,20
0,03
0,41
-1,69
-0,92 -5,74
2
2
3,90
4,00
-1,08
0,27
-3,29
-0,04 -5,79
2
2
5,41
3,70
0,20
0,05
-2,06
-1,17 -4,57
2
2
4,30
3,80
-0,74
0,12
-3,10
-0,37 -5,20
2
2
3,10
4,61
-1,76
0,70
-3,44
0,67 -7,41
2
2
3,90
4,10
-1,08
0,34
-3,17
-0,02 -6,01
2
2
4,10
4,51
-0,91
0,63
-2,50
-0,07 -6,82
2
2
4,30
3,10
-0,74
-0,38
-3,91
-0,53 -3,65
2
2
4,91
4,00
-0,22
0,27
-2,24
-0,75 -5,41
2
2
3,20
3,90
-1,68
0,20
-4,14
0,44 -5,82
2
2
3,10
4,20
-1,76
0,41
-3,90
0,58 -6,52
2
3
6,50
1,81
1,14
-1,31
-3,09
-2,38 0,02
3
3
5,70
1,23
0,45
-1,72
-4,59
-1,94 0,99
3
3
6,00
0,40
0,71
-2,32
-5,24
-2,34 2,94
3
3
6,40
0,90
1,05
-1,96
-4,24
-2,51 1,98
3
3
5,90
1,50
0,62
-1,53
-4,07
-2,02 0,47
3
nuovo
5,50
4,68
0,28
0,75
-0,83
-1,02 -6,68
1
f2
a posteriori
f3
media
5,17
3,63
0,00
0,00
-2,39
-1,02 -4,50
varianza
1,37
1,93
1,00
1,00
2,83
0,96 10,44
dev. std.
1,17
1,39
1,00
1,00
1,68
0,98 3,23
discrimina
Figura 5 – Le funzioni discriminanti lineari F=(f1,f2, f3) nel caso di tre gruppi (Tabella Excel4, K=3).
4 L’esempio è quello calcolato nel foglio PW_PARMA_ENNAS_ADL_finale_tre_gruppi_SPSS_like.xls, parte integrante di questo
documento.
Mauro Ennas – Elementi di linear discriminant analysis per la classificazione ed il posizionamento nelle ricerche di marketing.
17
Linear Discriminant Analysis – http://www.mauroennas.eu
W1
W3
PWD
0,300
-0,272
-0,272
0,336
0,084
0,024
0,024
0,153
0,353
-0,096
-0,096
0,163
nk
Frequenze
W2
W
iPWD
0,484
-0,048
-0,048
0,073
1,000
-0,319
-0,319
1,000
3,383
2,004
2,004
7,331
(P1, P2)
Media X1
Media X2
Gruppo 1
7
0,280
0,861
0,728
Mg1
Gruppo 2
13
0,520
-0,770
0,289
Mg2
Gruppo 3
5
0,200
0,795
-1,772
Mg3
n
25
1,000
0,000
0,000
Figura 6 - Matrici della covarianza nei gruppi, covarianza totale e loro matrici inverse.
Figura 7 - Rappresentazione degli oggetti standardizzati Z1, Z2 nei piano trasformato delle prime due
funzioni canoniche f1
f2 (nel caso con tre gruppi): si evidenzia una consistenza della
rappresentazione in tre gruppi distinguibili; sono assenti punti isolati rilevanti che avrebbero potuto
introdurre errori di classificazione.
Mauro Ennas – Elementi di linear discriminant analysis per la classificazione ed il posizionamento nelle ricerche di marketing.
18
Linear Discriminant Analysis – http://www.mauroennas.eu
Figura 8 – Rappresentazione degli oggetti standardizzati Z1
Z2 nei piano trasformato delle funzioni
discriminanti lineari: f2
f3 (nel caso con tre gruppi).
La frontiera di decisione tra due distribuzioni gaussiane con identica matrice di covarianza è lineare.
Il metodo ADL (bayesiano) assume questa evidenza sottostante al modello e calcola la frontiera lineare come
se ciò fosse realmente vero, in realtà la frontiera segue le linee di densità delle distribuzioni gaussiane
adiacenti ma in prima approssimazione può essere pensata lineare. I limiti di questo approccio si evidenziano
quando sono presenti punti isolati rilevanti e tali da spostare le medie dei gruppi: in tal caso l’approccio ADL
presenta una percentuale di errori di discriminazione maggiore di quella di altri metodi non lineari come ad
esempio la regressione logistica. I modelli logistici seguono la funzione sigmoide, non una funzione lineare e
l’effetto dei punti isolati viene smorzato. La regressione logistica risulta più robusta dell’analisi discriminante
lineare. Le reti neurali e le tecniche SVM (Support Vector Machine) [15][20][1] sono metodi paralleli
generalizzati di regressione logistica.
Figura 9 – Rappresentazione degli oggetti standardizzati Z1
Z2 nei piano trasformato delle funzioni
discriminanti lineari: f1
f3 (nel caso con tre gruppi).
Mauro Ennas – Elementi di linear discriminant analysis per la classificazione ed il posizionamento nelle ricerche di marketing.
19
Linear Discriminant Analysis – http://www.mauroennas.eu
Esempio con R: predizione dell’appartenenza ad un gruppo
Nel seguito si considererà un esempio di applicazione delle librerie di discriminazione lineare utilizzate dal
software di statistica di pubblico dominio R. Non ci si soffermerà sui dettagli ma si valuterà la consistenza dei
risultati fin qui ottenuti, ripetendo il calcolo con le librerie statistiche del pacchetto MASS di R. ed in particolare
le funzioni lda (linear discriminant analysis) e la funzione predict. Il dataset utilizzato è lo stesso utilizzato nel
calcolo con Excel. Si sono utilizzate le variabili standardizzate Z1 e Z2 e il vettore delle variabili dipendenti Y.
Nella predizione viene introdotto il valore Y(26)=3 errato perché la funzione lda non ammette l’assenza del
dato. Il modello predice correttamente il valore del nuovo punto assegnandolo al gruppo 1 cosi come avevamo
ottenuto con Excel. L’algoritmo è quello bayesiano, la discriminazione è dello stesso tipo di quella analizzata
nelle pagine precedenti. Per maggiori dettagli sul formato degli input delle funzioni si rimanda a [7].
--Z1<-c(1.483972592,1.156354689,0.112925796,1.476294047,0.627388284,0.885899285,0.28356012,0.117191654,0.394711319,0.031874492,-1.078101788,0.202508816,-0.736833139,-1.761492257,-1.078101788,-0.907467464,-0.736833139,0.224076995,-1.676175095,-1.761492257,1.136731742,0.454194445,0.710145931,1.05141458,0.624828769,0.284)
Z2<c(0.267119414,0.120445317,1.486527593,0.04854625,0.911335056,1.274425345,0.988986048,0.339018481,0.410917549,0.4109
17549,0.267119414,0.051422213,0.12332128,0.699232808,0.339018481,0.627333741,0.380691181,0.267119414,0.195220347,0.410917549,-1.3117841,-1.724484745,-2.324122965,-1.96462763,-1.533233227,0.753)
Y<-c(1,1,1,1,1,1,1,2,2,2,2,2,2,2,2,2,2,2,2,2,3,3,3,3,3,3)
data <- data.frame(Z1,Z2,Y)
names(data)<-c("Z1", "Z2","Y")
library(MASS)
g<-lda(Y ~ Z1 + Z2, data = data, CV=TRUE)
results<-data.frame(Y, Z1, Z2, g$class, g$posterior)
names(results)=c("Y","Z1","Z2","G","f1","f2","f3")
results[1:length(Z1),]
plot(results)
g1<-lda(Y ~ Z1 + Z2, data = data)
v2<-predict(g1,data)
v3<-data.frame(v2)
plot(v3)
---
Script 1 - Script R per l'analisi ADL e la classificazione predittiva di un nuovo elemento [16].
Mauro Ennas – Elementi di linear discriminant analysis per la classificazione ed il posizionamento nelle ricerche di marketing.
20
Linear Discriminant Analysis – http://www.mauroennas.eu
Tabella 2 - Risultati dell'analisi predittiva.
Figura 10 - Diagrammi delle funzioni discriminanti nel caso di 3 gruppi (calcolati con R).
Mauro Ennas – Elementi di linear discriminant analysis per la classificazione ed il posizionamento nelle ricerche di marketing.
21
Linear Discriminant Analysis – http://www.mauroennas.eu
Analisi discriminante lineare con SPSS
Nel seguito si descriverà l'analisi discriminante lineare utilizzando il software statistico SPSS con le
caratteristiche indicate in Syntax 1. La variabile GROUPS definisce la variabile dipendente (y) ossia la
variabile che specifica i raggruppamenti predefiniti delle variabili. Nel caso in esame, per forzare una
rappresentazione bidimensionale, abbiamo aggiunto un gruppo rispetto all'esempio numerico ed equivalente
all’esempio condotto con Excel (nel caso con tre gruppi).
Teniamo conto del fatto che gli algoritmi utilizzati da SPSS fanno parte di un sistema integrato di analisi
statistica che utilizza svariati metodi per testare e validare i risultati, a differenza della nostra esemplificazione
che è basata esclusivamente sul semplice modello esposto, in definitiva non è detto che tutti gli oggetti posti in
prossimità delle frontiere dei domini vengano classificati allo stesso modo dell'esempio numerico con Excel,
anche se negli esempi esposti in questo report si è riscontrata la coincidenza dei risultati ottenuti sugli stessi
dati che indica la convergenza delle tecniche e dei criteri adottati. La variabile VARIABLES indica che stiamo
analizzando le variabili indipendenti standardizzate Z1 e Z2. Il flag ALL della variabile ANALYSIS definisce una
molteplicità di analisi realizzate sugli stessi dati di input costituiti da tre colonne (Z1, Z2 e y), tutte quelle
selezionate dai pannelli di configurazione dell’applicazione ADL in SPSS.
Syntax 1 - SPSS Analisi Discriminante Lineare.
Il parametro SIZE della variabile di comando PRIORS indica che le probabilità a priori dei gruppi verranno
calcolare in base alla numerosità relativa del campione (frequenze relative) anziché considerare gruppi
equiprobabili (EQUAL). La variabile di comando STATISTICS indica la lista delle statistiche che concorrono al
risultato dell'analisi discriminante. PLOT specifica la tipologia di rappresentazione grafica realizzata:
COMBINED indica che i gruppi saranno rappresentati insieme, CASES indica che le statistiche verranno
riportate in output, MAP specifica che tra gli output ci sarà anche la mappa territoriale (Figura 11). Infine la
variabile CLASSIFY gestisce i casi di classificazione, l'opzione NONMISSING esplicita che verranno trattati
solo casi che non presentano dati mancanti e POOLED che per la classificazione si utilizzerà la matrice di
covarianza entro i gruppi (pooled within sample, Tabella 10). Vi sono ulteriori opzioni che vengono utilizzate
per classificare i soli casi non selezionati (UNSELECTED), oppure indicano che verranno utilizzate le matricidi
covarianza di ogni gruppo separato (SEPARATE), o ancora che classificheranno solo i casi non classificati
(UNCLASSIFIED) ed infine che sostituiscono i valori mancanti delle variabili indipendenti con le media
(MEANSUB). La tabella delle statistiche di gruppo (Tabella 3) presenta le statistiche descrittive (media,
deviazione standard, numero di casi) per i tre gruppi del campione totale, mentre la tabella dei "Test di
uguaglianza delle medie di gruppo" (Tabella 4) presenta i risultati comparativi dei test che verificano l'ipotesi di
uguaglianza delle medie tra i gruppi: in pratica tanto più le medie sono diverse tanto più i gruppi saranno
differenziati.
Mauro Ennas – Elementi di linear discriminant analysis per la classificazione ed il posizionamento nelle ricerche di marketing.
22
Linear Discriminant Analysis – http://www.mauroennas.eu
Validi (listwise)
Y
1
2
3
Totali
Media
Deviazione std.
Non pesati
Pesati
Z1
,860857
,5479040
7
7,000
Z2
,728143
,5800909
7
7,000
Z1
-,769385
,6958874
13
13,000
Z2
,289154
,2700154
13
13,000
Z1
,795400
,2893550
5
5,000
Z2
-1,771600
,3914643
5
5,000
Z1
,000040
,9998630
25
25,000
Z2
-,000080
,9999587
25
25,000
Tabella 3- Statistiche di gruppo.
Z1
Z2
Lambda di Wilks
F
df1
df2
Sig.
,331
,146
22,210
64,274
2
2
22
22
,000
,000
Tabella 4 - Test di uguaglianza delle medie di gruppo.
F
M di Box
Appross.
13,573
1,883
df1
6,000
df2
1674,937
Sig.
,080
Test dell'ipotesi nulla che le matrici di
covarianza siano uguali nella popolazione.
Tabella 5 - Test di Box.
Funzione
Autovalore
% di varianza
% cumulata
Correlazione canonica
1
2
6,358a
2,003a
76,0
24,0
76,0
100,0
,930
,817
a. Per l'analisi sono state usate le prime 2 funzioni discriminanti canoniche.
Tabella 6 - Autovalori.
Per verificare quali variabili, tra le due in esame (Z1 e Z2), rappresentano medie significative nei gruppi,
dobbiamo riferirci alla colonna "Sig." cercando valori che risultino inferiori a 0.05. Nel nostro caso entrambe le
variabili soddisfano il requisito e quindi possiamo dedurre che le medie delle variabili in esame sono
rappresentative nei gruppi con probabilità maggiore del 95%. In Tabella 5 viene rappresentato il risultato del
Test di Box che ha come ipotesi nulla l'uguaglianza delle medie dei gruppi e come risultato "Sig = 0.080" che
risulta maggiore di 0.05 e quindi non si può non accettare l'ipotesi nulla e le matrici di varianzacovarianza risultano avere un certo grado di omogeneità.
Osservando la tabella in Tabella 6 (“Autovalori”) è possibile capire qual è la percentuale di varianza spiegata
dalle due funzioni discriminanti, 76.0 e 24,0 ovvero le due funzioni insieme spiegano interamente la varianza
tra i gruppi. Sempre dalla Tabella 6 si può rilevare che la relazione che lega ciascuna funzione
discriminante con il gruppo di appartenenza degli oggetti (indicata dalla colonna della "Correlazione canonica")
sia 0.93 e 0.817, valori questi che essendo prossimi all’unità denotano un’elevata correlazione col gruppo di
appartenenza; ciò evidenzia ancora che le due funzioni sono entrambe buone discriminanti dei gruppi in
Mauro Ennas – Elementi di linear discriminant analysis per la classificazione ed il posizionamento nelle ricerche di marketing.
23
Linear Discriminant Analysis – http://www.mauroennas.eu
esame. In Tabella 7 esaminando la colonna "Sig." è chiaro che entrambe le funzioni discriminanti sono
significative.
Test di funzioni
Lambda di Wilks
Chi-quadrato
Df
Sig.
Da 1 a 2
2
,045
,333
66,551
23,641
4
1
,000
,000
Tabella 7 - Lambda di Wilks.
L'esempio analizzato nel presente report è molto semplice e poiché le due sole funzioni discriminanti spiegano
la totalità della varianza ogni test cui sono sottoposte fornisce risposte coerenti con questo dato di fatto; in
esempi più complessi con più di due funzioni discriminanti avremo che solo alcune (solitamente due o tre)
funzioni discriminanti danno informazione significativa per l'analisi.
E’ possibile individuare quali sono le variabili che contribuiscono maggiormente alla definizione di ogni
funzione discriminante esaminando la "Matrice di struttura" nella tabelle in Tabella 8: si interpreta la sola
colonna relativa alla prima funzione discriminante canonica, utilizzando come soglia euristica di significatività il
valore 0.30: l'unica variabile significativa risulta Z2, ciò significa che la funzione discriminante 1 è in grado di
garantire una efficace rappresentazione della variabile Z2.
Funzione
Z2
Z1
1
2
,939*
-,344
,998*
-,061
Correlazioni comuni entro gruppi tra variabili
discriminanti e funzioni discriminanti
canoniche standardizzate
Variabili ordinate in base alla dimensione
assoluta della correlazione entro la funzione.
*. Correlazione assoluta più grande tra
ciascuna variabile e qualsiasi funzione
discriminante
Tabella 8 - Matrice di struttura.
Funzione
Z2
Z1
1
2
,375
1,089
1,025
,067
Tabella 9 - Coefficienti standardizzati delle funzioni discriminanti canoniche.
I "Coefficienti standardizzati delle funzioni discriminanti canoniche" danno informazioni su quali variabili sono
più ridondanti, per ogni funzione discriminante. In Tabella 9 possiamo tentare, anche se non esiste un criterio
assoluto, a confrontare i valori fissando una colonna (prima funzione canonica): la prima colonna è quella più
significativa, i valori più bassi hanno minore influenza sugli altri (in termini di correlazione) di quelli più alti. Le
matrici di covarianza calcolate entro i gruppi (Tabella 10) e quelle su ogni gruppo separato e
complessivamente su tutti gli oggetti (Tabella 11). Le prime (Tabella 10) sono le cosi dette matrici Pooled
Within Group e risultano dalla media ponderata delle matrici di covarianza-correlazione di ciascun gruppo.
Mauro Ennas – Elementi di linear discriminant analysis per la classificazione ed il posizionamento nelle ricerche di marketing.
24
Linear Discriminant Analysis – http://www.mauroennas.eu
Covarianza
Correlazione
Z1
Z2
Z1
,361
-,096
Z2
-,096
,159
Z1
1,000
-,400
Z2
-,400
1,000
a. La matrice di covarianza ha 22 gradi di libertà.
Tabella 10 - Matrice di covarianza inter-gruppo.
Le variabili considerate sono due (Z1, Z2) e rappresentano le variabili standardizzate a partire da X1 e X2, i
gruppi sono tre, indicati rispettivamente (1, 2, 3). Nella tabella in figura (Tabella 9) sono presenti coefficienti
non standardizzati delle funzioni discriminanti, che possono essere utilizzati per calcolare eventuali punteggi
(score) di nuovi oggetti non inclusi nel campione in analisi. La Tabella 13 indica le probabilità a priori utilizzate
nella fase di classificazione (esiste un'opzione di equiprobabilità può scelta tra le possibili opzioni in SPSS). La
Tabella 14 riporta i coefficienti delle funzioni di classificazione che vengono utilizzati per classificare nuovi
soggetti per i quali non si dispone dell'informazione di appartenenza al gruppo. I nuovi oggetti vengono
assegnati
al
gruppo
che
presenta
il
valore
più
elevato
in
una
delle
funzioni di classificazione. La mappa del territorio (Figura 11) rappresenta graficamente i confini delle zone di
appartenenza dei tre gruppi individuati attraverso i centroidi (*) dei gruppi, considerando le prime due funzioni
discriminanti; ed infine la Figura 12 indica graficamente gli oggetti dei gruppi, i gruppi e la
collocazione del nuovo oggetto riclassificato.
Y
1
2
3
Totali
Z1
Z2
Z1
,300
-,272
Z2
-,272
,337
Z1
,484
-,048
Z2
-,048
,073
Z1
,084
,024
Z2
,024
,153
Z1
1,000
-,319
Z2
-,319
1,000
a. La matrice di covarianza globale ha 24 gradi di libertà.
Tabella 11 - Matrici di covarianza.
Funzione
Z1
Z2
1
2
,375
1,089
1,025
,067
Tabella 12 - Coefficienti delle funzioni
discriminanti canoniche.
Mauro Ennas – Elementi di linear discriminant analysis per la classificazione ed il posizionamento nelle ricerche di marketing.
25
Linear Discriminant Analysis – http://www.mauroennas.eu
Casi usati nell'analisi
Y
A priori
Non pesati
Pesati
1
2
3
Totali
,280
,520
,200
1,000
7
13
5
25
7,000
13,000
5,000
25,000
Tabella 13 - Probabilità a priori.
Y
Z1
Z2
(Costante)
1
2
3
4,285
7,151
-5,721
-1,962
,631
-1,500
-,899
-11,656
-11,577
Funzioni discriminanti lineari di Fisher
Tabella 14 - Coefficienti della funzione di classificazione.
Numerosità dei gruppi
K=3
Numerosità delle osservazioni N=n1+n2+n3=25
Gradi di libertà (Totali)
dfT=N-1=24
Gradi di libertà (Modello)
dfM=K-1=2
Gradi di libertà (Residui)
dfR= dfT- dfM=N-K=24-2
Tabella 15 - Gradi di libertà.
Rapporti
SS
MS Modello = T
dfT
MS Re sidui =
F=
SS R
df R
MS Modello
MS Re sidui
X1 X2
11,02 19,82
0,50
0,31
22,21 64,29
Tabella 16 - F ratio.
Devianze
SS T = ∑ ( xi − x pop ) 2
X1
X2
Z1
Z2
32.97 46.43 24.00 24.00
i
SS M = ∑ n gruppo ( x gruppo − x pop ) 2 22.05 39.65 16.05 20.49
i
SS R = ∑ ( xi − x gruppo ) 2
10.92 6.78
7.95
3.51
i
SS T = σ X2 ⋅ ( N − 1)
SS R = σ 12 ⋅ (n1 − 1) + σ 22 ⋅ (n 2 − 1) + σ 32 ⋅ (n3 − 1)
SS T = SS M + SS R
Tabella 17 - Devianze calcolate (ANOVA).
Mauro Ennas – Elementi di linear discriminant analysis per la classificazione ed il posizionamento nelle ricerche di marketing.
26
Linear Discriminant Analysis – http://www.mauroennas.eu
Figura 11 - Mappa del territorio.
I risultati della classificazione mediante ADL risultano in accordo con l’indicazione a priori. Se avessimo
utilizzato un set che associava casualmente i punti ai gruppi avremo avuto una notevole discrepanza nella
classificazione a posteriori. Se aggiungiamo degli elementi come abbiamo fatto nell’esempio numerico, il
valore viene classificato e i dati relativi ai vettori delle caratteristiche vengono resi parte dei dati classificati
nelle elaborazioni statistiche successive. Possiamo notare come vi sia coincidenza nella classificazione e nella
rappresentazione dei dati oltre che nei valori delle matrici di covarianza nei gruppi e tra i gruppi.
Inoltre possiamo osservare che la mappa del territorio altro non è se non il risultato di una analisi dei 3 cluster
di dati che emergono dalla classificazione, in altri termini lo spazio bidimensionale di rappresentazione può
essere suddiviso in zone cui apparterranno i punti classificati. Tali zone (tre come i gruppi) varieranno in forma
al variare del numero e della consistenza dei dati rappresentati.
Mauro Ennas – Elementi di linear discriminant analysis per la classificazione ed il posizionamento nelle ricerche di marketing.
27
Linear Discriminant Analysis – http://www.mauroennas.eu
Figura 12 - Rappresentazione dei tre gruppi (SPSS).
Tabella 18 - Risultati della classificazione.
Mauro Ennas – Elementi di linear discriminant analysis per la classificazione ed il posizionamento nelle ricerche di marketing.
28
Linear Discriminant Analysis – http://www.mauroennas.eu
Limiti dell’analisi discriminante lineare
Il risultato dell’analisi è fortemente legato alla qualità dei dati d’ingresso, ciò implica il rischio di risultati che
soffrono l’incompletezza delle valutazioni iniziali. Inoltre la metodologia tende a dare maggiore rilievo agli
attributi che hanno maggiore “potere discriminante” tra i dati osservati (persone, prodotti, servizi e aziende),
mentre può succedere che attributi significativi da un punto di vista concettuale, ma scarsamente differenziati,
siano trascurati anche se decisivi. Infine, c’è da sottolineare l’elevata sensibilità del metodo alla presenza di
nuovi elementi o alla sottrazione di elementi presenti; infatti effettuando più analisi con dataset differenti per un
seppur piccolo (al limite un elemento) numero di elementi, si rileva il cambiamento dello spazio di decisione:
ciò significa che la scelta degli attributi assume un’importanza rilevante rispetto alla qualità dei risultati.
Mauro Ennas – Elementi di linear discriminant analysis per la classificazione ed il posizionamento nelle ricerche di marketing.
29
Linear Discriminant Analysis – http://www.mauroennas.eu
Mauro Ennas – Elementi di linear discriminant analysis per la classificazione ed il posizionamento nelle ricerche di marketing.
30
Linear Discriminant Analysis – http://www.mauroennas.eu
Mauro Ennas – Elementi di linear discriminant analysis per la classificazione ed il posizionamento nelle ricerche di marketing.
31
Linear Discriminant Analysis – http://www.mauroennas.eu
Glossario
Analisi discriminante lineare
E’ un metodo di analisi statistica multivariata che permette di attribuire degli individui a uno di più gruppi. Per
giungere ad un criterio ottimale si utilizzano funzioni discriminanti, le quali ricevono come valori variabili che si
ritiene abbiano un'importanza per la bontà dell'attribuzione.
Analisi dei fattori
E’ una tecnica di statistica multivariata che si propone di individuare le dimensioni fondamentali di un
fenomeno descritto da un insieme di n variabili quantitative.
Analisi statistica multivariata
Con statistica multivariata s'intende quella parte della statistica in cui l'oggetto dell'analisi è per sua natura
formato da almeno due componenti, il che è spesso il caso nell'ambito di scienze quali la medicina, psicologia,
sociologia, ecologia e biologia. Fanno parte della statistica multivariata metodi quali:
analisi della correlazione canonica e analisi delle componenti principali
analisi fattoriale
analisi delle corrispondenze
analisi dei cluster
analisi discriminante
analisi di regressione multidimensionale
Collinearità (o multicollinearità),
E’ la condizione nella quale una delle variabili indipendenti è funzione lineare dia altre variabili indipendenti.
Nell’ambito della regressione lineare esistono test diagnostici che permettono di rilevare questa condizione
(VIF, decomposizione della varianza con fattori inflattivi) e fattori di tolleranza per le singole variabili.
Comunalità
La varianza totale di una certa variabile può essere rappresentata come costituita da due componenti , una
costituita da quella parte di varianza caratteristica della variabile considerata e non condivisa con altre variabili
ed una seconda parte costituita da quella parte di varianza in comune (common variance) con la varianza di
altre variabili. In genere è presente anche una terza parte che appartiene alla varianza della variabile, ma non
in modo affidabile, che è detta errore o varianza casuale (random variance). La porzione di varianza comune
è detta invece comunalità (communality) [7].
Correlazione
Per correlazione si intende una relazione tra due variabili casuali tale che a ciascun valore della prima
variabile corrisponda con una certa regolarità un valore della seconda. Non si tratta necessariamente di un
rapporto di causa ed effetto ma semplicemente della tendenza di una variabile a variare in funzione di un'altra.
Talvolta le variazioni di una variabile dipendono dalle variazioni dell'altra (relazione tra la statura dei padri e
quella dei figlio ad esempio), talvolta sono comuni (relazioni tra la statura e il peso di un individuo); talvolta
sono reciprocamente dipendenti (relazione tra prezzo e domanda di una merce: il prezzo influisce sulla
domanda e la domanda influisce sul prezzo). Il grado di correlazione fra due variabili viene espresso mediante
i cosiddetti indici di correlazione. Questi assumono valori compresi tra meno uno (quando le variabili
considerate sono inversamente correlate) e l'unità (quando vi sia correlazione assoluta cioè quando alla
variazione di una variabile corrisponde una variazione rigidamente dipendente dall'altra), ovviamente un indice
di correlazione pari a zero indica un'assenza di correlazione e quindi le variabili sono indipendenti l'una
dall'altra. I coefficienti di correlazione sono derivati dagli indici di correlazione tenendo presenti le grandezze
degli scostamenti dalla media. In particolare, il coefficiente di correlazione di Pearson è calcolato come
rapporto tra la covarianza delle due variabili ed il prodotto delle loro deviazioni standard [7].
Mauro Ennas – Elementi di linear discriminant analysis per la classificazione ed il posizionamento nelle ricerche di marketing.
32
Linear Discriminant Analysis – http://www.mauroennas.eu
Covarianza/Varianza
E’ un indice che misura la "contemporaneità" della variazione (in termini lineari) di due variabili casuali. Essa
può assumere sia valori positivi che negativi. Nel caso di valori positivi indica che al crescere di una
caratteristica statisticamente cresce anche l'altra, nel caso di valori negativi accade il contrario. Nella statistica
inferenziale, quando due variabili sono tra di loro indipendenti, allora la loro covarianza è nulla (l'inverso non è
necessariamente verificato). Si utilizza spesso la notazione:
cov( x, y ) = σ xy
n
σ xy = ∑ ( xi − µ x )( y i − µ y )
i =1
essendo µ x e µ y rispettivamente la media aritmetica di x e y.
In caso di ponderazione,
k
σ xy = ∑ f j ( x j − µ x )( y j − µ y )
j =1
È un operatore simmetrico, cioè
cov( x, y ) = cov( y, x)
La covarianza può essere scomposta in due termini, diventando
1 n
σ xy = ∑ x j y j − µ x µ y
n i =1
ovvero la media dei prodotti meno il prodotto delle medie.
Quando y=x, allora la covarianza si trasforma in varianza:
σ xx = cov( x, x) = var( x) = σ x2 .
Deviazione standard (Standard Deviation)
Indice di dispersione della popolazione o del campione. Detto anche Scarto Quadratico Medio.
Distanza di Mahalanobis
E’ una misura di distanza introdotta da P. C. Mahalanobis nel 1936. Essa è basata sulle correlazioni tra
variabili attraverso le quali differenti pattern possono essere identificati ed analizzati. Si tratta di un modo per
determinare la similarità di uno spazio campionario incognito rispetto ad uno noto. Differisce dalla distanza
euclidea in quanto tiene conto delle correlazioni all'interno dell'insieme dei dati. Formalmente la distanza di
Mahalanobis di un vettore multivariato rispetto ad un gruppo di valori di valor medio e matrice di covarianza S
è definita come:
F-ratio
E’ il rapporto tra la misura della varianza spiegata dal modello e la varianza spiegata da fattori asistematici. Si
calcola dividendo la somma dei quadrati degli scarti dalla media degli elementi dell’intera popolazione con la
somma dei quadrati degli scarti dalle medie di gruppo di tutti gli elementi gruppo per gruppo.
Gradi di libertà (degree of freedom)
Date N variabili indipendenti e calcolata una funzione costante delle N variabili è possibile, mantenendo
costante la relazione che le lega, ricavare ogni variabile in funzione delle N-1 restanti. Sottoponendo la
funzione f (v1 ,..., v n ) = K , al vincolo K, v j = g (v1 ,..., v j −1 , v j +1 ,..., v N ) può essere determinata conoscendo
le altre N-1 variabili restanti.
Incertezza standard
Mauro Ennas – Elementi di linear discriminant analysis per la classificazione ed il posizionamento nelle ricerche di marketing.
33
Linear Discriminant Analysis – http://www.mauroennas.eu
Incertezza del risultato di una misurazione espressa. Nelle statistiche quantitative essa è uguale alla
Deviazione Standard (Standard Deviation).
Incertezza standard composta
L’incertezza tipo del risultato di una misurazione si ha quando il risultato è ottenuto mediante i valori di un
certo numero di grandezze; essa è uguale alla radice quadrata positiva di una somma di termini, che sono le
varianze o le covarianze di quelle grandezze, pensate secondo la variazione del risultato della misurazione al
variare di esse.
Intervallo di confidenza
Intervallo di valori costruito con una procedura statistica che garantisce che, su 100 intervalli realizzati con tale
procedura, il 95% di questi conterrà il valore medio incognito del campione.
Lambda di Wilks
Rappresenta il prodotto della varianza non spiegata da ciascuna variabile. In pratica corrisponde al rapporto
tra la varianza dei residui (varianza errore) e la varianza totale che fornisce un’indicazione di quanta varianza
non è stata spiegata. Il Λ di Wilks associa una significatività statistica ai risultati dell’analisi quanto più risulta
piccolo ossia quanto maggiore è la varianza spiegata dall’analisi stessa [7].
Livello di misurazione delle variabili
Se le variabili assumono valori o categorie ordinate con metrica significativa il loro livello di misurazione è la
scala (valori di reddito in euro, età in anni, altezza in cm.) ; se la misura è ottenuta ordinando le categorie
secondo una qualche forma intrinseca di ordinamento o classifica (rank) diciamo che il livello di misura è
ordinale (grado di interesse per un prodotto, grado di soddisfazione per un servizio); se le categorie sono prive
di ordinamento ma rappresentano l’appartenenza ad un gruppo o etichetta, allora il livello di misura è nominale
(ad esempio appartenenza a gruppi o religioni).
Logit
E’ una funzione, che si applica a valori compresi nell'intervallo (0,1), tipicamente valori rappresentanti
probabilità. Viene definito come
 p 
 = ln( p ) − ln(1 − p ) ,
log it ( p ) = ln
1− p 
dove p è la probabilità attesa nel verificarsi dell’evento considerato e (1-p) è la probabilità dell’evento
complementare; il rapporto è detto odds. Ha come funzione inversa
e log it
p=
1 + e log it
La funzione logit si applica ad esempio nella regressione logistica e nella variabile casuale logistica [21].
Mappa/Mappatura delle percezioni (Perceptual mapping)
E’ una tecnica grafica utilizzata nel marketing per tentare di visualizzare la percezione che hanno i potenziali
clienti di un determinato prodotto in relazione ad altri prodotti di riferimento.
Marketing
E’ un ramo dell’economia che si occupa dello studio descrittivo del mercato e dell'analisi dell'interazione del
mercato, degli utilizzatori con l'impresa. Il termine prende origine dall'inglese market, cui viene aggiunta la
desinenza del gerundio per indicare la partecipazione attiva, cioè l'azione sul mercato stesso. Marketing
significa letteralmente "piazzare sul mercato" e comprende quindi tutte le azioni aziendali riferibili al mercato
destinate al piazzamento di prodotti, considerando come finalità il maggiore profitto e come causalità la
possibilità di avere prodotti capaci di realizzare tale operazione [13].
Mauro Ennas – Elementi di linear discriminant analysis per la classificazione ed il posizionamento nelle ricerche di marketing.
34
Linear Discriminant Analysis – http://www.mauroennas.eu
Marketing analitico
Consiste in un insieme di tecniche e metodologie volte ad analizzare con metodi quantitativi, il mercato nella
sua accezione più larga (dei clienti finali, o degli intermediari, ecc.) per mappare i desideri del cliente, oppure i
suoi comportamenti (segmentazione), e per conoscere gli ambiti di mercato già eventualmente occupati dai
rivali diretti e indiretti (posizionamento).
Marketing strategico
Si basa sull'analisi dei bisogni degli individui e delle organizzazioni. Questo primo aspetto del processo di
marketing riguarda anzitutto l'individuazione, all'interno del mercato di riferimento, dei prodotti-mercato e dei
segmenti già esistenti o potenziali. Di questi il marketing strategico misura l'attrattività in termini quantitativi,
qualitativi (con riferimento all'accessibilità al mercato) e dinamici (con riferimento alla durata economica che è
rappresentata dal ciclo di vita del prodotto). Tali operazioni consentono di scegliere una strategia di sviluppo
che colga le opportunità esistenti sul mercato (rappresentate sostanzialmente da bisogni insoddisfatti) e che,
tenendo conto delle risorse e competenze dell'impresa, offrano alla stessa un potenziale di crescita e di
redditività attraverso l'acquisizione ed il mantenimento di un vantaggio competitivo [12][13].
Marketing operativo
E’ la parte applicativa dell'intero processo di marketing, a monte del quale ci sono le fasi di marketing analitico
e marketing strategico. La componente operativa (o tattica) del marketing ha il compito di realizzare
concretamente le strategie definite nelle fasi precedenti. le caratteristiche: orientamento all'azione, opportunità
esistenti, ambiente stabile, comportamento reattivo, orizzonte a breve termine, responsabilità della funzione di
marketing [12][13].
Marketing Mix
Indica la combinazione (mix) di variabili controllabili (leve decisionali) di marketing che le imprese impiegano
per raggiungere i propri obiettivi. Le variabili che tradizionalmente si includono nel marketing mix sono le 4P
teorizzate da Jerome McCarthy e riprese in seguito da molti altri: Product (Prodotto), Price (Prezzo), Place
(Distribuzione), Promotion (Comunicazione) [12].
Omoschedastico (processo)
Si dice di un processo numerico la cui varianza non cambia tra diverse osservazioni campionarie.
Percezione
Il complesso processo elettrochimico che connette i livelli sensoriali di un organismo attraverso il sistema
nervoso e che opera la sintesi dei dati sensoriali in forme dotate di significato.
Posizionamento
Il posizionamento di un prodotto può essere visto come una decisione strettamente connesso a quella della
selezione dei segmenti di mercato in cui l’impresa decide di competere. Il posizionamento consiste nella
misura della percezione che hanno i clienti di un prodotto o di una merce, relativamente alla posizione dei
prodotti o delle marche concorrenti.
R di Pearson (indice di correlazione)
Dividendo la covarianza con il prodotto delle deviazioni standard delle due variabili, si ottiene l'indice di
correlazione di Pearson:
ρ=
σ xy
.
σ xσ y
Nella conjoint analysis viene utilizzato, insieme al Tau di Kendall, per valutare le correlazioni tra le preferenze
osservate e quelle stimate
Mauro Ennas – Elementi di linear discriminant analysis per la classificazione ed il posizionamento nelle ricerche di marketing.
35
Linear Discriminant Analysis – http://www.mauroennas.eu
Regressione lineare
La regressione formalizza e risolve il problema di una relazione funzionale tra variabili misurate sulla base di
dati campionari estratti da un'ipotetica popolazione infinita. Più formalmente, in statistica la regressione lineare
rappresenta un metodo di stima del valore atteso condizionato di una variabile dipendente, dati i valori di altre
variabili indipendenti.
Segmentazione
Col termine “segmentazione” del mercato s’intende l’attività di identificazione di “gruppi di clienti” cui è
indirizzato un determinato prodotto o servizio. La segmentazione è “il processo attraverso il quale le imprese
suddividono la domanda in un insieme di clienti potenziali, in modo che gli individui che appartengono allo
stesso insieme siano caratterizzati da funzioni della domanda il più possibile simili tra loro e,
contemporaneamente, il più possibile diverse da quelle degli altri insiemi” [13].
Test di Box
Questo test verifica l’ipotesi nulla di uguaglianza delle matrici ci varianza/covarianza nei K gruppi sui quali
viene verificata. Se le suddette matrici risultano uguali e quindi l’ipotesi di omogeneità è soddisfatto, il test
dovrà risultare non significativo. Se la Significatività (Sig.) p>0.05 allora le matrici di varianza/covarianza
possono considerarsi approssimativamente omogenee e conseguentemente l’ipotesi nulla viene accettata. Se
il valore del test presenta un p<0.05 allora le matrici di varianza/covarianza sono significativamente differenti e
l’ipotesi nulla di omogeneità deve essere rigettata. In generale se la numerosità dei campioni nei gruppi è
confrontabile, al test di Box si preferisce il T2 di Hotelling che risulta più robusto, mentre se la numerosità dei
campioni nei gruppi è differente allora la robustezza del T2 di Hotelling non può essere garantita
(specialmente se il corrispondente test di Box ha un p<0.001). Il limite a tutto questo sta nel fatto più è
numeroso il campione e maggiore è la differenza (in numerosità) tra i gruppi, maggiore sarà la distorsione dei
valori di probabilità calcolati da SPSS (ADL). In definitiva il test di Box è utile solo se i gruppi differiscono
significativamente in numerosità [7].
Mauro Ennas – Elementi di linear discriminant analysis per la classificazione ed il posizionamento nelle ricerche di marketing.
36
Linear Discriminant Analysis – http://www.mauroennas.eu
Bibliografia
1. Abe Shigeo – Pattern Classification – Springer (2001)- http://www.amazon.com/Pattern-ClassificationShigeo-Abe/dp/1852333529/ref=sr_1_1?ie=UTF8&s=books&qid=1262625717&sr=1-1
2. Barbaranelli, C. - Analisi dei dati con SPSS Vol. II. Milano: LED (2003) http://www.ibs.it/code/9788879163156/barbaranelli-claudio/analisi-dei-dati-con.html
3. Bracalente, Mulas, Cossignani - Statistica aziendale - McGraw Hill (2009) http://www.ibs.it/code/9788838664960/bracalente-mulas-cossignani/statistica-aziendale.html
4. Brasini Sergio, Freo Marzia, Tassinari Franco, Tassinari Giorgio - Statistica aziendale e analisi di
mercato - Il Mulino, Bologna (2002) - http://www.ibs.it/code/9788815088765/zzz1k1456/statisticaaziendale-e-analisi.html
5. De Finetti B. – Sul significato soggettivo della probabilità (1931)
http://www.brunodefinetti.it/Opere/Sul%20significato%20soggettivo%20della%20probabilit%E0.pdf
6. Fabbri G. e Orsini R – Reti Neurali per le scienze economiche – Franco Muzio Editore (1993) http://www.libreriauniversitaria.it/reti-neurali-scienze-economiche-fabbri/libro/9788870216561
7. Field Andy – Discovering Statistics using SPSS for Windows – SAGE Publication (2000) http://www.ibs.it/book/9781412977524/field-andy/discovering-statistics-using.html
8. Fiedler John A. - A Comparison of Correspondence Analysis and Discriminant Analysis-Based Maps POPULUS, Inc. AMA Advanced Research Techniques Forum (1996) –
http://www.populus.com/files/Comparison%20CA_DA-Maps_f_1.pdf
9. Hauser J. R., Koppelman F. S. - Alternative perceptual mapping technique – Journal of Marketing
Research (1979) http://web.mit.edu/hauser/www/Papers/Alternative_Perceptual_Mapping_Techniques.pdf
10. Howard Martin, Sappiamo cosa vuoi, Minimum Fax 2005,
http://www.ibs.it/code/9788875210687/howard-martin/sappiamo-cosa-vuoi-chi.html
11. Jiawei Han – Data Mining, concepts and techniques – Morgan Kaufmann (2001).http://www.amazon.com/Data-Mining-Concepts-TechniquesManagement/dp/1558609016/ref=ntt_at_ep_dpt_1
12. Kotler Philip, Marketing management (2007) - http://www.ibs.it/code/9788871922935/kotlerphilip/marketing-management.html
13. Molteni Luca, Gabriele Triolo - Ricerche di marketing - McGraw Hill (2003). http://www.ibs.it/code/9788838663925/molteni-luca/ricerche-di-marketing.html
14. Molteni L., Gnecchi M. – Le reti neurali nel marketing: il problema della segmentazione per obiettivi –
LIUC Papers n. 45, Serie Metodi quantitativi (1997) - http://www.biblio.liuc.it/liucpap/pdf/45.pdf
15. Piccolo Domenico - Statistica per le decisioni - Il Mulino, Bologna (2004) http://www.ibs.it/code/9788815097705/piccolo-domenico/statistica-per-le-decisioni.html
16. R (The) Development Core Team - R: A Language and Environment for Statistical Computing Copyright (©) 1999–2009 R Foundation for Statistical Computing, ISBN 3-900051-07-0 - http://cran.rproject.org/doc/manuals/refman.pdf
17. Randy Julian – Lecture slides – Lilly Research Laboratories http://miner.chem.purdue.edu/Lectures/
18. Ramsey F. P. - Truth and probability (1926) - http://fitelson.org/probability/ramsey.pdf
19. Ruminati Rino, Psicologia economica, a cura di Ruminati Rino Enrico Rubatelli e Maurizio Mistri,
Carocci 2008, http://www.ibs.it/code/9788843044290/zzz1k1456/psicologia-economica.html
20. Russel S. J., Norvig P. – Intelligenza artificiale – Pearson Education Italia (2005) http://www.ibs.it/code/9788871922287/russell-stuart-j/intelligenza-artificiale-approccio.html
21. SPSS for Windows Documentation
http://support.spss.com/ProductsExt/SPSS/Documentation/SPSSforWindows/index.html
http://support.spss.com/ProductsExt/SPSS/Documentation/SPSSforWindows/SPSS 16.0 Algorithms.pdf
http://support.spss.com/ProductsExt/SPSS/Documentation/SPSSforWindows/SPSS Conjoint 16.0.pdf
22. Technical Papers Library Sawtooth Software http://www.sawtoothsoftware.com/education/techpap.shtml
Mauro Ennas – Elementi di linear discriminant analysis per la classificazione ed il posizionamento nelle ricerche di marketing.
37
Linear Discriminant Analysis – http://www.mauroennas.eu
23. Universität Hamburg – SPSS Algorithms –
http://www1.uni-hamburg.de/RRZ/Software/SPSS/Algorith.120/
http://www1.uni-hamburg.de/RRZ/Software/SPSS/Algorith.115/proxscal.pdf
http://www1.uni-hamburg.de/RRZ/Software/SPSS/Algorith.115/alscal.pdf
24. Ulrich K. T., Eppinger S. D., Filippini R. – Progettazione e sviluppo del prodotto _ McGraw-Hill (1995)
http://www.ibs.it/code/9788838663970/ulrich-karl-t-eppinger/progettazione-e-sviluppo-di.html
25. Written Ian H., Eibe Frank – Data Mining, practical machine learning tools – Morgan Kaufmann (2000)
http://www.amazon.com/Data-Mining-Techniques-ImplementationsManagement/dp/1558605525/ref=sr_1_1?ie=UTF8&s=books&qid=1262625852&sr=1-1
Mauro Ennas – Elementi di linear discriminant analysis per la classificazione ed il posizionamento nelle ricerche di marketing.
38
Linear Discriminant Analysis – http://www.mauroennas.eu
Mauro Ennas – Elementi di linear discriminant analysis per la classificazione ed il posizionamento nelle ricerche di marketing.
39
Linear Discriminant Analysis – http://www.mauroennas.eu
Indice dei nomi
A
algoritmo .............................................................21
Analisi dei fattori..................................................33
analisi discriminante......................8; 10; 13; 20; 23
Analisi discriminante lineare..........................23; 33
Analisi statistica multivariata ...............................33
autovalori.......................................................11; 12
Autovalori ............................................................24
B
Box................................................................24; 37
C
centroidi...............................................................26
Chi-quadro ... 1; 8; 9; 10; 11; 12; 13; 14; 15; 16; 17;
23; 27; 28; 29; 34; 35; 36
classificazione ..... 1; 8; 9; 12; 13; 19; 23; 26; 28; 29
clienti...................................................8; 14; 36; 37
cluster .................................................................28
coefficienti .......................................8; 9; 11; 17; 25
comportamento ...............................................9; 12
Comunalità..........................................................33
concorrenti ..........................................................36
conoscenza.........................................................12
Correlazione............................................24; 25; 33
covarianza.... 11; 13; 14; 15; 16; 17; 20; 23; 24; 25;
26; 28
Covarianza....................................................25; 34
D
decisioni ..............................................................38
devianza..............................................................10
distanza...............................................................13
Distribuzione Normale Multivariata (DNM) ..........12
domanda .............................................................37
E
Excel .................................................16; 18; 21; 23
F
F-ratio..................................................................34
funzione di distribuzione......................................13
funzione discriminante lineare...................9; 11; 13
G
Gradi di libertà ...............................................27; 34
H
Hotelling ............................................................. 37
I
impresa .............................................................. 36
L
Lambda di Wilks ................................................. 35
Logit ................................................................... 35
M
Mappatura delle percezioni ................................ 35
marketing...................................................1; 14; 38
Marketing.................................................35; 36; 38
massima separazione ........................................ 10
mercato ...................................................36; 37; 38
metodo ....................................................12; 16; 20
misura ...........................................................12; 36
modello....................................................20; 21; 23
O
Omoschedastico................................................. 36
P
Pearson...................................................33; 36; 38
percezione.......................................................... 36
Percezione ......................................................... 36
pooled within group, PWD.................................. 16
popolazione........................................................ 24
posizionamento ...............................................1; 36
Posizionamento.................................................. 36
probabilità........9; 12; 13; 15; 16; 17; 23; 24; 26; 38
processo....................................................8; 36; 37
prodotto .............................................12; 14; 36; 37
prossimità........................................................... 23
Q
qualità................................................................. 14
R
Regressione lineare ........................................... 37
Mauro Ennas – Elementi di linear discriminant analysis per la classificazione ed il posizionamento nelle ricerche di marketing.
40
Linear Discriminant Analysis – http://www.mauroennas.eu
regressione logistica ...........................................20
reti neurali ...........................................................20
ricerca .................................................................11
S
segmentazione....................................................37
Segmentazione ...................................................37
servizio................................................................37
soggettivo............................................................38
SPSS ..................................................................23
statistica ..................................................21; 23; 38
SVM (Support Vector Machine)...........................20
T
Tau di Kendall .................................................... 36
Teorema di Bayes .........................................12; 13
V
varianza..... 9; 10; 11; 12; 15; 16; 18; 24; 25; 33; 36
W
Wilks........................................................12; 24; 25
Mauro Ennas – Elementi di linear discriminant analysis per la classificazione ed il posizionamento nelle ricerche di marketing.
41