http://www.mauroennas.eu Elementi di linear discriminant analysis per la classificazione e il posizionamento nelle ricerche di marketing Mauro Ennas Linear Discriminant Analysis – http://www.mauroennas.eu Allegati Simulazioni SPSS 1 ADL_finale_confronto_Excel.sav OUTPUT_ADL_finale_3gruppi_finale.spv Fogli di calcolo Excel 1 002a_PW_PARMA_ENNAS_ADL_finale_due_gruppi_EXCEL_like.xls 002b_PW_PARMA_ENNAS_ADL_finale_due_gruppi_SPSS_like.xls 002c_PW_PARMA_ENNAS_ADL_finale_tre_gruppi_SPSS_like.xls 002d_PW_PARMA_ENNAS_ANOVA_dati_adl.xls © 2010 Mauro Ennas – Elementi di linear discriminant analysis per la classificazione ed il posizionamento nelle ricerche di marketing. 2 Linear Discriminant Analysis – http://www.mauroennas.eu Indice degli argomenti Indice delle figure............................................................................................................................................. 3 Indice delle tabelle ........................................................................................................................................... 4 Indice syntax e script....................................................................................................................................... 4 Analisi discriminante lineare........................................................................................................................... 7 Separazione tra gruppi................................................................................................................................... 8 Esempio numerico: calcolo della percentuale di varianza spiegata......................................................... 10 Errore di classificazione ............................................................................................................................... 11 Esempio numerico: calcolo delle matrici di covarianza............................................................................ 13 Esempio con Excel: calcolo delle funzioni discriminanti .......................................................................... 15 Esempio con R: predizione dell’appartenenza ad un gruppo................................................................... 20 Analisi discriminante lineare con SPSS ....................................................................................................... 22 Limiti dell’analisi discriminante lineare ......................................................................................................... 29 Glossario......................................................................................................................................................... 32 Bibliografia ..................................................................................................................................................... 37 Indice dei nomi ............................................................................................................................................... 40 Indice delle figure Figura 7 – Le variabili indipendenti Xc=(X1,X2) rappresentano le caratteristiche X1c e X2c per ognuno degli n=25 eventi osservati e classificati; Z=(Z1,Z2) sono le variabili standardizzate corrispondenti e F=(f1,f2) i valori delle due funzioni discriminanti lineari ricavare tramite il metodo bayesiano della minimizzazione della probabilità di errore (Tabella Excel nel caso di due gruppi). ........................................................... 15 Figura 8 – Matrici di covarianza nel caso con due gruppi: la matrice della covarianza nei gruppi (pooled within group, PWG) è stata ricavata come combinazione lineare dei coefficienti delle matrici W1 e W2 con pesi le probabilità a priori (frequenze relative) di appartenere al gruppo........................................................ 16 Figura 9 – I punti nel piano X1X2 rappresentano le osservazioni xio con i=1…n nel caso con due gruppi; il punto in evidenza è il nuovo punto classificato nel gruppo 1 mediante ADL. .......................................... 16 Figura 10 – Nel piano delle funzioni discriminanti lineari f1f2 i punti trasformati a partire dalle variabili standardizzate (Z1, Z2) delle variabili indipendenti (X1,X2) nel caso di due gruppi si dispongono su una retta: il caso in esame equivale al caso, monodimensionale, di appartenenza o meno al gruppo, ruotando la retta si può rappresentare su un solo asse senza perdita d’informazione. .......................................... 16 Figura 11 – Le funzioni discriminanti lineari F=(f1,f2, f3) nel caso di tre gruppi (Tabella Excel, K=3)................. 17 Figura 13 - Rappresentazione degli oggetti standardizzati Z1, Z2 nei piano trasformato delle prime due funzioni canoniche f1f2 (nel caso con tre gruppi): si evidenzia una consistenza della rappresentazione in tre gruppi distinguibili; sono assenti punti isolati rilevanti che avrebbero potuto introdurre errori di classificazione. ........................................................................................................................................ 18 Figura 14 – Rappresentazione degli oggetti standardizzati Z1Z2 nei piano trasformato delle funzioni discriminanti lineari: f2f3 (nel caso con tre gruppi).............................................................................. 19 Figura 15 – Rappresentazione degli oggetti standardizzati Z1Z2 nei piano trasformato delle funzioni discriminanti lineari: f1f3 (nel caso con tre gruppi).............................................................................. 19 Figura 16 - Diagrammi delle funzioni discriminanti nel caso di 3 gruppi (calcolati con R). ............................... 21 Figura 17 - Mappa del territorio. ....................................................................................................................... 27 Figura 18 - Rappresentazione dei tre gruppi (SPSS). ...................................................................................... 28 Mauro Ennas – Elementi di linear discriminant analysis per la classificazione ed il posizionamento nelle ricerche di marketing. 3 Linear Discriminant Analysis – http://www.mauroennas.eu Indice delle tabelle Tabella 20- Statistiche di gruppo...................................................................................................................... 23 Tabella 21 - Test di uguaglianza delle medie di gruppo. .................................................................................. 23 Tabella 22 - Test di Box. .................................................................................................................................. 23 Tabella 23 - Autovalori. .................................................................................................................................... 23 Tabella 24 - Lambda di Wilks. .......................................................................................................................... 24 Tabella 25 - Matrice di struttura........................................................................................................................ 24 Tabella 26 - Coefficienti standardizzati delle funzioni discriminanti canoniche................................................. 24 Tabella 27 - Matrice di covarianza inter-gruppo. .............................................................................................. 25 Tabella 28 - Matrici di covarianza..................................................................................................................... 25 Tabella 29 - Coefficienti delle funzioni discriminanti canoniche........................................................................ 25 Tabella 30 - Probabilità a priori. ....................................................................................................................... 26 Tabella 31 - Coefficienti della funzione di classificazione................................................................................. 26 Tabella 32 - Gradi di libertà. ............................................................................................................................. 26 Tabella 33 - F ratio. .......................................................................................................................................... 26 Tabella 34 - Devianze calcolate (ANOVA). ...................................................................................................... 26 Tabella 35 - Risultati della classificazione. ....................................................................................................... 28 Indice syntax e script Syntax 3 - SPSS Analisi Discriminante Lineare................................................................................................ 22 Script 1 - Script R per l'analisi ADL e la classificazione predittiva di un nuovo elemento [28]. ......................... 20 Mauro Ennas – Elementi di linear discriminant analysis per la classificazione ed il posizionamento nelle ricerche di marketing. 4 Linear Discriminant Analysis – http://www.mauroennas.eu Mauro Ennas – Elementi di linear discriminant analysis per la classificazione ed il posizionamento nelle ricerche di marketing. 5 Linear Discriminant Analysis – http://www.mauroennas.eu Mauro Ennas – Elementi di linear discriminant analysis per la classificazione ed il posizionamento nelle ricerche di marketing. 6 Linear Discriminant Analysis – http://www.mauroennas.eu Analisi discriminante lineare L'obiettivo dell'analisi discriminante è quello di classificare oggetti informativi, ossia profili di persone, di clienti, di prodotti e quant'altro sia descrivibile tramite una serie di valori assegnati agli attributi dell'oggetto in esame. La classificazione differenzierà gli oggetti analizzati in più gruppi rispetto ai loro attributi, che potranno essere demografici, economici, pesi e punteggi di svariata natura (qualitativa e/o quantitativa). I gruppi nei quali saranno classificati gli oggetti sono noti a priori e non sono ordinati. Il processo di classificazione si propone di costruire aggregati omogenei a partire da una molteplicità di oggetti con un numero limitato di attributi "significativi in qualche senso". Un prerequisito dell'analisi discriminante è la selezione degli attributi (caratteristiche significative degli oggetti); tale tematica non sarà discussa nel presente capitolo e rientra nelle metodiche dell'analisi fattoriale. Nel seguito verrà discusso come individuare criteri (regole) e semplici modelli che ci permettano di comprendere come separare al meglio i gruppi di oggetti analizzati. I modelli o criteri introdotti nel seguito saranno di due tipi: • · • massimizzazione delle omogeneità all'interno di ogni gruppo (intra-gruppo) e massimizzazione delle differenze tra i gruppi (inter-gruppo) in modo da separare quanto più possibile le classi di oggetti sottoposti all'analisi (analisi canonica); minimizzazione dell'errore totale di classificazione (TEC, Total Error of Classification) per rendere il numero di oggetti classificati in modo errato quanto più piccolo possibile. Ciò che si vuole determinare è una funzione lineare1 y = a1 ⋅ xi1 + a2 ⋅ xi 2 + ... + aq ⋅ xiq = aT ⋅ xi , indicando con aT = [a1, a2, ...aq] un vettore di coefficienti da determinare per discriminare gli oggetti informativi rappresentati dai profili x o =[xi1,xi2,...xiq] delle caratteristiche significative x c =[x1j,x2j,...xnj] degli oggetti in esame, con q caratteristiche, j ∈ [1, q ] e i ∈ [1, n] dove n è il numero totale di oggetti osservati. 1 Tale funzione è determinata a meno di una costante, oppure considerando un termine aggiuntivo a 0 xi 0 , per x i 0 = 1 . Mauro Ennas – Elementi di linear discriminant analysis per la classificazione ed il posizionamento nelle ricerche di marketing. 7 Linear Discriminant Analysis – http://www.mauroennas.eu x1o x 2o ... xio ... x no x1c x 2c ... x cj x11 x 21 ... xi 2 ... x n1 x12 x 22 ... ... ... ... ... x1 j ... x 2 j ... ... ... xij ... ... ... x nj ... x qc ... x1q ... x 2 q ... ... ... xiq ... .... ... x nq r I coefficienti del vettore a caratterizzeranno linearmente il comportamento della funzione discriminante yi dipendente dai profili xi attraverso la relazione r r y = Xˆ ⋅ a (2.1) Tale funzione discriminante lineare dovrà essere conforme con uno dei criteri indicati. In particolare, con l'approccio finalizzato alla minimizzazione dell'errore totale di classificazione si farà riferimento alle probabilità condizionate di appartenenza ad un gruppo, mentre con l'approccio di massimizzazione della varianza totale tra gruppi e minimizzazione della varianza totale nei gruppi, si farà riferimento all'analisi canonica ed in particolare a criteri di ottimizzazione di una funzione, indicatore dell'efficienza della separazione tra gruppi. Separazione tra gruppi Sia X̂ una matrice di K blocchi, formata da q variabili quantitative provenienti da n osservazioni distinte in K gruppi di nk profili ciascuno, k ∈ [1, K ] : X1 ... X = Xk , ... X K con K blocchi Xk di dimensione nk x q. Ciò equivale a dire che gli elementi xij di ogni blocco Xk sono vettori di dimensione q e numerosità nk pari al numero di profili degli oggetti informativi che appartengono al gruppo kesimo, con k ∈ [1, K ] e tali che la somma degli elementi di ciascun gruppo sia pari alla totalità degli osservati K ∑n k =n (2.2) k =1 ossia, indicando con n numero totale di osservazioni (che sono i profili informativi degli oggetti in esame). Con riferimento all'equazione (2.1) distinguiamo le combinazioni lineari rispetto al gruppo di appartenenza, indicando con yik la combinazione lineare i-esima del gruppo k-esimo con i ∈ [1, nk ] e k ∈ [1, K ] . Indicheremo con yk e y rispettivamente la media del gruppo k-esimo e la media complessiva della variabile dipendente y. Scriveremo: nk ∑y yk = ik i =1 (2.3) nk K ∑n y = k ⋅ yk k =1 n Mauro Ennas – Elementi di linear discriminant analysis per la classificazione ed il posizionamento nelle ricerche di marketing. (2.4) 8 Linear Discriminant Analysis – http://www.mauroennas.eu Utilizzando il criterio della massima separazione tra i gruppi, l'obiettivo dell'analisi discriminante è quello di r determinare le componenti del vettore a che ha massima capacità discriminante tra i gruppi. A questo scopo ricordiamo che dalla teoria dell'analisi della varianza, la scomposizione della devianza (ossia degli scarti quadratici di una variabile) può sintetizzarsi come segue: devianza totale = devianza entro i gruppi + devianza fra i gruppi n nk K K D y = ∑ ( y − y ) = ∑∑ ( y hk − y k ) 2 + ∑ nk ⋅ ( y k − y ) 2 2 i =1 k =1 h =1 (2.5) k =1 Ciò significa che la devianza totale della variabile y è composta da due componenti, la prima delle quali rappresenta la devianza all'interno dello stesso gruppo (Within, Wy), la seconda la devianza tra gruppi (Between, By). Scopo dell'analisi discriminante è massimizzare la varianza tra gruppi ( Ŝ Bx ), (e quindi la devianza) e minimizzare la varianza all'interno dello stesso gruppo ( ŜWx ). Definiamo η y il rapporto della varianza tra gruppi con la varianza nei gruppi: K ∑n Sˆ B y = k ⋅ ( yk − y) 2 (2.6) k =1 K −1 K nk ∑∑ ( y SˆW y = hk − yk ) 2 (2.7) k =1 h =1 n−K nk ⋅ ( y k − y ) 2 ˆ S By ∑ η y = ) = kK=1 nk SW y ∑∑ ( y hk − y k ) 2 k =1 h =1 K ⋅ n − K K − 1 (2.8) che può anche essere scritta in termini delle devianze B y e W y Sˆ B y B y n − K ⋅ η y = ) = (2.9) SW y W y K − 1 Massimizzare la separazione tra gruppi significa massimizzare η y . Passando dal caso univariato a quello multivariato, la variabile dipendente y sarà legata da una relazione lineare con le variabili indipendenti x e la devianza totale ( D̂ x , devianze e codevianze totali) e le sue parti ( Ŵ x , devianze e codevianze dei gruppi; B̂ x , devianze e codevianze tra i gruppi) diventeranno trasformazioni lineari rappresentate da matrici simmetriche q×q. n K nk K Dˆ x = ∑ ( xi − x )( xi − x ) T = ∑∑ ( x hk − x k )( x hk − x k ) T + ∑ nk ⋅ ( x k − x )( x k − x ) T i =1 k =1 h =1 k =1 Nel caso in cui la matrice X̂ sia composta da variabili standardizzate di media nulla e varianza unitaria, si K dimostra che D̂ x = Xˆ T Xˆ e Bˆ x = ∑k =1 nk ⋅ xkT xk , con xk un vettore di q elementi, contenente le medie di gruppo delle q variabili presenti nella matrice dei dati. La scomposizione nel caso multivariato è esprimibile in forma matriciale come: Dˆ x = Wˆ x + Bˆ x (2.10) e in temini di varianza, analogamente Sˆ x = SˆWx + Sˆ Bx (2.11) Mauro Ennas – Elementi di linear discriminant analysis per la classificazione ed il posizionamento nelle ricerche di marketing. 9 Linear Discriminant Analysis – http://www.mauroennas.eu Posto che yi = aT X si ricava che D̂ y = aT D̂ x a, Ŵ y = aT Ŵ x a e B̂ y = aT B̂ x a. Nel caso multivariato, separare r i gruppi significa trovare a = [a1, a2, ...aq] che massimizza l'espressione: T a T Bˆ x a n − K a Sˆ Bx a ˆ (2.12) ⋅ = E x (a) = T a Wˆ a K − 1 a T Sˆ a x Bx con Ŝ Bx e ŜWx , rispettivamente, matrici di covarianza tra e all'interno dei gruppi. La massimizzazione dell'equazione (2.12) deve avvenire sotto la condizione aTa = 1, senza la quale la soluzione perde la r caratteristica di unicità, scalando il vettore senza modificare il rapporto. Differenziando (2.12) rispetto ad a , r r ossia calcolando ∂E x (a ) ∂a = 0 otteniamo: (2.13) Sˆ ⋅ a − λ ⋅ Sˆ ⋅ a = 0 Bx Wx con λ = (a Sˆ Bx a) (a SˆWx a) . T T r r r r L'equazione (2.13) può vedersi come la ricerca del massimo di f( a )= Ŝ Bx a vincolato a g( a )= ŜWx a = 0 e può scriversi come r r −1 ( SˆWx Sˆ Bx − λ ⋅ Iˆ) ⋅ a = 0 (2.14) r −1 ciò significa che λ è autovalore di SˆWx Ŝ Bx e a l'autovettore corrispondente nel caso in cui ŜWx ammetta r inversa. Le componenti del vettore a sono i coefficienti della prima funzione discriminante lineare (di Fisher), r detta anche prima variabile canonica. Con i q profili degli oggetti osservati e le q componenti del vettore a è possibile calcolare la prima funzione discriminante. Le variabili canoniche sono pari al numero di autovalori −1 non nulli della matrice SˆWx Ŝ Bx ed è pari al min(q, K - 1); una volta che gli autovalori sono stati ordinati in modulo, la seconda variabile canonica è quella che si ricava in corrispondenza del secondo autovalore e del corrispondente autovettore, e così via sino all'ultimo. Il contributo delle variabili canoniche alla discriminazione finale è via via decrescente col modulo dell'autovalore corrispondente. Esempio numerico: calcolo della percentuale di varianza spiegata Supponiamo di avere le matrici ŜWx e Ŝ Bx , siano: 0.3427 − 0.0964 SˆWz = − 0.0964 0.1628 0.6420 − 0.2221 Sˆ Bz = − 0.2221 0.8197 3.38028 2.0041 −1 SˆWz = 2 . 0041 7 . 3314 3.38028 2.0041 0.6420 − 0.2221 1.7267 0.8916 a b −1 ˆ = = Γˆ = SˆWz S Bz = 2.0041 7.3314 − 0.2221 0.8197 − 0.3415 5.5648 c d Il determinante di Γ̂ vale det( Γ̂ )= ad - bc = 1.7267 5.5648 + 0.8916 (-0.3415) = 9.9132, mentre la traccia (somma degli elementi della diagonale) è pari a: traccia( Γ̂ ) = a+d = 1.7267+5.5648 = 7.2915. Gli autovalori della matrice Γ̂ si calcolano a partire dal determinante della matrice indicata nell’equazione (2.14) cui corrispondono le radici del polinomio di secondo grado p (λ ) = (a − λ )(d − λ ) − b ⋅ c = λ2 − (a + d ) ⋅ λ + (a ⋅ d − b ⋅ c) = λ2 − traccia (Γˆ ) ⋅ λ + det(Γˆ ) = 0 ossia Mauro Ennas – Elementi di linear discriminant analysis per la classificazione ed il posizionamento nelle ricerche di marketing. 10 Linear Discriminant Analysis – http://www.mauroennas.eu λ1, 2 2 − b ± b 2 − 4 ⋅ a ⋅ c traccia (Γˆ ) ± traccia (Γˆ ) − 4 ⋅ det(Γˆ ) = = . 2a 2 Gli autovalori corrispondenti alle soluzioni saranno λ1 = 5.4838 e λ 2 = 1.8077 . Si noti che ∑ λi = λ1 + λ2 = traccia(Γˆ ) ed inoltre ∏ λi = λ1 ⋅ λ2 = det(Γˆ ) . La varianza spiegata da ciascuno degli i i autovalori è espressa come: δi = λi , ∀i ∈ [1,2] traccia(Γˆ ) per cui avremo che δ 1 = 0.7521 e δ 2 = 0.2479 che corrisponde rispettivamente a circa il 75% di varianza spiegata dal primo autovalore e circa il 25% dal secondo. Analogamente può calcolarsi il Λ di Wilks complessivo 1 1 1 Λ Wilks = ∏ = = 0.0549 . 1 + 5.4838 1 + 1.8077 i 1 + λi Il valore del Λ di Wilks è il prodotto delle varianze non spiegate delle variabili indipendenti, rappresenta quantitativamente il rapporto tra la varianza errore e la varianza totale e per l’esempio in esame è trascurabile. Errore di classificazione Utilizzando il criterio di minimizzazione dell'errore totale di classificazione (TEC), si cercherà di determinare la probabilità di errore nella classificazione di un oggetto. Il criterio di classificazione che verrà utilizzato sarà quello di assegnare l'oggetto al gruppo con maggiore probabilità [5][18] condizionata di appartenere al gruppo. In pratica, se avessimo k gruppi, la condizione di Bayes affinché l'oggetto x appartenga al gruppo i, con i ≠ j, sarebbe espressa attraverso la disuguaglianza P(i | x) > P(j | x). Ciò che si vuole ottenere è la probabilità condizionata P(i | x) che un oggetto x appartenga al gruppo i. La probabilità che si vuole determinare discende dalla "conoscenza" dell'oggetto indagato e da una serie di osservazioni che guidano la discriminazione tra ciò che riteniamo appartenente ad un gruppo piuttosto che non appartenervi affatto. Il criterio che utilizzeremo per esemplificare questo comportamento sarà quello di considerare un nuovo oggetto da classificare una volta individuata una serie di oggetti classificati secondo il nostro criterio o metodo di appartenenza ai gruppi predeterminati. Per semplicità è utile una descrizione tramite due attributi X1 e X2 di oggetti x1 e x2, e si considererà un unico gruppo, o meglio l'appartenenza o meno a questo gruppo. Il Teorema di Bayes è d’aiuto in questo, infatti la relazione che lega due probabilità condizionate è la seguente: P( x | i ) ⋅ P(i ) P(i | x) = (2.15) ∑ P( x | j ) ⋅ P( j ) j La probabilità P(i) è la probabilità a priori di appartenere al gruppo i, ∀ i ≠ j, nota a priori rispetto alla misura dovuta all'applicazione del metodo di discriminazione. Si assume che la probabilità a priori sia uguale per ogni elemento di un insieme di campioni in ciascuno dei gruppi. L'applicazione del Teorema di Bayes risulta poco pratico nel caso multivariato perché necessità di un grande numero di campioni noti dai quali estrarre le frequenze relative di appartenenza ai gruppi. Per semplificare l'approccio si stabilisce che la probabilità di appartenenza ai gruppi sia quella teorica di una Distribuzione Normale Multivariata (DNM), ossia: 1 − ⋅( x − µ )T Cˆ −1 ( x − µi ) 1 (2.16) P( x | i) = ⋅e 2 i K ˆ (2 ⋅ π ) ⋅ Ci Mauro Ennas – Elementi di linear discriminant analysis per la classificazione ed il posizionamento nelle ricerche di marketing. 11 Linear Discriminant Analysis – http://www.mauroennas.eu Nella quale µi è il vettore delle medie e Ci è la matrice di covarianza del gruppo i e |Ci| il suo determinante, K è il numero di gruppi utilizzati nella classificazione. Applicando il Teorema di Bayes avremo che l'oggetto x apparterrà al gruppo i se: P ( x | i ) ⋅ P (i ) > P ( x | j ) ⋅ P ( j ) , (2.17) ossia quando è verificata la seguente disuguaglianza, ottenuta sostituendo la funzione di distribuzione della probabilità a priori: 1 1 − ⋅ ( x − µ i ) T Cˆ i −1 ( x − µ i ) − ⋅ ( x − µ j ) T Cˆ j −1 ( x − µ j ) 1 1 ⋅e 2 > ⋅e 2 (2 ⋅ π )K ⋅ Cˆ (2 ⋅ π )K ⋅ Cˆ i j che equivale a scrivere 1 Cˆ i ⋅e 1 − ⋅( x − µ i )T Cˆ i −1 ( x − µ i ) 2 > 1 Cˆ j ⋅e 1 − ⋅( x − µ j )T Cˆ j −1 ( x − µ j ) 2 a partire dalla quale, applicando il logaritmo naturale ad ambo i membri e moltiplicando per -2, otteniamo la seguente disuguaglianza 1 1 −1 −1 − 2 ⋅ ln P (i ) + ln Ci − ⋅ ( x − µi )T Cˆ i ( x − µi ) > −2 ⋅ ln P ( j ) + ln C j − ⋅ ( x − µ j )T Cˆ j ( x − µ j ) 2 2 Quest'ultima espressione può essere riscritta nel modo seguente d i ( x) − 2 ⋅ ln Ci < d j ( x) − 2 ⋅ ln C j (2.18) che rappresenta una funzione discriminante quadratica. Indicando con −1 d i ( x) = ln Ci + ⋅( x − µi )T Cˆ i ( x − µi ) (2.19) e, considerando le matrici di covarianza uguali per i due oggetti i e j, si semplifica ulteriormente la relazione che, posto C = Ci = Cj, assumerà la forma −1 −1 −1 −1 T − 2 ⋅ ln P (i ) − 2 ⋅ µiCˆ i xT + µiCˆ i µ T < −2 ⋅ ln P ( j ) − 2 ⋅ µ j Cˆ j xT + µ j Cˆ j µ j , avendo posto −1 −1 −1 −1 T ( x − µi )T Cˆ i ( x − µi ) = xCˆ i xT − 2 ⋅ µi Cˆ i xT + µiCˆ i µi , e sottolineando che −1 T (2.20) d M = µ i Cˆ i µ i rappresenta la cosiddetta distanza di Mahalanobis. Infine, moltiplicando ambo i membri della (2.20) per − 1 2 , otteniamo l'espressione 1 1 −1 −1 −1 −1 T ln P (i ) + µ i Cˆ i x T − µ i Cˆ i µ T > ln P ( j ) + µ j Cˆ j x T − µ j Cˆ j µ j . 2 2 Ponendo 1 −1 −1 f i = ln P (i ) + µ i Cˆ i x T − µ i Cˆ i µ T (2.21) 2 abbiamo trovato la nostra funzione discriminante lineare. In base a tale risultato si assegna l'oggetto x al gruppo i se fi > fj, ∀i ≠ j . Per l'analisi discriminante lineare, mediante minimizzazione dell'errore di classificazione, si è assunto che la funzione di distribuzione delle variabili in gioco sia una Distribuzione Normale Multivariata e che le variabili abbiano la stessa matrice di covarianza. Nel caso in cui i gruppi fossero tre sarebbe necessario che f1 > f2 e f1 > f3 per appartenere al gruppo 1, f2 > f1 e f2 > f3 per appartenere al gruppo 2 ed infine f3 > f1 e f3 > f2 per appartenere al gruppo 3. Mauro Ennas – Elementi di linear discriminant analysis per la classificazione ed il posizionamento nelle ricerche di marketing. 12 Linear Discriminant Analysis – http://www.mauroennas.eu Esempio numerico: calcolo delle matrici di covarianza Si considerino due caratteristiche misurabili automaticamente di un prodotto industriale2 di nuova produzione e si indichi il risultato di un test di controllo della qualità in una lista contenente le serie di campioni analizzati nella fase di test dell'impianto di produzione. All'arrivo di un nuovo campione vogliamo verificare se è conforme alle caratteristiche degli altri campioni che hanno superato il test. Si indica il risultato del test in termini di non superato (1) e superato (2). A questo scopo si costruisce la matrice dei dati, che nel caso specifico sarà costituita da una matrice X̂ formata da due blocchi X̂ = [X1, X2], il primo (X1) di sette elementi (n1 = 7) e il secondo (X2) di tredici elementi (n2 = 13), per un totale di 2 n = ∑k =1 nk = n1 + n2 = 20 r elementi osservati; si indichi con y la collezione dei risultati del test. I blocchi corrispondono al numero di gruppi di discriminazione che nel caso in esame è due (K = 2): Le due colonne della matrice X̂ rappresentano i vettori delle caratteristiche x1c e x2c, mentre le venti righe rappresentano i venti vettori bidimensionali delle osservazioni xio, che per i = 7 (che non ha superato il test, y7 = 1) vale x7o = [x7,1 x7,2] = [5,500 5,008] e analogamente per i = 20 (che ha superato il test, y20 = 2) vale x20o = [x20,1 x20,2] = [3,103 4,204]. I due blocchi di misure relativi ai due gruppi di discriminazione X1 e X2. Per il primo gruppo (associato alla matrice X1 di dimensione 2×7) calcoliamo la media colonna per colonna ∀i ∈ [1, n1 ] : n1 n1 ∑ xi1 ∑ xi 2 µ1 = k =1 , k =1 = (6.177,4.645) n n1 1 Analogamente per il secondo gruppo (associato alla matrice X2 di dimensione 2 × 13) si calcola la media colonna per colonna ∀i ∈ [1, n2 ] : 2 E’ stato scelto un esempio nel caso industriale per enfatizzare le caratteristiche metriche dei dati di input. Nelle ricerche di marketing verranno utilizzati dei punteggi (score) assegnati a risposte a questionari da parte dei clienti: tali scale sono per ipotesi quantitative. Mauro Ennas – Elementi di linear discriminant analysis per la classificazione ed il posizionamento nelle ricerche di marketing. 13 Linear Discriminant Analysis – http://www.mauroennas.eu n2 n2 ∑ xi1 ∑ xi 2 µ 2 = k =1 , k =1 = (4.266,4.035) n n2 2 r r r r La media totale µ sarà data da µ = (n1µ1 + n2 µ 2 ) / n = [4,935 4,249]. Per il calcolo delle matrici di covarianza si considerano le variabili standardizzate Z1 e Z2 tali che Z = (X-µ)/σ: tali variabili assumeranno media nulla e varianza unitaria. Le matrici di covarianza nei due gruppi sono3 date da Wk = Z kT Z k nk e sono La matrice di covarianza complessiva è data da con w11 = 7 20 ⋅1,330 + 13 20 ⋅ 0,744 = 0, 465 + 0,484 = 7 20 ⋅1,863 + 13 20 ⋅ 0, 457 = 0,949 , si procede allo stesso modo per calcolare w12 = w21 = 0, 115. L'inversa della matrice Ŵ con det( Ŵ ) ≠ 0 è Il vettore delle probabilità a priori (basate sulle frequenze relative) per ogni gruppo i ∈ [1, K ] sono pari rispettivamente a P1 = n1 n = 7 20 = 0,35 e P2 = n2 n = 13 20 = 0,65 : A questo punto abbiamo tutti gli elementi per calcolare le funzioni discriminanti lineari ∀i ∈ [1,2] 1 −1 −1 f i = ln P (i ) + µ i Cˆ i x T − µ i Cˆ i µ T . 2 Tale calcolo porterà alla determinazione dei valori come mostrato in Figura 1, che ci permette di assegnare al gruppo k-esimo con k ∈ [1,2] il profilo xi se fi > fj, ∀i ≠ j . 3 In pratica SPSS calcola la covarianza con la formula ~ ~ ~ Wk = Z kT Z k (nk − 1) , dove Z k = ( Z k − Z k ) , con Z k la media del groppo k, e non con la covarianza standardizzata (che richiederebbe un’ulteriore divisione per la deviazione standard). Chiaramente valori differenti delle matrici di covarianza portano a risultati differenti della discriminazione lineare, come illustrato nel file PW_PARMA_ENNAS_ADL_finale_due_gruppi_SPSS_like.xls, dove questo esempio numerico è stato ricalcolano utilizzando le stesse definizioni degli algoritmi di SPSS. Mauro Ennas – Elementi di linear discriminant analysis per la classificazione ed il posizionamento nelle ricerche di marketing. 14 Linear Discriminant Analysis – http://www.mauroennas.eu Esempio con Excel: calcolo delle funzioni discriminanti I calcoli eseguiti nel precedente paragrafo possono essere realizzati praticamente con un foglio di calcolo come MS Excel. La Figura 1 esemplifica la tabella dei dati d'ingresso. Le matrici calcolate a partire dai dati della tabella di input, sono indicate nella Figura 1. Disponendo i dati d'ingresso nel piano γ delle caratteristiche X1c × X2c (2.3) e i punti rappresentativi dei profili degli oggetti (Figura 4) nel piano trasformato delle funzioni discriminanti f1 × f2, notiamo che il nuovo punto Pnuovo = (5,500 4,680) viene classificato nel gruppo 1 (test non superato) con f (Pnuovo )= (23,230 23,165). Nella Figura 2 abbiamo rappresentato il risultato del calcolo delle matrici di covarianza usando Excel e le formule di calcolo utilizzate da SPSS. Le matrici calcolate sono quelle delle covarianza nei gruppi 1 (W1) e 2 (W2), la covarianza totale (W) e la covarianza tra i gruppi (pooled within group, PWD). Quest’ultima è data dalla somma pesata delle covarianza nei gruppi, con pesi le probabilità di appartenenza ai gruppi (rappresentate dalle frequenze relative P1=n1/n e P2=n2/n). a priori variabili variabili standardizzate funzioni discriminanti a posteriori gruppo X1 X2 Z1 Z2 f1 f2 discrimina 1 6,907 4,004 1,652 -0,395 -0,278 -1,435 1 1 6,523 3,800 1,331 -0,724 -0,790 -1,160 1 1 5,300 5,700 0,306 2,343 -0,158 -1,500 1 1 6,898 3,700 1,645 -0,885 -0,556 -1,286 1 1 5,903 4,900 0,811 1,052 -0,348 -1,398 1 1 6,206 5,405 1,065 1,867 0,361 -1,779 1 1 5,500 5,008 0,474 1,226 -0,600 -1,262 1 2 5,305 4,104 0,310 -0,233 -1,570 -0,740 2 2 4,705 4,204 -0,192 -0,072 -1,998 -0,509 2 2 5,205 4,204 0,227 -0,072 -1,567 -0,741 2 2 3,904 4,004 -0,863 -0,395 -2,866 -0,042 2 2 5,405 3,704 0,394 -0,879 -1,839 -0,595 2 2 4,304 3,804 -0,528 -0,717 -2,699 -0,132 2 2 3,103 4,605 -1,534 0,575 -3,023 0,043 2 2 3,904 4,104 -0,863 -0,233 -2,777 -0,090 2 2 4,104 4,505 -0,696 0,414 -2,249 -0,374 2 2 4,304 3,103 -0,528 -1,849 -3,321 0,203 2 2 4,905 4,004 -0,025 -0,395 -2,003 -0,506 2 2 3,203 3,904 -1,450 -0,556 -3,559 0,331 2 2 3,103 4,204 -1,534 -0,072 -3,379 0,234 2 nuovo 5,500 4,680 0,474 0,696 -0,891 -1,106 1 media 4,935 4,249 0,000 0,000 -1,761 -0,637 varianza 1,425 0,384 1,000 1,000 1,497 0,434 Dev. std. 1,194 0,620 1,000 1,000 1,224 0,659 Figura 1 – Le variabili indipendenti Xc=(X1,X2) rappresentano le caratteristiche X1c e X2c per ognuno degli n=25 eventi osservati e classificati; Z=(Z1,Z2) sono le variabili standardizzate corrispondenti e F=(f1,f2) i valori delle due funzioni discriminanti lineari ricavare tramite il metodo bayesiano della minimizzazione della probabilità di errore (Tabella Excel nel caso di due gruppi). Mauro Ennas – Elementi di linear discriminant analysis per la classificazione ed il posizionamento nelle ricerche di marketing. 15 Linear Discriminant Analysis – http://www.mauroennas.eu W1 PWD 1,331 0,153 0,153 1,864 0,950 0,115 0,115 0,950 W2 iPWD 0,745 0,095 0,095 0,458 1,068 -0,129 -0,129 1,068 (P1, P2) nk Frequenze Media X1 Media X2 Gruppo 1 7,000 0,350 1,041 0,640 Mg1 Gruppo 2 13,000 0,650 -0,560 -0,345 Mg2 n 20,000 1,000 0,000 0,000 Figura 2 – Matrici di covarianza nel caso con due gruppi: la matrice della covarianza nei gruppi (pooled within group, PWG) è stata ricavata come combinazione lineare dei coefficienti delle matrici W1 e W2 con pesi le probabilità a priori (frequenze relative) di appartenere al gruppo. Figura 3 – I punti nel piano X1X2 rappresentano le osservazioni xio con i=1…n nel caso con due gruppi; il punto in evidenza è il nuovo punto classificato nel gruppo 1 mediante ADL. Figura 4 – Nel piano delle funzioni discriminanti lineari f1f2 i punti trasformati a partire dalle variabili standardizzate (Z1, Z2) delle variabili indipendenti (X1,X2) nel caso di due gruppi si dispongono su una retta: il caso in esame equivale al caso, monodimensionale, di appartenenza o meno al gruppo, ruotando la retta si può rappresentare su un solo asse senza perdita d’informazione. Mauro Ennas – Elementi di linear discriminant analysis per la classificazione ed il posizionamento nelle ricerche di marketing. 16 Linear Discriminant Analysis – http://www.mauroennas.eu variabili standardizzate funzioni discriminanti a priori variabili gruppo X1 X2 Z1 Z2 f1 1 6,91 4,00 1,48 0,27 -0,13 -2,17 -4,67 1 1 6,52 3,80 1,16 0,12 -0,77 -1,94 -4,37 1 1 5,30 5,70 0,11 1,49 0,13 -0,64 -9,01 1 1 6,90 3,70 1,48 0,05 -0,49 -2,23 -4,01 1 1 5,90 4,90 0,63 0,91 -0,15 -1,25 -7,02 1 1 6,21 5,41 0,89 1,27 0,75 -1,35 -8,02 1 1 5,50 5,01 0,28 0,99 -0,45 -0,94 -7,41 1 2 5,31 4,10 0,12 0,34 -1,70 -1,01 -5,49 2 2 4,71 4,20 -0,39 0,41 -2,22 -0,56 -5,93 2 2 5,21 4,20 0,03 0,41 -1,69 -0,92 -5,74 2 2 3,90 4,00 -1,08 0,27 -3,29 -0,04 -5,79 2 2 5,41 3,70 0,20 0,05 -2,06 -1,17 -4,57 2 2 4,30 3,80 -0,74 0,12 -3,10 -0,37 -5,20 2 2 3,10 4,61 -1,76 0,70 -3,44 0,67 -7,41 2 2 3,90 4,10 -1,08 0,34 -3,17 -0,02 -6,01 2 2 4,10 4,51 -0,91 0,63 -2,50 -0,07 -6,82 2 2 4,30 3,10 -0,74 -0,38 -3,91 -0,53 -3,65 2 2 4,91 4,00 -0,22 0,27 -2,24 -0,75 -5,41 2 2 3,20 3,90 -1,68 0,20 -4,14 0,44 -5,82 2 2 3,10 4,20 -1,76 0,41 -3,90 0,58 -6,52 2 3 6,50 1,81 1,14 -1,31 -3,09 -2,38 0,02 3 3 5,70 1,23 0,45 -1,72 -4,59 -1,94 0,99 3 3 6,00 0,40 0,71 -2,32 -5,24 -2,34 2,94 3 3 6,40 0,90 1,05 -1,96 -4,24 -2,51 1,98 3 3 5,90 1,50 0,62 -1,53 -4,07 -2,02 0,47 3 nuovo 5,50 4,68 0,28 0,75 -0,83 -1,02 -6,68 1 f2 a posteriori f3 media 5,17 3,63 0,00 0,00 -2,39 -1,02 -4,50 varianza 1,37 1,93 1,00 1,00 2,83 0,96 10,44 dev. std. 1,17 1,39 1,00 1,00 1,68 0,98 3,23 discrimina Figura 5 – Le funzioni discriminanti lineari F=(f1,f2, f3) nel caso di tre gruppi (Tabella Excel4, K=3). 4 L’esempio è quello calcolato nel foglio PW_PARMA_ENNAS_ADL_finale_tre_gruppi_SPSS_like.xls, parte integrante di questo documento. Mauro Ennas – Elementi di linear discriminant analysis per la classificazione ed il posizionamento nelle ricerche di marketing. 17 Linear Discriminant Analysis – http://www.mauroennas.eu W1 W3 PWD 0,300 -0,272 -0,272 0,336 0,084 0,024 0,024 0,153 0,353 -0,096 -0,096 0,163 nk Frequenze W2 W iPWD 0,484 -0,048 -0,048 0,073 1,000 -0,319 -0,319 1,000 3,383 2,004 2,004 7,331 (P1, P2) Media X1 Media X2 Gruppo 1 7 0,280 0,861 0,728 Mg1 Gruppo 2 13 0,520 -0,770 0,289 Mg2 Gruppo 3 5 0,200 0,795 -1,772 Mg3 n 25 1,000 0,000 0,000 Figura 6 - Matrici della covarianza nei gruppi, covarianza totale e loro matrici inverse. Figura 7 - Rappresentazione degli oggetti standardizzati Z1, Z2 nei piano trasformato delle prime due funzioni canoniche f1 f2 (nel caso con tre gruppi): si evidenzia una consistenza della rappresentazione in tre gruppi distinguibili; sono assenti punti isolati rilevanti che avrebbero potuto introdurre errori di classificazione. Mauro Ennas – Elementi di linear discriminant analysis per la classificazione ed il posizionamento nelle ricerche di marketing. 18 Linear Discriminant Analysis – http://www.mauroennas.eu Figura 8 – Rappresentazione degli oggetti standardizzati Z1 Z2 nei piano trasformato delle funzioni discriminanti lineari: f2 f3 (nel caso con tre gruppi). La frontiera di decisione tra due distribuzioni gaussiane con identica matrice di covarianza è lineare. Il metodo ADL (bayesiano) assume questa evidenza sottostante al modello e calcola la frontiera lineare come se ciò fosse realmente vero, in realtà la frontiera segue le linee di densità delle distribuzioni gaussiane adiacenti ma in prima approssimazione può essere pensata lineare. I limiti di questo approccio si evidenziano quando sono presenti punti isolati rilevanti e tali da spostare le medie dei gruppi: in tal caso l’approccio ADL presenta una percentuale di errori di discriminazione maggiore di quella di altri metodi non lineari come ad esempio la regressione logistica. I modelli logistici seguono la funzione sigmoide, non una funzione lineare e l’effetto dei punti isolati viene smorzato. La regressione logistica risulta più robusta dell’analisi discriminante lineare. Le reti neurali e le tecniche SVM (Support Vector Machine) [15][20][1] sono metodi paralleli generalizzati di regressione logistica. Figura 9 – Rappresentazione degli oggetti standardizzati Z1 Z2 nei piano trasformato delle funzioni discriminanti lineari: f1 f3 (nel caso con tre gruppi). Mauro Ennas – Elementi di linear discriminant analysis per la classificazione ed il posizionamento nelle ricerche di marketing. 19 Linear Discriminant Analysis – http://www.mauroennas.eu Esempio con R: predizione dell’appartenenza ad un gruppo Nel seguito si considererà un esempio di applicazione delle librerie di discriminazione lineare utilizzate dal software di statistica di pubblico dominio R. Non ci si soffermerà sui dettagli ma si valuterà la consistenza dei risultati fin qui ottenuti, ripetendo il calcolo con le librerie statistiche del pacchetto MASS di R. ed in particolare le funzioni lda (linear discriminant analysis) e la funzione predict. Il dataset utilizzato è lo stesso utilizzato nel calcolo con Excel. Si sono utilizzate le variabili standardizzate Z1 e Z2 e il vettore delle variabili dipendenti Y. Nella predizione viene introdotto il valore Y(26)=3 errato perché la funzione lda non ammette l’assenza del dato. Il modello predice correttamente il valore del nuovo punto assegnandolo al gruppo 1 cosi come avevamo ottenuto con Excel. L’algoritmo è quello bayesiano, la discriminazione è dello stesso tipo di quella analizzata nelle pagine precedenti. Per maggiori dettagli sul formato degli input delle funzioni si rimanda a [7]. --Z1<-c(1.483972592,1.156354689,0.112925796,1.476294047,0.627388284,0.885899285,0.28356012,0.117191654,0.394711319,0.031874492,-1.078101788,0.202508816,-0.736833139,-1.761492257,-1.078101788,-0.907467464,-0.736833139,0.224076995,-1.676175095,-1.761492257,1.136731742,0.454194445,0.710145931,1.05141458,0.624828769,0.284) Z2<c(0.267119414,0.120445317,1.486527593,0.04854625,0.911335056,1.274425345,0.988986048,0.339018481,0.410917549,0.4109 17549,0.267119414,0.051422213,0.12332128,0.699232808,0.339018481,0.627333741,0.380691181,0.267119414,0.195220347,0.410917549,-1.3117841,-1.724484745,-2.324122965,-1.96462763,-1.533233227,0.753) Y<-c(1,1,1,1,1,1,1,2,2,2,2,2,2,2,2,2,2,2,2,2,3,3,3,3,3,3) data <- data.frame(Z1,Z2,Y) names(data)<-c("Z1", "Z2","Y") library(MASS) g<-lda(Y ~ Z1 + Z2, data = data, CV=TRUE) results<-data.frame(Y, Z1, Z2, g$class, g$posterior) names(results)=c("Y","Z1","Z2","G","f1","f2","f3") results[1:length(Z1),] plot(results) g1<-lda(Y ~ Z1 + Z2, data = data) v2<-predict(g1,data) v3<-data.frame(v2) plot(v3) --- Script 1 - Script R per l'analisi ADL e la classificazione predittiva di un nuovo elemento [16]. Mauro Ennas – Elementi di linear discriminant analysis per la classificazione ed il posizionamento nelle ricerche di marketing. 20 Linear Discriminant Analysis – http://www.mauroennas.eu Tabella 2 - Risultati dell'analisi predittiva. Figura 10 - Diagrammi delle funzioni discriminanti nel caso di 3 gruppi (calcolati con R). Mauro Ennas – Elementi di linear discriminant analysis per la classificazione ed il posizionamento nelle ricerche di marketing. 21 Linear Discriminant Analysis – http://www.mauroennas.eu Analisi discriminante lineare con SPSS Nel seguito si descriverà l'analisi discriminante lineare utilizzando il software statistico SPSS con le caratteristiche indicate in Syntax 1. La variabile GROUPS definisce la variabile dipendente (y) ossia la variabile che specifica i raggruppamenti predefiniti delle variabili. Nel caso in esame, per forzare una rappresentazione bidimensionale, abbiamo aggiunto un gruppo rispetto all'esempio numerico ed equivalente all’esempio condotto con Excel (nel caso con tre gruppi). Teniamo conto del fatto che gli algoritmi utilizzati da SPSS fanno parte di un sistema integrato di analisi statistica che utilizza svariati metodi per testare e validare i risultati, a differenza della nostra esemplificazione che è basata esclusivamente sul semplice modello esposto, in definitiva non è detto che tutti gli oggetti posti in prossimità delle frontiere dei domini vengano classificati allo stesso modo dell'esempio numerico con Excel, anche se negli esempi esposti in questo report si è riscontrata la coincidenza dei risultati ottenuti sugli stessi dati che indica la convergenza delle tecniche e dei criteri adottati. La variabile VARIABLES indica che stiamo analizzando le variabili indipendenti standardizzate Z1 e Z2. Il flag ALL della variabile ANALYSIS definisce una molteplicità di analisi realizzate sugli stessi dati di input costituiti da tre colonne (Z1, Z2 e y), tutte quelle selezionate dai pannelli di configurazione dell’applicazione ADL in SPSS. Syntax 1 - SPSS Analisi Discriminante Lineare. Il parametro SIZE della variabile di comando PRIORS indica che le probabilità a priori dei gruppi verranno calcolare in base alla numerosità relativa del campione (frequenze relative) anziché considerare gruppi equiprobabili (EQUAL). La variabile di comando STATISTICS indica la lista delle statistiche che concorrono al risultato dell'analisi discriminante. PLOT specifica la tipologia di rappresentazione grafica realizzata: COMBINED indica che i gruppi saranno rappresentati insieme, CASES indica che le statistiche verranno riportate in output, MAP specifica che tra gli output ci sarà anche la mappa territoriale (Figura 11). Infine la variabile CLASSIFY gestisce i casi di classificazione, l'opzione NONMISSING esplicita che verranno trattati solo casi che non presentano dati mancanti e POOLED che per la classificazione si utilizzerà la matrice di covarianza entro i gruppi (pooled within sample, Tabella 10). Vi sono ulteriori opzioni che vengono utilizzate per classificare i soli casi non selezionati (UNSELECTED), oppure indicano che verranno utilizzate le matricidi covarianza di ogni gruppo separato (SEPARATE), o ancora che classificheranno solo i casi non classificati (UNCLASSIFIED) ed infine che sostituiscono i valori mancanti delle variabili indipendenti con le media (MEANSUB). La tabella delle statistiche di gruppo (Tabella 3) presenta le statistiche descrittive (media, deviazione standard, numero di casi) per i tre gruppi del campione totale, mentre la tabella dei "Test di uguaglianza delle medie di gruppo" (Tabella 4) presenta i risultati comparativi dei test che verificano l'ipotesi di uguaglianza delle medie tra i gruppi: in pratica tanto più le medie sono diverse tanto più i gruppi saranno differenziati. Mauro Ennas – Elementi di linear discriminant analysis per la classificazione ed il posizionamento nelle ricerche di marketing. 22 Linear Discriminant Analysis – http://www.mauroennas.eu Validi (listwise) Y 1 2 3 Totali Media Deviazione std. Non pesati Pesati Z1 ,860857 ,5479040 7 7,000 Z2 ,728143 ,5800909 7 7,000 Z1 -,769385 ,6958874 13 13,000 Z2 ,289154 ,2700154 13 13,000 Z1 ,795400 ,2893550 5 5,000 Z2 -1,771600 ,3914643 5 5,000 Z1 ,000040 ,9998630 25 25,000 Z2 -,000080 ,9999587 25 25,000 Tabella 3- Statistiche di gruppo. Z1 Z2 Lambda di Wilks F df1 df2 Sig. ,331 ,146 22,210 64,274 2 2 22 22 ,000 ,000 Tabella 4 - Test di uguaglianza delle medie di gruppo. F M di Box Appross. 13,573 1,883 df1 6,000 df2 1674,937 Sig. ,080 Test dell'ipotesi nulla che le matrici di covarianza siano uguali nella popolazione. Tabella 5 - Test di Box. Funzione Autovalore % di varianza % cumulata Correlazione canonica 1 2 6,358a 2,003a 76,0 24,0 76,0 100,0 ,930 ,817 a. Per l'analisi sono state usate le prime 2 funzioni discriminanti canoniche. Tabella 6 - Autovalori. Per verificare quali variabili, tra le due in esame (Z1 e Z2), rappresentano medie significative nei gruppi, dobbiamo riferirci alla colonna "Sig." cercando valori che risultino inferiori a 0.05. Nel nostro caso entrambe le variabili soddisfano il requisito e quindi possiamo dedurre che le medie delle variabili in esame sono rappresentative nei gruppi con probabilità maggiore del 95%. In Tabella 5 viene rappresentato il risultato del Test di Box che ha come ipotesi nulla l'uguaglianza delle medie dei gruppi e come risultato "Sig = 0.080" che risulta maggiore di 0.05 e quindi non si può non accettare l'ipotesi nulla e le matrici di varianzacovarianza risultano avere un certo grado di omogeneità. Osservando la tabella in Tabella 6 (“Autovalori”) è possibile capire qual è la percentuale di varianza spiegata dalle due funzioni discriminanti, 76.0 e 24,0 ovvero le due funzioni insieme spiegano interamente la varianza tra i gruppi. Sempre dalla Tabella 6 si può rilevare che la relazione che lega ciascuna funzione discriminante con il gruppo di appartenenza degli oggetti (indicata dalla colonna della "Correlazione canonica") sia 0.93 e 0.817, valori questi che essendo prossimi all’unità denotano un’elevata correlazione col gruppo di appartenenza; ciò evidenzia ancora che le due funzioni sono entrambe buone discriminanti dei gruppi in Mauro Ennas – Elementi di linear discriminant analysis per la classificazione ed il posizionamento nelle ricerche di marketing. 23 Linear Discriminant Analysis – http://www.mauroennas.eu esame. In Tabella 7 esaminando la colonna "Sig." è chiaro che entrambe le funzioni discriminanti sono significative. Test di funzioni Lambda di Wilks Chi-quadrato Df Sig. Da 1 a 2 2 ,045 ,333 66,551 23,641 4 1 ,000 ,000 Tabella 7 - Lambda di Wilks. L'esempio analizzato nel presente report è molto semplice e poiché le due sole funzioni discriminanti spiegano la totalità della varianza ogni test cui sono sottoposte fornisce risposte coerenti con questo dato di fatto; in esempi più complessi con più di due funzioni discriminanti avremo che solo alcune (solitamente due o tre) funzioni discriminanti danno informazione significativa per l'analisi. E’ possibile individuare quali sono le variabili che contribuiscono maggiormente alla definizione di ogni funzione discriminante esaminando la "Matrice di struttura" nella tabelle in Tabella 8: si interpreta la sola colonna relativa alla prima funzione discriminante canonica, utilizzando come soglia euristica di significatività il valore 0.30: l'unica variabile significativa risulta Z2, ciò significa che la funzione discriminante 1 è in grado di garantire una efficace rappresentazione della variabile Z2. Funzione Z2 Z1 1 2 ,939* -,344 ,998* -,061 Correlazioni comuni entro gruppi tra variabili discriminanti e funzioni discriminanti canoniche standardizzate Variabili ordinate in base alla dimensione assoluta della correlazione entro la funzione. *. Correlazione assoluta più grande tra ciascuna variabile e qualsiasi funzione discriminante Tabella 8 - Matrice di struttura. Funzione Z2 Z1 1 2 ,375 1,089 1,025 ,067 Tabella 9 - Coefficienti standardizzati delle funzioni discriminanti canoniche. I "Coefficienti standardizzati delle funzioni discriminanti canoniche" danno informazioni su quali variabili sono più ridondanti, per ogni funzione discriminante. In Tabella 9 possiamo tentare, anche se non esiste un criterio assoluto, a confrontare i valori fissando una colonna (prima funzione canonica): la prima colonna è quella più significativa, i valori più bassi hanno minore influenza sugli altri (in termini di correlazione) di quelli più alti. Le matrici di covarianza calcolate entro i gruppi (Tabella 10) e quelle su ogni gruppo separato e complessivamente su tutti gli oggetti (Tabella 11). Le prime (Tabella 10) sono le cosi dette matrici Pooled Within Group e risultano dalla media ponderata delle matrici di covarianza-correlazione di ciascun gruppo. Mauro Ennas – Elementi di linear discriminant analysis per la classificazione ed il posizionamento nelle ricerche di marketing. 24 Linear Discriminant Analysis – http://www.mauroennas.eu Covarianza Correlazione Z1 Z2 Z1 ,361 -,096 Z2 -,096 ,159 Z1 1,000 -,400 Z2 -,400 1,000 a. La matrice di covarianza ha 22 gradi di libertà. Tabella 10 - Matrice di covarianza inter-gruppo. Le variabili considerate sono due (Z1, Z2) e rappresentano le variabili standardizzate a partire da X1 e X2, i gruppi sono tre, indicati rispettivamente (1, 2, 3). Nella tabella in figura (Tabella 9) sono presenti coefficienti non standardizzati delle funzioni discriminanti, che possono essere utilizzati per calcolare eventuali punteggi (score) di nuovi oggetti non inclusi nel campione in analisi. La Tabella 13 indica le probabilità a priori utilizzate nella fase di classificazione (esiste un'opzione di equiprobabilità può scelta tra le possibili opzioni in SPSS). La Tabella 14 riporta i coefficienti delle funzioni di classificazione che vengono utilizzati per classificare nuovi soggetti per i quali non si dispone dell'informazione di appartenenza al gruppo. I nuovi oggetti vengono assegnati al gruppo che presenta il valore più elevato in una delle funzioni di classificazione. La mappa del territorio (Figura 11) rappresenta graficamente i confini delle zone di appartenenza dei tre gruppi individuati attraverso i centroidi (*) dei gruppi, considerando le prime due funzioni discriminanti; ed infine la Figura 12 indica graficamente gli oggetti dei gruppi, i gruppi e la collocazione del nuovo oggetto riclassificato. Y 1 2 3 Totali Z1 Z2 Z1 ,300 -,272 Z2 -,272 ,337 Z1 ,484 -,048 Z2 -,048 ,073 Z1 ,084 ,024 Z2 ,024 ,153 Z1 1,000 -,319 Z2 -,319 1,000 a. La matrice di covarianza globale ha 24 gradi di libertà. Tabella 11 - Matrici di covarianza. Funzione Z1 Z2 1 2 ,375 1,089 1,025 ,067 Tabella 12 - Coefficienti delle funzioni discriminanti canoniche. Mauro Ennas – Elementi di linear discriminant analysis per la classificazione ed il posizionamento nelle ricerche di marketing. 25 Linear Discriminant Analysis – http://www.mauroennas.eu Casi usati nell'analisi Y A priori Non pesati Pesati 1 2 3 Totali ,280 ,520 ,200 1,000 7 13 5 25 7,000 13,000 5,000 25,000 Tabella 13 - Probabilità a priori. Y Z1 Z2 (Costante) 1 2 3 4,285 7,151 -5,721 -1,962 ,631 -1,500 -,899 -11,656 -11,577 Funzioni discriminanti lineari di Fisher Tabella 14 - Coefficienti della funzione di classificazione. Numerosità dei gruppi K=3 Numerosità delle osservazioni N=n1+n2+n3=25 Gradi di libertà (Totali) dfT=N-1=24 Gradi di libertà (Modello) dfM=K-1=2 Gradi di libertà (Residui) dfR= dfT- dfM=N-K=24-2 Tabella 15 - Gradi di libertà. Rapporti SS MS Modello = T dfT MS Re sidui = F= SS R df R MS Modello MS Re sidui X1 X2 11,02 19,82 0,50 0,31 22,21 64,29 Tabella 16 - F ratio. Devianze SS T = ∑ ( xi − x pop ) 2 X1 X2 Z1 Z2 32.97 46.43 24.00 24.00 i SS M = ∑ n gruppo ( x gruppo − x pop ) 2 22.05 39.65 16.05 20.49 i SS R = ∑ ( xi − x gruppo ) 2 10.92 6.78 7.95 3.51 i SS T = σ X2 ⋅ ( N − 1) SS R = σ 12 ⋅ (n1 − 1) + σ 22 ⋅ (n 2 − 1) + σ 32 ⋅ (n3 − 1) SS T = SS M + SS R Tabella 17 - Devianze calcolate (ANOVA). Mauro Ennas – Elementi di linear discriminant analysis per la classificazione ed il posizionamento nelle ricerche di marketing. 26 Linear Discriminant Analysis – http://www.mauroennas.eu Figura 11 - Mappa del territorio. I risultati della classificazione mediante ADL risultano in accordo con l’indicazione a priori. Se avessimo utilizzato un set che associava casualmente i punti ai gruppi avremo avuto una notevole discrepanza nella classificazione a posteriori. Se aggiungiamo degli elementi come abbiamo fatto nell’esempio numerico, il valore viene classificato e i dati relativi ai vettori delle caratteristiche vengono resi parte dei dati classificati nelle elaborazioni statistiche successive. Possiamo notare come vi sia coincidenza nella classificazione e nella rappresentazione dei dati oltre che nei valori delle matrici di covarianza nei gruppi e tra i gruppi. Inoltre possiamo osservare che la mappa del territorio altro non è se non il risultato di una analisi dei 3 cluster di dati che emergono dalla classificazione, in altri termini lo spazio bidimensionale di rappresentazione può essere suddiviso in zone cui apparterranno i punti classificati. Tali zone (tre come i gruppi) varieranno in forma al variare del numero e della consistenza dei dati rappresentati. Mauro Ennas – Elementi di linear discriminant analysis per la classificazione ed il posizionamento nelle ricerche di marketing. 27 Linear Discriminant Analysis – http://www.mauroennas.eu Figura 12 - Rappresentazione dei tre gruppi (SPSS). Tabella 18 - Risultati della classificazione. Mauro Ennas – Elementi di linear discriminant analysis per la classificazione ed il posizionamento nelle ricerche di marketing. 28 Linear Discriminant Analysis – http://www.mauroennas.eu Limiti dell’analisi discriminante lineare Il risultato dell’analisi è fortemente legato alla qualità dei dati d’ingresso, ciò implica il rischio di risultati che soffrono l’incompletezza delle valutazioni iniziali. Inoltre la metodologia tende a dare maggiore rilievo agli attributi che hanno maggiore “potere discriminante” tra i dati osservati (persone, prodotti, servizi e aziende), mentre può succedere che attributi significativi da un punto di vista concettuale, ma scarsamente differenziati, siano trascurati anche se decisivi. Infine, c’è da sottolineare l’elevata sensibilità del metodo alla presenza di nuovi elementi o alla sottrazione di elementi presenti; infatti effettuando più analisi con dataset differenti per un seppur piccolo (al limite un elemento) numero di elementi, si rileva il cambiamento dello spazio di decisione: ciò significa che la scelta degli attributi assume un’importanza rilevante rispetto alla qualità dei risultati. Mauro Ennas – Elementi di linear discriminant analysis per la classificazione ed il posizionamento nelle ricerche di marketing. 29 Linear Discriminant Analysis – http://www.mauroennas.eu Mauro Ennas – Elementi di linear discriminant analysis per la classificazione ed il posizionamento nelle ricerche di marketing. 30 Linear Discriminant Analysis – http://www.mauroennas.eu Mauro Ennas – Elementi di linear discriminant analysis per la classificazione ed il posizionamento nelle ricerche di marketing. 31 Linear Discriminant Analysis – http://www.mauroennas.eu Glossario Analisi discriminante lineare E’ un metodo di analisi statistica multivariata che permette di attribuire degli individui a uno di più gruppi. Per giungere ad un criterio ottimale si utilizzano funzioni discriminanti, le quali ricevono come valori variabili che si ritiene abbiano un'importanza per la bontà dell'attribuzione. Analisi dei fattori E’ una tecnica di statistica multivariata che si propone di individuare le dimensioni fondamentali di un fenomeno descritto da un insieme di n variabili quantitative. Analisi statistica multivariata Con statistica multivariata s'intende quella parte della statistica in cui l'oggetto dell'analisi è per sua natura formato da almeno due componenti, il che è spesso il caso nell'ambito di scienze quali la medicina, psicologia, sociologia, ecologia e biologia. Fanno parte della statistica multivariata metodi quali: analisi della correlazione canonica e analisi delle componenti principali analisi fattoriale analisi delle corrispondenze analisi dei cluster analisi discriminante analisi di regressione multidimensionale Collinearità (o multicollinearità), E’ la condizione nella quale una delle variabili indipendenti è funzione lineare dia altre variabili indipendenti. Nell’ambito della regressione lineare esistono test diagnostici che permettono di rilevare questa condizione (VIF, decomposizione della varianza con fattori inflattivi) e fattori di tolleranza per le singole variabili. Comunalità La varianza totale di una certa variabile può essere rappresentata come costituita da due componenti , una costituita da quella parte di varianza caratteristica della variabile considerata e non condivisa con altre variabili ed una seconda parte costituita da quella parte di varianza in comune (common variance) con la varianza di altre variabili. In genere è presente anche una terza parte che appartiene alla varianza della variabile, ma non in modo affidabile, che è detta errore o varianza casuale (random variance). La porzione di varianza comune è detta invece comunalità (communality) [7]. Correlazione Per correlazione si intende una relazione tra due variabili casuali tale che a ciascun valore della prima variabile corrisponda con una certa regolarità un valore della seconda. Non si tratta necessariamente di un rapporto di causa ed effetto ma semplicemente della tendenza di una variabile a variare in funzione di un'altra. Talvolta le variazioni di una variabile dipendono dalle variazioni dell'altra (relazione tra la statura dei padri e quella dei figlio ad esempio), talvolta sono comuni (relazioni tra la statura e il peso di un individuo); talvolta sono reciprocamente dipendenti (relazione tra prezzo e domanda di una merce: il prezzo influisce sulla domanda e la domanda influisce sul prezzo). Il grado di correlazione fra due variabili viene espresso mediante i cosiddetti indici di correlazione. Questi assumono valori compresi tra meno uno (quando le variabili considerate sono inversamente correlate) e l'unità (quando vi sia correlazione assoluta cioè quando alla variazione di una variabile corrisponde una variazione rigidamente dipendente dall'altra), ovviamente un indice di correlazione pari a zero indica un'assenza di correlazione e quindi le variabili sono indipendenti l'una dall'altra. I coefficienti di correlazione sono derivati dagli indici di correlazione tenendo presenti le grandezze degli scostamenti dalla media. In particolare, il coefficiente di correlazione di Pearson è calcolato come rapporto tra la covarianza delle due variabili ed il prodotto delle loro deviazioni standard [7]. Mauro Ennas – Elementi di linear discriminant analysis per la classificazione ed il posizionamento nelle ricerche di marketing. 32 Linear Discriminant Analysis – http://www.mauroennas.eu Covarianza/Varianza E’ un indice che misura la "contemporaneità" della variazione (in termini lineari) di due variabili casuali. Essa può assumere sia valori positivi che negativi. Nel caso di valori positivi indica che al crescere di una caratteristica statisticamente cresce anche l'altra, nel caso di valori negativi accade il contrario. Nella statistica inferenziale, quando due variabili sono tra di loro indipendenti, allora la loro covarianza è nulla (l'inverso non è necessariamente verificato). Si utilizza spesso la notazione: cov( x, y ) = σ xy n σ xy = ∑ ( xi − µ x )( y i − µ y ) i =1 essendo µ x e µ y rispettivamente la media aritmetica di x e y. In caso di ponderazione, k σ xy = ∑ f j ( x j − µ x )( y j − µ y ) j =1 È un operatore simmetrico, cioè cov( x, y ) = cov( y, x) La covarianza può essere scomposta in due termini, diventando 1 n σ xy = ∑ x j y j − µ x µ y n i =1 ovvero la media dei prodotti meno il prodotto delle medie. Quando y=x, allora la covarianza si trasforma in varianza: σ xx = cov( x, x) = var( x) = σ x2 . Deviazione standard (Standard Deviation) Indice di dispersione della popolazione o del campione. Detto anche Scarto Quadratico Medio. Distanza di Mahalanobis E’ una misura di distanza introdotta da P. C. Mahalanobis nel 1936. Essa è basata sulle correlazioni tra variabili attraverso le quali differenti pattern possono essere identificati ed analizzati. Si tratta di un modo per determinare la similarità di uno spazio campionario incognito rispetto ad uno noto. Differisce dalla distanza euclidea in quanto tiene conto delle correlazioni all'interno dell'insieme dei dati. Formalmente la distanza di Mahalanobis di un vettore multivariato rispetto ad un gruppo di valori di valor medio e matrice di covarianza S è definita come: F-ratio E’ il rapporto tra la misura della varianza spiegata dal modello e la varianza spiegata da fattori asistematici. Si calcola dividendo la somma dei quadrati degli scarti dalla media degli elementi dell’intera popolazione con la somma dei quadrati degli scarti dalle medie di gruppo di tutti gli elementi gruppo per gruppo. Gradi di libertà (degree of freedom) Date N variabili indipendenti e calcolata una funzione costante delle N variabili è possibile, mantenendo costante la relazione che le lega, ricavare ogni variabile in funzione delle N-1 restanti. Sottoponendo la funzione f (v1 ,..., v n ) = K , al vincolo K, v j = g (v1 ,..., v j −1 , v j +1 ,..., v N ) può essere determinata conoscendo le altre N-1 variabili restanti. Incertezza standard Mauro Ennas – Elementi di linear discriminant analysis per la classificazione ed il posizionamento nelle ricerche di marketing. 33 Linear Discriminant Analysis – http://www.mauroennas.eu Incertezza del risultato di una misurazione espressa. Nelle statistiche quantitative essa è uguale alla Deviazione Standard (Standard Deviation). Incertezza standard composta L’incertezza tipo del risultato di una misurazione si ha quando il risultato è ottenuto mediante i valori di un certo numero di grandezze; essa è uguale alla radice quadrata positiva di una somma di termini, che sono le varianze o le covarianze di quelle grandezze, pensate secondo la variazione del risultato della misurazione al variare di esse. Intervallo di confidenza Intervallo di valori costruito con una procedura statistica che garantisce che, su 100 intervalli realizzati con tale procedura, il 95% di questi conterrà il valore medio incognito del campione. Lambda di Wilks Rappresenta il prodotto della varianza non spiegata da ciascuna variabile. In pratica corrisponde al rapporto tra la varianza dei residui (varianza errore) e la varianza totale che fornisce un’indicazione di quanta varianza non è stata spiegata. Il Λ di Wilks associa una significatività statistica ai risultati dell’analisi quanto più risulta piccolo ossia quanto maggiore è la varianza spiegata dall’analisi stessa [7]. Livello di misurazione delle variabili Se le variabili assumono valori o categorie ordinate con metrica significativa il loro livello di misurazione è la scala (valori di reddito in euro, età in anni, altezza in cm.) ; se la misura è ottenuta ordinando le categorie secondo una qualche forma intrinseca di ordinamento o classifica (rank) diciamo che il livello di misura è ordinale (grado di interesse per un prodotto, grado di soddisfazione per un servizio); se le categorie sono prive di ordinamento ma rappresentano l’appartenenza ad un gruppo o etichetta, allora il livello di misura è nominale (ad esempio appartenenza a gruppi o religioni). Logit E’ una funzione, che si applica a valori compresi nell'intervallo (0,1), tipicamente valori rappresentanti probabilità. Viene definito come p = ln( p ) − ln(1 − p ) , log it ( p ) = ln 1− p dove p è la probabilità attesa nel verificarsi dell’evento considerato e (1-p) è la probabilità dell’evento complementare; il rapporto è detto odds. Ha come funzione inversa e log it p= 1 + e log it La funzione logit si applica ad esempio nella regressione logistica e nella variabile casuale logistica [21]. Mappa/Mappatura delle percezioni (Perceptual mapping) E’ una tecnica grafica utilizzata nel marketing per tentare di visualizzare la percezione che hanno i potenziali clienti di un determinato prodotto in relazione ad altri prodotti di riferimento. Marketing E’ un ramo dell’economia che si occupa dello studio descrittivo del mercato e dell'analisi dell'interazione del mercato, degli utilizzatori con l'impresa. Il termine prende origine dall'inglese market, cui viene aggiunta la desinenza del gerundio per indicare la partecipazione attiva, cioè l'azione sul mercato stesso. Marketing significa letteralmente "piazzare sul mercato" e comprende quindi tutte le azioni aziendali riferibili al mercato destinate al piazzamento di prodotti, considerando come finalità il maggiore profitto e come causalità la possibilità di avere prodotti capaci di realizzare tale operazione [13]. Mauro Ennas – Elementi di linear discriminant analysis per la classificazione ed il posizionamento nelle ricerche di marketing. 34 Linear Discriminant Analysis – http://www.mauroennas.eu Marketing analitico Consiste in un insieme di tecniche e metodologie volte ad analizzare con metodi quantitativi, il mercato nella sua accezione più larga (dei clienti finali, o degli intermediari, ecc.) per mappare i desideri del cliente, oppure i suoi comportamenti (segmentazione), e per conoscere gli ambiti di mercato già eventualmente occupati dai rivali diretti e indiretti (posizionamento). Marketing strategico Si basa sull'analisi dei bisogni degli individui e delle organizzazioni. Questo primo aspetto del processo di marketing riguarda anzitutto l'individuazione, all'interno del mercato di riferimento, dei prodotti-mercato e dei segmenti già esistenti o potenziali. Di questi il marketing strategico misura l'attrattività in termini quantitativi, qualitativi (con riferimento all'accessibilità al mercato) e dinamici (con riferimento alla durata economica che è rappresentata dal ciclo di vita del prodotto). Tali operazioni consentono di scegliere una strategia di sviluppo che colga le opportunità esistenti sul mercato (rappresentate sostanzialmente da bisogni insoddisfatti) e che, tenendo conto delle risorse e competenze dell'impresa, offrano alla stessa un potenziale di crescita e di redditività attraverso l'acquisizione ed il mantenimento di un vantaggio competitivo [12][13]. Marketing operativo E’ la parte applicativa dell'intero processo di marketing, a monte del quale ci sono le fasi di marketing analitico e marketing strategico. La componente operativa (o tattica) del marketing ha il compito di realizzare concretamente le strategie definite nelle fasi precedenti. le caratteristiche: orientamento all'azione, opportunità esistenti, ambiente stabile, comportamento reattivo, orizzonte a breve termine, responsabilità della funzione di marketing [12][13]. Marketing Mix Indica la combinazione (mix) di variabili controllabili (leve decisionali) di marketing che le imprese impiegano per raggiungere i propri obiettivi. Le variabili che tradizionalmente si includono nel marketing mix sono le 4P teorizzate da Jerome McCarthy e riprese in seguito da molti altri: Product (Prodotto), Price (Prezzo), Place (Distribuzione), Promotion (Comunicazione) [12]. Omoschedastico (processo) Si dice di un processo numerico la cui varianza non cambia tra diverse osservazioni campionarie. Percezione Il complesso processo elettrochimico che connette i livelli sensoriali di un organismo attraverso il sistema nervoso e che opera la sintesi dei dati sensoriali in forme dotate di significato. Posizionamento Il posizionamento di un prodotto può essere visto come una decisione strettamente connesso a quella della selezione dei segmenti di mercato in cui l’impresa decide di competere. Il posizionamento consiste nella misura della percezione che hanno i clienti di un prodotto o di una merce, relativamente alla posizione dei prodotti o delle marche concorrenti. R di Pearson (indice di correlazione) Dividendo la covarianza con il prodotto delle deviazioni standard delle due variabili, si ottiene l'indice di correlazione di Pearson: ρ= σ xy . σ xσ y Nella conjoint analysis viene utilizzato, insieme al Tau di Kendall, per valutare le correlazioni tra le preferenze osservate e quelle stimate Mauro Ennas – Elementi di linear discriminant analysis per la classificazione ed il posizionamento nelle ricerche di marketing. 35 Linear Discriminant Analysis – http://www.mauroennas.eu Regressione lineare La regressione formalizza e risolve il problema di una relazione funzionale tra variabili misurate sulla base di dati campionari estratti da un'ipotetica popolazione infinita. Più formalmente, in statistica la regressione lineare rappresenta un metodo di stima del valore atteso condizionato di una variabile dipendente, dati i valori di altre variabili indipendenti. Segmentazione Col termine “segmentazione” del mercato s’intende l’attività di identificazione di “gruppi di clienti” cui è indirizzato un determinato prodotto o servizio. La segmentazione è “il processo attraverso il quale le imprese suddividono la domanda in un insieme di clienti potenziali, in modo che gli individui che appartengono allo stesso insieme siano caratterizzati da funzioni della domanda il più possibile simili tra loro e, contemporaneamente, il più possibile diverse da quelle degli altri insiemi” [13]. Test di Box Questo test verifica l’ipotesi nulla di uguaglianza delle matrici ci varianza/covarianza nei K gruppi sui quali viene verificata. Se le suddette matrici risultano uguali e quindi l’ipotesi di omogeneità è soddisfatto, il test dovrà risultare non significativo. Se la Significatività (Sig.) p>0.05 allora le matrici di varianza/covarianza possono considerarsi approssimativamente omogenee e conseguentemente l’ipotesi nulla viene accettata. Se il valore del test presenta un p<0.05 allora le matrici di varianza/covarianza sono significativamente differenti e l’ipotesi nulla di omogeneità deve essere rigettata. In generale se la numerosità dei campioni nei gruppi è confrontabile, al test di Box si preferisce il T2 di Hotelling che risulta più robusto, mentre se la numerosità dei campioni nei gruppi è differente allora la robustezza del T2 di Hotelling non può essere garantita (specialmente se il corrispondente test di Box ha un p<0.001). Il limite a tutto questo sta nel fatto più è numeroso il campione e maggiore è la differenza (in numerosità) tra i gruppi, maggiore sarà la distorsione dei valori di probabilità calcolati da SPSS (ADL). In definitiva il test di Box è utile solo se i gruppi differiscono significativamente in numerosità [7]. Mauro Ennas – Elementi di linear discriminant analysis per la classificazione ed il posizionamento nelle ricerche di marketing. 36 Linear Discriminant Analysis – http://www.mauroennas.eu Bibliografia 1. Abe Shigeo – Pattern Classification – Springer (2001)- http://www.amazon.com/Pattern-ClassificationShigeo-Abe/dp/1852333529/ref=sr_1_1?ie=UTF8&s=books&qid=1262625717&sr=1-1 2. Barbaranelli, C. - Analisi dei dati con SPSS Vol. II. Milano: LED (2003) http://www.ibs.it/code/9788879163156/barbaranelli-claudio/analisi-dei-dati-con.html 3. Bracalente, Mulas, Cossignani - Statistica aziendale - McGraw Hill (2009) http://www.ibs.it/code/9788838664960/bracalente-mulas-cossignani/statistica-aziendale.html 4. Brasini Sergio, Freo Marzia, Tassinari Franco, Tassinari Giorgio - Statistica aziendale e analisi di mercato - Il Mulino, Bologna (2002) - http://www.ibs.it/code/9788815088765/zzz1k1456/statisticaaziendale-e-analisi.html 5. De Finetti B. – Sul significato soggettivo della probabilità (1931) http://www.brunodefinetti.it/Opere/Sul%20significato%20soggettivo%20della%20probabilit%E0.pdf 6. Fabbri G. e Orsini R – Reti Neurali per le scienze economiche – Franco Muzio Editore (1993) http://www.libreriauniversitaria.it/reti-neurali-scienze-economiche-fabbri/libro/9788870216561 7. Field Andy – Discovering Statistics using SPSS for Windows – SAGE Publication (2000) http://www.ibs.it/book/9781412977524/field-andy/discovering-statistics-using.html 8. Fiedler John A. - A Comparison of Correspondence Analysis and Discriminant Analysis-Based Maps POPULUS, Inc. AMA Advanced Research Techniques Forum (1996) – http://www.populus.com/files/Comparison%20CA_DA-Maps_f_1.pdf 9. Hauser J. R., Koppelman F. S. - Alternative perceptual mapping technique – Journal of Marketing Research (1979) http://web.mit.edu/hauser/www/Papers/Alternative_Perceptual_Mapping_Techniques.pdf 10. Howard Martin, Sappiamo cosa vuoi, Minimum Fax 2005, http://www.ibs.it/code/9788875210687/howard-martin/sappiamo-cosa-vuoi-chi.html 11. Jiawei Han – Data Mining, concepts and techniques – Morgan Kaufmann (2001).http://www.amazon.com/Data-Mining-Concepts-TechniquesManagement/dp/1558609016/ref=ntt_at_ep_dpt_1 12. Kotler Philip, Marketing management (2007) - http://www.ibs.it/code/9788871922935/kotlerphilip/marketing-management.html 13. Molteni Luca, Gabriele Triolo - Ricerche di marketing - McGraw Hill (2003). http://www.ibs.it/code/9788838663925/molteni-luca/ricerche-di-marketing.html 14. Molteni L., Gnecchi M. – Le reti neurali nel marketing: il problema della segmentazione per obiettivi – LIUC Papers n. 45, Serie Metodi quantitativi (1997) - http://www.biblio.liuc.it/liucpap/pdf/45.pdf 15. Piccolo Domenico - Statistica per le decisioni - Il Mulino, Bologna (2004) http://www.ibs.it/code/9788815097705/piccolo-domenico/statistica-per-le-decisioni.html 16. R (The) Development Core Team - R: A Language and Environment for Statistical Computing Copyright (©) 1999–2009 R Foundation for Statistical Computing, ISBN 3-900051-07-0 - http://cran.rproject.org/doc/manuals/refman.pdf 17. Randy Julian – Lecture slides – Lilly Research Laboratories http://miner.chem.purdue.edu/Lectures/ 18. Ramsey F. P. - Truth and probability (1926) - http://fitelson.org/probability/ramsey.pdf 19. Ruminati Rino, Psicologia economica, a cura di Ruminati Rino Enrico Rubatelli e Maurizio Mistri, Carocci 2008, http://www.ibs.it/code/9788843044290/zzz1k1456/psicologia-economica.html 20. Russel S. J., Norvig P. – Intelligenza artificiale – Pearson Education Italia (2005) http://www.ibs.it/code/9788871922287/russell-stuart-j/intelligenza-artificiale-approccio.html 21. SPSS for Windows Documentation http://support.spss.com/ProductsExt/SPSS/Documentation/SPSSforWindows/index.html http://support.spss.com/ProductsExt/SPSS/Documentation/SPSSforWindows/SPSS 16.0 Algorithms.pdf http://support.spss.com/ProductsExt/SPSS/Documentation/SPSSforWindows/SPSS Conjoint 16.0.pdf 22. Technical Papers Library Sawtooth Software http://www.sawtoothsoftware.com/education/techpap.shtml Mauro Ennas – Elementi di linear discriminant analysis per la classificazione ed il posizionamento nelle ricerche di marketing. 37 Linear Discriminant Analysis – http://www.mauroennas.eu 23. Universität Hamburg – SPSS Algorithms – http://www1.uni-hamburg.de/RRZ/Software/SPSS/Algorith.120/ http://www1.uni-hamburg.de/RRZ/Software/SPSS/Algorith.115/proxscal.pdf http://www1.uni-hamburg.de/RRZ/Software/SPSS/Algorith.115/alscal.pdf 24. Ulrich K. T., Eppinger S. D., Filippini R. – Progettazione e sviluppo del prodotto _ McGraw-Hill (1995) http://www.ibs.it/code/9788838663970/ulrich-karl-t-eppinger/progettazione-e-sviluppo-di.html 25. Written Ian H., Eibe Frank – Data Mining, practical machine learning tools – Morgan Kaufmann (2000) http://www.amazon.com/Data-Mining-Techniques-ImplementationsManagement/dp/1558605525/ref=sr_1_1?ie=UTF8&s=books&qid=1262625852&sr=1-1 Mauro Ennas – Elementi di linear discriminant analysis per la classificazione ed il posizionamento nelle ricerche di marketing. 38 Linear Discriminant Analysis – http://www.mauroennas.eu Mauro Ennas – Elementi di linear discriminant analysis per la classificazione ed il posizionamento nelle ricerche di marketing. 39 Linear Discriminant Analysis – http://www.mauroennas.eu Indice dei nomi A algoritmo .............................................................21 Analisi dei fattori..................................................33 analisi discriminante......................8; 10; 13; 20; 23 Analisi discriminante lineare..........................23; 33 Analisi statistica multivariata ...............................33 autovalori.......................................................11; 12 Autovalori ............................................................24 B Box................................................................24; 37 C centroidi...............................................................26 Chi-quadro ... 1; 8; 9; 10; 11; 12; 13; 14; 15; 16; 17; 23; 27; 28; 29; 34; 35; 36 classificazione ..... 1; 8; 9; 12; 13; 19; 23; 26; 28; 29 clienti...................................................8; 14; 36; 37 cluster .................................................................28 coefficienti .......................................8; 9; 11; 17; 25 comportamento ...............................................9; 12 Comunalità..........................................................33 concorrenti ..........................................................36 conoscenza.........................................................12 Correlazione............................................24; 25; 33 covarianza.... 11; 13; 14; 15; 16; 17; 20; 23; 24; 25; 26; 28 Covarianza....................................................25; 34 D decisioni ..............................................................38 devianza..............................................................10 distanza...............................................................13 Distribuzione Normale Multivariata (DNM) ..........12 domanda .............................................................37 E Excel .................................................16; 18; 21; 23 F F-ratio..................................................................34 funzione di distribuzione......................................13 funzione discriminante lineare...................9; 11; 13 G Gradi di libertà ...............................................27; 34 H Hotelling ............................................................. 37 I impresa .............................................................. 36 L Lambda di Wilks ................................................. 35 Logit ................................................................... 35 M Mappatura delle percezioni ................................ 35 marketing...................................................1; 14; 38 Marketing.................................................35; 36; 38 massima separazione ........................................ 10 mercato ...................................................36; 37; 38 metodo ....................................................12; 16; 20 misura ...........................................................12; 36 modello....................................................20; 21; 23 O Omoschedastico................................................. 36 P Pearson...................................................33; 36; 38 percezione.......................................................... 36 Percezione ......................................................... 36 pooled within group, PWD.................................. 16 popolazione........................................................ 24 posizionamento ...............................................1; 36 Posizionamento.................................................. 36 probabilità........9; 12; 13; 15; 16; 17; 23; 24; 26; 38 processo....................................................8; 36; 37 prodotto .............................................12; 14; 36; 37 prossimità........................................................... 23 Q qualità................................................................. 14 R Regressione lineare ........................................... 37 Mauro Ennas – Elementi di linear discriminant analysis per la classificazione ed il posizionamento nelle ricerche di marketing. 40 Linear Discriminant Analysis – http://www.mauroennas.eu regressione logistica ...........................................20 reti neurali ...........................................................20 ricerca .................................................................11 S segmentazione....................................................37 Segmentazione ...................................................37 servizio................................................................37 soggettivo............................................................38 SPSS ..................................................................23 statistica ..................................................21; 23; 38 SVM (Support Vector Machine)...........................20 T Tau di Kendall .................................................... 36 Teorema di Bayes .........................................12; 13 V varianza..... 9; 10; 11; 12; 15; 16; 18; 24; 25; 33; 36 W Wilks........................................................12; 24; 25 Mauro Ennas – Elementi di linear discriminant analysis per la classificazione ed il posizionamento nelle ricerche di marketing. 41