Esercitazione 3 Sta/s/ca Aziendale 19 marzo 2015 Esercizio 1 ●  U/lizzando i da/ degli esercizi da 3.1, 3.2, 3.3 e 3.5 alle pagine 158 e 159 del libro di testo, calcolare: 1) ES 3.1 la distanza tra le unità 1 e 5; 2)  ES 3.2 la distanza (indice simple matching) tra i clien/ 8 e 9; 3)  ES 3.5 la distanza tra le marche A e D 19/03/15 Statistica Aziendale
Esercitazione 3 2 Esercizio 1a (ES 3.1 libro) ●  Un’azienda di credito dispone dei seguen/ da/ rela/vi a un campione di clien/ /tolari di rappor/ di conto corrente. 1) la distanza tra le unità 1 e 5. 19/03/15 Statistica Aziendale
Esercitazione 3 3 Esercizio 1a (ES 3.1 libro) ●  Differen/ /pologie di variabili: 1)  Durata: quan/ta/va 2)  Sesso: qualita/va sconnessa (dicotomica) 3)  Professione: qualita/va sconnessa (politomica) 4)  Numero Movimen/: quan/ta/va 5)  Giacenza media: quan/ta/va ●  Per il calcolo delle misure di distanza (e di associazione) fra le variabili è necessario u/lizzare la misura più appropriata in relazione alle differen/ /pologie di variabili che si stanno considerando 19/03/15 Statistica Aziendale
Esercitazione 3 4 Esercizio 1a (ES 3.1 libro) Le analisi sui profili di riga: misure di distanza Matrice di da/ con variabili di /po misto: Indice di distanza di Gower p
d ir ,k
∑
d ir = k =p1
δ ir ,k
∑
k =1
dir,k : misura di distanza tra le unità i e r in relazione al k-­‐esimo aXributo δir ,k = 0!se!almeno!un!valore!mancante
δ =1!in!tutti!gli!altri!casi
! ir ,k
19/03/15 Statistica Aziendale
Esercitazione 3 5 Esercizio 1a (ES 3.1 libro) Le analisi sui profili di riga: misure di distanza CaraXeri quan/ta/vi: dir ,k =
xik − xrk
Range(k )
Range(k) è il campo di variazione della variabile k CaraXeri qualita/vi ordinali: Si trasformano le variabili in quan/ta/ve aXribuendo punteggi crescen/ al crescere delle modalità del caraXere e ci si riconduce al caso dei caraXeri quan/ta/vi CaraXeri qualita/vi sconnessi (politomici o dicotomici): dir,k = 1 se i e r presentano modalità diverse del caraXere k dir,k = 0 se presentano modalità uguale (distanza di Sneath o simple matching) 19/03/15 Statistica Aziendale
Esercitazione 3 6 Esercizio 1a (ES 3.1 libro) ●  Distanza fra le unità 1 e 5: Cliente 1 5 Durata Sesso Professione N. Movimen/ Giacenza Media 8 M Impiegato 23 2 1 F Operaio 3 22 ⎡ 8 −1
23 − 3 2 − 22 ⎤
⎥ / 5 = 0.881
o  Indice di Gower: d15 = ⎢
+ 1+ 1+
+
20
26 ⎥
⎢ 11
⎣
⎦
dove: 11 = 12 -­‐ 1 range osservato della variabile “Durata” 20 = 23 – 3 range osservato della variabile “Numero movimen/” 26 = 28 – 2 range osservato della variabile “Giacenza media” 19/03/15 Statistica Aziendale
Esercitazione 3 7 Esercizio 1b (ES 3.2 libro) ●  Un punto vendita di una nota insegna della GDO dispone dei seguen/ da/ rela/vi ai repar/ interessa/ o meno da acquis/ da parte di alcuni clien/ in possesso di carta fedeltà in un determinato mese. 2) la distanza (indice simple matching) tra i clien/ 8 e 9. 19/03/15 Statistica Aziendale
Esercitazione 3 8 Esercizio 1b (ES 3.2 libro) Le analisi sui profili di riga: misure di distanza Variabili qualita/ve dicotomiche Le generiche righe i ed r possono essere sinte/zzate nella seguente tabella di con/ngenza: unità r 1
0
unità i
1
0 a
b
c
d
a = n. di caratteri presenti in entrambe le unità
b = n. di caratteri presenti in r ma assenti in i
c = n. di caratteri assenti in r ma presenti in i
d = n. di caratteri assenti in entrambe le unità
Si possono calcolare differen/ indici di distanza: b+c
d ir =
p
19/03/15 Simple matching
(frequenza relativa degli attributi presenti
in una unità e assenti nell’altra)
Statistica Aziendale
Esercitazione 3 9 Esercizio 1b (ES 3.2 libro) Le analisi sui profili di riga: misure di distanza Il simple matching coincide con l’indice di Sneath: frequenza rela/va dei caraXeri per i quali le unità i ed r presentano modalità diverse p
dir =
∑ dir ,k
k=1
p
dove per il generico caraXere k si pone: dir,k = 1 se xik ≠ xrk
dir,k = 0 se xik = xrk
Medesimo indice di distanza per variabili qualita/ve sconnesse politomiche o qualita/ve dicotomiche: numero di caraXeri che nelle due unità assumono valore diverso su numero totale dei caraXeri considera/ 19/03/15 Statistica Aziendale
Esercitazione 3 10 Esercizio 1b (ES 3.2 libro) o  Distanza fra i clien/ 8 e 9: cliente carne pesce orto fresco altro 8 no sì sì no sì 9 sì sì no sì no Cliente 8 Clente 9 1 (Sì) 0 (No) 1 (Sì) 1 2 0 (No) 2 0 o  Indice di distanza simple matching: b+c
2+2
dir =
=
= 0.8
p
1+2+2+0
!
19/03/15 Statistica Aziendale
Esercitazione 3 11 Esercizio 1c (ES 3.5 libro) ●  Si dispone delle seguen/ informazioni rela/ve alle graduatorie di preferenza di 10 marche di caffè da parte di 4 consumatori (1=marca preferita; 10=marca meno preferita).. 4) Calcolare la distanza tra le marche A e D 19/03/15 Statistica Aziendale
Esercitazione 3 12 Esercizio 1c (ES 3.5 libro) Le analisi sui profili di riga: misure di distanza Variabili qualita/ve ordinali Due p ossibilità: a) Trasformare le variabili in quan/ta/ve Si aXribuisce un punteggio crescente (1, 2, 3, …) al crescere della misurazione ordinale e si u/lizza un indice di distanza per da/ quan/ta/vi (vedi oltre) Limite: si introducono elemen/ di arbitrarietà (si assume che sia costante la differenza tra due modalità con/gue) b) Considerare la misurazione su scala nominale Si considerano le variabili come qualita/ve politomiche e si u/lizza l’indice di Sneath Limite: notevole perdita di informazione è Preferibile la prima alterna/va 19/03/15 Statistica Aziendale
Esercitazione 3 13 Esercizio 1c (ES 3.5 libro) ●  Distanza fra le marche A e D: marca A D c1 5 6 c2 1 3 c3 6 5 c4 3 4 o  Calcolo la distanza euclidea semplice: ⎡ 4
2⎤
⎢
d A,D = ∑( x Ak − xDk ) ⎥
⎢ k=1
⎥
⎣
⎦
1/2
= (5−6)2 +(1−3)2 +(6−5)2 +(3−4)2
= 7 = 2.6458
19/03/15 Statistica Aziendale
Esercitazione 3 14 Esercizio 2 ●  Date la seguente matrice delle distanze costruita a par/re dalle informazioni sulle abitudini di acquisto di cinque clien/ di un esercizio commerciale: a) Sviluppare l’analisi dei gruppi con i metodi del legame singolo, legame completo, McQuiXy e legame medio. b) Disegnare i rispeivi dendrogrammi. c) In base ai dendrogrammi determinare il numero di gruppi ritenuto oimale. 19/03/15 Statistica Aziendale
Esercitazione 3 15 Esercizio 2 Analisi dei gruppi: metodi gerarchici agglomera7vi Ø  Procedono per agglomerazioni successive delle unità sta/s/che Ø  Prendono come input la matrice delle distanze D (n x n) Ø  Prevedono i seguen/ step, esegui/ in modo itera/vo: 1.  Punto di partenza: n gruppi, ognuno formato da una unità 2.  Si iden/ficano le due unità più simili (minimo nella matrice delle distanze) 3.  Si fondono le due unità in un gruppo, eliminandole dalla matrice delle distanze, che diventa: Dn-­‐2,n-­‐2 4.  Si aggiunge una nuova riga e una nuova colonna con le distanze tra il nuovo gruppo e tuXe le altre unità, oXenendo Dn-­‐1,n-­‐1 5.  Si torna ad eseguire lo step 2 e i seguen/ in modo itera/vo, riducendo la matrice D di una unità ad ogni iterazione (fino alla soluzione finale cos/tuita da un solo gruppo composto da tuXe le unità) 19/03/15 Statistica Aziendale
Esercitazione 3 16 Esercizio 2 Analisi dei gruppi: metodi gerarchici agglomera7vi Come eseguire lo step 4?
(come calcolare le distanze tra il gruppo e tutte le altre unità)
Ø  Diversi metodi §  Metodo del legame singolo (distanza minore) DJM = min(DJK,DJL)
con: 19/03/15 CK: K-­‐esimo gruppo (inizialmente, k-­‐esima unità) CL: L-­‐esimo gruppo (inizialmente, l-­‐esima unità) DKL: misura di distanza tra il gruppo CK e il gruppo CL CM: gruppo derivante dalla fusione dei gruppi CK e CL (assumendo che DKL sia il valore minimo nella matrice delle distanze) DjM : distanza tra un generico gruppo preesistente j e il gruppo CM Statistica Aziendale
Esercitazione 3 17 Esercizio 2 ●  Prima aggregazione A B C D E A 0 B 0.33 0 C 0.64 0.14 0 D 0.23 0.54 0.37 0 E - Unisco le unità B e C 0.42 - Elimino le 2 righe e colonne corrisponden/ 0.32 0.66 - Inserisco una riga e una colonna per il 0.29 nuovo gruppo “BC” e ricalcolo le 0 distanze fra tale gruppo e le altre unità è Legame singolo: distanza minore che, prima della fusione, I gruppi oggeXo di fusione avevano con tui gli altri
ê
A D E BC A 0 D 0.23 0 E 0.42 0.29 0 BC 0.33 0.37 0.32 0 - Unisco le unità A e D e ripeto il procedimento visto in precedenza ê 19/03/15 Statistica Aziendale
Esercitazione 3 18 Esercizio 2 E BC AD E 0 BC 0.32 0 AD 0.29 0.33 0 -  Unisco il gruppo “AD” e l’unità E ê
BC ADE 19/03/15 BC 0 ADE 0.32 0 -  L’ul/ma aggregazione unisce I gruppi “BC” e “ADE” Statistica Aziendale
Esercitazione 3 19 Esercizio 2 ●  È possibile rappresentare graficamente la classificazione mediante il
Dendrogramma:
-  Ascisse: unità
-  Ordinate: livelli di distanza a cui sono avvenute le successive fusioni
0
user matrix DIST dissimilarity measure
.1
.2
.3
Dendrogram for _clus_2 cluster analysis
19/03/15 1
4
Statistica Aziendale
5
Esercitazione 3 2
3
20 Esercizio 2 Analisi dei gruppi: metodi gerarchici agglomera7vi §  Metodo del legame completo (distanza maggiore) E BC AD 19/03/15 B 0.33 0 E 0 BC 0.66 0 C 0.64 0.14 0 D 0.23 0.54 0.37 0 AD 0.42 0.64 0 E 0.42 0.32 0.66 0.29 0 ê
A B C D E A 0 Statistica Aziendale
ê
DJM = max(DJK,DJL) BC ADE Esercitazione 3 A D E BC BC 0 A 0 D 0.23 0 E 0.42 0.29 0 BC 0.64 0.54 0.66 0 ADE 0.66 0 21 Esercizio 2 Dendrogramma:
0
user matrix DIST dissimilarity measure
.2
.4
.6
.8
Dendrogram for _clus_3 cluster analysis
19/03/15 1
4
Statistica Aziendale
5
Esercitazione 3 2
3
22 Esercizio 2 Analisi dei gruppi: metodi gerarchici agglomera7vi §  Metodo di McQuiXy (distanza media) DJM = (DJK + DJL) / 2 E BC C 0.64 0.14 0 D 0.23 0.54 0.37 0 AD E 0 0.490 (0.42+0.29)/2 = 0.355 BC 0 (0.485+0.455)/2 = 0.470 AD 0 19/03/15 E 0.42 0.32 0.66 0.29 0 A D E BC ê
B 0.33 0 BC ê
A B C D E A 0 BC ADE Statistica Aziendale
A D E BC 0 0.23 0.42 (0.33+0.64)/2 = 0.485 0 0.29 (0.54+0.37)/2 = 0.455 0 (0.32+0.66)/2 = 0.490 0 ADE 0 (0.490+0.470)/2 = 0.480 0 Esercitazione 3 23 Esercizio 2 Dendrogramma:
0
user matrix dist dissimilarity measure
.1
.2
.3
.4
.5
Dendrogram for _clus_1 cluster analysis
19/03/15 1
4
Statistica Aziendale
5
Esercitazione 3 2
3
24 Esercizio 2 Analisi dei gruppi: metodi gerarchici agglomera7vi §  Metodo del legame medio (distanza media ponderata con la numerosità dei gruppi K e L oggeXo di fusione) DJM = (DJK NK + DJL NL) / NM con: NK , NL , NM : n. di unità nei gruppi CK, CL, CM, rispeivamente 19/03/15 Statistica Aziendale
Esercitazione 3 25 Esercizio 2 19/03/15 A D E BC E BC AD 0 0.490 (0.42*1+0.29*1)/2 = 0.355 0 (0.485*1+0.455*1)/2 = 0.470 0 Statistica Aziendale
ê
E BC AD E 0.42 0.32 0.66 0.29 0 ê
A B C D E A B C D 0 0.33 0.64 0.23 0 0.14 0.54 0 0.37 0 A D E BC 0 0.23 0.42 (0.33*1+0.64*1)/2 = 0.485 0 0.29 (0.54*1+0.37*1)/2 = 0.455 0 (0.32*1+0.66*1)/2 = 0.490 0 BC ADE Esercitazione 3 BC ADE 0 (0.490*1+0.470*2)/3 = 0.4767 0 26 Esercizio 2 Dendrogramma:
0
user matrix DIST dissimilarity measure
.1
.2
.3
.4
.5
Dendrogram for _clus_4 cluster analysis
19/03/15 1
4
Statistica Aziendale
5
Esercitazione 3 2
3
27