Esercitazione 3 Sta/s/ca Aziendale 19 marzo 2015 Esercizio 1 ● U/lizzando i da/ degli esercizi da 3.1, 3.2, 3.3 e 3.5 alle pagine 158 e 159 del libro di testo, calcolare: 1) ES 3.1 la distanza tra le unità 1 e 5; 2) ES 3.2 la distanza (indice simple matching) tra i clien/ 8 e 9; 3) ES 3.5 la distanza tra le marche A e D 19/03/15 Statistica Aziendale Esercitazione 3 2 Esercizio 1a (ES 3.1 libro) ● Un’azienda di credito dispone dei seguen/ da/ rela/vi a un campione di clien/ /tolari di rappor/ di conto corrente. 1) la distanza tra le unità 1 e 5. 19/03/15 Statistica Aziendale Esercitazione 3 3 Esercizio 1a (ES 3.1 libro) ● Differen/ /pologie di variabili: 1) Durata: quan/ta/va 2) Sesso: qualita/va sconnessa (dicotomica) 3) Professione: qualita/va sconnessa (politomica) 4) Numero Movimen/: quan/ta/va 5) Giacenza media: quan/ta/va ● Per il calcolo delle misure di distanza (e di associazione) fra le variabili è necessario u/lizzare la misura più appropriata in relazione alle differen/ /pologie di variabili che si stanno considerando 19/03/15 Statistica Aziendale Esercitazione 3 4 Esercizio 1a (ES 3.1 libro) Le analisi sui profili di riga: misure di distanza Matrice di da/ con variabili di /po misto: Indice di distanza di Gower p d ir ,k ∑ d ir = k =p1 δ ir ,k ∑ k =1 dir,k : misura di distanza tra le unità i e r in relazione al k-­‐esimo aXributo δir ,k = 0!se!almeno!un!valore!mancante δ =1!in!tutti!gli!altri!casi ! ir ,k 19/03/15 Statistica Aziendale Esercitazione 3 5 Esercizio 1a (ES 3.1 libro) Le analisi sui profili di riga: misure di distanza CaraXeri quan/ta/vi: dir ,k = xik − xrk Range(k ) Range(k) è il campo di variazione della variabile k CaraXeri qualita/vi ordinali: Si trasformano le variabili in quan/ta/ve aXribuendo punteggi crescen/ al crescere delle modalità del caraXere e ci si riconduce al caso dei caraXeri quan/ta/vi CaraXeri qualita/vi sconnessi (politomici o dicotomici): dir,k = 1 se i e r presentano modalità diverse del caraXere k dir,k = 0 se presentano modalità uguale (distanza di Sneath o simple matching) 19/03/15 Statistica Aziendale Esercitazione 3 6 Esercizio 1a (ES 3.1 libro) ● Distanza fra le unità 1 e 5: Cliente 1 5 Durata Sesso Professione N. Movimen/ Giacenza Media 8 M Impiegato 23 2 1 F Operaio 3 22 ⎡ 8 −1 23 − 3 2 − 22 ⎤ ⎥ / 5 = 0.881 o Indice di Gower: d15 = ⎢ + 1+ 1+ + 20 26 ⎥ ⎢ 11 ⎣ ⎦ dove: 11 = 12 -­‐ 1 range osservato della variabile “Durata” 20 = 23 – 3 range osservato della variabile “Numero movimen/” 26 = 28 – 2 range osservato della variabile “Giacenza media” 19/03/15 Statistica Aziendale Esercitazione 3 7 Esercizio 1b (ES 3.2 libro) ● Un punto vendita di una nota insegna della GDO dispone dei seguen/ da/ rela/vi ai repar/ interessa/ o meno da acquis/ da parte di alcuni clien/ in possesso di carta fedeltà in un determinato mese. 2) la distanza (indice simple matching) tra i clien/ 8 e 9. 19/03/15 Statistica Aziendale Esercitazione 3 8 Esercizio 1b (ES 3.2 libro) Le analisi sui profili di riga: misure di distanza Variabili qualita/ve dicotomiche Le generiche righe i ed r possono essere sinte/zzate nella seguente tabella di con/ngenza: unità r 1 0 unità i 1 0 a b c d a = n. di caratteri presenti in entrambe le unità b = n. di caratteri presenti in r ma assenti in i c = n. di caratteri assenti in r ma presenti in i d = n. di caratteri assenti in entrambe le unità Si possono calcolare differen/ indici di distanza: b+c d ir = p 19/03/15 Simple matching (frequenza relativa degli attributi presenti in una unità e assenti nell’altra) Statistica Aziendale Esercitazione 3 9 Esercizio 1b (ES 3.2 libro) Le analisi sui profili di riga: misure di distanza Il simple matching coincide con l’indice di Sneath: frequenza rela/va dei caraXeri per i quali le unità i ed r presentano modalità diverse p dir = ∑ dir ,k k=1 p dove per il generico caraXere k si pone: dir,k = 1 se xik ≠ xrk dir,k = 0 se xik = xrk Medesimo indice di distanza per variabili qualita/ve sconnesse politomiche o qualita/ve dicotomiche: numero di caraXeri che nelle due unità assumono valore diverso su numero totale dei caraXeri considera/ 19/03/15 Statistica Aziendale Esercitazione 3 10 Esercizio 1b (ES 3.2 libro) o Distanza fra i clien/ 8 e 9: cliente carne pesce orto fresco altro 8 no sì sì no sì 9 sì sì no sì no Cliente 8 Clente 9 1 (Sì) 0 (No) 1 (Sì) 1 2 0 (No) 2 0 o Indice di distanza simple matching: b+c 2+2 dir = = = 0.8 p 1+2+2+0 ! 19/03/15 Statistica Aziendale Esercitazione 3 11 Esercizio 1c (ES 3.5 libro) ● Si dispone delle seguen/ informazioni rela/ve alle graduatorie di preferenza di 10 marche di caffè da parte di 4 consumatori (1=marca preferita; 10=marca meno preferita).. 4) Calcolare la distanza tra le marche A e D 19/03/15 Statistica Aziendale Esercitazione 3 12 Esercizio 1c (ES 3.5 libro) Le analisi sui profili di riga: misure di distanza Variabili qualita/ve ordinali Due p ossibilità: a) Trasformare le variabili in quan/ta/ve Si aXribuisce un punteggio crescente (1, 2, 3, …) al crescere della misurazione ordinale e si u/lizza un indice di distanza per da/ quan/ta/vi (vedi oltre) Limite: si introducono elemen/ di arbitrarietà (si assume che sia costante la differenza tra due modalità con/gue) b) Considerare la misurazione su scala nominale Si considerano le variabili come qualita/ve politomiche e si u/lizza l’indice di Sneath Limite: notevole perdita di informazione è Preferibile la prima alterna/va 19/03/15 Statistica Aziendale Esercitazione 3 13 Esercizio 1c (ES 3.5 libro) ● Distanza fra le marche A e D: marca A D c1 5 6 c2 1 3 c3 6 5 c4 3 4 o Calcolo la distanza euclidea semplice: ⎡ 4 2⎤ ⎢ d A,D = ∑( x Ak − xDk ) ⎥ ⎢ k=1 ⎥ ⎣ ⎦ 1/2 = (5−6)2 +(1−3)2 +(6−5)2 +(3−4)2 = 7 = 2.6458 19/03/15 Statistica Aziendale Esercitazione 3 14 Esercizio 2 ● Date la seguente matrice delle distanze costruita a par/re dalle informazioni sulle abitudini di acquisto di cinque clien/ di un esercizio commerciale: a) Sviluppare l’analisi dei gruppi con i metodi del legame singolo, legame completo, McQuiXy e legame medio. b) Disegnare i rispeivi dendrogrammi. c) In base ai dendrogrammi determinare il numero di gruppi ritenuto oimale. 19/03/15 Statistica Aziendale Esercitazione 3 15 Esercizio 2 Analisi dei gruppi: metodi gerarchici agglomera7vi Ø Procedono per agglomerazioni successive delle unità sta/s/che Ø Prendono come input la matrice delle distanze D (n x n) Ø Prevedono i seguen/ step, esegui/ in modo itera/vo: 1. Punto di partenza: n gruppi, ognuno formato da una unità 2. Si iden/ficano le due unità più simili (minimo nella matrice delle distanze) 3. Si fondono le due unità in un gruppo, eliminandole dalla matrice delle distanze, che diventa: Dn-­‐2,n-­‐2 4. Si aggiunge una nuova riga e una nuova colonna con le distanze tra il nuovo gruppo e tuXe le altre unità, oXenendo Dn-­‐1,n-­‐1 5. Si torna ad eseguire lo step 2 e i seguen/ in modo itera/vo, riducendo la matrice D di una unità ad ogni iterazione (fino alla soluzione finale cos/tuita da un solo gruppo composto da tuXe le unità) 19/03/15 Statistica Aziendale Esercitazione 3 16 Esercizio 2 Analisi dei gruppi: metodi gerarchici agglomera7vi Come eseguire lo step 4? (come calcolare le distanze tra il gruppo e tutte le altre unità) Ø Diversi metodi § Metodo del legame singolo (distanza minore) DJM = min(DJK,DJL) con: 19/03/15 CK: K-­‐esimo gruppo (inizialmente, k-­‐esima unità) CL: L-­‐esimo gruppo (inizialmente, l-­‐esima unità) DKL: misura di distanza tra il gruppo CK e il gruppo CL CM: gruppo derivante dalla fusione dei gruppi CK e CL (assumendo che DKL sia il valore minimo nella matrice delle distanze) DjM : distanza tra un generico gruppo preesistente j e il gruppo CM Statistica Aziendale Esercitazione 3 17 Esercizio 2 ● Prima aggregazione A B C D E A 0 B 0.33 0 C 0.64 0.14 0 D 0.23 0.54 0.37 0 E - Unisco le unità B e C 0.42 - Elimino le 2 righe e colonne corrisponden/ 0.32 0.66 - Inserisco una riga e una colonna per il 0.29 nuovo gruppo “BC” e ricalcolo le 0 distanze fra tale gruppo e le altre unità è Legame singolo: distanza minore che, prima della fusione, I gruppi oggeXo di fusione avevano con tui gli altri ê A D E BC A 0 D 0.23 0 E 0.42 0.29 0 BC 0.33 0.37 0.32 0 - Unisco le unità A e D e ripeto il procedimento visto in precedenza ê 19/03/15 Statistica Aziendale Esercitazione 3 18 Esercizio 2 E BC AD E 0 BC 0.32 0 AD 0.29 0.33 0 - Unisco il gruppo “AD” e l’unità E ê BC ADE 19/03/15 BC 0 ADE 0.32 0 - L’ul/ma aggregazione unisce I gruppi “BC” e “ADE” Statistica Aziendale Esercitazione 3 19 Esercizio 2 ● È possibile rappresentare graficamente la classificazione mediante il Dendrogramma: - Ascisse: unità - Ordinate: livelli di distanza a cui sono avvenute le successive fusioni 0 user matrix DIST dissimilarity measure .1 .2 .3 Dendrogram for _clus_2 cluster analysis 19/03/15 1 4 Statistica Aziendale 5 Esercitazione 3 2 3 20 Esercizio 2 Analisi dei gruppi: metodi gerarchici agglomera7vi § Metodo del legame completo (distanza maggiore) E BC AD 19/03/15 B 0.33 0 E 0 BC 0.66 0 C 0.64 0.14 0 D 0.23 0.54 0.37 0 AD 0.42 0.64 0 E 0.42 0.32 0.66 0.29 0 ê A B C D E A 0 Statistica Aziendale ê DJM = max(DJK,DJL) BC ADE Esercitazione 3 A D E BC BC 0 A 0 D 0.23 0 E 0.42 0.29 0 BC 0.64 0.54 0.66 0 ADE 0.66 0 21 Esercizio 2 Dendrogramma: 0 user matrix DIST dissimilarity measure .2 .4 .6 .8 Dendrogram for _clus_3 cluster analysis 19/03/15 1 4 Statistica Aziendale 5 Esercitazione 3 2 3 22 Esercizio 2 Analisi dei gruppi: metodi gerarchici agglomera7vi § Metodo di McQuiXy (distanza media) DJM = (DJK + DJL) / 2 E BC C 0.64 0.14 0 D 0.23 0.54 0.37 0 AD E 0 0.490 (0.42+0.29)/2 = 0.355 BC 0 (0.485+0.455)/2 = 0.470 AD 0 19/03/15 E 0.42 0.32 0.66 0.29 0 A D E BC ê B 0.33 0 BC ê A B C D E A 0 BC ADE Statistica Aziendale A D E BC 0 0.23 0.42 (0.33+0.64)/2 = 0.485 0 0.29 (0.54+0.37)/2 = 0.455 0 (0.32+0.66)/2 = 0.490 0 ADE 0 (0.490+0.470)/2 = 0.480 0 Esercitazione 3 23 Esercizio 2 Dendrogramma: 0 user matrix dist dissimilarity measure .1 .2 .3 .4 .5 Dendrogram for _clus_1 cluster analysis 19/03/15 1 4 Statistica Aziendale 5 Esercitazione 3 2 3 24 Esercizio 2 Analisi dei gruppi: metodi gerarchici agglomera7vi § Metodo del legame medio (distanza media ponderata con la numerosità dei gruppi K e L oggeXo di fusione) DJM = (DJK NK + DJL NL) / NM con: NK , NL , NM : n. di unità nei gruppi CK, CL, CM, rispeivamente 19/03/15 Statistica Aziendale Esercitazione 3 25 Esercizio 2 19/03/15 A D E BC E BC AD 0 0.490 (0.42*1+0.29*1)/2 = 0.355 0 (0.485*1+0.455*1)/2 = 0.470 0 Statistica Aziendale ê E BC AD E 0.42 0.32 0.66 0.29 0 ê A B C D E A B C D 0 0.33 0.64 0.23 0 0.14 0.54 0 0.37 0 A D E BC 0 0.23 0.42 (0.33*1+0.64*1)/2 = 0.485 0 0.29 (0.54*1+0.37*1)/2 = 0.455 0 (0.32*1+0.66*1)/2 = 0.490 0 BC ADE Esercitazione 3 BC ADE 0 (0.490*1+0.470*2)/3 = 0.4767 0 26 Esercizio 2 Dendrogramma: 0 user matrix DIST dissimilarity measure .1 .2 .3 .4 .5 Dendrogram for _clus_4 cluster analysis 19/03/15 1 4 Statistica Aziendale 5 Esercitazione 3 2 3 27