Capitolo 3 e par. 5.1 La matrice dei dati e le analisi preliminari I metodi di classificazione La matrice dei dati Qualità dei dati e mancate risposte parziali Analisi sui profili di colonna Analisi sui profili di riga Analisi dei gruppi Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas 1/80 Copyright © 2009 – The McGraw-Hill Companies srl La matrice dei dati Tabella contenente le informazioni disponibili relativamente ad un insieme di unità statistiche Ciascuna riga della matrice contiene le informazioni relative ad una determinata unità Ciascuna colonna contiene le modalità assunte da un determinato carattere nelle diverse unità Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas 2/80 Copyright © 2009 – The McGraw-Hill Companies srl La matrice dei dati x11 x 21 ... xi1 X ... xr 1 ... xn1 x12 ... x1h ... x1 j x22 ... x2 h ... x2 j xi 2 ... xih ... xij xr 2 ... xrh ... xrj xn 2 ... xnh ... xnj Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas ... x1 p ... x2 p ... xip ... xrp ... xnp 3/80 Copyright © 2009 – The McGraw-Hill Companies srl La matrice dei dati I caratteri che figurano nella matrice possono essere: - qualitativi (in scala nominale o in scala ordinale) - quantitativi (in scala ad intervalli o in scala di rapporti) Spesso la matrice contiene variabili miste, alcune qualitative e altre quantitative Le unità possono pure essere di varia natura. Esempi: - le singole imprese di un campione (caso di studio) - i singoli consumatori di un prodotto - i singoli prodotti o stabilimenti di una azienda Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas 4/80 Copyright © 2009 – The McGraw-Hill Companies srl La matrice dei dati La matrice dei dati può derivare da: - rilevazioni primarie (indagini campionarie) - fonti secondarie - interne (dati aziendali) - esterne (fonti statistiche ufficiali o non ufficiali) Principali problemi di qualità: - presenza di valori errati - valori mancanti Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas 5/80 Copyright © 2009 – The McGraw-Hill Companies srl I valori errati Possono essere segnalati da: - valori fuori dominio (non appartenenti all’insieme dei valori - valori - valori ammissibili) anomali o outliers (valori che si discostano molto da quelli assunti nella maggior parte delle altre unità) incompatibili (contraddittori con altre risposte) Possono essere individuati, rispettivamente, attraverso: - controlli di validità o di range - controlli per gli outlier - controlli di consistenza Una volta individuati, i valori errati possono essere - corretti attraverso una nuova rilevazione - considerati come valori mancanti Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas 6/80 Copyright © 2009 – The McGraw-Hill Companies srl Le mancate risposte parziali Mancanza di uno o più dati: - nelle indagini campionarie mancate risposte ad uno o più quesiti Le possibili soluzioni: 1. Utilizzare soltanto il sottoinsieme di unità senza dati mancanti riduzione numerosità; possibili distorsioni 2. 3. Utilizzare diversi sottoinsiemi (completi) di unità per le diverse analisi (univariate, bivariate, multivariate) numerosità diverse per le diverse analisi Assegnare al dato mancante un valore plausibile (imputazione) Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas 7/80 Copyright © 2009 – The McGraw-Hill Companies srl Tecniche di imputazione Diverse tecniche di imputazione 1. Imputazione di un valore medio: media aritmetica o mediana (per i caratteri quantitativi o qualitativi ordinali), moda (per i caratteri qualitativi sconnessi) calcolate: a - sul complesso delle unità b - o su un sottoinsieme più omogeneo Conseguenza indesiderata: riduce la variabilità (in particolare nel caso a) 2. Imputazione con prelievo da donatore: invece del valore medio si imputa un valore individuale, “donato” da una unità il più possibile simile in base alle altre caratteristiche (indici di similarità o distanza: vedi oltre) Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas 8/80 Copyright © 2009 – The McGraw-Hill Companies srl Tecniche di imputazione 3. Imputazione da modello In base alla relazione empirica tra la variabile con dati mancanti e una o più variabili esplicative (con dati presenti) Passi: - scelta variabili esplicative di quella con dati mancanti - stima dei parametri di un modello di regressione sui dati presenti nella matrice Regressione (semplice): Yi X i ui (i 1,..., n) Modello teorico Modello stimato Ŷ a bX - assegnazione del valore predetto dal modello in base ai valori assunti dalla variabile esplicativa nella unità i con dato mancante: Yˆi a bX i Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas 9/80 Copyright © 2009 – The McGraw-Hill Companies srl Tecniche di imputazione 4. Imputazione stocastica assegnazione al dato mancante di un valore estratto casualmente da una distribuzione ritenuta plausibile Limite: distribuzioni teoriche diverse per diverse variabili, da identificare di volta in volta Semplificazione: estrazione casuale di una unità per ogni dato mancante dalla distribuzione empirica della caratteristica Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas 10/80 Copyright © 2009 – The McGraw-Hill Companies srl Le analisi sui profili di colonna Analisi univariate (es: medie, varianze), bivariate (es: correlazione), multivariate (es: regressione multipla) Analisi bivariate: studio dell’associazione esistente tra le diverse coppie di variabili Si ottiene una matrice di associazione (p x p): a11 a12 a 21 a22 ... ah1 ah 2 A ... a j1 a j 2 ... a p1 a p 2 ... a1h ... a2 h ... a1 j ... a2 j ... ahh ... ahj ... a jh ... a jj ... a ph ... a pj Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas ... a1 p ... a2 p ... ahp ... a jp ... a pp L’indice con cui misurare l’associazione dipende dal tipo di variabili presenti nella matrice dei dati 11/80 Copyright © 2009 – The McGraw-Hill Companies srl Variabili quantitative La covarianza: n shj (x i 1 ih xh )( xij x j ) n Indica se tra le due variabili esiste: concordanza (segno positivo: se prevalgono prodotti di segno +) discordanza (segno negativo: se prevalgono prodotti di segno -) Indipendenza lineare (valore nullo) Limite: i valori assunti dalle covarianze dipendono dalle scale di misura dei caratteri non sono direttamente confrontabili Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas 12/80 Copyright © 2009 – The McGraw-Hill Companies srl Le variabili quantitative Per ovviare al problema della confrontabilità Coefficiente di correlazione lineare di Bravais-Pearson: (covarianza diviso il prodotto delle due deviazioni standard) rhj shj h j ; rhj 1 n ( xi h xh )( xij x j ) n i 1 1 n 1 n 2 2 ( x x ) ( x x ) ih h n ij j n i 1 i 1 Il coefficiente di correlazione lineare: • assume lo stesso segno della covarianza • è compreso tra –1 e 1 Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas 13/80 Copyright © 2009 – The McGraw-Hill Companies srl Le variabili quantitative Esempio scarti2 Xh scarti2 Xj 0.03 0.09 0.01 0.1 0 0 0.01 0.2 0 0 0.04 0 0.7 -0.2 -0.1 0.02 0.04 0.01 1.9 0.9 0.3 0.1 0.03 0.09 0.01 somme 8 4 0 0 0.08 0.26 0.04 medie 1.6 0.8 0.052 0.008 0.228 0.089 Cor = 0.784 Unità Xh Xj scarti Xh scarti Xj prodotti 1 1.3 0.7 -0.3 -0.1 2 1.6 0.9 0 3 1.8 0.8 4 1.4 5 Cov = 0.016 dev. st. Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas 14/80 Copyright © 2009 – The McGraw-Hill Companies srl Le variabili quantitative Matrice (p x p) delle correlazioni r11 r 21 ... rh1 R ... r j1 ... rp1 r12 r22 ... r1h ... r2 h ... r1 j ... r2 j rh 2 ... rhh ... rhj rj 2 ... rjh ... rjj rp 2 ... rph ... rpj Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas ... r1 p simmetrica ... r2 p ... rhp sulla diagonale valori unitari: shh r 1 ... rjp hh h h ... rpp 15/80 Copyright © 2009 – The McGraw-Hill Companies srl Le analisi sui profili di riga Obiettivo: misurare la distanza (differenza) o la similarità tra coppie di unità, in relazione alle caratteristiche osservate Si ottiene una matrice delle distanze D (n x n) d11 d12 d 21 d 22 ... d di 2 D i1 ... d r1 d r 2 ... d n1 d n 2 ... d1i ... d 2i ... d1r ... d 2 r ... d ii ... d ir ... d ri ... d rr ... d ni ... d nr Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas ... d1n ... d 2 n ... d in ... d rn ... d nn L’indice con cui misurare la distanza dipende dal tipo di variabili presenti nella matrice dei dati 16/80 Copyright © 2009 – The McGraw-Hill Companies srl Le analisi sui profili di riga Valori non negativi: dir ≥ 0 Valori sulla diagonale pari a zero: dii = 0 Simmetria: dir = dri Diseguaglianza triangolare: dir ≤ dis + dsr Misura di distanza definita in uno spazio metrico In corrispondenza a ogni indice di distanza può essere definito un indice di similarità: cir = 1- dir Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas 17/80 Copyright © 2009 – The McGraw-Hill Companies srl Indici di distanza Indici specifici per ogni tipologia di variabili: - qualitative (sconnesse politomiche o dicotomiche) - quantitative (o qualitative ordinali) Un indice generale per variabili miste La presenza di variabili miste è la norma, in particolare nelle matrici di dati derivanti da indagini campionarie Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas 18/80 Copyright © 2009 – The McGraw-Hill Companies srl Indici di distanza Esempi dall’indagine Efige: - qualitative dicotomiche: export (si, no); ide; innovazione - qualitative sconnesse: destinazione export (UE, Asia, USA, …) finanziamento investimenti (autofin, venture cap, cred. banc.…) - qualitative ordinali: export prima 2008 (regolarmente, qualche volta, mai) dipendenza da finanziamenti esterni (1 non dip -> 5 molto dip) - quantitative: n. dipendenti; valori e indici di bilancio; % fatturato esportato Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas 19/80 Copyright © 2009 – The McGraw-Hill Companies srl Variabili qualitative sconnesse politomiche Misurazione su scala nominale Confronto ammissibile tra due unità: se sono uguali o diverse rispetto al carattere considerato Indice di distanza di Sneath Distanza misurata sulla base di p caratteri qualitativi sconnessi Per il generico carattere k si pone: dir,k = 1 se xik xrk dir,k = 0 se xik = xrk p dir d k 1 ir , k p - E’ dato dalla frequenza relativa dei caratteri per i quali le unità i ed r presentano modalità diverse - Di conseguenza: compreso tra 0 e 1 Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas 20/80 Copyright © 2009 – The McGraw-Hill Companies srl Variabili qualitative sconnesse politomiche - Esempio Distanza o similarità tra coppie di aziende esportatrici in relazione ai caratteri: forma giuridica; settore di attività; area di esportazione Aziende Forma giuridica Settore Area export 1 SPA Meccanica Asia 2 SPA Tessile Europa 3 SNC Tessile Europa 4 SRL Meccanica USA Indice di distanza tra le aziende 1 e 2: d12,1=0; d12,2=1; d12,3=1 d12= (0+1+1)/3 =0.66 [c12 = 1-d12=0.33] Indice di distanza tra le aziende 2 e 3: d23,1=1; d23,2=0; d23,3=0 d23=(1+0+0)/3 =0.33 [c23 = 1-d23 =0.66] Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas 21/80 Copyright © 2009 – The McGraw-Hill Companies srl Variabili dicotomiche Misurazione su scala nominale Confronto ammissibile: come nel caso di caratteri sconnessi politomici (se le modalità sono uguali o diverse nelle due unità) si può utilizzare lo stesso indice (di Sneat) Esempio: Distanza tra coppie di aziende per le quali è stato rilevato: - se hanno delocalizzato oppure no - se hanno fatto investimenti oppure no - se hanno apportato innovazioni oppure no - se hanno fatto assunzioni oppure no Aziende Deloc. Invest. Innov. Assunz. 1 No Sì No No 2 Sì No Sì Sì 3 Sì No No Sì 4 No Sì No No Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas d12 = (1+1+1+1)/4 = 1 d23 = (0+0+1+0)/4 = 0.25 22/80 Copyright © 2009 – The McGraw-Hill Companies srl Variabili politomiche e dicotomiche L’indice di Sneat consente di misurare la distanza anche quando tra le p variabili qualitative considerate ve ne sono alcune sconnesse politomiche e altre dicotomiche Esempio: Politomiche Az. Forma giur. 1 2 Dicotomiche Sett. Area export Del Inv Inn Ass SpA Mec Asia NO SI NO NO SpA Tes Europa SI NO SI SI Indice di distanza (di Sneat) tra le aziende 1 e 2: d12= (0+1+1+1+1+1+1)/7 = 0.86 [c12 = 1-d12=0.14] Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas 23/80 Copyright © 2009 – The McGraw-Hill Companies srl Variabili qualitative dicotomiche Nel caso di sole variabili dicotomiche si possono calcolare diversi indici di distanza: Simple matching Jaccard (Altri) Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas 24/80 Copyright © 2009 – The McGraw-Hill Companies srl Variabili qualitative dicotomiche Nella matrice dei dati, per ognuno dei p caratteri dicotomici: valore 1 (presenza) valore 0 (assenza) Aziende Deloc. Invest. Innov. Assunz. 1 No (0) Sì (1) No (0) No (0) 2 Sì (1) No (0) Sì (1) Sì (1) 3 Sì (1) No (0) No (0) Sì (1) 4 No (0) Sì (1) No (0) No (0) I diversi indici derivano dalla classificazione dei p caratteri nella seguente tabella di contingenza (per la coppia di unità i ed r): unità i 1 0 unità r 1 a b 0 c d Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas a = numero di caratteri presenti in entrambe le unità b = numero di caratteri presenti in r ma assenti in i c = numero di caratteri assenti in r ma presenti in i d = numero di caratteri assenti in entrambe le unità (a + b + c + d = p) 25/80 Copyright © 2009 – The McGraw-Hill Companies srl Variabili qualitative dicotomiche Esempio Aziende Deloc. Invest. Innov. Assunz. 1 No (0) Sì (1) No (0) No (0) 2 Sì (1) No (0) Sì (1) Sì (1) 3 Sì (1) No (0) No (0) Sì (1) 4 No (0) Sì (1) No (0) No (0) Az. 2 1 0 1 2 0 0 1 1 Az.3 Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas 26/80 Copyright © 2009 – The McGraw-Hill Companies srl Variabili qualitative dicotomiche unità r 1 0 unità i 1 0 a b c d Esempio: Az. 2 1 0 1 2 0 0 1 1 Az.3 Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas Indice Simple matching : bc d ir p Frequenza relativa degli attributi presenti in una unità e assenti nell’altra Come indice di Sneath: frequenza relativa dei caratteri per i quali le unità i ed r presentano modalità diverse Simple matching: d23 = 1/4 = 0.25 27/80 Copyright © 2009 – The McGraw-Hill Companies srl Variabili qualitative dicotomiche unità r 1 0 unità i 1 0 a b c d Esempio: Az. 2 Indice di Jaccard: bc d ir abc Esclude d dal denominatore: si assume che l’assenza in entrambe le unità non indichi similarità 1 0 1 2 0 Jaccard: 0 1 1 d23 = 1/3 = 0.33 Az.3 Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas 28/80 Copyright © 2009 – The McGraw-Hill Companies srl Variabili qualitative ordinali Misurazione su scala ordinale Confronto ammissibile tra due unità: se l’una presenta modalità maggiore o minore dell’altra secondo il carattere considerato Due possibilità: a) Trasformare le variabili in quantitative Si attribuisce un punteggio crescente (1, 2, 3, …) al crescere della misurazione ordinale e si utilizza un indice di distanza per dati quantitativi (vedi oltre) Limite: si introducono elementi di arbitrarietà (si assume costante la differenza tra due modalità contigue) b) Considerare la misurazione su scala nominale Si considerano le variabili come qualitative politomiche e si utilizza l’indice di Sneath Limite: notevole perdita di informazione Meglio soluzione a) Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas 29/80 Copyright © 2009 – The McGraw-Hill Companies srl Variabili quantitative Misurazione su scala di rapporti o di intervalli Confronto ammissibile: rapporto o differenza tra i valori assunti dal carattere in due diverse unità Misure di distanza fondate sulle differenze tra i valori assunti dalle modalità di tutti i caratteri nelle due unità Diversi indici derivanti da un indice generale: la distanza di Minkoski d ir xik xrk k 1 p 1 dove il parametro λ è una sorta di peso assegnato alle differenze maggiori Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas 30/80 Copyright © 2009 – The McGraw-Hill Companies srl Variabili quantitative Distanza di Minkoski: Per λ = 2 Distanza euclidea: d ir xik xrk k 1 1 2 d ir xik xrk k 1 1/ 2 p p Per λ = 1 Distanza di Manhattam: (o della città a blocchi) dir xik xrk Per λ -> Distanza di Lagrange-Tchebychev: dir max xik xrk Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas p k 1 31/80 Copyright © 2009 – The McGraw-Hill Companies srl Variabili quantitative Esempio: distanze tra due aziende in relazione ad alcuni indici di bilancio Aziende ROI ROS ROE Indeb 1 7.2 5.7 8.2 25.3 2 5.2 1.2 2.0 11.7 |xik – xrk| 2.0 4.5 6.2 13.6 (xik – xrk)2 4.0 20.2 38.4 185.0 max |xik – xrk| Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas 13.6 32/80 Copyright © 2009 – The McGraw-Hill Companies srl Variabili quantitative Problemi degli indici di distanza per variabili quantitative: 1. Problema della scala – sommate differenze relative a caratteri misurati in unità di misura diverse Una soluzione è trasformare le variabili originarie in variabili standardizzate Per la generica variabile Xk : zik xik xk k (numeri puri, media 0 e varianza unitaria) Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas 33/80 Copyright © 2009 – The McGraw-Hill Companies srl Variabili quantitative Un’altra possibilità è rapportare i valori assunti nelle diverse unità al valore massimo della distribuzione: Esempio: xik zik max( xk ) Variabili standardizzate (rapportare al max) Variabili originarie Az ROI Eta’ Prod. % Exp ROI Età Prod. % Exp 1 7.2 65 48.2 65.3 0.387 0.722 0.230 0.653 2 5.2 20 91.5 42.7 0.280 0.222 0.436 0.427 … …. … … … n 2.0 42 42.1 28.5 Val. max 18.6 90 210 100 Un’altra soluzione nell’indice di distanza per variabili miste (vedi oltre) Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas 34/80 Copyright © 2009 – The McGraw-Hill Companies srl Variabili quantitative 2. Correlazione tra le variabili – uno stesso fenomeno misurato tramite più variabili viene implicitamente pesato di più nella misura della distanza Esempio: Aziende ROI ROE ROS Indeb. 1 7.2 8.2 5.7 25.3 2 5.2 2.0 1.2 11.7 (xik – xrk)2 4.0 38.4 20.2 185.0 Distanza Euclidea: d12 = 15.7 Ma: - redditività misurata con tre indici, forse correlati tra loro - situazione finanziaria misurata con un solo indice Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas 35/80 Copyright © 2009 – The McGraw-Hill Companies srl Variabili quantitative Una soluzione al problema della correlazione tra variabili: Distanza euclidea ponderata: 2 d ir ( xik xrk ) wk k 1 p 1/ 2 dove wk : coefficiente di ponderazione della k-esima variabile (tanto minore quanto più la variabile è correlata con le altre p-1) Ad esempio 1/R2 da regressioni multiple (Cap 4) Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas 36/80 Copyright © 2009 – The McGraw-Hill Companies srl Variabili miste Misurazione su scale diverse Confronti ammissibili a seconda della scala di misurazione Indice di distanza di Gower p d ir d k 1 p k 1 ir , k ir , k Media di indici di distanza relativi alle diverse variabili qualitative e quantitative dir,k : ir ,k misura di distanza tra le unità i e r in relazione al k-esimo attributo (misura diversa a seconda della tipologia di carattere, ma sempre compresa tra 0 e 1) 0 confronto non ammissibile (principalmente dati mancanti) ir ,k 1 tutti gli altri casi Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas 37/80 Copyright © 2009 – The McGraw-Hill Companies srl Variabili miste Caratteri quantitativi: d ir ,k xik xrk Range (k ) Range(k): campo di variazione della variabile k Dividere per il range è un modo per eliminare l’effetto delle diverse unità di misura delle variabili: - il rapporto che definisce dir,k (differenza su massimo della differenza) sarà sempre compreso tra zero e uno - corrisponde alla standardizzazione dividendo per il massimo, se si assume il minimo pari a zero [Range (k) = max xk – min xk] Caratteri qualitativi ordinali: si trasformano le variabili in quantitative attribuendo punteggi crescenti al crescere delle modalità del carattere e ci si riconduce al caso dei caratteri quantitativi Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas 38/80 Copyright © 2009 – The McGraw-Hill Companies srl Variabili miste Caratteri qualitativi sconnessi politomici: Indice di distanza di Sneath dir,k = 1 se i e r presentano modalità diverse del carattere k dir,k = 0 se presentano modalità uguale Caratteri qualitativi sconnessi dicotomici: Indice di Jaccard dir,k = 1 se i e r presentano modalità diverse del carattere k dir,k = 0 se presentano modalità uguale ir ,k 0 confronto non ammissibile (dati mancanti, assenza-assenza) ir ,k 1 tutti gli altri casi Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas 39/80 Copyright © 2009 – The McGraw-Hill Companies srl Variabili miste - Esempio Aziende ROI Indeb. Aspettative produzione Settore Export 1 7.1 25.3 Stazionaria (0) Mecc. Si (1) 2 5.1 11.7 Aumento (1) Alim. No (0) 3 7.6 10.3 Forte aumento (2) Alim. Si (1) 4 2.6 18.9 Forte diminuz. (-2) Tess. No (0) 7.1 7.6 25.3 10.3 0 2 d13 1 0 / 5 2.6 / 5 0.52 5 15 4 Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas 40/80 Copyright © 2009 – The McGraw-Hill Companies srl Variabili miste Indice di Gower modificato: Per i casi in cui nei caratteri dicotomici l’assenza del fenomeno in entrambe le unità è interpretabile come similitudine Caratteri qualitativi sconnessi dicotomici: Indice Simple matching (Sneath) dir,k = 1 se i e r presentano modalità diverse del carattere k dir,k = 0 se presentano modalità uguale ir ,k 0 confronto non ammissibile in caso di dati mancanti ir ,k 1 tutti gli altri casi Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas 41/80 Copyright © 2009 – The McGraw-Hill Companies srl Analisi dei gruppi Obiettivi: - raggruppare un insieme di unità in un certo numero di gruppi sulla base delle loro similarità - ridurre la dimensionalità di una matrice dei dati X nel senso delle righe attraverso l’individuazione di righe (unità) simili Possibili applicazioni nelle analisi aziendali: - segmentazione del mercato, segmentazione per omogeneità dei consumatori offerta di prodotti differenziati o strategie di marketing specifiche per le diverse tipologie di consumatori - classificazione di un insieme di aziende concorrenti in un numero ridotto di tipologie ai fini di una analisi di posizionamento sulla base di una pluralità di indicatori Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas 42/80 Copyright © 2009 – The McGraw-Hill Companies srl Analisi dei gruppi I dati di partenza: - la matrice delle distanze D (n x n) - in alcuni casi la matrice dei dati X (n x p) I metodi di raggruppamento: - gerarchici (MG): raggruppamento ottenuto per passaggi successivi - agglomerativi (MGA): aggregazioni successive (in un numero sempre minore di gruppi) Le tipologie di variabili: Di norma: qualitative, quantitative, miste Per alcuni metodi: - divisivi (MGD): solo quantitative divisioni successive (in un numero sempre maggiore di gruppi) - non gerarchici (MNG): raggruppamento direttamente in un numero prefissato di gruppi Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas solo quantitative 43/80 Copyright © 2009 – The McGraw-Hill Companies srl Metodi gerarchici agglomerativi Procedono per agglomerazioni successive delle unità Prendono come input la matrice delle distanze D (n x n) Step: 1. 2. Punto di partenza: n gruppi, ognuno formato da una unità Si identificano le due unità più simili (minimo valore nella matrice delle distanze, esclusa la diagonale) 0 d12 0 D Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas d1n ... d 2 n ... ... 0 d n 1,n 0 d13 ... d 23 ... 44/80 Copyright © 2009 – The McGraw-Hill Companies srl Metodi gerarchici agglomerativi 3. Si fondono le due unità in un gruppo, eliminandole dalla matrice delle distanze, che diventa: Dn-2,n-2 4. Si aggiunge una nuova riga e una nuova colonna con le distanze tra il nuovo gruppo e tutte le altre unità, ottenendo Dn-1,n-1 5. Si torna ad eseguire lo step 2 e i seguenti in modo iterativo, riducendo la matrice D di una unità ad ogni iterazione (fermandosi prima della soluzione - finale e inutile - costituita da un solo gruppo composto da tutte le unità) Due questioni aperte: - Come eseguire lo step 4: come calcolare le distanze tra il nuovo gruppo e tutte le altre unità dalla scelta derivano i diversi metodi - - Come decidere quando fermarsi: in quanti gruppi realizzare la classificazione Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas 45/80 Copyright © 2009 – The McGraw-Hill Companies srl Metodi gerarchici agglomerativi Metodi per eseguire lo step 4 Esempio A B C D A B 0 0.26 0.68 0.45 0.44 0 C D E 0.11 0.39 0.68 0 0.52 0.19 0 E 0.11 distanza minore: si forma il gruppo (B,C) Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas 0.82 0 A D E (B,C) A D E (B,C) 0 0.45 0.44 ? 0 0.82 ? 0 ? 0 distanza di A da (B,C)? di D da (BC)? di E da (B,C)? 46/80 Copyright © 2009 – The McGraw-Hill Companies srl Metodi gerarchici agglomerativi Metodi per eseguire lo step 4 Notazioni: CK : K-esimo gruppo (inizialmente, k-esima unità) CL : L-esimo gruppo (inizialmente, l-esima unità) DKL : distanza tra i gruppi CK e CL (inizialmente, tra le unità k e l) CM : gruppo derivante dalla fusione dei gruppi CK e CL (inizialmente k-esima e l-esima unità) DjM : distanza di un generico gruppo (o unità) preesistente Cj dal gruppo CM derivante dalla fusione dei gruppi CK e CL (inizialmente distanza della generica unità preesistente j dal gruppo formato dalle unità k e l) Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas 47/80 Copyright © 2009 – The McGraw-Hill Companies srl Metodi gerarchici agglomerativi Metodo del legame singolo DJM = min(DJK,DJL) A A B C D E 0 0.26 0.68 0.45 0.44 0 0.11 0.39 0.68 0 0.52 0.19 0 0.82 B C D E A A D D BCE 0 0.45 0.26 0 0.39 BCE 0 distanza di A da BCE: min (dA(BC); dAE) min (0,26; 0,44) Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas D E (B,C) 0 0.45 0.44 0.26 0 0.82 0.39 0 0.19 D E (B,C) 0 A A 0 distanza di A da BC: min (dAB; dAC) min (0,26; 0,68) D BCEA D BCEA 0 0.39 0 distanza di D da BCEA: min (dD(BCE) dDA) min (0,39; 0,45) 48/80 Copyright © 2009 – The McGraw-Hill Companies srl Metodi gerarchici agglomerativi Rappresentazione grafica della classificazione Dendrogramma: Asse delle ascisse (non quantitativo): le unità Asse delle ordinate: livelli di distanza a cui sono avvenute le successive fusioni d 0.39 0.26 0.19 0.11 B C E A D unità legame singolo Pro e contro il metodo del legame singolo: - tende a produrre gruppi allungati e quindi poco omogenei (contro) - ma isola i valori anomali (pro) Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas 49/80 Copyright © 2009 – The McGraw-Hill Companies srl Metodi gerarchici agglomerativi Metodo del legame completo DJM = max(DJK,DJL) A A B C D E 0 0.26 0.68 0.45 0.44 A 0 0.11 0.39 0.68 D 0 0.52 0.19 0 0.82 B C D E 0 D (BC) D (BC) (AE) 0 0.52 0.82 0 0.68 (AE) 0 distanza di D da AE: max (dDA; dDE) max (0,45; 0,82) distanza di BC da AE: max (d(BC)A; d(BC)E ) max (0,68; 0,68) Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas A D E (BC) 0 0.45 0.44 0.68 0 0.82 0.52 0 0.68 E (BC) 0 distanza di A da BC: max (dAB; dAC) max (0,26; 0,68) (AE) (BCD) (AE) (BCD) 0 0.82 0 distanza di AE da BCD: max (d(AE)(BC); d(AE)D) max (0,68; 0,82) 50/80 Copyright © 2009 – The McGraw-Hill Companies srl Metodi gerarchici agglomerativi Dendrogramma 0.68 0.52 0.44 0.11 A E B C D Pro e contro il metodo del legame completo: - tende a produrre gruppi di dimensioni simili (pro) - ma è influenzato dai valori anomali (contro) Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas 51/80 Copyright © 2009 – The McGraw-Hill Companies srl Metodi gerarchici agglomerativi Metodo di McQuitty (dist. media) DJM = (DJK + DJL)/ 2 A A B C D E 0 0.26 0.68 0.45 0.44 0 0.11 0.39 0.68 0 0.52 0.19 0 0.82 B C D E A A D D (BCE) 0 0.45 0.455 0 0.6375 (BCE) 0 distanza di A da BCE: (dA(BC) + dAE)/2 (0,47 + 0,44)/2 Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas D E (BC) 0 0.45 0.44 0.47 0 0.82 0.455 0 0.435 D E (BC) 0 A A 0 distanza di A da BC: (dAB + dAC)/2 (0,26 + 0,68)/2 (BCE) (AD) (BCE) (AD) 0 0.54625 0 distanza di BCE da AD: (d(BCE)A+ d(BCE)D)/2 (0,455+ 0,6375)/2 52/80 Copyright © 2009 – The McGraw-Hill Companies srl Metodi gerarchici agglomerativi Dendrogramma d 0.55 0.45 0.11 B C E A D unità McQuitty Pro e contro il metodo di McQuitty: produce soluzioni intermedie tra legame singolo e legame completo: ne contempera vantaggi e svantaggi Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas 53/80 Copyright © 2009 – The McGraw-Hill Companies srl Metodi gerarchici agglomerativi Metodo del legame medio (media aritmetica ponderata) DJM = (DJK Nk+ DJLNL)/ NM [NK , NL , NM : n. unità in CK, CL, CM] A A B C D E 0 0.26 0.68 0.45 0.44 0 0.11 0.39 0.68 0 0.52 0.19 0 0.82 B C D E A A D D (BCE) 0 0.45 0.46 0 0.577 (BCE) 0 distanza di A da BCE: (dA(BC) N(BC)+ dAE NE)/N(BCE) (0,47 x 2 + 0,44 x 1)/3 Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas D E (BC) 0 0.45 0.44 0.47 0 0.82 0.455 0 0.435 D E (B,C) 0 A A 0 distanza di A da BC: (dA B+ dAC)/N(BC) (0,26 + 0,68)/2 (BCE) (BCE) (AD) 0 (AD) 0.518 0 distanza di BCE da AD: (d(BCE)A NA+ d(BCE)D ND)/N(AD) (0,46 + 0,577)/2 54/80 Copyright © 2009 – The McGraw-Hill Companies srl Metodi gerarchici agglomerativi Distanza di A da BCE: dA(BCE) = (dA(BC) N(BC)+ dAE NE)/N(BCE) = (dAB + dAC + dAE)/N(BCE) (0,47 x 2 + 0,44 x 1)/3 = (0,26 + 0,68 + 0,44)/3 = 0,46 La distanza di una unità da un gruppo è la media delle distanze da tutte le unità del gruppo Distanza di BCE1 da AD: D d N N N d(BCE)(AD) = (d(BCE)A (A)+ d(BCE)D NAD)/N(AD) = = (dAB + dAC + dAE + dDB + dDC + dDE)/N(BCE) N(AD) (0,26 + 0,68 + 0,44 + 0,39 + 0,52 + 0,82)/6 = 0,518 N J NM JM J M i 1 r 1 ir La distanza tra due gruppi è la media delle distanze di ogni unità di un gruppo da tutte le unità dell’altro gruppo: DJM 1 N J NM Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas N J NM d i 1 r 1 ir (i J ; r M ) 55/80 Copyright © 2009 – The McGraw-Hill Companies srl Metodi gerarchici agglomerativi Dendrogramma d 0.52 0.45 0.11 B C E A D unità Legame medio Pro e contro il metodo del legame medio: come il metodo di McQuitty, produce soluzioni intermedie tra legame singolo e legame completo Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas 56/80 Copyright © 2009 – The McGraw-Hill Companies srl Metodi gerarchici agglomerativi Metodo del centroide - si applica solo in caso di variabili quantitative - prende come input la matrice dei dati X (n x p) - centroide (o baricentro) di un gruppo: valori medi delle p variabili calcolati sulle unità appartenenti al gruppo - si aggregano i gruppi per i quali risulta minima la distanza euclidea tra i centroidi dei gruppi (inizialmente si aggregano le due unità che presentano la minima distanza euclidea) Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas 57/80 Copyright © 2009 – The McGraw-Hill Companies srl Metodi gerarchici agglomerativi - Esempio 2 d ir xik xrk k 1 p Distanza euclidea: 1/ 2 d AB [(12 10) 2 (30 26) 2 ]1/2 4.47 Matrice dei dati: Unità X1 X2 A B C D 10 12 8 14 26 30 24 36 A A B 0 4.47 2.83 10.8 B C 0 C D 7.21 6.32 0 13.4 D Passo 2: 0 dB( A,C ) [(12 9)2 (30 25)2 ]1/2 5.83 Unità X1 X2 B D (A,C) 12 14 9 30 36 25 Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas B D (A,C) B D (A,C) 0 6.32 5.83 0 12.1 0 58/80 Copyright © 2009 – The McGraw-Hill Companies srl Metodi gerarchici agglomerativi Metodo poco sensibile ai valori anomali: i dati anomali (molto diversi da tutti gli altri) producono elevate distanze euclidee con le altre unità (e con i gruppi che si formano) e quindi tendono a restare isolati (a non aggregarsi) Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas 59/80 Copyright © 2009 – The McGraw-Hill Companies srl Metodi gerarchici agglomerativi Metodo di Ward - si applica solo in caso di variabili quantitative - prende come input la matrice dei dati X (n x p) - è fondato sulla scomposizione della devianza totale in devianza entro i gruppi e devianza tra i gruppi p n G p ng G p Dev(T ) (xik xk ) 2 ( xik , g xk , g ) 2 ( xk , g xk ) 2 ng k 1 i 1 g 1 k 1 i 1 g 1 k 1 Dev (T) = Dev (W) + Dev (B) Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas 60/80 Copyright © 2009 – The McGraw-Hill Companies srl Metodi gerarchici agglomerativi A ogni passo uniti i gruppi che danno luogo alla minore devianza entro i gruppi rispetto a tutte le altre possibili unioni Ovvero, poiché passando da g a g-1 gruppi aumenta Dev (W), a ogni passo si aggregano i gruppi che danno luogo al minore incremento di Dev (W) Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas 61/80 Copyright © 2009 – The McGraw-Hill Companies srl Metodi gerarchici agglomerativi Esempio: Unità X1 X2 A B C D 10 12 8 14 26 30 24 36 Dev( A, B) (10 11)2 (12 11)2 (26 28)2 (30 28)2 10 Coppie di unità Dev A,B A,C A,D B,C B,D C,D 10 4 58 26 20 90 Unità B D A,C X1 X2 12 14 10;8 30 36 26;24 Passo successivo (tre possibilità: (B,D); (B,A,C); (D,A,C) Dev(W)=Dev( B, D) Dev( A, C ) 20 4 24 Dev(W) = Dev( B, A, C ) (12 10)2 (10 10)2 (8 10)2 (30 26.6)2 ... 18.6 Dev(W) = Dev( D, A, C ) (14 10.6)2 (10 10.6)2 ... 102.3 Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas Δ Dev (W) = 14.6 62/80 Copyright © 2009 – The McGraw-Hill Companies srl Metodi gerarchici agglomerativi Metodo di Ward: - Poco sensibile ai valori anomali, che tende a isolare (come metodo del centroide e per le stesse ragioni) - Tende a produrre gruppi di dimensioni simili Molto utilizzato per la classificazione gerarchica in caso di variabili quantitative Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas 63/80 Copyright © 2009 – The McGraw-Hill Companies srl Metodi gerarchici agglomerativi Quanti gruppi considerare Criterio: il livello di distanza a cui avvengono le aggregazioni successive Osservazione del dendrogramma: aggregazioni che avvengono “molto in alto” (dopo un “salto” nell’indice di distanza) indicano fusione di gruppi eterogenei fermarsi prima d Incremento relativo della distanza di fusione da g a g-1 gruppi: 0.52 0.45 g (d g 1 d g ) / d g 0.11 B C E A D unità g max n. gruppi = g Legame medio Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas 64/80 Copyright © 2009 – The McGraw-Hill Companies srl Metodi gerarchici agglomerativi Analisi dello scree plot (descrive la relazione tra il n. gruppi e la distanza di fusione): Fino a 10 gruppi: distanza di fusione vicina a zero; Da 8 a 7 gruppi: primo incremento sensibile della distanza di fusione; Da 4 a 3 gruppi: massimo incremento relativo (da d 4 2 a d3 6 ) fermarsi a 4. Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas 65/80 Copyright © 2009 – The McGraw-Hill Companies srl Metodi gerarchici divisivi Percorso inverso rispetto agli agglomerativi - Punto di partenza: un unico gruppo formato da tutte le unità - Si procede per divisioni successive, prima in due gruppi, poi il più eterogeneo dei due viene a sua volta diviso in due… Metodo basato sui punti nodali Primo passo: - sulla matrice delle distanze si individuano le due unità più distanti tra loro: i nodi - le altre unità vengono assegnate ai due nodi sulla base della distanza minima Passi successivi: l’operazione si ripete su ognuno dei due gruppi, e così via Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas 66/80 Copyright © 2009 – The McGraw-Hill Companies srl Metodi gerarchici divisivi Metodi basati sui punti nodali - Esempio A A B C D E 0 0.26 0.68 0.45 0.44 0 0.11 0.39 0.68 0 0.52 0.19 0 0.82 B C D E B D 0 B D 0 0.39 E 0 A E A C 0 0.44 0.19 0 0.68 C B con D: dBD < dBE (0.39 < 0.68) 0 C C E 0 0.19 E B Passo 1 Punti nodali: D, E D Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas A 0 C E A con E: dAE < dAD (0.44 < 0.45) Idem per C (0.19 < 0.52) Passo 2 Punti nodali: A, C E con C: dEC < dEA (0.19 < 0.44) 67/80 Copyright © 2009 – The McGraw-Hill Companies srl Metodi non gerarchici Effettuano il raggruppamento direttamente nel numero di gruppi prefissato Si applicano a sole variabili quantitative Prendono come input la matrice di dati X (n x p) Preventiva standardizzazione delle variabili (per neutralizzare gli effetti di diverse unità di misura e/o diverse variabilità) Procedura iterativa che a ogni passo modifica la classificazione nei k gruppi in modo da ottenere il raggruppamento finale caratterizzato dalla massima omogeneità interna Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas 68/80 Copyright © 2009 – The McGraw-Hill Companies srl Metodi non gerarchici Algoritmo K-means 1. Raggruppamento iniziale: si specificano k punti iniziali (seeds) nello spazio delle p variabili quantitative: uno per ciascun gruppo da costruire (centroidi provvisori) Caso semplificato di due sole variabili rappresentato nel grafico: per costruire due gruppi, nel diagramma vanno individuati due punti iniziali (casualmente o con altro criterio) da cui far partire il processo iterativo di classificazione Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas Dati di partenza ■ 7 ■ 0 0 10 69/80 Copyright © 2009 – The McGraw-Hill Companies srl Metodi non gerarchici 2. Ciascuna unità viene assegnata a un punto iniziale sulla base della distanza (euclidea) minima, formando gruppi provvisori Si inseriscono i due seed e si assegnano le unità 7 0 0 Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas 10 70/80 Copyright © 2009 – The McGraw-Hill Companies srl Metodi non gerarchici 3. Vengono calcolati i baricentri (o centroidi) dei gruppi provvisori (valori medi delle p variabili nei gruppi) 4. Si riallocano tutte le unità sulla base del baricentro più vicino (distanza euclidea), formando nuovi gruppi provvisori Si inseriscono i due seed e si assegnano le unità Si calcolano i centroidi dei gruppi provvisori e si riassegnano le unità 7 7 ■ ■ 0 0 Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas 10 0 0 10 71/80 Copyright © 2009 – The McGraw-Hill Companies srl Metodi non gerarchici 5. Si rieseguono in modo iterativo gli step 3 (calcolo centroidi) … … e 4 (riallocazione unità) fino ad ottenere una soluzione stabile: raggruppamento finale Si calcolano i centroidi dei gruppi provvisori e si riassegnano le unità 7 Si ricalcolano i centroidi e si riassegnano le unità; non essendoci modifiche nel raggruppamento il processo termina ■ 7 ■ 0 0 10 0 0 Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas 10 72/80 Copyright © 2009 – The McGraw-Hill Companies srl Metodi non gerarchici Pro e contro il metodo K-means Pro: tende a produrre gruppi internamente più omogenei rispetto ai metodi non gerarchici Contro: - problema della prefissazione del numero di gruppi (consigliabile provarne diversi) - problema della scelta dei punti iniziali: se nell’insieme di unità i gruppi non sono ben distinti, i punti iniziali possono condizionare la classificazione Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas 73/80 Copyright © 2009 – The McGraw-Hill Companies srl Metodi non gerarchici Punti iniziali diversi … Dati di partenza 7 Dati di partenza … diversa soluzione finale ■ 7 ■ ■ 0 0 ■ 10 0 0 Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas 10 74/80 Copyright © 2009 – The McGraw-Hill Companies srl Metodi non gerarchici Soluzioni al problema della scelta dei punti iniziali: - se possibile utilizzare informazioni a priori sui baricentri dei gruppi (vedi strategie complesse di classificazione) - in particolare in caso di scelta casuale, ripetere più volte l’analisi (e valutare la stabilità della classificazione ottenuta) Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas 75/80 Copyright © 2009 – The McGraw-Hill Companies srl Scelta metodo di raggruppamento In base al tipo di variabili a disposizione e alle caratteristiche dei diversi metodi Variabili qualitative o miste solo metodi gerarchici (non tutti) - vantaggio di poter scegliere il n. di gruppi a posteriori - ma sono più rigidi: non consentono di modificare aggregazioni fatte a livello inferiore; tendono quindi a produrre gruppi meno omogenei rispetto ai metodi non gerarchici Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas 76/80 Copyright © 2009 – The McGraw-Hill Companies srl Scelta metodo di raggruppamento Variabili solo quantitative metodi gerarchici (anche Ward e Centroide) e non gerarchici: più flessibili e quindi gruppi più omogenei (classificazione modificata a ogni iterazione con l’obiettivo di massimizzare l’omogeneità interna ai gruppi) Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas 77/80 Copyright © 2009 – The McGraw-Hill Companies srl Strategie complesse di classificazione Utilizzazione di più metodi in sequenza in modo da sfruttare i vantaggi di ognuno 1. Nell’ambito dei metodi gerarchici (per tutte le tipologie di variabili) a) In caso di variabili qualitative o miste: - prima metodo del legame singolo per identificare (ed eliminare) i casi anomali - poi metodo del legame completo, che produce migliori raggruppamenti in assenza di valori anomali Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas 78/80 Copyright © 2009 – The McGraw-Hill Companies srl Strategie complesse di classificazione 1. Nell’ambito dei metodi gerarchici (per tutte le tipologie di variabili) a) In caso di variabili qualitative o miste: - prima metodo del legame singolo per identificare (ed eliminare) i casi anomali - poi metodo del legame completo, che produce migliori raggruppamenti in assenza di valori anomali b) In caso di variabili quantitative: - prima metodo di Ward (o del centroide) per identificare (ed eliminare) i casi anomali - poi stesso metodo per ottenere la classificazione al netto dei casi anomali Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas 79/80 Copyright © 2009 – The McGraw-Hill Companies srl Strategie complesse di classificazione 2. Tra metodi gerarchici e non gerarchici (per variabili quantitative) - prima metodo gerarchico al fine di individuare: - il numero ottimo di gruppi - gli eventuali casi anomali - i punti iniziali per classificazione non gerarchica (centroidi dei gruppi) Preferibili quelli di Ward e del Centroide: robusti rispetto ai casi anomali, che vengono isolati) - poi metodo non gerarchico (dopo eliminazione delle unità anomale) per ottenere la classificazione finale (più omogenea di quella ottenuta dal metodo gerarchico: effetto della riclassificazione delle unità tra i gruppi) Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas 80/80 Copyright © 2009 – The McGraw-Hill Companies srl