Presentazione di PowerPoint - Dipartimento di Economia, Finanza e

Capitolo 3 e par. 5.1
La matrice dei dati e le analisi preliminari
I metodi di classificazione

La matrice dei dati

Qualità dei dati e mancate risposte parziali

Analisi sui profili di colonna

Analisi sui profili di riga

Analisi dei gruppi
Statistica aziendale
Bruno Bracalente, Massimo Cossignani, Anna Mulas
1/80
Copyright © 2009 – The McGraw-Hill Companies srl
La matrice dei dati
Tabella contenente le informazioni disponibili
relativamente ad un insieme di unità statistiche
 Ciascuna riga della matrice contiene le informazioni
relative ad una determinata unità
 Ciascuna colonna contiene le modalità assunte da
un determinato carattere nelle diverse unità
Statistica aziendale
Bruno Bracalente, Massimo Cossignani, Anna Mulas
2/80
Copyright © 2009 – The McGraw-Hill Companies srl
La matrice dei dati
 x11
x
 21
 ...

xi1

X
 ...

 xr 1
 ...

 xn1
x12 ... x1h ... x1 j
x22 ... x2 h ... x2 j
xi 2
...
xih
...
xij
xr 2 ... xrh
...
xrj
xn 2 ... xnh ...
xnj
Statistica aziendale
Bruno Bracalente, Massimo Cossignani, Anna Mulas
... x1 p 
... x2 p 


... xip 


... xrp 


... xnp 
3/80
Copyright © 2009 – The McGraw-Hill Companies srl
La matrice dei dati
I caratteri che figurano nella matrice possono essere:
- qualitativi (in scala nominale o in scala ordinale)
- quantitativi (in scala ad intervalli o in scala di rapporti)
Spesso la matrice contiene variabili miste, alcune
qualitative e altre quantitative
Le unità possono pure essere di varia natura. Esempi:
- le singole imprese di un campione (caso di studio)
- i singoli consumatori di un prodotto
- i singoli prodotti o stabilimenti di una azienda
Statistica aziendale
Bruno Bracalente, Massimo Cossignani, Anna Mulas
4/80
Copyright © 2009 – The McGraw-Hill Companies srl
La matrice dei dati
La matrice dei dati può derivare da:
- rilevazioni primarie (indagini campionarie)
- fonti secondarie
- interne (dati aziendali)
- esterne (fonti statistiche ufficiali o non ufficiali)
Principali problemi di qualità:
- presenza di valori errati
- valori mancanti
Statistica aziendale
Bruno Bracalente, Massimo Cossignani, Anna Mulas
5/80
Copyright © 2009 – The McGraw-Hill Companies srl
I valori errati
Possono essere segnalati da:
- valori fuori dominio (non appartenenti all’insieme dei valori
- valori
- valori
ammissibili)
anomali o outliers (valori che si discostano molto da quelli
assunti nella maggior parte delle altre unità)
incompatibili (contraddittori con altre risposte)
Possono essere individuati, rispettivamente, attraverso:
- controlli di validità o di range
- controlli per gli outlier
- controlli di consistenza
Una volta individuati, i valori errati possono essere
- corretti attraverso una nuova rilevazione
- considerati come valori mancanti
Statistica aziendale
Bruno Bracalente, Massimo Cossignani, Anna Mulas
6/80
Copyright © 2009 – The McGraw-Hill Companies srl
Le mancate risposte parziali
Mancanza di uno o più dati:
- nelle indagini campionarie mancate risposte ad uno
o più quesiti
Le possibili soluzioni:
1. Utilizzare soltanto il sottoinsieme di unità senza dati
mancanti  riduzione numerosità; possibili distorsioni
2.
3.
Utilizzare diversi sottoinsiemi (completi) di unità per le
diverse analisi (univariate, bivariate, multivariate)
 numerosità diverse per le diverse analisi
Assegnare al dato mancante un valore plausibile
(imputazione)
Statistica aziendale
Bruno Bracalente, Massimo Cossignani, Anna Mulas
7/80
Copyright © 2009 – The McGraw-Hill Companies srl
Tecniche di imputazione
Diverse tecniche di imputazione
 1. Imputazione di un valore medio: media aritmetica o
mediana (per i caratteri quantitativi o qualitativi ordinali),
moda (per i caratteri qualitativi sconnessi) calcolate:
a - sul complesso delle unità
b - o su un sottoinsieme più omogeneo
 Conseguenza indesiderata: riduce la variabilità
(in particolare nel caso a)

2. Imputazione con prelievo da donatore: invece del valore
medio si imputa un valore individuale, “donato” da una
unità il più possibile simile in base alle altre caratteristiche
(indici di similarità o distanza: vedi oltre)
Statistica aziendale
Bruno Bracalente, Massimo Cossignani, Anna Mulas
8/80
Copyright © 2009 – The McGraw-Hill Companies srl
Tecniche di imputazione
 3. Imputazione da modello
In base alla relazione empirica tra la variabile con dati
mancanti e una o più variabili esplicative (con dati presenti)
Passi:
- scelta variabili esplicative di quella con dati mancanti
- stima dei parametri di un modello di regressione
sui dati presenti nella matrice
Regressione (semplice):
Yi     X i  ui (i  1,..., n)
Modello teorico
Modello stimato
Ŷ  a  bX
- assegnazione del valore predetto dal modello in base
ai valori assunti dalla variabile esplicativa nella
unità i con dato mancante: Yˆi  a  bX i
Statistica aziendale
Bruno Bracalente, Massimo Cossignani, Anna Mulas
9/80
Copyright © 2009 – The McGraw-Hill Companies srl
Tecniche di imputazione
 4. Imputazione stocastica
assegnazione al dato mancante di un valore estratto
casualmente da una distribuzione ritenuta plausibile
Limite: distribuzioni teoriche diverse per diverse variabili,
da identificare di volta in volta
Semplificazione:
estrazione casuale di una unità per ogni dato mancante
dalla distribuzione empirica della caratteristica
Statistica aziendale
Bruno Bracalente, Massimo Cossignani, Anna Mulas
10/80
Copyright © 2009 – The McGraw-Hill Companies srl
Le analisi sui profili di colonna
Analisi univariate (es: medie, varianze), bivariate (es:
correlazione), multivariate (es: regressione multipla)
Analisi bivariate: studio dell’associazione esistente tra le
diverse coppie di variabili
Si ottiene una matrice di associazione (p x p):
 a11 a12
a
 21 a22
 ...

ah1 ah 2

A
 ...

 a j1 a j 2
 ...

a p1 a p 2
... a1h
... a2 h
... a1 j
... a2 j
... ahh
... ahj
... a jh
... a jj
... a ph ... a pj
Statistica aziendale
Bruno Bracalente, Massimo Cossignani, Anna Mulas
... a1 p 
... a2 p 


... ahp 


... a jp 


... a pp 
L’indice con cui misurare
l’associazione dipende
dal tipo di variabili
presenti nella matrice dei
dati
11/80
Copyright © 2009 – The McGraw-Hill Companies srl
Variabili quantitative
La covarianza:
n
shj 
 (x
i 1
ih
 xh )( xij  x j )
n
Indica se tra le due variabili esiste:
concordanza (segno positivo: se prevalgono prodotti di segno +)
discordanza (segno negativo: se prevalgono prodotti di segno -)
Indipendenza lineare (valore nullo)
Limite: i valori assunti dalle covarianze dipendono dalle scale
di misura dei caratteri  non sono direttamente confrontabili
Statistica aziendale
Bruno Bracalente, Massimo Cossignani, Anna Mulas
12/80
Copyright © 2009 – The McGraw-Hill Companies srl
Le variabili quantitative
Per ovviare al problema della confrontabilità
Coefficiente di correlazione lineare di Bravais-Pearson:
(covarianza diviso il prodotto delle due deviazioni standard)
rhj 
shj
h  j
;
rhj 
1 n
( xi h  xh )( xij  x j )

n i 1
1 n
1 n
2
2
(
x

x
)

(
x

x
)
 ih h n 
ij
j
n i 1
i 1
Il coefficiente di correlazione lineare:
• assume lo stesso segno della covarianza
• è compreso tra –1 e 1
Statistica aziendale
Bruno Bracalente, Massimo Cossignani, Anna Mulas
13/80
Copyright © 2009 – The McGraw-Hill Companies srl
Le variabili quantitative
Esempio
scarti2 Xh
scarti2 Xj
0.03
0.09
0.01
0.1
0
0
0.01
0.2
0
0
0.04
0
0.7
-0.2
-0.1
0.02
0.04
0.01
1.9
0.9
0.3
0.1
0.03
0.09
0.01
somme
8
4
0
0
0.08
0.26
0.04
medie
1.6
0.8
0.052
0.008
0.228
0.089
Cor =
0.784
Unità
Xh
Xj
scarti Xh
scarti Xj prodotti
1
1.3
0.7
-0.3
-0.1
2
1.6
0.9
0
3
1.8
0.8
4
1.4
5
Cov =
0.016
dev. st.
Statistica aziendale
Bruno Bracalente, Massimo Cossignani, Anna Mulas
14/80
Copyright © 2009 – The McGraw-Hill Companies srl
Le variabili quantitative
Matrice (p x p) delle correlazioni
 r11
r
 21
 ...

rh1

R
 ...

 r j1
 ...

rp1
r12
r22
... r1h
... r2 h
... r1 j
... r2 j
rh 2
... rhh
... rhj
rj 2
... rjh
... rjj
rp 2 ... rph ... rpj
Statistica aziendale
Bruno Bracalente, Massimo Cossignani, Anna Mulas
... r1 p 
simmetrica
... r2 p 


... rhp  sulla diagonale valori unitari:

shh

r

1
... rjp 
hh
h h


... rpp 
15/80
Copyright © 2009 – The McGraw-Hill Companies srl
Le analisi sui profili di riga
Obiettivo: misurare la distanza (differenza) o la similarità
tra coppie di unità, in relazione alle
caratteristiche osservate
Si ottiene una matrice delle distanze D (n x n)
 d11 d12
d
 21 d 22
 ...

d
di 2
D   i1
 ...

 d r1 d r 2
 ...

d n1 d n 2
... d1i
... d 2i
... d1r
... d 2 r
... d ii
... d ir
... d ri
... d rr
... d ni ... d nr
Statistica aziendale
Bruno Bracalente, Massimo Cossignani, Anna Mulas
... d1n 
... d 2 n 


... d in 


... d rn 


... d nn 
L’indice con cui misurare
la distanza dipende dal
tipo di variabili presenti
nella matrice dei dati
16/80
Copyright © 2009 – The McGraw-Hill Companies srl
Le analisi sui profili di riga
Valori non negativi:
dir ≥ 0
Valori sulla diagonale pari a zero: dii = 0
Simmetria:
dir = dri
Diseguaglianza triangolare:
dir ≤ dis + dsr
Misura di distanza definita in uno spazio metrico
In corrispondenza a ogni indice di distanza può essere
definito un indice di similarità:
cir = 1- dir
Statistica aziendale
Bruno Bracalente, Massimo Cossignani, Anna Mulas
17/80
Copyright © 2009 – The McGraw-Hill Companies srl
Indici di distanza
Indici specifici per ogni tipologia di variabili:
- qualitative (sconnesse politomiche o dicotomiche)
- quantitative (o qualitative ordinali)
Un indice generale per variabili miste
La presenza di variabili miste è la norma, in particolare nelle
matrici di dati derivanti da indagini campionarie
Statistica aziendale
Bruno Bracalente, Massimo Cossignani, Anna Mulas
18/80
Copyright © 2009 – The McGraw-Hill Companies srl
Indici di distanza
Esempi dall’indagine Efige:
- qualitative dicotomiche:
export (si, no); ide; innovazione
- qualitative sconnesse:
destinazione export (UE, Asia, USA, …)
finanziamento investimenti (autofin, venture cap, cred. banc.…)
- qualitative ordinali:
export prima 2008 (regolarmente, qualche volta, mai)
dipendenza da finanziamenti esterni (1 non dip -> 5 molto dip)
- quantitative:
n. dipendenti; valori e indici di bilancio; % fatturato esportato
Statistica aziendale
Bruno Bracalente, Massimo Cossignani, Anna Mulas
19/80
Copyright © 2009 – The McGraw-Hill Companies srl
Variabili qualitative
sconnesse politomiche
Misurazione su scala nominale
Confronto ammissibile tra due unità: se sono uguali o diverse
rispetto al carattere considerato
Indice di distanza di Sneath
Distanza misurata sulla base di p caratteri qualitativi sconnessi
Per il generico carattere k si pone:
dir,k = 1 se xik  xrk
dir,k = 0 se xik = xrk
p
dir 
d
k 1
ir , k
p
- E’ dato dalla frequenza relativa dei caratteri per i quali
le unità i ed r presentano modalità diverse
- Di conseguenza: compreso tra 0 e 1
Statistica aziendale
Bruno Bracalente, Massimo Cossignani, Anna Mulas
20/80
Copyright © 2009 – The McGraw-Hill Companies srl
Variabili qualitative
sconnesse politomiche - Esempio
Distanza o similarità tra coppie di aziende esportatrici in relazione
ai caratteri: forma giuridica; settore di attività; area di esportazione
Aziende
Forma
giuridica
Settore
Area
export
1
SPA
Meccanica
Asia
2
SPA
Tessile
Europa
3
SNC
Tessile
Europa
4
SRL
Meccanica
USA
Indice di distanza tra le aziende 1 e 2:
d12,1=0; d12,2=1; d12,3=1  d12= (0+1+1)/3 =0.66 [c12 = 1-d12=0.33]
Indice di distanza tra le aziende 2 e 3:
d23,1=1; d23,2=0; d23,3=0  d23=(1+0+0)/3 =0.33 [c23 = 1-d23 =0.66]
Statistica aziendale
Bruno Bracalente, Massimo Cossignani, Anna Mulas
21/80
Copyright © 2009 – The McGraw-Hill Companies srl
Variabili dicotomiche
Misurazione su scala nominale
Confronto ammissibile: come nel caso di caratteri sconnessi
politomici (se le modalità sono uguali o diverse nelle due unità)
 si può utilizzare lo stesso indice (di Sneat)
Esempio:
Distanza tra coppie di aziende per le quali è stato rilevato:
- se hanno delocalizzato oppure no
- se hanno fatto investimenti oppure no
- se hanno apportato innovazioni oppure no
- se hanno fatto assunzioni oppure no
Aziende
Deloc.
Invest.
Innov.
Assunz.
1
No
Sì
No
No
2
Sì
No
Sì
Sì
3
Sì
No
No
Sì
4
No
Sì
No
No
Statistica aziendale
Bruno Bracalente, Massimo Cossignani, Anna Mulas
d12 = (1+1+1+1)/4 = 1
d23 = (0+0+1+0)/4 = 0.25
22/80
Copyright © 2009 – The McGraw-Hill Companies srl
Variabili politomiche e dicotomiche
L’indice di Sneat consente di misurare la distanza anche
quando tra le p variabili qualitative considerate ve ne sono
alcune sconnesse politomiche e altre dicotomiche
Esempio:
Politomiche
Az.
Forma
giur.
1
2
Dicotomiche
Sett.
Area
export
Del
Inv
Inn
Ass
SpA
Mec
Asia
NO
SI
NO
NO
SpA
Tes
Europa
SI
NO
SI
SI
Indice di distanza (di Sneat) tra le aziende 1 e 2:
d12= (0+1+1+1+1+1+1)/7 = 0.86 [c12 = 1-d12=0.14]
Statistica aziendale
Bruno Bracalente, Massimo Cossignani, Anna Mulas
23/80
Copyright © 2009 – The McGraw-Hill Companies srl
Variabili qualitative dicotomiche
Nel caso di sole variabili dicotomiche si possono calcolare
diversi indici di distanza:
Simple matching
Jaccard
(Altri)
Statistica aziendale
Bruno Bracalente, Massimo Cossignani, Anna Mulas
24/80
Copyright © 2009 – The McGraw-Hill Companies srl
Variabili qualitative dicotomiche
Nella matrice dei dati, per ognuno dei p caratteri dicotomici:
valore 1 (presenza)
valore 0 (assenza) Aziende Deloc. Invest. Innov. Assunz.
1
No (0)
Sì (1)
No (0)
No (0)
2
Sì (1)
No (0)
Sì (1)
Sì (1)
3
Sì (1)
No (0)
No (0)
Sì (1)
4
No (0)
Sì (1)
No (0)
No (0)
I diversi indici derivano dalla classificazione dei p caratteri nella
seguente tabella di contingenza (per la coppia di unità i ed r):
unità i
1
0
unità r 1 a
b
0 c
d
Statistica aziendale
Bruno Bracalente, Massimo Cossignani, Anna Mulas
a = numero di caratteri presenti in entrambe le unità
b = numero di caratteri presenti in r ma assenti in i
c = numero di caratteri assenti in r ma presenti in i
d = numero di caratteri assenti in entrambe le unità
(a + b + c + d = p)
25/80
Copyright © 2009 – The McGraw-Hill Companies srl
Variabili qualitative dicotomiche
Esempio
Aziende
Deloc.
Invest.
Innov.
Assunz.
1
No (0)
Sì (1)
No (0)
No (0)
2
Sì (1)
No (0)
Sì (1)
Sì (1)
3
Sì (1)
No (0)
No (0)
Sì (1)
4
No (0)
Sì (1)
No (0)
No (0)
Az. 2
1
0
1
2
0
0
1
1
Az.3
Statistica aziendale
Bruno Bracalente, Massimo Cossignani, Anna Mulas
26/80
Copyright © 2009 – The McGraw-Hill Companies srl
Variabili qualitative dicotomiche
unità r 1
0
unità i
1
0
a
b
c
d
Esempio:
Az. 2
1
0
1
2
0
0
1
1
Az.3
Statistica aziendale
Bruno Bracalente, Massimo Cossignani, Anna Mulas
Indice Simple matching :
bc
d ir 
p
Frequenza relativa degli
attributi presenti in una
unità e assenti nell’altra
Come indice di Sneath:
frequenza relativa dei
caratteri per i quali le
unità i ed r presentano
modalità diverse
Simple matching:
d23 = 1/4 = 0.25
27/80
Copyright © 2009 – The McGraw-Hill Companies srl
Variabili qualitative dicotomiche
unità r 1
0
unità i
1
0
a
b
c
d
Esempio:
Az. 2
Indice di Jaccard:
bc
d ir 
abc
Esclude d dal denominatore:
si assume che l’assenza in
entrambe le unità non indichi
similarità
1
0
1
2
0
Jaccard:
0
1
1
d23 = 1/3 = 0.33
Az.3
Statistica aziendale
Bruno Bracalente, Massimo Cossignani, Anna Mulas
28/80
Copyright © 2009 – The McGraw-Hill Companies srl
Variabili qualitative ordinali
Misurazione su scala ordinale
Confronto ammissibile tra due unità: se l’una presenta modalità
maggiore o minore dell’altra secondo il carattere considerato
Due possibilità:
a) Trasformare le variabili in quantitative
Si attribuisce un punteggio crescente (1, 2, 3, …) al crescere
della misurazione ordinale e si utilizza un indice di distanza
per dati quantitativi (vedi oltre)
Limite: si introducono elementi di arbitrarietà (si assume
costante la differenza tra due modalità contigue)
b) Considerare la misurazione su scala nominale
Si considerano le variabili come qualitative politomiche
e si utilizza l’indice di Sneath
Limite: notevole perdita di informazione
Meglio soluzione a)
Statistica aziendale
Bruno Bracalente, Massimo Cossignani, Anna Mulas
29/80
Copyright © 2009 – The McGraw-Hill Companies srl
Variabili quantitative
Misurazione su scala di rapporti o di intervalli
Confronto ammissibile: rapporto o differenza tra i valori
assunti dal carattere in due diverse unità
Misure di distanza fondate sulle differenze tra i valori assunti
dalle modalità di tutti i caratteri nelle due unità
Diversi indici derivanti da un indice generale:
la distanza di Minkoski


d ir   xik  xrk 
 k 1

p
1

dove il parametro λ è una sorta di peso assegnato alle
differenze maggiori
Statistica aziendale
Bruno Bracalente, Massimo Cossignani, Anna Mulas
30/80
Copyright © 2009 – The McGraw-Hill Companies srl
Variabili quantitative
Distanza di Minkoski:
Per λ = 2
Distanza euclidea:


d ir   xik  xrk 
 k 1

1

2
d ir   xik  xrk  
 k 1

1/ 2
p
p
Per λ = 1
Distanza di Manhattam:
(o della città a blocchi)
dir   xik  xrk
Per λ -> 
Distanza di Lagrange-Tchebychev:
dir  max xik  xrk
Statistica aziendale
Bruno Bracalente, Massimo Cossignani, Anna Mulas

p
k 1
31/80
Copyright © 2009 – The McGraw-Hill Companies srl
Variabili quantitative
Esempio: distanze tra due aziende in relazione ad alcuni
indici di bilancio
Aziende
ROI
ROS
ROE
Indeb
1
7.2
5.7
8.2
25.3
2
5.2
1.2
2.0
11.7
|xik – xrk|
2.0
4.5
6.2
13.6
(xik – xrk)2
4.0
20.2
38.4
185.0
max |xik – xrk|
Statistica aziendale
Bruno Bracalente, Massimo Cossignani, Anna Mulas
13.6
32/80
Copyright © 2009 – The McGraw-Hill Companies srl
Variabili quantitative
Problemi degli indici di distanza per variabili quantitative:
1.
Problema della scala – sommate differenze relative a
caratteri misurati in unità di misura diverse
Una soluzione è trasformare le variabili originarie in variabili
standardizzate
Per la generica variabile Xk :
zik 
xik  xk
k
(numeri puri, media
0 e varianza unitaria)
Statistica aziendale
Bruno Bracalente, Massimo Cossignani, Anna Mulas
33/80
Copyright © 2009 – The McGraw-Hill Companies srl
Variabili quantitative
Un’altra possibilità è rapportare i
valori assunti nelle diverse unità al
valore massimo della distribuzione:
Esempio:
xik
zik 
max( xk )
Variabili standardizzate
(rapportare al max)
Variabili originarie
Az
ROI
Eta’
Prod.
% Exp ROI
Età
Prod.
% Exp
1
7.2
65
48.2
65.3
0.387
0.722
0.230
0.653
2
5.2
20
91.5
42.7
0.280
0.222
0.436
0.427
…
….
…
…
…
n
2.0
42
42.1
28.5
Val. max
18.6
90
210
100
Un’altra soluzione nell’indice di distanza per variabili miste (vedi
oltre)
Statistica aziendale
Bruno Bracalente, Massimo Cossignani, Anna Mulas
34/80
Copyright © 2009 – The McGraw-Hill Companies srl
Variabili quantitative
2.
Correlazione tra le variabili – uno stesso fenomeno
misurato tramite più variabili viene implicitamente
pesato di più nella misura della distanza
Esempio:
Aziende
ROI
ROE
ROS
Indeb.
1
7.2
8.2
5.7
25.3
2
5.2
2.0
1.2
11.7
(xik – xrk)2
4.0
38.4
20.2
185.0
Distanza Euclidea:
d12 = 15.7
Ma:
- redditività misurata con tre indici, forse correlati tra loro
- situazione finanziaria misurata con un solo indice
Statistica aziendale
Bruno Bracalente, Massimo Cossignani, Anna Mulas
35/80
Copyright © 2009 – The McGraw-Hill Companies srl
Variabili quantitative
Una soluzione al problema della correlazione tra variabili:
Distanza euclidea ponderata:


2
d ir   ( xik  xrk ) wk 
 k 1

p
1/ 2
dove
wk : coefficiente di ponderazione della k-esima variabile
(tanto minore quanto più la variabile è correlata
con le altre p-1)
Ad esempio 1/R2 da regressioni multiple (Cap 4)
Statistica aziendale
Bruno Bracalente, Massimo Cossignani, Anna Mulas
36/80
Copyright © 2009 – The McGraw-Hill Companies srl
Variabili miste
Misurazione su scale diverse
Confronti ammissibili a seconda della scala di misurazione
Indice di distanza di Gower
p
d ir 
d
k 1
p

k 1
ir , k
ir , k
Media di indici di distanza relativi alle
diverse variabili qualitative e quantitative
dir,k :
 ir ,k
misura di distanza tra le unità i e r in relazione al
k-esimo attributo (misura diversa a seconda della
tipologia di carattere, ma sempre compresa tra 0 e 1)
 0 confronto non ammissibile (principalmente dati mancanti)
 ir ,k  1 tutti gli altri casi
Statistica aziendale
Bruno Bracalente, Massimo Cossignani, Anna Mulas
37/80
Copyright © 2009 – The McGraw-Hill Companies srl
Variabili miste
Caratteri quantitativi:
d ir ,k 
xik  xrk
Range (k )
Range(k):
campo di variazione
della variabile k
Dividere per il range è un modo per eliminare l’effetto delle
diverse unità di misura delle variabili:
- il rapporto che definisce dir,k (differenza su massimo della
differenza) sarà sempre compreso tra zero e uno
- corrisponde alla standardizzazione dividendo per il massimo,
se si assume il minimo pari a zero [Range (k) = max xk – min xk]
Caratteri qualitativi ordinali:
si trasformano le variabili in quantitative attribuendo
punteggi crescenti al crescere delle modalità del carattere
e ci si riconduce al caso dei caratteri quantitativi
Statistica aziendale
Bruno Bracalente, Massimo Cossignani, Anna Mulas
38/80
Copyright © 2009 – The McGraw-Hill Companies srl
Variabili miste
Caratteri qualitativi sconnessi politomici:
Indice di distanza di Sneath
dir,k = 1 se i e r presentano modalità diverse del carattere k
dir,k = 0 se presentano modalità uguale
Caratteri qualitativi sconnessi dicotomici:
Indice di Jaccard
dir,k = 1 se i e r presentano modalità diverse del carattere k
dir,k = 0 se presentano modalità uguale
 ir ,k  0 confronto non ammissibile (dati mancanti, assenza-assenza)
 ir ,k  1 tutti gli altri casi
Statistica aziendale
Bruno Bracalente, Massimo Cossignani, Anna Mulas
39/80
Copyright © 2009 – The McGraw-Hill Companies srl
Variabili miste - Esempio
Aziende
ROI
Indeb.
Aspettative
produzione
Settore
Export
1
7.1
25.3
Stazionaria (0)
Mecc.
Si (1)
2
5.1
11.7
Aumento (1)
Alim.
No (0)
3
7.6
10.3
Forte aumento (2)
Alim.
Si (1)
4
2.6
18.9
Forte diminuz. (-2)
Tess.
No (0)
 7.1  7.6 25.3  10.3 0  2

d13  


 1  0  / 5  2.6 / 5  0.52
5
15
4


Statistica aziendale
Bruno Bracalente, Massimo Cossignani, Anna Mulas
40/80
Copyright © 2009 – The McGraw-Hill Companies srl
Variabili miste
Indice di Gower modificato:
Per i casi in cui nei caratteri dicotomici l’assenza del fenomeno
in entrambe le unità è interpretabile come similitudine
Caratteri qualitativi sconnessi dicotomici:
Indice Simple matching (Sneath)
dir,k = 1 se i e r presentano modalità diverse del carattere k
dir,k = 0 se presentano modalità uguale
 ir ,k  0 confronto non ammissibile in caso di dati mancanti
 ir ,k  1 tutti gli altri casi
Statistica aziendale
Bruno Bracalente, Massimo Cossignani, Anna Mulas
41/80
Copyright © 2009 – The McGraw-Hill Companies srl
Analisi dei gruppi
Obiettivi:
- raggruppare un insieme di unità in un certo numero di gruppi
sulla base delle loro similarità
- ridurre la dimensionalità di una matrice dei dati X nel senso
delle righe attraverso l’individuazione di righe (unità) simili
Possibili applicazioni nelle analisi aziendali:
- segmentazione del mercato, segmentazione per omogeneità dei
consumatori  offerta di prodotti differenziati o strategie di marketing
specifiche per le diverse tipologie di consumatori
- classificazione di un insieme di aziende concorrenti in un
numero ridotto di tipologie ai fini di una analisi di
posizionamento sulla base di una pluralità di indicatori
Statistica aziendale
Bruno Bracalente, Massimo Cossignani, Anna Mulas
42/80
Copyright © 2009 – The McGraw-Hill Companies srl
Analisi dei gruppi
I dati di partenza:
- la matrice delle distanze D (n x n)
- in alcuni casi la matrice dei dati X (n x p)
I metodi di raggruppamento:
- gerarchici (MG):
raggruppamento ottenuto
per passaggi successivi
- agglomerativi (MGA):
aggregazioni successive
(in un numero sempre minore di gruppi)
Le tipologie di
variabili:
Di norma: qualitative,
quantitative, miste
 Per alcuni metodi:
- divisivi (MGD):
solo quantitative
divisioni successive
(in un numero sempre maggiore di gruppi)
- non gerarchici (MNG):
raggruppamento direttamente
in un numero prefissato di gruppi
Statistica aziendale
Bruno Bracalente, Massimo Cossignani, Anna Mulas
 solo quantitative
43/80
Copyright © 2009 – The McGraw-Hill Companies srl
Metodi gerarchici agglomerativi


Procedono per agglomerazioni successive delle unità
Prendono come input la matrice delle distanze D (n x n)
Step:
1.
2.
Punto di partenza: n gruppi, ognuno formato da una unità
Si identificano le due unità più simili (minimo valore nella
matrice delle distanze, esclusa la diagonale)
0 d12

0

D



Statistica aziendale
Bruno Bracalente, Massimo Cossignani, Anna Mulas
d1n 
... d 2 n 
...
... 

0 d n 1,n 
0 
d13 ...
d 23
...
44/80
Copyright © 2009 – The McGraw-Hill Companies srl
Metodi gerarchici agglomerativi
3. Si fondono le due unità in un gruppo, eliminandole dalla
matrice delle distanze, che diventa: Dn-2,n-2
4. Si aggiunge una nuova riga e una nuova colonna con le
distanze tra il nuovo gruppo e tutte le altre unità, ottenendo
Dn-1,n-1
5. Si torna ad eseguire lo step 2 e i seguenti in modo iterativo,
riducendo la matrice D di una unità ad ogni iterazione
(fermandosi prima della soluzione - finale e inutile - costituita
da un solo gruppo composto da tutte le unità)
Due questioni aperte:
- Come eseguire lo step 4:
come calcolare le distanze tra il nuovo gruppo e tutte le altre unità
 dalla scelta derivano i diversi metodi -
- Come decidere quando fermarsi:
in quanti gruppi realizzare la classificazione
Statistica aziendale
Bruno Bracalente, Massimo Cossignani, Anna Mulas
45/80
Copyright © 2009 – The McGraw-Hill Companies srl
Metodi gerarchici agglomerativi
Metodi per eseguire lo step 4
Esempio
A
B
C
D
A
B
0
0.26 0.68 0.45 0.44
0
C
D
E
0.11 0.39 0.68
0
0.52 0.19
0
E
0.11 distanza minore:
si forma il gruppo (B,C)
Statistica aziendale
Bruno Bracalente, Massimo Cossignani, Anna Mulas
0.82
0
A
D
E
(B,C)
A
D
E
(B,C)
0
0.45
0.44
?
0
0.82
?
0
?
0
distanza di A da (B,C)?
di D da (BC)? di E da (B,C)?
46/80
Copyright © 2009 – The McGraw-Hill Companies srl
Metodi gerarchici agglomerativi
Metodi per eseguire lo step 4
Notazioni:
CK : K-esimo gruppo (inizialmente, k-esima unità)
CL : L-esimo gruppo (inizialmente, l-esima unità)
DKL : distanza tra i gruppi CK e CL (inizialmente, tra le unità k e l)
CM : gruppo derivante dalla fusione dei gruppi CK e CL
(inizialmente k-esima e l-esima unità)
DjM : distanza di un generico gruppo (o unità) preesistente Cj
dal gruppo CM derivante dalla fusione dei gruppi CK e CL
(inizialmente distanza della generica unità preesistente j
dal gruppo formato dalle unità k e l)
Statistica aziendale
Bruno Bracalente, Massimo Cossignani, Anna Mulas
47/80
Copyright © 2009 – The McGraw-Hill Companies srl
Metodi gerarchici agglomerativi
Metodo del legame singolo  DJM = min(DJK,DJL)

A
A
B
C
D
E
0
0.26
0.68
0.45
0.44
0
0.11
0.39
0.68
0
0.52
0.19
0
0.82
B
C
D
E
A

A
D
D
BCE
0
0.45
0.26
0
0.39
BCE
0
distanza di A da BCE:
min (dA(BC); dAE)  min (0,26; 0,44)
Statistica aziendale
Bruno Bracalente, Massimo Cossignani, Anna Mulas
D
E
(B,C)
0
0.45
0.44
0.26
0
0.82
0.39
0
0.19
D
E
(B,C)
0
A
A
0
distanza di A da BC:
min (dAB; dAC)  min (0,26; 0,68)

D
BCEA
D
BCEA
0
0.39
0
distanza di D da BCEA:
min (dD(BCE) dDA)  min (0,39; 0,45)
48/80
Copyright © 2009 – The McGraw-Hill Companies srl
Metodi gerarchici agglomerativi
Rappresentazione grafica della classificazione
Dendrogramma:
Asse delle ascisse (non quantitativo): le unità
Asse delle ordinate: livelli di distanza a cui sono
avvenute le successive fusioni
d
0.39
0.26
0.19
0.11
B
C
E
A
D
unità
legame singolo
Pro e contro il metodo del legame singolo:
- tende a produrre gruppi allungati e quindi poco omogenei (contro)
- ma isola i valori anomali (pro)
Statistica aziendale
Bruno Bracalente, Massimo Cossignani, Anna Mulas
49/80
Copyright © 2009 – The McGraw-Hill Companies srl
Metodi gerarchici agglomerativi
Metodo del legame completo  DJM = max(DJK,DJL)

A
A
B
C
D
E
0
0.26
0.68
0.45
0.44
A
0
0.11
0.39
0.68
D
0
0.52
0.19
0
0.82
B
C
D
E
0
D
(BC)
D
(BC)
(AE)
0
0.52
0.82
0
0.68
(AE)
0
distanza di D da AE:
max (dDA; dDE)  max (0,45; 0,82)
distanza di BC da AE:
max (d(BC)A; d(BC)E )  max (0,68; 0,68)
Statistica aziendale
Bruno Bracalente, Massimo Cossignani, Anna Mulas

A
D
E
(BC)
0
0.45
0.44
0.68
0
0.82
0.52
0
0.68
E
(BC)
0
distanza di A da BC:
max (dAB; dAC)  max (0,26; 0,68)

(AE)
(BCD)
(AE)
(BCD)
0
0.82
0
distanza di AE da BCD:
max (d(AE)(BC); d(AE)D) max (0,68; 0,82)
50/80
Copyright © 2009 – The McGraw-Hill Companies srl
Metodi gerarchici agglomerativi
Dendrogramma
0.68
0.52
0.44
0.11
A
E
B
C
D
Pro e contro il metodo del legame completo:
- tende a produrre gruppi di dimensioni simili (pro)
- ma è influenzato dai valori anomali (contro)
Statistica aziendale
Bruno Bracalente, Massimo Cossignani, Anna Mulas
51/80
Copyright © 2009 – The McGraw-Hill Companies srl
Metodi gerarchici agglomerativi
Metodo di McQuitty (dist. media)  DJM = (DJK + DJL)/ 2

A
A
B
C
D
E
0
0.26
0.68
0.45
0.44
0
0.11
0.39
0.68
0
0.52
0.19
0
0.82
B
C
D
E
A

A
D
D
(BCE)
0
0.45
0.455
0
0.6375
(BCE)
0
distanza di A da BCE:
(dA(BC) + dAE)/2  (0,47 + 0,44)/2
Statistica aziendale
Bruno Bracalente, Massimo Cossignani, Anna Mulas
D
E
(BC)
0
0.45
0.44
0.47
0
0.82
0.455
0
0.435
D
E
(BC)
0
A
A
0
distanza di A da BC:
(dAB + dAC)/2  (0,26 + 0,68)/2

(BCE)
(AD)
(BCE)
(AD)
0
0.54625
0
distanza di BCE da AD:
(d(BCE)A+ d(BCE)D)/2  (0,455+ 0,6375)/2
52/80
Copyright © 2009 – The McGraw-Hill Companies srl
Metodi gerarchici agglomerativi
Dendrogramma
d
0.55
0.45
0.11
B
C
E
A
D
unità
McQuitty
Pro e contro il metodo di McQuitty:
produce soluzioni intermedie tra legame singolo e legame
completo: ne contempera vantaggi e svantaggi
Statistica aziendale
Bruno Bracalente, Massimo Cossignani, Anna Mulas
53/80
Copyright © 2009 – The McGraw-Hill Companies srl
Metodi gerarchici agglomerativi
Metodo del legame medio (media aritmetica ponderata)
 DJM = (DJK Nk+ DJLNL)/ NM [NK , NL , NM : n. unità in CK, CL, CM]

A
A
B
C
D
E
0
0.26
0.68
0.45
0.44
0
0.11
0.39
0.68
0
0.52
0.19
0
0.82
B
C
D
E
A

A
D
D
(BCE)
0
0.45
0.46
0
0.577
(BCE)
0
distanza di A da BCE:
(dA(BC) N(BC)+ dAE NE)/N(BCE)
 (0,47 x 2 + 0,44 x 1)/3
Statistica aziendale
Bruno Bracalente, Massimo Cossignani, Anna Mulas
D
E
(BC)
0
0.45
0.44
0.47
0
0.82
0.455
0
0.435
D
E
(B,C)
0
A
A
0
distanza di A da BC:
(dA B+ dAC)/N(BC)  (0,26 + 0,68)/2

(BCE)
(BCE)
(AD)
0
(AD)
0.518
0
distanza di BCE da AD:
(d(BCE)A NA+ d(BCE)D ND)/N(AD)
 (0,46 + 0,577)/2
54/80
Copyright © 2009 – The McGraw-Hill Companies srl
Metodi gerarchici agglomerativi
Distanza di A da BCE:
dA(BCE) = (dA(BC) N(BC)+ dAE NE)/N(BCE) = (dAB + dAC + dAE)/N(BCE)
 (0,47 x 2 + 0,44 x 1)/3 = (0,26 + 0,68 + 0,44)/3 = 0,46
La distanza di una unità da un gruppo è la media delle distanze
da tutte le unità del gruppo
Distanza di BCE1 da AD:
D 
 d
N N N
d(BCE)(AD) = (d(BCE)A
(A)+ d(BCE)D NAD)/N(AD) =
= (dAB + dAC + dAE + dDB + dDC + dDE)/N(BCE) N(AD)
 (0,26 + 0,68 + 0,44 + 0,39 + 0,52 + 0,82)/6 = 0,518
N J NM
JM
J
M i 1 r 1
ir
La distanza tra due gruppi è la media delle distanze di ogni
unità di un gruppo da tutte le unità dell’altro gruppo:
DJM
1

N J NM
Statistica aziendale
Bruno Bracalente, Massimo Cossignani, Anna Mulas
N J NM
 d
i 1 r 1
ir
(i  J ; r  M )
55/80
Copyright © 2009 – The McGraw-Hill Companies srl
Metodi gerarchici agglomerativi
Dendrogramma
d
0.52
0.45
0.11
B
C
E
A
D
unità
Legame medio
Pro e contro il metodo del legame medio:
come il metodo di McQuitty, produce soluzioni intermedie
tra legame singolo e legame completo
Statistica aziendale
Bruno Bracalente, Massimo Cossignani, Anna Mulas
56/80
Copyright © 2009 – The McGraw-Hill Companies srl
Metodi gerarchici agglomerativi

Metodo del centroide
- si applica solo in caso di variabili quantitative
- prende come input la matrice dei dati X (n x p)
- centroide (o baricentro) di un gruppo: valori medi delle
p variabili calcolati sulle unità appartenenti al gruppo
- si aggregano i gruppi per i quali risulta minima la distanza
euclidea tra i centroidi dei gruppi
(inizialmente si aggregano le due unità che presentano
la minima distanza euclidea)
Statistica aziendale
Bruno Bracalente, Massimo Cossignani, Anna Mulas
57/80
Copyright © 2009 – The McGraw-Hill Companies srl
Metodi gerarchici agglomerativi
- Esempio

2
d ir   xik  xrk  
 k 1

p
Distanza
euclidea:
1/ 2
d AB  [(12  10) 2  (30  26) 2 ]1/2  4.47
Matrice dei dati:
Unità
X1
X2
A
B
C
D
10
12
8
14
26
30
24
36
A

A
B
0
4.47 2.83 10.8
B
C
0
C
D
7.21
6.32
0
13.4
D
Passo 2:
0
dB( A,C )  [(12  9)2  (30  25)2 ]1/2  5.83
Unità
X1
X2
B
D
(A,C)
12
14
9
30
36
25
Statistica aziendale
Bruno Bracalente, Massimo Cossignani, Anna Mulas

B
D
(A,C)
B
D
(A,C)
0
6.32
5.83
0
12.1
0
58/80
Copyright © 2009 – The McGraw-Hill Companies srl
Metodi gerarchici agglomerativi
Metodo poco sensibile ai valori anomali:
i dati anomali (molto diversi da tutti gli altri) producono
elevate distanze euclidee con le altre unità (e con i gruppi
che si formano) e quindi tendono a restare isolati (a non
aggregarsi)
Statistica aziendale
Bruno Bracalente, Massimo Cossignani, Anna Mulas
59/80
Copyright © 2009 – The McGraw-Hill Companies srl
Metodi gerarchici agglomerativi

Metodo di Ward
- si applica solo in caso di variabili quantitative
- prende come input la matrice dei dati X (n x p)
- è fondato sulla scomposizione della devianza totale
in devianza entro i gruppi e devianza tra i gruppi
p
n
G
p
ng
G
p
Dev(T )   (xik  xk ) 2   ( xik , g  xk , g ) 2   ( xk , g  xk ) 2 ng
k 1 i 1
g 1 k 1 i 1
g 1 k 1
Dev (T) = Dev (W) + Dev (B)
Statistica aziendale
Bruno Bracalente, Massimo Cossignani, Anna Mulas
60/80
Copyright © 2009 – The McGraw-Hill Companies srl
Metodi gerarchici agglomerativi
A ogni passo uniti i gruppi che danno luogo alla minore
devianza entro i gruppi rispetto a tutte le altre possibili unioni
Ovvero, poiché passando da g a g-1 gruppi aumenta Dev (W), a
ogni passo si aggregano i gruppi che danno luogo al minore
incremento di Dev (W)
Statistica aziendale
Bruno Bracalente, Massimo Cossignani, Anna Mulas
61/80
Copyright © 2009 – The McGraw-Hill Companies srl
Metodi gerarchici agglomerativi
Esempio:
Unità
X1
X2
A
B
C
D
10
12
8
14
26
30
24
36
Dev( A, B)  (10  11)2  (12  11)2  (26  28)2  (30  28)2  10
Coppie di
unità
Dev
A,B
A,C
A,D
B,C
B,D
C,D
10
4
58
26
20
90
Unità

B
D
A,C
X1
X2
12
14
10;8
30
36
26;24
Passo successivo (tre possibilità: (B,D); (B,A,C); (D,A,C)
Dev(W)=Dev( B, D)  Dev( A, C )  20  4  24
Dev(W) = Dev( B, A, C )  (12 10)2  (10 10)2  (8 10)2  (30  26.6)2  ...  18.6
Dev(W) = Dev( D, A, C )  (14 10.6)2  (10 10.6)2  ...  102.3
Statistica aziendale
Bruno Bracalente, Massimo Cossignani, Anna Mulas
Δ Dev (W) = 14.6
62/80
Copyright © 2009 – The McGraw-Hill Companies srl
Metodi gerarchici agglomerativi
Metodo di Ward:
- Poco sensibile ai valori anomali, che tende a isolare
(come metodo del centroide e per le stesse ragioni)
- Tende a produrre gruppi di dimensioni simili
Molto utilizzato per la classificazione gerarchica in caso di
variabili quantitative
Statistica aziendale
Bruno Bracalente, Massimo Cossignani, Anna Mulas
63/80
Copyright © 2009 – The McGraw-Hill Companies srl
Metodi gerarchici agglomerativi
Quanti gruppi considerare
 Criterio: il livello di distanza a cui avvengono le aggregazioni
successive
Osservazione del dendrogramma: aggregazioni che avvengono
“molto in alto” (dopo un “salto” nell’indice di distanza)
indicano fusione di gruppi eterogenei  fermarsi prima
d
Incremento relativo della
distanza di fusione da g a g-1
gruppi:
0.52
0.45
 g  (d g 1  d g ) / d g
0.11
B
C
E
A
D
unità
 g  max  n. gruppi = g
Legame medio
Statistica aziendale
Bruno Bracalente, Massimo Cossignani, Anna Mulas
64/80
Copyright © 2009 – The McGraw-Hill Companies srl
Metodi gerarchici agglomerativi

Analisi dello scree plot (descrive la relazione tra il n. gruppi
e la distanza di fusione):
Fino a 10 gruppi: distanza di
fusione vicina a zero;
Da 8 a 7 gruppi: primo
incremento sensibile della
distanza di fusione;
Da 4 a 3 gruppi: massimo
incremento relativo (da d 4 2
a d3 6 )  fermarsi a 4.
Statistica aziendale
Bruno Bracalente, Massimo Cossignani, Anna Mulas
65/80
Copyright © 2009 – The McGraw-Hill Companies srl
Metodi gerarchici divisivi
Percorso inverso rispetto agli agglomerativi
- Punto di partenza: un unico gruppo formato da tutte le unità
- Si procede per divisioni successive, prima in due gruppi,
poi il più eterogeneo dei due viene a sua volta diviso in due…
Metodo basato sui punti nodali
Primo passo:
- sulla matrice delle distanze si individuano le due unità
più distanti tra loro: i nodi
- le altre unità vengono assegnate ai due nodi sulla base
della distanza minima
Passi successivi:
l’operazione si ripete su ognuno dei due gruppi, e così via
Statistica aziendale
Bruno Bracalente, Massimo Cossignani, Anna Mulas
66/80
Copyright © 2009 – The McGraw-Hill Companies srl
Metodi gerarchici divisivi
Metodi basati sui punti nodali - Esempio
A
A
B
C
D
E
0
0.26
0.68
0.45
0.44
0
0.11
0.39
0.68
0
0.52
0.19
0
0.82
B
C
D
E
B
D
0
B
D
0
0.39
E
0
A
E
A
C
0
0.44
0.19
0
0.68
C
B con D:
dBD < dBE
(0.39 < 0.68)
0
C
C
E
0
0.19
E
B
Passo 1
Punti nodali: D, E
D
Statistica aziendale
Bruno Bracalente, Massimo Cossignani, Anna Mulas
A
0
C
E
A con E:
dAE < dAD (0.44 < 0.45)
Idem per C
(0.19 < 0.52)
Passo 2
Punti nodali: A, C
E con C:
dEC < dEA (0.19 < 0.44)
67/80
Copyright © 2009 – The McGraw-Hill Companies srl
Metodi non gerarchici

Effettuano il raggruppamento direttamente nel numero
di gruppi prefissato

Si applicano a sole variabili quantitative

Prendono come input la matrice di dati X (n x p)

Preventiva standardizzazione delle variabili (per neutralizzare
gli effetti di diverse unità di misura e/o diverse variabilità)

Procedura iterativa che a ogni passo modifica la
classificazione nei k gruppi in modo da ottenere il
raggruppamento finale caratterizzato dalla massima
omogeneità interna
Statistica aziendale
Bruno Bracalente, Massimo Cossignani, Anna Mulas
68/80
Copyright © 2009 – The McGraw-Hill Companies srl
Metodi non gerarchici
Algoritmo K-means
1.
Raggruppamento iniziale: si specificano k punti iniziali (seeds)
nello spazio delle p variabili quantitative: uno per ciascun
gruppo da costruire (centroidi provvisori)
Caso semplificato di due sole
variabili rappresentato nel
grafico:
per costruire due gruppi, nel
diagramma vanno individuati
due punti iniziali (casualmente
o con altro criterio) da cui far
partire il processo iterativo di
classificazione
Statistica aziendale
Bruno Bracalente, Massimo Cossignani, Anna Mulas
Dati di partenza
■
7
■
0
0
10
69/80
Copyright © 2009 – The McGraw-Hill Companies srl
Metodi non gerarchici
2.
Ciascuna unità viene assegnata a un punto iniziale sulla base
della distanza (euclidea) minima, formando gruppi provvisori
Si inseriscono i due seed e si assegnano le unità
7
0
0
Statistica aziendale
Bruno Bracalente, Massimo Cossignani, Anna Mulas
10
70/80
Copyright © 2009 – The McGraw-Hill Companies srl
Metodi non gerarchici
3. Vengono calcolati i baricentri
(o centroidi) dei gruppi provvisori
(valori medi delle p variabili nei
gruppi)
4. Si riallocano tutte le unità
sulla base del baricentro più
vicino (distanza euclidea),
formando nuovi gruppi provvisori
Si inseriscono i due seed e si assegnano le unità
Si calcolano i centroidi dei gruppi provvisori e si riassegnano le unità
7
7
■
■
0
0
Statistica aziendale
Bruno Bracalente, Massimo Cossignani, Anna Mulas
10
0
0
10
71/80
Copyright © 2009 – The McGraw-Hill Companies srl
Metodi non gerarchici
5. Si rieseguono in modo
iterativo gli step 3
(calcolo centroidi) …
… e 4 (riallocazione unità)
fino ad ottenere una
soluzione stabile:
raggruppamento finale
Si calcolano i centroidi dei gruppi provvisori e si riassegnano le unità
7
Si ricalcolano i centroidi e si riassegnano le unità; non essendoci
modifiche nel raggruppamento il processo termina
■
7
■
0
0
10
0
0
Statistica aziendale
Bruno Bracalente, Massimo Cossignani, Anna Mulas
10
72/80
Copyright © 2009 – The McGraw-Hill Companies srl
Metodi non gerarchici
Pro e contro il metodo K-means
Pro: tende a produrre gruppi internamente più omogenei
rispetto ai metodi non gerarchici
Contro:
- problema della prefissazione del numero di gruppi
(consigliabile provarne diversi)
- problema della scelta dei punti iniziali: se nell’insieme di
unità i gruppi non sono ben distinti, i punti iniziali possono
condizionare la classificazione
Statistica aziendale
Bruno Bracalente, Massimo Cossignani, Anna Mulas
73/80
Copyright © 2009 – The McGraw-Hill Companies srl
Metodi non gerarchici
Punti iniziali diversi
…
Dati di partenza
7
Dati di partenza
… diversa soluzione
finale
■
7
■
■
0
0
■
10
0
0
Statistica aziendale
Bruno Bracalente, Massimo Cossignani, Anna Mulas
10
74/80
Copyright © 2009 – The McGraw-Hill Companies srl
Metodi non gerarchici
Soluzioni al problema della scelta dei punti iniziali:
- se possibile utilizzare informazioni a priori sui baricentri
dei gruppi (vedi strategie complesse di classificazione)
- in particolare in caso di scelta casuale, ripetere più volte
l’analisi (e valutare la stabilità della classificazione ottenuta)
Statistica aziendale
Bruno Bracalente, Massimo Cossignani, Anna Mulas
75/80
Copyright © 2009 – The McGraw-Hill Companies srl
Scelta metodo di raggruppamento
In base al tipo di variabili a disposizione e alle caratteristiche dei
diversi metodi
Variabili qualitative o miste  solo metodi gerarchici
(non tutti)
- vantaggio di poter scegliere il n. di gruppi
a posteriori
- ma sono più rigidi:
non consentono di modificare aggregazioni
fatte a livello inferiore;
tendono quindi a produrre gruppi meno
omogenei rispetto ai metodi non gerarchici
Statistica aziendale
Bruno Bracalente, Massimo Cossignani, Anna Mulas
76/80
Copyright © 2009 – The McGraw-Hill Companies srl
Scelta metodo di raggruppamento
Variabili solo quantitative 
metodi gerarchici
(anche Ward e Centroide)
e non gerarchici:
più flessibili
e quindi gruppi più omogenei
(classificazione modificata a
ogni iterazione con l’obiettivo
di massimizzare l’omogeneità
interna ai gruppi)
Statistica aziendale
Bruno Bracalente, Massimo Cossignani, Anna Mulas
77/80
Copyright © 2009 – The McGraw-Hill Companies srl
Strategie complesse di classificazione
Utilizzazione di più metodi in sequenza
in modo da sfruttare i vantaggi di ognuno
1. Nell’ambito dei metodi gerarchici
(per tutte le tipologie di variabili)
a) In caso di variabili qualitative o miste:
- prima metodo del legame singolo per identificare
(ed eliminare) i casi anomali
- poi metodo del legame completo, che produce migliori
raggruppamenti in assenza di valori anomali
Statistica aziendale
Bruno Bracalente, Massimo Cossignani, Anna Mulas
78/80
Copyright © 2009 – The McGraw-Hill Companies srl
Strategie complesse di classificazione
1. Nell’ambito dei metodi gerarchici
(per tutte le tipologie di variabili)
a) In caso di variabili qualitative o miste:
- prima metodo del legame singolo per identificare
(ed eliminare) i casi anomali
- poi metodo del legame completo, che produce migliori
raggruppamenti in assenza di valori anomali
b) In caso di variabili quantitative:
- prima metodo di Ward (o del centroide) per identificare
(ed eliminare) i casi anomali
- poi stesso metodo per ottenere la classificazione al netto
dei casi anomali
Statistica aziendale
Bruno Bracalente, Massimo Cossignani, Anna Mulas
79/80
Copyright © 2009 – The McGraw-Hill Companies srl
Strategie complesse di classificazione
2. Tra metodi gerarchici e non gerarchici
(per variabili quantitative)
- prima metodo gerarchico
al fine di individuare:
- il numero ottimo di gruppi
- gli eventuali casi anomali
- i punti iniziali per classificazione
non gerarchica (centroidi dei gruppi)
Preferibili quelli
di Ward e del
Centroide:
robusti rispetto
ai casi anomali,
che vengono
isolati)
- poi metodo non gerarchico (dopo eliminazione delle unità
anomale) per ottenere la classificazione finale
(più omogenea di quella ottenuta dal metodo gerarchico:
effetto della riclassificazione delle unità tra i gruppi)
Statistica aziendale
Bruno Bracalente, Massimo Cossignani, Anna Mulas
80/80
Copyright © 2009 – The McGraw-Hill Companies srl