CORSO DI ANALISI DI MERCATO A.A. 2010-2011
DOMANDE TIPO SECONDA PROVA DI VERIFICA _ II PARTE
Domande con risposta argomentativa
 Gli algoritmi di cluster analysis gerarchica
 Gli algoritmi di cluster analysis non gerarchica
 Indici di dissomiglianza e misure di distanza
 La segmentazione a priori con il metodo AID: lineamenti generali
 La segmentazione a priori con il metodo CHAID: lineamenti generali
 L’analisi in componenti principali: lineamenti generali
 La trasformazione preventiva delle variabili nella cluster analysis
 LA PREVISIONE CON IL MODELLO DI REGRESSIONE
 I MODELLI STOCASTICI DI SCELTA TRA MARCHE: CARATTERISTICHE
GENERALI
 I MODELLI DI ORDINE ZERO: CARATTERISTICHE E LIMITI DI APPLICAZIONE
 I MODELLI MARKOVIANI DEL PRIMO ORDINE: CARATTERISTICHE E LIMITI DI
APPLICAZIONE
 I MODELLI LINEARI DI APPRENDIMENTO: CARATTERISTICHE E LIMITI DI
APPLICAZIONE
Domanda 1
Si riporta l'output di una Cluster Analysis effettuata su 15 osservazioni. Commentare i risultati
ottenuti, in particolar modo discutere la scelta del numero ottimale di gruppi ottenuto da tale analisi.
Si tratta di un algoritmo gerarchico? (10 pt.)
Dendrogram using Ward Method
Rescaled Distance Cluster Combine
C A S E
Label Num
2
9
10
7
13
5
14
12
1
8
6
4
11
3
0
5
10
15
20
25
+---------+---------+---------+---------+---------+
-+
-+-----------+
-+
+-------------------+
-+-----------+
I
-+
+---------------+
-+
I
I
-+-------------------------------+
I
-+
I
-+
I
-+-----------+
I
-+
+-----------------------------------+
-+-+
I
-+ +---------+
---+
Soluzione
Si tratta di un output di un algoritmo di Ward, quindi è gerarchico: il numero ottimale di gruppi
risulta pari a 2 se una distanza di raggruppamento di circa 17 è considerata ammissibile. Se si ritiene
tale distanza troppo elevata si possono considerare 3 gruppi.
Domanda 2
A partire dalla seguente matrice dei dati di base, calcolate la matrice delle distanze di Minkoswki di
ordine 1. (10 pt.).
Unità statistiche
A
B
C
D
Variabili
X1
2.9
1.6
0.12
3.1
X2
X3
15.3
0.9
9.5
0.1
11.4
0.5
118.6
1.2
Soluzione
La matrice di distanze di Minkowski di ordine 1 risulta:
A
B
C
D
A
0
7.9
7.08
103.8
B
C
D
0
3.78
111.7
0
110.88
0
Domanda 3
Nella tabella seguente sono riportate alcune caratteristiche di 3 diverse catene alberghiere. Calcolare
la matrice di dissomiglianza utilizzando il criterio opportuno. (10 pt.)
Hilton
Le Meridien
Boscolo Hotels
Aria
Sala riunioni >
Condizionata
300 posti
Sì
No
Sì
No
Sì
Sì
Baby sitter
Piscina
No
Sì
No
Sì
Sì
No
Soluzione
Utilizando il coefficiente di somiglianza di Jaccard la matrice degli indici di somiglianza (indicata
con S) è la seguente:
Hilton
Le Meridien
Boscolo
Hilton
1
Le Meridien
0,666
1
Boscolo
0,333
0,333
1
La matrice delle dissomiglianze (da utilizzare come input in una cluster di tipo gerarchico) è quindi
data dai complementi all’unità della matrice S
Hilton
Le Meridien
Boscolo
Hilton
1
0,334
0,667
Le Meridien
Boscolo
1
0,667
1
Impiegando invece il coefficiente semplice di associazione la matrice S viene ad essere determinata
nel seguente modo:
Hilton
Le Meridien
Boscolo
Hilton
1
Le Meridien
0,50
1
Boscolo
0,50
0,333
1
Domanda 4
Sia dato il seguente schema di segmentazione a priori. Determinare se è significativo al 5%. (10 pt.)
Posizione nella professione del
capofamiglia
Abbonamento
SKY
SI
NO
TOTALE
In proprio
Dipendente
TOTALE
464
336
564
900
800
1200
2000
636
1100
Soluzione
Si deve calcolare il valore del  2 e confrontarlo con quello tabulato in corrispondenza del livello
di significatività =0,05 e di 1 grado di libertà (numero di righe – 1 * numero di colonne – 1).
Sono date le frequenze assolute empiriche nij , a partire da queste si calcolano le frequenze assolute
*
teoriche nij che corrispondono all’ipotesi di indipendenza dei due caratteri:
n*
Abbonamento
SKY
SI
NO
TOTALE
Posizione nella professione del
capofamiglia
In proprio
Dipendente
TOTALE
440
660
1100
360
540
900
800
1200
2000
Per verificare l’ipotesi di indipendenza tra i due caratteri si calcola il test chi-quadrato:
2 =  ((nij –nij*)2)/nij* = 4,85
2
Poiché il chi-quadrato tabulato è 1,0.053,84ed è minore di quello calcolato sui dati empirici, si
deduce che i due caratteri sono associati con un livello di significatività del 5% e che dunque il
criterio di segmentazione è statisticamente significativo.