CORSO DI ANALISI DI MERCATO A.A. 2010-2011 DOMANDE TIPO SECONDA PROVA DI VERIFICA _ II PARTE Domande con risposta argomentativa Gli algoritmi di cluster analysis gerarchica Gli algoritmi di cluster analysis non gerarchica Indici di dissomiglianza e misure di distanza La segmentazione a priori con il metodo AID: lineamenti generali La segmentazione a priori con il metodo CHAID: lineamenti generali L’analisi in componenti principali: lineamenti generali La trasformazione preventiva delle variabili nella cluster analysis LA PREVISIONE CON IL MODELLO DI REGRESSIONE I MODELLI STOCASTICI DI SCELTA TRA MARCHE: CARATTERISTICHE GENERALI I MODELLI DI ORDINE ZERO: CARATTERISTICHE E LIMITI DI APPLICAZIONE I MODELLI MARKOVIANI DEL PRIMO ORDINE: CARATTERISTICHE E LIMITI DI APPLICAZIONE I MODELLI LINEARI DI APPRENDIMENTO: CARATTERISTICHE E LIMITI DI APPLICAZIONE Domanda 1 Si riporta l'output di una Cluster Analysis effettuata su 15 osservazioni. Commentare i risultati ottenuti, in particolar modo discutere la scelta del numero ottimale di gruppi ottenuto da tale analisi. Si tratta di un algoritmo gerarchico? (10 pt.) Dendrogram using Ward Method Rescaled Distance Cluster Combine C A S E Label Num 2 9 10 7 13 5 14 12 1 8 6 4 11 3 0 5 10 15 20 25 +---------+---------+---------+---------+---------+ -+ -+-----------+ -+ +-------------------+ -+-----------+ I -+ +---------------+ -+ I I -+-------------------------------+ I -+ I -+ I -+-----------+ I -+ +-----------------------------------+ -+-+ I -+ +---------+ ---+ Soluzione Si tratta di un output di un algoritmo di Ward, quindi è gerarchico: il numero ottimale di gruppi risulta pari a 2 se una distanza di raggruppamento di circa 17 è considerata ammissibile. Se si ritiene tale distanza troppo elevata si possono considerare 3 gruppi. Domanda 2 A partire dalla seguente matrice dei dati di base, calcolate la matrice delle distanze di Minkoswki di ordine 1. (10 pt.). Unità statistiche A B C D Variabili X1 2.9 1.6 0.12 3.1 X2 X3 15.3 0.9 9.5 0.1 11.4 0.5 118.6 1.2 Soluzione La matrice di distanze di Minkowski di ordine 1 risulta: A B C D A 0 7.9 7.08 103.8 B C D 0 3.78 111.7 0 110.88 0 Domanda 3 Nella tabella seguente sono riportate alcune caratteristiche di 3 diverse catene alberghiere. Calcolare la matrice di dissomiglianza utilizzando il criterio opportuno. (10 pt.) Hilton Le Meridien Boscolo Hotels Aria Sala riunioni > Condizionata 300 posti Sì No Sì No Sì Sì Baby sitter Piscina No Sì No Sì Sì No Soluzione Utilizando il coefficiente di somiglianza di Jaccard la matrice degli indici di somiglianza (indicata con S) è la seguente: Hilton Le Meridien Boscolo Hilton 1 Le Meridien 0,666 1 Boscolo 0,333 0,333 1 La matrice delle dissomiglianze (da utilizzare come input in una cluster di tipo gerarchico) è quindi data dai complementi all’unità della matrice S Hilton Le Meridien Boscolo Hilton 1 0,334 0,667 Le Meridien Boscolo 1 0,667 1 Impiegando invece il coefficiente semplice di associazione la matrice S viene ad essere determinata nel seguente modo: Hilton Le Meridien Boscolo Hilton 1 Le Meridien 0,50 1 Boscolo 0,50 0,333 1 Domanda 4 Sia dato il seguente schema di segmentazione a priori. Determinare se è significativo al 5%. (10 pt.) Posizione nella professione del capofamiglia Abbonamento SKY SI NO TOTALE In proprio Dipendente TOTALE 464 336 564 900 800 1200 2000 636 1100 Soluzione Si deve calcolare il valore del 2 e confrontarlo con quello tabulato in corrispondenza del livello di significatività =0,05 e di 1 grado di libertà (numero di righe – 1 * numero di colonne – 1). Sono date le frequenze assolute empiriche nij , a partire da queste si calcolano le frequenze assolute * teoriche nij che corrispondono all’ipotesi di indipendenza dei due caratteri: n* Abbonamento SKY SI NO TOTALE Posizione nella professione del capofamiglia In proprio Dipendente TOTALE 440 660 1100 360 540 900 800 1200 2000 Per verificare l’ipotesi di indipendenza tra i due caratteri si calcola il test chi-quadrato: 2 = ((nij –nij*)2)/nij* = 4,85 2 Poiché il chi-quadrato tabulato è 1,0.053,84ed è minore di quello calcolato sui dati empirici, si deduce che i due caratteri sono associati con un livello di significatività del 5% e che dunque il criterio di segmentazione è statisticamente significativo.