Analisi dei dati: file per esercitazione Si consideri il file DATI_Analisi_DESCRITTIVA.sas7bdat Si tratta dei dati relativi ad un campione di clienti di un’azienda di abbigliamento importiamo i dati nel NUOVO flusso del progetto che chiamiamo “ANALISI DESCRITTIVA” Inseriamo un nodo “Programma” nel progetto e eseguiamo il comando options compress = char Metodi quantitativi per il marketing – Anno Accademico 2015 - 2016 LIUC 0 Analisi dei dati: Descrittiva, Bivariata Analisi Descrittiva: Analisi caratteristiche principali delle variabili del data set: analisi eventuali dati anomali analisi missing analisi tipologia di distribuzione delle frequenze calcolo dei principali indicatori di posizione e di variabilità Analisi Bivariata: Analisi di Connessione, indicatori di significatività Analisi di Correlazione, indicatori di significatività Analisi della varianza (Anova), indicatori di significatività Metodi quantitativi per il marketing – Anno Accademico 2015 - 2016 LIUC 1 Analisi dei dati: Analisi descrittiva Caratterizza Dati: Tutte le Variabili permette di ricavare una serie di informazioni per tutte le variabili inserite nel data set. Semplice ma poco significativo per data set con un elevato numero di variabili Statistiche di riepilogo: Variabili Continue Utile per individuare eventuali errori di importazione o variabili “costanti”, è possibile filtrare l’analisi on riferimento ad un sottoinsieme di dati sia in un’unica tabella che in tabelle separate, effettuare le analisi confrontando gruppi definiti da specifiche variabili categoria, limitare l’analisi a determinate variabili, è possibile calcolare gli indicatori di posizione e di variabilità di ciascuna variabile contenuta nel data set., Analisi della distribuzione: Variabili Continue Applicare su file esercitazione è possibile analizzare la distribuzione di frequenza delle variabili continue sia globalmente che per sottoinsiemi, opportunamente definiti, del data set. Con l’opzione Variabile di classificazione è possibile ottenere un confronto “grafico” della variabile dipendente rispetto ad una specifica variabile categoria (l’opzione Raggruppa analisi per, semplicemente replica l’analisi rispetto alle modalità della variabile categoria selezionata) Frequenza ad una via: è possibile personalizzare l’analisi delle variabili in modo particolare con riferimento alle statistiche. Metodi quantitativi per il marketing – Anno Accademico 2015 - 2016 LIUC 2 Analisi dei dati: Analisi descrittiva Indicatori di Posizione: Media, Moda, Mediana (percentili e decili) Quali differenze fra i diversi indicatori di Posizione? Indicatori di Dispersione: Varianza, Scarto quadratico medio, coefficiente di variazione Quali differenze fra i diversi indicatori di Dispersione? Attenzione una variabile DEVE essere definita come continua, il fatto che sia codificata come numero, esempio sesso 0,1, NON implica che lo sia. Qualunque sw statistico se richiesto calcola la media di tutte le variabile “numeriche”…….. Metodi quantitativi per il marketing – Anno Accademico 2015 - 2016 LIUC 3 Analisi dei dati: Analisi descrittiva 1) Selezionare da Processi:Descrivi: Statistiche di riepilogo (NON procedura guidata) 2) Scegliere le variabili oggetto dell’analisi ed eventualmente le variabili di raggruppamento 3) Definire le statistiche e i diagrammi 4) Sono possibile una serie di opzioni Metodi quantitativi per il marketing – Anno Accademico 2015 - 2016 LIUC 4 Analisi dei dati: Analisi descrittiva - esercitazione Applicare su file esercitazione 1) Statistiche di riepilogo 1) Analizzare le variabili continue, quali osservazioni sulla variabile sellout? 2) Ripetere l’analisi con un opportuno filtro sulla variabile sellout? 3) Se ordiniamo il file per la variabile sellout possiamo avere un’idea della rilevanza del problema? 2) Analisi Distribuzione 1) Analizzate la distribuzione dell’eta rispetto al sesso con le due opzioni Raggruppa analisi per e variabili di Classificazione 2) Quale delle due distribuzioni dell’età (Femmine /Maschio) è più simile ad una distribuzione normale? Filtrare le analisi considerando solo Gender NON missing o “.” 3) Analizzate la distribuzione del sellout rispetto alla nazione, solo Italia, Francai, Giappone e USA, quali considerazioni possiamo cogliere? 3) Frequenza ad una via 1) Analizziamo la variabile classe di età 2) Confrontando i risultati per sesso emergono delle differenze? 3) Costruiamo una variabile che indichi l’anzianità di relazione con l’azienda (da quanto tempo è cliente) Metodi quantitativi per il marketing – Anno Accademico 2015 - 2016 LIUC 5 Analisi dei dati: Analisi Bivariata Precedentemente abbiamo visto come sia possibile ottenere degli indicatori/descrittori per ciascuna variabile sia globali che per sotto insiemi del data set. Tali metodologie però evidenziano solo eventuali differenze tra le variabili per sotto gruppi senza “misurare” queste differenze: Metodi quantitativi per il marketing – Anno Accademico 2015 - 2016 LIUC 6 Analisi dei dati: Analisi Bivariata - Connessione Confrontare statisticamente due variabili significa verifica se esiste un legame/dipendenza tra le due variabili, vale a dire verificare se la distribuzione della variabile originaria mostra delle differenze STATISTICAMENTE SIGNIFICATIVE all’interno delle sub popolazioni del dataset individuate dall’altra variabile. Quando le variabili sono DISCRETE, è necessario effettuare un’analisi di CONNESSIONE, vale a dire analizzare se la distribuzione delle frequenze di una data variabile sull’intera popolazione mostra una distribuzione diversa all’interno delle sotto popolazioni individuate dalla variabile rispetto a quale si sta valutando l’eventuale connessione ANALISI TABELLA A DOPPIA ENTRATA – TEST DEL CHI QUADRO Metodi quantitativi per il marketing – Anno Accademico 2015 - 2016 LIUC 7 Analisi dei dati: Analisi Bivariata - Connessione Consideriamo il file Info_Farma, ove abbiamo una classificazione delle farmacie relativamente a 7 segmenti che si caratterizzano in funzione delle caratteristiche socio-demo e strutturali del proprio bacino di utenza Metodi quantitativi per il marketing – Anno Accademico 2015 - 2016 LIUC 8 Analisi dei dati: Analisi Bivariata - Connessione Come precedentemente visto operiamo con l’opzione join tabelle nel comando Costruttore di query per importare questa nuova variabile nel nostro data set ottenuto dalle 2 tabelle importate Apriamo Costruttore di query dal db Cluster, aggiungiamo la tabella QUERY DB FARMACIE_1, quella in cui si era costruita la variabile regione Metodi quantitativi per il marketing – Anno Accademico 2015 - 2016 LIUC 9 Analisi dei dati: Analisi Bivariata - Connessione Il sw identifica la variabili ID comune ai due dataset e la propone come chiave di unione Metodi quantitativi per il marketing – Anno Accademico 2015 - 2016 LIUC 10 Analisi dei dati: Analisi Bivariata - Connessione Selezionando il simbolo di insieme tra le due tabelle è possibile selezionare il criterio rispetto al quale le due tabelle devono essere unite Quali sono le differenze tra i criteri? Metodi quantitativi per il marketing – Anno Accademico 2015 - 2016 LIUC 11 Analisi dei dati: Analisi Bivariata - Connessione SAS_EGJoin Option Join Type Description Matching rows only given Inner join a condition The output rows include those for which the column in the first table matches the joining criterion of the column in the second table. Joins are inner joins by default. All rows from the left table given a condition Left join The output rows include all rows from the first table and the rows from the second table in which the joining criterion is met. All rows from the right table given a condition Right join The output rows include all rows from the second table and the rows from the first table in which the joining criterion is met. All rows from both tables Full outer join given a condition The output rows include all rows from both tables in which the joining criterion is met. The Cartesian product The output rows include each row from the first table combined with each row from the second table. The total number of output rows is the product of the number of rows in each table. For example, if Table A, which contains 9 rows, is combined with Table B, which contains 13 rows, then the number of output rows will be 9 * 13, or 117. Cross join Matching rows only with The output rows include all rows in which the common columns in the two tables contain values that are equal. Natural inner join equal common columns Common columns are those that have the same name and same data type. All rows from the left table with equal common Natural left join columns The output rows include all rows from the first table and the rows from the second table in which the common columns in the two tables contain values that are equal. Common columns are those that have the same name and same data type. All rows from the right table with equal common Natural right join columns The output rows include all rows from the second table and the rows from the first table in which the common columns in the two tables contain values that are equal. Common columns are those that have the same name and same data type. All rows from both tables Natural Full Outer with equal common The output rows include all rows from both tables. Rows that do not have a match are filled in with missing values. Join columns Metodi quantitativi per il marketing – Anno Accademico 2015 - 2016 LIUC 12 Analisi dei dati: Analisi Bivariata - Connessione Considerando che il nostro dataset principale è DB FARMACIE specificheremo come criterio TUTTE LE RIGHE DELLA TABELLA DI DESTRA DATA UNA CONDIZIONE (nel nostro caso nessuna) Metodi quantitativi per il marketing – Anno Accademico 2015 - 2016 LIUC 13 Analisi dei dati: Analisi Bivariata - Connessione Inseriamo tutte le variabili presenti nei due dataset ed eseguiamo il nodo: quante dovrebbero essere le osservazioni nella nuova tabella? Perché? Metodi quantitativi per il marketing – Anno Accademico 2015 - 2016 LIUC 14 Analisi dei dati: Analisi Bivariata - Connessione Da un punto statistico si può dire che la distribuzione dei cluster è differente per le regione Calabria, Piemonte e Lombardia? Costruiamo la tabella a doppia entrata: Selezioniamo da Processi, Descrivi, Analisi delle tabelle Specifichiamo le variabili che vogliamo Inserire Nella tabella: Cluster e Regione In Tabella specifichiamo le righe e le colonne In statistiche per cella specifichiamo % riga/colonna e % celle Eseguiamo il nodo Metodi quantitativi per il marketing – Anno Accademico 2015 - 2016 LIUC 15 Analisi dei dati: Analisi Bivariata - Connessione Analizziamo il risultato Confrontiamo la distribuzioni di frequenza totale della variabile Cluster rispetto alle distribuzione della stessa variabile all’interno delle regioni (… naturalmente si può ragionare anche all’inverso) Metodi quantitativi per il marketing – Anno Accademico 2015 - 2016 LIUC 16 Analisi dei dati: Analisi Bivariata - Connessione Modifichiamo il nodo Analisi delle tabelle specificando Test di Associazione Chi quadrato e Contributo cella al chi quadrato di Pearson nelle Statistiche per le celle Metodi quantitativi per il marketing – Anno Accademico 2015 - 2016 LIUC 17 Analisi dei dati: Analisi Bivariata - Connessione Analizziamo l’output Il valore del Chi_Square rappresenta il risultato del test omonimo verifica se l’ipotesi nulla e probabilisticamente Il valore Prob evidenzia quale compatibile con i dati è la probabilità con cui è In particolare l’ipotesi nulla è verificata l’ipotesi nulla, nel che i due campioni sono nostro caso RIFIUTIAMO indipendenti cioè che la l’ipotesi nulla quindi le due distribuzione delle farmacie variabili NON sono per esempio nei cluster è la indipendenti quindi sono stessa nelle 3 regioni dipendenti Metodi quantitativi per il marketing – Anno Accademico 2015 - 2016 LIUC 18 Analisi dei dati: Analisi Bivariata - Connessione La variabile così calcolata che confronta quindi le distribuzioni reali con quelle che teoricamente dovrebbero essere in caso di indipendenza, si distribuisce come una variabile causale con (g-1) gradi di liberta In questo modo, se il valore “” ottenuto è maggiore di quello riportato sulle tavole della distribuzione di frequenza, dato un certo valore di significatività, si può rifiutare l’ipotesi nulla di indipendenza Metodi quantitativi per il marketing – Anno Accademico 2015 - 2016 LIUC 19 Analisi dei dati: Analisi Connessione - esercitazione 1. La distribuzione dell’eta per sesso è statisticamente differente? 2. Fra Austria, Francia, Germani, Grecia e Italia qual’è la nazione con i clienti più Applicare su file esercitazione “giovani” 3. Considerando le stesse nazioni qual è quella ove sembra esserci un maggiore interesse per la Categoria 3 Metodi quantitativi per il marketing – Anno Accademico 2015 - 2016 LIUC 20 Analisi dei dati: Analisi Bivariata - Correlazione Nel caso in cui le variabili di cui vogliamo valutare il legame sono di natura continua è necessari valutarne la CORRELAZIONE Si ipotizzi che si voglia verificare se la spesa media in Sanità e in Personale Care risulti legata alla rilevanza nel bacino della farmacia di bambini di età inferiore ai 14 anni 1) costruiamo il nuovo data set partendo dal database DB_farmacie inserendo le variabili utili all’analisi e calcolando la nuova variabile % di bambini di età inferiore ai 13 (perché la percentuale e non consideriamo semplicemente la numerosità di bambini inferiori a 13 anni) Metodi quantitativi per il marketing – Anno Accademico 2015 - 2016 LIUC 21 Analisi dei dati: Analisi Bivariata - Correlazione 2) Sulla tabella derivata, Processi, Multivariata, Correlazione 3) Specifichiamo le variabili di cui vogliamo analizzare il legame 4) Selezioniamo il test di Pearson nelle opzioni 5) Eseguiamo il nodo Metodi quantitativi per il marketing – Anno Accademico 2015 - 2016 LIUC 22 Analisi dei dati: Analisi Bivariata - Correlazione L’output evidenzia: 1) l’intensità della correlazione 2) La significatività della stessa. Anche in questo caso l’ipotesi nulla è che i campioni siano indipendenti, con Prob<=0,05 possiamo rifiutare l’ipotesi che i campioni siano indipendenti quindi esiste un legame tra spesa in sanità e in personal care e presenza di bambini nel bacino …… ma quale è l’intensità di tale correlazione ? Metodi quantitativi per il marketing – Anno Accademico 2015 - 2016 LIUC 23 Analisi dei dati: Analisi Bivariata - Correlazione L’indice di correlazione è ottenuto come il rapporto tra la Covarianza delle due variabili e il prodotto delle loro deviazioni standard La significatività è ottenuto attraverso che si distribuisce come una T_Student con n-2 gradi di libertà. In questo modo, se il valore “T” ottenuto è maggiore di quello riportato sulle tavole della distribuzione di frequenza, dato un certo valore di significatività, si può rifiutare l’ipotesi nulla di indipendenza Metodi quantitativi per il marketing – Anno Accademico 2015 - 2016 LIUC 24 Analisi dei dati: Analisi Bivariata - Correlazione Proviamo a rappresentare graficamente il legame tra la variabile presenza bambini e spesa: Direttamente dall’output di della correlazione: Processi, Grafico, Grafico a Dispersione Inseriamo le due variabili Sanità e Perfinoa14anni Metodi quantitativi per il marketing – Anno Accademico 2015 - 2016 LIUC 25 Analisi dei dati: Analisi Bivariata - Correlazione Come analizziamo il grafico??? Metodi quantitativi per il marketing – Anno Accademico 2015 - 2016 LIUC 26 Analisi dei dati: Analisi Correlazione - esercitazione 1. Calcoliamo la variabile anzianità di relazione ad oggi di ciascun cliente Applicare su file esercitazione 2. Esiste una relazione fra percentuale di acquisto della Categoria 3 e anzianità? 3. I clienti da più tempo hanno una propensione ad acquistare a Natale maggiore o minore? 4. Coloro che acquistano di più a Natale hanno uno scontrino medio più alto? (calcolare la variabile valore medio scontrino AVT) Metodi quantitativi per il marketing – Anno Accademico 2015 - 2016 LIUC 27 Analisi dei dati: Analisi Bivariata - ANOVA Come ultimo caso analizziamo l’eventualità che si voglia analizzare il legame tra una variabile CONTINUA ed una DISCRETA, in questo caso si ricorre all’analisi della varianza: ANOVA Metodi quantitativi per il marketing – Anno Accademico 2015 - 2016 LIUC 28 Analisi dei dati: Analisi Bivariata - ANOVA L‘analisi della varianza confronta la variabilità interna a due o più gruppi rispetto alla variabilità tra i gruppi Si voglia verificare se la spesa media per individuo in personale care (variabile continua) sia diversa nelle Regioni Costruiamo la nuova variabile:SPESA MEDIA INDIVIDUALE PER PERSONALE CARE Analizziamo la variabile con il Processo Statistiche di riepilogo Metodi quantitativi per il marketing – Anno Accademico 2015 - 2016 LIUC 29 Analisi dei dati: Analisi Bivariata - ANOVA Costruiamo la variabile Spesa pro capite in Personale Care Con il Processo Statistiche di riepilogo, calcoliamo la media e il suo intervallo al 95% per le Regioni e il numero di osservazioni Metodi quantitativi per il marketing – Anno Accademico 2015 - 2016 LIUC 30 Analisi dei dati: Analisi Bivariata - ANOVA Confrontiamo i dati per la Regione Lazio rispetto alle Regioni, Val D’Aosta e Liguria apparentemente diremo che la spesa in personale care nel Lazio è inferiore Consideriamo anche l’informazione relativa all’intervallo di confidenza Metodi quantitativi per il marketing – Anno Accademico 2015 - 2016 LIUC 31 Analisi dei dati: Analisi Bivariata - ANOVA Regione Media Dev std ABR BAS CAL CAM EMR FVG LAZ LIG LOM MAR MOL PIE PUG SAR SIC TAA TOS UMB VDA VEN 211,59 168,28 195,89 189,11 249,40 273,40 243,90 271,76 277,45 246,04 205,37 229,00 193,88 178,62 147,98 253,93 272,93 243,65 268,91 259,36 51,02 34,99 39,68 69,65 50,35 49,02 87,44 84,09 135,64 40,70 46,91 41,91 43,53 35,35 46,07 55,94 64,59 51,02 45,95 83,30 CL inf al 95% CL sup al 95% per la media per la media 207,02 216,16 163,48 173,08 193,05 198,73 185,72 192,49 246,56 252,24 268,43 278,37 LAZ_M 239,48 248,33 239,48 243,90 248,33 LIG_M 264,90 278,62 264,90 271,76 272,30 282,60 242,44 249,63 198,13 212,60 226,85 231,15 191,29 196,47 175,73 181,51 145,59 150,37 247,17 260,70 269,08 276,79 237,38 249,91 VDA_M 254,94 282,88 254,94 268,91 254,81 263,91 278,62 282,88 L’area di sovrapposizione tra i dati del Lazio e quelli della Val D’Aosta è sensibilmente maggiore rispetto all’area “comune” Lazio e Liguria Metodi quantitativi per il marketing – Anno Accademico 2015 - 2016 LIUC 32 Analisi dei dati: Analisi Bivariata - ANOVA In generale quando si dispone di una variabile continua e si vuole valutare se il valore medio tra gruppi di osservazioni sia diverso statisticamente si ricorre all’analisi della Varianza, in particolare si verifica l’ipotesi nulla: solitamente prevede che i dati di tutti i gruppi abbiano la stessa origine, ovvero la stessa distribuzione e che le differenze osservate tra i gruppi siano dovute solo al caso. Il test comunemente utilizzato è il test F calcolato come 𝑉𝑎𝑟𝑖𝑎𝑛𝑧𝑎 𝑇𝑅𝐴 𝑔𝑟𝑢𝑝𝑝𝑖 𝑉𝑎𝑟𝑖𝑎𝑛𝑧𝑎 𝑁𝐸𝐼 𝑔𝑟𝑢𝑝𝑝𝑖 Esiste, per ogni combinazione di gradi di libertà del numeratore e del denominatore, e per ogni livello di probabilità, una particolare curva statistica (distribuzione di F) che ci consente di stabilire se il rapporto ottenuto è superiore ad un certo valore soglia per cui è poco probabile (e noi dobbiamo scegliere il livello di probabilità che vogliamo tenere in considerazione, solitamente 5%-0,05) ottenere quei valori quando si considerino gruppi random di una stessa popolazione Metodi quantitativi per il marketing – Anno Accademico 2015 - 2016 LIUC 33 Analisi dei dati: Analisi Bivariata - ANOVA Proviamo a calcolare il test F –file confrontimedie.xls N° gruppi 20 Regione N. oss ABR 481 BAS 207 CAL 751 CAM 1630 EMR 1208 FVG 376 LAZ 1500 LIG 580 LOM 2668 MAR 495 MOL 164 PIE 1460 PUG 1084 SAR 577 SIC 1427 TAA 265 TOS 1081 UMB 257 VDA 44 VEN 1291 TOTALE 17544 Media Dev std Varianza 211,59 168,28 195,89 189,11 249,40 273,40 243,90 271,76 277,45 246,04 205,37 229,00 193,88 178,62 147,98 253,93 272,93 243,65 268,91 259,36 230,57 51,02 2.603,52 34,99 1.224,60 39,68 1.574,57 69,65 4.850,60 50,35 2.535,41 49,02 2.402,82 87,44 7.646,36 84,09 7.070,32 135,64 18.396,89 40,70 1.656,68 46,91 2.200,81 41,91 1.756,22 43,53 1.894,88 35,35 1.249,73 46,07 2.122,63 55,94 3.129,44 64,59 4.171,61 51,02 2.603,28 45,95 2.111,73 83,30 6.938,29 87,03 Quadrati Intergruppo 173.275,40 803.147,79 903.296,28 2.801.875,13 428.294,15 689.735,28 266.720,46 984.171,85 5.863.491,74 118.457,90 104.156,82 3.601,44 1.459.191,91 1.557.051,37 9.733.738,77 144.672,63 1.940.113,66 43.946,43 64.677,14 1.070.162,88 29.153.779,02 Quadrati Intragruppo 1.249.690,68 252.266,77 1.180.928,18 7.901.634,52 3.060.235,98 901.055,71 11.461.892,76 4.093.715,48 49.064.493,50 818.400,38 358.732,25 2.562.321,20 2.052.151,51 719.845,35 3.026.877,51 826.173,23 4.505.341,58 666.440,43 90.804,22 8.950.394,19 103.743.395,40 Media Intergruppo Media Intragruppo Consuntivo Test Anova Metodi quantitativi per il marketing – Anno Accademico 2015 - 2016 LIUC 1.534.409,42 5.920,08 259,19 Livello alfa GdL numeratore GdL denominatore 0,05 19,00 17.524,00 Valore Funzione F 1,59 34 Analisi dei dati: Analisi Bivariata - ANOVA Calcoliamo il test F con SAS EG: 1) Processo: Anova, Anova a una via 2) Selezioniamo la variabile dipendente e quella indipendente 3) Specifichiamo il Test 4) Selezioniamo le statistiche per la variabile dipendente Metodi quantitativi per il marketing – Anno Accademico 2015 - 2016 LIUC 35 Analisi dei dati: Analisi Bivariata - ANOVA Il valore del Test F è 259,21 Possiamo rifiutare con una probabilità del 99% l’ipotesi che le medie siano uguali Media Intergruppo Media Intragruppo Metodi quantitativi per il marketing – Anno Accademico 2015 - 2016 LIUC 36 Analisi dei dati: Analisi Bivariata - ANOVA Un ulteriore risultato è dato dalla tabella delle medie e delle Deviazioni Standard per la variabile dipendente per ciascuna Regione Ma quale media è statisticamente significativa? Metodi quantitativi per il marketing – Anno Accademico 2015 - 2016 LIUC 37 Analisi dei dati: Analisi Bivariata - Bonferroni Per verificare quale coppia delle medie sia statisticamente significativa dovremmo analizzare ciascuna copia ma così facendo non consideriamo il problema della correzione per l'inflazione dell'errore complessivo. La logica è, se eseguo molti test sui medesimi dati (come nel caso dei confronti multipli tra medie di gruppi) l'errore a priori di ogni singolo test è 0.05 ma complessivamente cresce, Bonferroni dimostra mediante una disuguaglianza che utilizzando un livello alfa diviso per il numero di test garantisce di avere un errore che ha come limite superiore quello nominale (diciamo 0.05). In particolare se l’intervallo così definito NON contiene lo zero le medie si possono definire statisticamente diverse: Vale a dire, delta medie valore corretto * Deviazione Standard (Radice quadrata dell’errore quadratico medio) * rdq(1/osservazioni gruppo1 +1/osservazioni gruppo 2) Metodi quantitativi per il marketing – Anno Accademico 2015 - 2016 LIUC 38 Analisi dei dati: Analisi Bivariata – Bonferroni Analogamente a quanto visto per il test F calcoliamo l’intervallo di confidenza per il delta medie di Bonferroni - confrontimedie.xls gruppi 20 Regione ABR BAS CAL CAM EMR FVG LAZ LIG LOM MAR MOL PIE PUG SAR SIC TAA TOS UMB VDA VEN TOTALE N. oss 481 207 751 1630 1208 376 1500 580 2668 495 164 1460 1084 577 1427 265 1081 257 44 1291 17544 Media € 211,59 € 168,28 € 195,89 € 189,11 € 249,40 € 273,40 € 243,90 € 271,76 € 277,45 € 246,04 € 205,37 € 229,00 € 193,88 € 178,62 € 147,98 € 253,93 € 272,93 € 243,65 € 268,91 € 259,36 € 230,57 Dev std Varianza 51,02 2.603,52 34,99 1.224,60 39,68 1.574,57 69,65 4.850,60 50,35 2.535,41 49,02 2.402,82 87,44 7.646,36 84,09 7.070,32 135,64 18.396,89 40,70 1.656,68 46,91 2.200,81 41,91 1.756,22 43,53 1.894,88 35,35 1.249,73 46,07 2.122,63 55,94 3.129,44 64,59 4.171,61 51,02 2.603,28 45,95 2.111,73 83,30 6.938,29 87,03 LOM LIG media_1 media_2 n1 n2 var_1 var_2 std_1 std_2 BONFERRONI LOM-LIG alpha N° confronti alpha Corretto GdL Valore Tavole T Delta Medie Media Intragruppo DEV. Entro gruppi low high Metodi quantitativi per il marketing – Anno Accademico 2015 - 2016 LIUC € 277,45 € 271,76 2668 580 18396,885 7070,320 135,635 84,085 NO 0,05 190 0,00026 17524 3,650 € 5,69 5.920,08 76,9420 -7,179 18,553 39 Analisi dei dati: Analisi Bivariata – Bonferroni SAS Per poter identificare quale delle medie siano effettivamente statisticamente differenti si integra l’analisi del test F con il test di Bonferroni Specifichiamo Test di Bonferroni nella finestra Medie-Confronto, scegliendo il livello di confidenza Cosa cambia se lo variamo? Metodi quantitativi per il marketing – Anno Accademico 2015 - 2016 LIUC 40 Analisi dei dati: Analisi Bivariata – Bonferroni SAS Dato un livello di significatività pari a 0,05 il valore di riferimento corretto è 3,649. La differenza tra la spesa media pro capite in Lombardia e quella in Liguria NON è significativa mentre è statisticamente diversa la meda della Lombardia rispetto a quella del Piemonte Metodi quantitativi per il marketing – Anno Accademico 2015 - 2016 LIUC 41 Analisi dei dati: Analisi Bivariata – Test Quando i gruppi sono solo 2 è possibile utilizzare il Test per campioni indipendenti. S è la deviazione standard media delle deviazioni standard dei due campioni, cioè la radice quadrata della varianza che si ottiene sommando le devianze dei due campioni e dividendo per la somma dei gradi di libertà. Una volta trovato il valore , esso va confrontato con quelli tabulati in apposite Tabelle, dal confronto fra il valore ottenuto e quello tabulato si potrà stabilire se la differenza fra le due medie è dovuta al caso o no. Se il valore calcolato è maggiore del valore tabulato si può rifiutare l’ipotesi che le medie siano uguali Metodi quantitativi per il marketing – Anno Accademico 2015 - 2016 LIUC 42 Analisi dei dati: Analisi Bivariata – Test Calcoliamo il test analogamente a quanto visto precedentemente con - confrontimedie.xls gruppi 20 Regione ABR BAS CAL CAM EMR FVG LAZ LIG LOM MAR N. oss 481 207 751 1630 1208 376 1500 580 2668 495 MOL 164 PIE 1460 PUG 1084 SAR 577 SIC 1427 TAA 265 TOS 1081 UMB 257 VDA 44 VEN 1291 TOTALE 17544 Media € 211,59 € 168,28 € 195,89 € 189,11 € 249,40 € 273,40 € 243,90 € 271,76 € 277,45 € 246,04 € 205,37 € 229,00 € 193,88 € 178,62 € 147,98 € 253,93 € 272,93 € 243,65 € 268,91 € 259,36 € 230,57 Dev std Varianza 51,02 2.603,52 34,99 1.224,60 39,68 1.574,57 69,65 4.850,60 50,35 2.535,41 49,02 2.402,82 87,44 7.646,36 84,09 7.070,32 135,64 18.396,89 40,70 1.656,68 46,91 2.200,81 41,91 1.756,22 43,53 1.894,88 35,35 1.249,73 46,07 2.122,63 55,94 3.129,44 64,59 4.171,61 51,02 2.603,28 45,95 2.111,73 83,30 6.938,29 87,03 TAA FVG media_1 media_2 n1 n2 var_1 var_2 std_1 std_2 € 253,93 € 273,40 265 376 3129,444 2402,815 55,941 49,019 TEST TAA-FVG SI a Delta Medie b Dev. Std Media c radq(1/n1+1/n2) b*c GdL Prob> Metodi quantitativi per il marketing – Anno Accademico 2015 - 2016 LIUC € 19,46 51,99 0,08 4,17 4,67 639 0,0000 43 Analisi dei dati: Analisi Bivariata – Test - SAS Trattandosi di un test per 2 campioni è necessario filtrare il dataset con riferimento alla variabile categoria Regione così da selezionare solo 2 modalità Per esempio consideriamo di voler valutare la differenza tra la spesa media pro capite in personale care in TAA e in FVG Costruzione query per Filtro Processo – Anova - test t Due campioni Selezionare variabili categoria e di analisi Metodi quantitativi per il marketing – Anno Accademico 2015 - 2016 LIUC 44 Analisi dei dati: Analisi Bivariata – Test - SAS La probabilità che le medie siano uguali è inferiore a 0,0001, quindi possiamo rifiutare l’ipotesi nulla di uguaglianza delle medie Metodi quantitativi per il marketing – Anno Accademico 2015 - 2016 LIUC 45 Analisi dei dati: Analisi Bivariata – Test - Bonferroni Si commenti il seguente output gruppi 20 Regione ABR BAS CAL CAM EMR FVG LAZ LIG LOM MAR MOL PIE PUG SAR SIC TAA TOS UMB VDA VEN TOTALE N. oss 481 207 751 1630 1208 376 1500 580 2668 495 164 1460 1084 577 1427 265 1081 257 44 1291 17544 Media € 211,59 € 168,28 € 195,89 € 189,11 € 249,40 € 273,40 € 243,90 € 271,76 € 277,45 € 246,04 € 205,37 € 229,00 € 193,88 € 178,62 € 147,98 € 253,93 € 272,93 € 243,65 € 268,91 € 259,36 € 230,57 Dev std Varianza 51,02 2.603,52 34,99 1.224,60 39,68 1.574,57 69,65 4.850,60 50,35 2.535,41 49,02 2.402,82 87,44 7.646,36 84,09 7.070,32 135,64 18.396,89 40,70 1.656,68 46,91 2.200,81 41,91 1.756,22 43,53 1.894,88 35,35 1.249,73 46,07 2.122,63 55,94 3.129,44 64,59 4.171,61 51,02 2.603,28 45,95 2.111,73 83,30 6.938,29 87,03 BONFERRONI TAA-FVG NO TAA FVG media_1 media_2 n1 n2 var_1 var_2 std_1 std_2 € 253,93 € 273,40 265 376 3129,444 2402,815 55,941 49,019 TEST TAA-FVG SI a Delta Medie € 19,46 b Dev. Std Media 51,99 c radq(1/n1+1/n2) 0,08 b*c 4,17 4,67 GdL 639 Prob> 0,0000 alpha 0,05 N° confronti 190 alpha Corretto 0,00026 GdL 17524 Valore Tavole T 3,650 Delta Medie -€ 19,46 Media Intragruppo 5.920,08 DEV. Entro gruppi 76,9420 low -41,989 high 3,060 Metodi quantitativi per il marketing – Anno Accademico 2015 - 2016 LIUC 46 Analisi dei dati: Analisi Anova - esercitazione Applicare su file esercitazione 1. L’età è legata alla propensione all’acquisto della Categoria 3? Se si quali indicazioni si possono trarre? 2. Il numero di item per scontrino fra Giappone, Stati Uniti e Italia è statisticamente differente? 3. L’acquisto di prodotti di categoria 3 comporta un numero di item per scontrini maggiore? (test t) 4. Il tempo fra primo e ultimo acquisto, per coloro che hanno fatto almeno 2 acquisti, è maggiore, in modo statisticamente valido, in quale fascia di età? Metodi quantitativi per il marketing – Anno Accademico 2015 - 2016 LIUC 47