Metodi Quantitativi per Economia, Finanza e Management Lezione n°4 Analisi Univariata Quantitative Market Research Set-up Protocol Business Aim Targeted population Characters to be assesed Choice of sample Sampling error Fieldwork Techniques of data collection Data Audit Set-up questionnarie Data Analysis Pre-test questionnarie Presentation The 5 Clusters 4 Factors Our choice was consistent with the following criteria: -The proportion between the maximum number of variables and the chosen factors is in the acceptable range (4/13 < 30%) -The Eingenvalues are all bigger than 1 -The Cumulative Variance Explained is over 60% -Communalities homogeneous values • • • • • As the Scree Plot confirms, only after 4 components the slope of the curve sensibly decreases. 40 Cool Hunters (28%): More than all, they are users absolutely interested on Broadening. PR’s (7%): Interested above all in Public Relations and express some attachment to Spying, but not related at all with Keeping Up. Detached (20%): Apart from some light interest on Broadening, they do not express any involvement with the Facebook use (in particular with Public Relations). Functional (18%): Above all, interested in Keeping up with their network of friends and use Public Relations inside this network. Besides, they do not care at all about Spying and Broadening. Gossipers (27%): They are also interested in Keeping up, but above all in Spying their network. Furthermore, they are not interested in Public Relations and Broadening. Each single Cluster was then crossed with socio-demographic and usage variables, through the contingency table tool, in order to better understand their main characteristics. The following slides sum-up the most relevant results of these crossings for each single cluster. 68 Type of data • Qualitative – Nominal it’s used for qualitative data which are classified in defined categories with no a specific order. – Ordinal the categories have got a specific order; it does not enable to define any numeric assessment. • Quantitative – Ratio scale through this type of data it is possible to determine the different ratio between one category and an other; the value “0” of the scale is set. – Interval scale has the same characteristics as the previous scale, even though it has not got a fixed value “0”. Type of data guides the analyses Most of the quantitative methods deal with quantitative data Tipologie di dati • Qualitativi dati espressi in forma verbale, solitamente classificati in categorie • Quantitativi dati espressi in forma numerica. si distinguono in: – discreti dati caratterizzati da una quantità finita o infinita numerabile di classi di misura – continui risposta numerica derivamte da un processo di misurazione che fornisce indicazioni puntuali all’interno di un continuum • Territoriali • Date Tipologie di dati qualitativi • Nominale usato per dati qualitativi, che vengono così classificati in categorie distinte senza alcun ordine implicito (es. professione del cliente) Where do you come from? a. North Italy b. Center Italy c. South Italy d. Outside Italy • Ordinale le categorie presentano un ordine implicito; consente di stabilire una relazione d’ordine tra le diverse categorie, ma nessuna asserzione numerica, ovvero si può dire che un determinato valore è più grande di un altro, ma non di quanto Education level (Currently Attending) a. High School b. Undergraduate c. Graduate Tipologie di dati quantitativi • Scala di rapporti con questa tipologia si può dire di quanto una categoria è maggiore di un’altra; è fissato un valore “0” della scala. es. Le variabili spesa media e tempo impiegato sono misurate a livello di rapporto,ovvero rientrano in una scala di valutazione comparativa How long have you been a Facebook user for (Months): Approximately, how many friends do you have on Facebook: How many of these friends do you contact regularly: On average, how many times a week do you check Facebook: How much time do you spend on each visit (in minutes): Tipologie di dati quantitativi • Scala di intervalli presenta le stesse caratteristiche della precedente, ma non possiede un valore “0” fissato. es. In una indagine sui clienti di un supermercato, il loro livello di soddisfazione può essere adeguatamente rappresentato mediante una scala di valutazione compresa tra 1 e 9, ciò che posso asserire è che la differenza tra 2 e 3 è la medesima di quella tra 8 e 9, ma non che 8 sia il doppio di 4. Where do you connect on Facebook more frequently? 1 Low 2 3 Medium 4 5 6 a. Home, b. Work/ University c. Other places (internet point, friends' houses ..) La tipologia di dati guida l’analisis 7 High 8 9 L’analisi statistica dei dati Statistica descrittiva insieme dei metodi che riguardano la rappresentazione e sintesi di un insieme di dati al fine di evidenziarne le caratteristiche principali Statistica inferenziale insieme dei metodi che permettono la stima di una caratteristica di una popolazione basandosi sull’analisi di un campione Misura riassuntiva, La parte di popolazione calcolata sui dati campionari, utile per descrivere una selezionata per l’analisi caratteristica non nota della popolazione Totalità degli elementi presi in esame dalla indagine Univariate descriptive statistics In the univariate descriptive statistics we analyze one variable at a time. N_ID H1 H2 H3 H4 H5 H6 H7 H8 H9 H10 H11 H12 H13 H14 H15 H16 H17 H18 H19 H20 H21 H22 H234 H235 H236 D_8_2 0.1 0 0 0.2 0.05 0.2 0.1 0.1 0.2 0.05 0 0 0 0.15 0 0.1 0 0.2 0 0.05 0.2 0.2 … … 0.2 0.1 0.1 • Frequency distribution • Synthesis measures – Measures of location – Measures of spread – Measures of shape • Data Audit – Input errors – Missing values – Outliers • Basic insights Le distribuzioni di frequenza • Frequenza assoluta: è un primo livello di sintesi dei dati- consiste nell’associare a ciascuna categoria, o modalità, il numero di volte in cui compare nei dati • Distribuzione di frequenza: insieme delle modalità e delle loro frequenze • Frequenza relativa: rapporto tra la frequenza assoluta ed il numero complessivo delle osservazioni effettuate. pi= ni/ N I due tipi di frequenze vengono usati con dati quantitativi, qualitativi ordinali, quantitativi discreti. Le distribuzioni di frequenza product program home p_info catalog freeze login logpost addcart pay_req shelf cart pay_res download regpost register • Rappresentazione grafica var.qualitative: Diagramma a barre-professione intervistato Diagramma a torta 250 200 150 100 50 0 casalinga dirigente studente Diagr. a barre: nell’asse delle ascisse ci sono le categorie, senza un ordine preciso; in quello delle ordinate le frequenze assolute/relative corrispondenti alle diverse modalità Diagr. a torta: la circonferenza è divisa proporzionalmente alle frequenze Le distribuzioni di frequenza • Rappresentazione grafica var.quantitative discrete: istogram m a Diagramma delle frequenze 300 200 0,06 220 170 0,04 100 100 0 30 57 0,02 30 0 Diagr. delle frequenze: nell’asse delle ascisse ci sono i valori assunti dalla var. discreta (quindi ha un significato quantitativo); l’altezza delle barre è proporzionale alle frequenze relative o assolute del valore stesso Istogramma:nell’asse delle ascisse ci sono le classi degli intervalli considerati; l’asse delle ordinate rappresenta la densità di frequenza; l’area del rettangolo corrisponde alla frequenza della classe stessa. Misure di sintesi Misure di tendenza centrale: • Media aritmetica • Mediana • Moda Misure di tendenza non centrale: • Quantili • Percentili Misure di dispersione: • Campo di variazione • Differenza interquantile • Varianza • Scarto quadratico medio • Coefficiente di variazione Misure di forma della distribuzione: • Skewness • Kurtosis Misure di Tendenza Centrale Tendenza Centrale Media Mediana Moda n x x i 1 i n Media Aritmetica Valore centrale delle osservazioni ordinate Valore più frequente Media Aritmetica • La misura di tendenza centrale più comune • Media = somma dei valori diviso il numero di valori • Influenzata da valori estremi (outlier) 0 1 2 3 4 5 6 7 8 9 10 Media = 3 1 2 3 4 5 15 3 5 5 0 1 2 3 4 5 6 7 8 9 10 Media = 4 1 2 3 4 10 20 4 5 5 Mediana • In una lista ordinata, la mediana è il valore “centrale” (50% sopra, 50% sotto) 0 1 2 3 4 5 6 7 8 9 10 0 1 2 3 4 5 6 7 8 9 10 Mediana = 3 • Non influenzata da valori estremi Mediana = 3 Moda • • • • • Valore che occorre più frequentemente Non influenzata da valori estremi Usata sia per dati numerici che categorici Può non esserci una moda Ci può essere più di una moda 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 Moda = 9 0 1 2 3 4 5 6 No Moda Misure di Tendenza Non Centrale • I Quartili dividono la sequenza ordinata dei dati in 4 segmenti contenenti lo stesso numero di valori 25% Q1 25% 25% Q2 25% Q3 • Il primo quartile, Q1, è il valore per il quale 25% delle osservazioni sono minori e 75% sono maggiori di esso • Q2 coincide con la mediana (50% sono minori, 50% sono maggiori) • Solo 25% delle osservazioni sono maggiori del terzo quartile Box Plot X minimo Q1 25% 12 Mediana Q3 (Q2) 25% 30 25% 45 X 25% 57 Differenza Interquartile 57 – 30 = 27 OUTLIERS: massimo Q1 - 1,5 * Differenza interquartile Q3 + 1,5 * Differenza interquartile 70 Misure di Variabilità Variabilità Campo di Variazione Differenza Interquartile Varianza Scarto Quadratico Medio Coefficiente di Variazione • Le misure di variabilità forniscono informazioni sulla dispersione o variabilità dei valori. Stesso centro, diversa variabilità Campo di Variazione • La più semplice misura di variabilità • Differenza tra il massimo e il minimo dei valori osservati: Campo di variazione = Xmassimo – Xminimo Esempio: 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 Campo di Variazione = 14 - 1 = 13 Campo di Variazione • Ignora il modo in cui i dati sono distribuiti 7 8 9 10 11 12 Campo di Var. = 12 - 7 = 5 7 8 9 10 11 12 Campo di Var. = 12 - 7 = 5 • Sensibile agli outlier 1,1,1,1,1,1,1,1,1,1,1,2,2,2,2,2,2,2,2,3,3,3,3,4,5 Campo di Var. = 5 - 1 = 4 1,1,1,1,1,1,1,1,1,1,1,2,2,2,2,2,2,2,2,3,3,3,3,4,120 Campo di Var = 120 - 1 = 119 Differenza Interquartile • Possiamo eliminare il problema degli outlier usando la differenza interquartile • Elimina i valori osservati più alti e più bassi e calcola il campo di variazione del 50% centrale dei dati • Differenza Interquartile = 3o quartile – 1o quartile IQR = Q3 – Q1 Varianza • Media dei quadrati delle differenze fra ciascuna osservazione e la media N – Varianza della Popolazione: dove σ 2 μ = media della popolazione N = dimensione della popolazione xi = iimo valore della variabile X (x i 1 i μ) N 2 Scarto Quadratico Medio • Misura di variabilità comunemente usata • Mostra la variabilità rispetto alla media • Ha la stessa unità di misura dei dati originali – Scarto Quadratico Medio della Popolazione: N σ 2 (x μ) i i 1 N Scarto Quadratico Medio Scarto quadratico medio piccolo Scarto quadratico medio grande Scarto Quadratico Medio Dati A 11 12 13 14 15 16 17 18 19 20 21 Media = 15.5 s = 3.338 20 21 Media = 15.5 s = 0.926 20 21 Media = 15.5 s = 4.570 Dati B 11 12 13 14 15 16 17 18 19 Dati C 11 12 13 14 15 16 17 18 19 Scarto Quadratico Medio • Viene calcolato usando tutti i valori nel set di dati • Valori lontani dalla media hanno più peso (poichè si usa il quadrato delle deviazioni dalla media) • Le stesse considerazioni valgono anche per il calcolo della Varianza Coefficiente di Variazione • Misura la variabilità relativa • Sempre in percentuale (%) • Mostra la variabilità relativa rispetto alla media • Può essere usato per confrontare due o più set di dati misurati con unità di misura diversa s CV |x | 100% Coefficiente di Variazione • Azione A: – Prezzo medio scorso anno = $50 – Scarto Quadratico Medio = $5 • s $5 CVA 100% 100% 10% |x | $50 Azione B: – Prezzo medio scorso anno = $100 – Scarto Quadratico Medio = $5 s $5 CVB 100% 100% 5% $100 | x| Entrambe le azioni hanno lo stesso scarto quadratico medio, ma l’azione B è meno variabile rispetto al suo prezzo Forma della Distribuzione • La forma della distribuzione si dice simmetrica se le osservazioni sono bilanciate, o distribuite in modo approssimativamente regolare attorno al centro. Distribuzione Simmetrica 120 100 60 40 20 0 Frequenza 80 10 9 8 7 6 5 4 3 2 1 0 1 2 3 4 5 6 7 8 9 Forma della Distribuzione • La forma della distribuzione è detta asimmetrica se le osservazioni non sono distribuite in modo simmetrico rispetto al centro. Distribuzione con Asimmetria Positiva 12 10 Frequenza Una distribuzione con asimmetria positiva (obliqua a destra) ha una coda che si estende a destra, nella direzione dei valori positivi. 8 6 4 2 0 1 3 4 5 6 7 8 9 8 9 Distribuzione con Asimmetria Negativa 12 10 Frequenza Una distribuzione con asimmetria negativa (obliqua a sinistra) ha una coda che si estende a sinistra, nella direzione dei valori negativi. 2 8 6 4 2 0 1 2 3 4 5 6 7 Misure di Forma della Distribuzione • Descrive come i dati sono distribuiti • Misure della forma – Simmetrica o asimmetrica Obliqua a sinistra Media < Mediana Simmetrica Media = Mediana Obliqua a destra Mediana < Media Misure di Forma della Distribuzione Skewness: indice che informa circa il grado di simmetria o asimmetria di una distribuzione. – γ=0 ditribuzione simmetrica; – γ<0 asimmetria negativa (mediana>media); – γ>0 asimmetria positiva (mediana<media). Kurtosis: indice che permette di verificare se i dati seguono una distribuzione di tipo Normale (simmetrica). – β=3 se la distribuzione è “Normale”; – β<3 se la distribuzione è iponormale (rispetto alla distribuzione di una Normale ha densità di frequenza minore per valori molto distanti dalla media); – β>3 se la distribuzione è ipernormale (rispetto alla distribuzione di una Normale ha densità di frequenza maggiore per i valori molto distanti dalla media). IMPORTO NETTO UNITARIO Basic Statistical Measures Location Variability Mean 106.1410 Std Deviation 81.01306 Median 103.2900 Variance 6563 Mode 0.0000 Range 523.69000 Interquartile Range 118.62500 IMPORTO NETTO UNITARIO IMPORTO NETTO UNITARIO IMPORTO NETTO UNITARIO Basic Statistical Measures Location Variability Mean 138.0247 Std Deviation 64.29397 Median 129.1100 Variance 4134 Mode 149.0000 Range 521.77000 Interquartile Range 82.62000