Metodi Quantitativi per Economia, Finanza e Management Lezione n°5 Tavole di contingenza – Perfetta dipendenza unilaterale ad ogni valore di X corrisponde un solo valore di Y, ma non è detto che si verifichi il contrario. In generale, quando il numero di colonne (valori assunti dalla Y) è inferiore al numero di righe (valori assunti dalla X) non è mai possibile che X dipenda perfettamente da Y. – Perfetta dipendenza bilaterale ad ogni valore di X corrisponde un solo valore di Y e viceversa; la perfetta dipendenza bilaterale si può avere allora solo per matrici quadrate. Indici di connessione Nella realtà è difficile che si verifichi la condizione di indipendenza statistica. Pertanto è utile disporre di indici che misurino il grado di connessione tra le variabili. – χ² (chi-quadrato) assume valore nullo se i fenomeni X e Y sono indipendenti. Risente del numero delle osservazioni effettuate quindi al crescere di N, l’indice tende a crescere. χ²=N Σ Σ [P(xi,yj)-Px(xi) y(yj)] ²/ Px(xi) Py(yj) Chi-Square Tests Pears on Chi-Square Likelihood Ratio N of Valid Cases Value 5.471 a 5.402 221 df 3 3 Asymp. Sig. (2-s ided) .140 .145 a. 0 cells (.0%) have expected count les s than 5. The minimum expected count is 15.95. Indici di connessione – Un indice più efficace (perchè relativo, e dunque non risente del numero di osservazioni) è l’indice di Cramer V, basato sul χ². assume valori compresi tra 0 e 1: 0 nel caso di indipendenza statistica, 1 nel caso di perfetta dipendenza almeno unilaterale e tende a crescere all’aumentare del grado di dipendenza delle variabili considerate. Symmetric Measures Nominal by Nominal Phi Cramer's V N of Valid Cas es Value .157 .157 221 Approx. Sig. .140 .140 a. Not as s uming the null hypothes is. b. Using the as ymptotic standard error as suming the null hypothesis . Correlazione lineare Le misure di connessione possono essere applicate a variabili qualitative. Se si vuole misurare il grado di concordanza tra due variabili quantitative occorre utilizzare altri indici: – Covarianza Cov(X,Y) è un indice che assume valori positivi se vi è concordanza tra X e Y (a modalità elevate dell’una, corrispondono modalità elevate dell’altra); assume valori negativi nel caso di discordanza (a modalità elevate dell’una non corrispondono modalità elevate dell’altra). Nel caso di indipendenza statistica, assumerà valore nullo. È un indice assoluto, ovvero segnala la presenza e la direzione di un legame tra due variabili, ma nulla si può dire sul grado del loro legame. Cov(X,Y)= Σ Σ (xi-μx) (yj- μy) p(xi,yj) Correlazione lineare • Covarianza tra due variabili: Cov(x,y) > 0 x e y tendono a muoversi nella stessa direzione Cov(x,y) < 0 x e y tendono a muoversi in direzioni opposte Cov(x,y) = 0 x e y no relazione lineare – Riguarda solo la forza della relazione, ma non implica un effetto causale Correlazione lineare – Coefficiente di correlazione lineare ρ(X,Y) è un indice relativo che ovvia al problema del precedente indice. Assume valori compresi tra -1 e 1. In particolare vale 1 se e solo se Y è funzione lineare di X (e viceversa) e in questo caso i punti corrispondenti alle osservazioni sono disposti su una retta con inclinazione positiva. Analogamente l’indice assume valore -1 nel caso in cui i punti siano disposti su una retta con inclinazione negativa. Assume valore nullo se tra le variabili non è presente alcun tipo di relazione lineare (indipendenti in correlazione). Correlazione lineare • Coefficiente di correlazione lineare ρ(X,Y) : Cov(X, Y) ρ Corr(X, Y) σ Xσ Y • ρ = 0 => non c’è relazione lineare tra X e Y • ρ > 0 => relazione lineare positiva tra X e Y » quando X assume valori alti (bassi) allora anche Y probabilmente assume valori alti (bassi) » ρ = +1 => dipendenza lineare perfetta positiva • ρ < 0 => relazione lineare negativa tra X e Y » quando X assume valori alti (bassi) allora Y probabilmente assume valori bassi (alti) » ρ = -1 => dipendenza lineare perfetta negativa Correlazione lineare • Senza unità di misura • Campo di variazione fra –1 e 1 • Quanto più è vicino a –1, tanto più è forte la relazione lineare negativa • Quanto più è vicino a 1, tanto più è forte la relazione lineare positiva • Quanto più è vicino a 0, tanto più è debole la relazione lineare Correlazione lineare Y Y Y X X r = -1 r = -.6 Y r=0 Y Y r = +1 X X X r = +.3 X r=0 Correlazione lineare Correlations Qualità degli ingredienti Genuinità Leggerezza Sapore/gusto Pears on Correlation Sig. (2-tailed) N Pears on Correlation Sig. (2-tailed) N Pears on Correlation Sig. (2-tailed) N Pears on Correlation Sig. (2-tailed) N Qualità degli ingredienti 1 **. Correlation is s ignificant at the 0.01 level (2-tailed). Genuinità Leggerezza Sapore/gusto .629** .299** .232** .000 .000 .001 220 220 218 220 .629** 1 .468** .090 .000 .000 .181 220 220 218 220 .299** .468** 1 .030 .000 .000 .657 218 218 219 219 .232** .090 .030 1 .001 .181 .657 220 220 219 221 Confronto tra le medie Se si vuole incrociare una variabile quantitativa con una variabile qualitativa, la loro relazione può essere descritta confrontando le medie della variabile numerica all’interno delle categorie definite dalla variabile misurata a livello nominale/ordinale. Rapidità Tipo cliente Media N Persone fisiche 7.8403 357 Aziende 8.5132 76 Totale 7.9584 433 Confronto tra le medie Un indice sintetico dell’intensità della relazione si basa sulla scomposizione della varianza per la variabile quantitativa Y, di cui viene studiata la dipendenza nei confronti della variabile categorica X. La variabilità totale di Y è SQTy=SQtra + SQnei dove SQTy (somma dei quadrati tot) è la variabilità tot, SQtra (somma dei quadr. tra i gruppi) esprime quanta variabilità di Y può essere legata al variare delle categorie di X, SQnei (somma dei quadr.nei gruppi) esprime la variabilità nell’andamento di Y indipendente da X. Confronto tra le medie Report Produzione artigianale Età 18-25 26-35 36-50 Over 50 Total Mean 5.01 5.53 6.00 6.09 5.55 N 78 55 41 47 221 Std. Deviation 2.224 2.609 2.098 2.320 2.352 Measures of Association Eta Produzione artigianale * Età .191 Eta Squared .036 Ricerca di mercato “I biscotti” Agenda Obiettivi della ricerca Descrizione del database Questionario di rilevazione Statistica descrittiva univariata Segmentazione a posteriori per omogeneità Modalità classica • • Analisi Fattoriale Cluster Analysis Modalità flessibile Conjoint Analysis Cluster Analysis Analisi Discriminante Lineare Conclusioni Il CD allegato contiene tutte le elaborazioni effettuate per la realizzazione della ricerca Obiettivi della ricerca Indagine del comportamento dei consumatori in merito all’acquisto e al consumo di biscotti tramite l’applicazione di opportune tecniche di analisi statistica Individuazione di possibili azioni manageriali da parte delle aziende produttrici di biscotti Descrizione del database Il database “DB Biscotti” contiene dati relativi ad una indagine di mercato realizzata nell’anno 2005 (nel corso del mese di Aprile) relativamente all’acquisto e al consumo di biscotti Si tratta di interviste personali realizzate a persone con età maggiore di 18 anni Il numero di interviste realizzate sono in totale 221 Il database contiene 2 tipologie di variabili: Qualitative Quantitative Le prime (sesso, età, dove acquista abitualmente i biscotti, etc..) sono state ricodificate e trasformate da stringhe a numeriche Questionario di rilevazione 1. Informazioni sulle abitudini di consumo/acquisto In questa fase vengono rilevate le abitudini di acquisto dell’intervistato in relazione a: - 2. occasione in cui consuma biscotti luogo in cui consuma biscotti chi acquista biscotti in famiglia dove acquista biscotti con quale frequenza acquista biscotti Valutazione degli attributi rilevanti nell’atto di acquisto dei biscotti Si tratta di 20 attributi caratterizzanti la categoria di riferimento su cui ogni intervistato ha espresso un giudizio di importanza nel momento della scelta del prodotto, su una scala da 1 a 9 (1= gradimento minimo, 9= gradimento massimo) 3. Esplicitazione dell’insieme evocato E’ stato chiesto ad ogni intervistato di citare liberamente 3 marche di biscotti 4. Valutazione della soddisfazione dell’ultima marca di biscotti acquistata Sui medesimi 20 attributi ed in riferimento all’ultima marca acquistata il campione ha espresso una valutazione del grado di soddisfazione su una scala da 1 a 9 (1= gradimento minimo, 9= gradimento massimo) Questionario di rilevazione 5. Informazioni extra sul comportamento del consumatore 6. Marca preferita Grado di coinvolgimento nell’acquisto Attenzione al messaggio pubblicitario Valutazione di nove profili di offerta All’intervistato è stato chiesto di valutare diverse tipologie di biscotti indicando una valutazione da 1 a 9 (1= gradimento minimo – 9 gradimento massimo). I profili si differenziano tra loro sulla base di: ingredienti, occasione d’uso, tipo di confezione e marca 7. Informazioni socio-demografiche In questa fase vengono rilevate le informazioni socio-demografiche dell’intervistato Sesso Età Status familiare Professione Titolo di studio Abitudini di consumo/acquisto Quando consuma abitualmente biscotti E’ stata data la possibilità di fornire al massimo 2 risposte, ma solo il 55% del campione ne ha usufruito Si è compreso che i biscotti vengono consumati prevalentemente per la prima colazione (85,5% - risp. 1) e nell’arco della giornata, sia come snack a merenda (25,3% – risp. 2), sia come dessert dopo cena (12,2% - risp. 2) Quando consuma abitualmente biscotti - risp 1 Quando consuma abitualmente biscotti - risp 2 200 100 80 Frequency Frequency 150 100 60 40 50 20 0 0 Prima colazione Spuntino mattutino Dopo pranzo, come dessert Merenda Dopo cena, pomeridiana come dessert Altro Quando consuma abitualmente biscotti - risp 1 Prima colazione Spuntino mattutino Dopo pranzo, come dessert Merenda Dopo cena, pomeridiana come dessert Quando consuma abitualmente biscotti - risp 2 Abitudini di consumo/acquisto Dove consuma abitualmente biscotti Anche per questa domanda erano consentite al massimo 2 risposte, ma solo il 38.9% degli intervistati le ha fornite entrambe Per il 96.4% (risp. 1) del campione il luogo preferito dove consumare biscotti è la casa Si evidenzia una sostanziale omogeneità in merito alle altre opzioni di risposta Dove consuma abitualmente biscotti - risp 1 Dove consuma abitualmente biscotti - risp 2 250 140 120 200 Frequency Frequency 100 150 100 80 60 40 50 20 0 0 Casa In viaggio Bar Sul luogo di lavoro Scuola/università Dove consuma abitualmente biscotti - risp 1 Bar Casa Scuola/università All'aperto In viaggio Sul luogo di lavoro Dove consuma abitualmente biscotti - risp 2 Abitudini di consumo/acquisto Chi acquista biscotti in famiglia Con quale frequenza acquista biscotti Chi acquista biscotti in famiglia Lei stesso/a Genitore Coniuge Altro Si osserva che nella maggioranza dei casi (64.3%) i biscotti vengono acquistati direttamente dal consumatore o da un parente stretto genitore (21.7%) coniuge (13.6%) Con quale frequenza acquista biscotti Più di una volta a settimana Una volta a settimana Si evidenziano 2 tendenze Acquisto frequente (62,9% - percentuale cumulata di “Più di una volta a settimana” e “Una volta a settimana”) Acquisto sporadico (37,1% - percentuale cumulata di “Meno di una volta a settimana” e “Una volta al mese”) Meno di una volta a settimana Una volta al mese Abitudini di consumo/acquisto Dove acquista abitualmente i biscotti Dove acquista abitualmente biscotti - risp 1 Valid Supermercato Fornaio Pasticceria Erboris teria/farmacia Total Frequency 1 211 4 3 2 221 Percent ,5 95,5 1,8 1,4 ,9 100,0 Valid Percent ,5 95,5 1,8 1,4 ,9 100,0 Cumulative Percent ,5 95,9 97,7 99,1 100,0 Dove a cquista abitualmente biscotti - risp 2 Valid Frequency 145 Supermerc ato 5 Fornaio 27 Pastic ceria 25 Bar 11 Dis tributori automatici 6 Erbors teria/farmacia 2 Total 221 Percent 65,6 2,3 12,2 11,3 5,0 2,7 ,9 100,0 Valid Percent 65,6 2,3 12,2 11,3 5,0 2,7 ,9 100,0 Cumulative Percent 65,6 67,9 80,1 91,4 96,4 99,1 100,0 Solo il 34,4% degli intervistati ha dato una seconda risposta Come prevedibile, nella grande maggioranza dei casi l’acquisto di biscotti avviene nel supermercato; solo in un secondo momento si sposta dal fornaio e in pasticceria Si sottolinea come le opzioni “bar” e “distributori automatici” siano state selezionate nella sola risp. 2 rispettivamente dal 5% e dal 2,7% del campione Insieme evocato Prima marca ricordata Seconda marca ricordata Terza marca ricordata 10,4% 9,5% 6,3% Mulino Bianco 58,4% 16,7% 10% Pavesi 6,8% 18,6% 16,7% Saiwa 9% 14,9% 16,7% Appare evidente la netta predominanza di marche industriali, soprattutto Mulino Bianco Galbusera Tale risultato è probabilmente diretta conseguenza della strategia aziendale fortemente focalizzata su pubblicità e comunicazione Mulino Bianco, Pavesi e Saiwa che solitamente preferiscono il canale televisivo hanno ottenuto valori marcatamente più alti rispetto a Galbusera, che Informazioni extra Marca preferita Oltre la metà del campione ha una marca preferita (57.9%) Ha una marca preferita SI NO Si evidenzia un sostanziale apprezzamento della marca preferita tanto che gli intervistati dichiarano di essere intenzionati a continuare ad acquistare tale marca De scri ptive Statistics N Apprez zo molto questa marca Sono disposto/ a a pagare un prez zo più alto per questa marca Int endo continuare ad ac quis tare ques ta marc a Valid N (lis twis e) Mean St d. Deviat ion Variance 128 7,39 1,293 1,673 128 5,31 2,286 5,224 128 7,20 1,342 1,801 128 Più discordanti sono le risposte in merito alla disponibilità a pagare un prezzo più alto. Si registra in questo caso un alto valore di Std. Deviation Informazioni extra Grado di coinvolgimento Descriptive Statistics N Presto molta attenzione all a scelta del prodotto Tutte le marche propongono prodotti sim ili Scelgo la prima marca che mi capi ta Scelgo tra l e marche che trovo nel punto vendita Mi piace provare marche diverse Valid N (listwise) Maximum Mean Std. Deviati on 221 1 9 6,74 1,655 221 1 9 4,35 2,242 221 1 9 2,68 2,020 221 1 9 5,47 2,319 221 1 9 5,62 2,308 221 I consumatori sono mediamente attenti alla scelta del prodotto (mean 6,74) e non scelgono la prima marca che capita (mean 2.68) Secondo il campione, le marche non propongono prodotti simili (mean 4.35) Dati i risultati in merito a “Scelgo tra le marche che trovo nel punto vendita” si deduce che esistono comportamenti di consumo contrastanti (Std. Deviation 2,319) Minimum Alcuni si adeguano alle marche presenti nel punto vendita Altri non acquistano se non trovano la loro marca preferita In media al consumatore piace provare marche diverse nonostante comportamenti di fedeltà alla marca (ampia Std. Deviation) Informazioni extra Attenzione al messaggio pubblicitario La pubblicità non risulta essere un fattore determinante nella scelta del biscotto Si pone una maggiore attenzione al messaggio pubblicitario quale fonte di informazioni utili relativamente al prodotto Tale risultato è in netta contraddizione con quanto precedentemente esplicitato in merito all’insieme evocato. Si ritiene che l’intervistato non abbia espressamente voluto ammettere di farsi influenzare dalla pubblicità. Si suggerisce a questo punto una ricerca esplorativa di tipo qualitativo Descriptive Statistics N Presto attenzione al mess aggio pubblicitario Mi ritrovo nei valori espress i dalla pubblicità La pubblicità è importante nell'acquis izione di informazioni Valid N (lis twis e) Minimum Maximum 221 1 9 3,67 2,059 221 1 9 2,99 1,866 221 1 9 4,38 2,203 221 Mean Std. Deviation Variabili socio-demografiche Sesso, Età, Status familiare Sesso Il campione intervistato è costituito in prevalenza da donne (61%) 39% maschi f emmine Età 61% 21% 35% 26-35 Per quanto riguarda l’età, gli individui sono distribuiti in modo sostanzialmente equilibrato fra le fasce proposte Status familiare 4% single 29% coppia senza figli 52% 15% coppia con figli nucleo familiare allargato 18-25 36-50 19% over 50 25% Si evidenzia la presenza di 2 principali gruppi di intervistati I single (più della metà del campione) Le coppie (in prevalenza quelle senza figli) La percentuale di nuclei famigliari allargati è invece residuale Variabili socio-demografiche Professione Professione 80 Frequency 60 40 20 0 o ltr a A to/ a n o si n e P o n ia ig rt p A t a p u cc o is D a te ist n e ion d tu ss S fe o ro m p o n ro e uto ib L ea r to ra vo a L e t n a n g se In /a to /a io ra e p O a g ie p Im a g lin sa a C Professione La percentuale di studenti è molto alta (32.1% ) ed è coerente con il dato relativo all’età secondo cui i giovani tra i 18 e i 25 rappresentano il 35% del campione La categoria impiegato/a raggiunge una percentuale pari al 27.2%; ciò dipende dal fatto che il termine racchiude varie tipologie di lavoratori (dall’impiegato di banca al ragioniere, al dipendente della pubblica amministrazione) Le altre professioni sono presenti in modo omogeneo Variabili socio-demografiche Titolo di studio Titolo di studio Valid Licenza elementare Media inferiore Media s uperiore Laurea Mas ter pos t laurea Total Frequency 13 21 114 64 9 221 Percent 5,9 9,5 51,6 29,0 4,1 100,0 Valid Percent 5,9 9,5 51,6 29,0 4,1 100,0 Cumulative Percent 5,9 15,4 67,0 95,9 100,0 Il livello culturale è medio-alto. Infatti oltre il 50% delle persone intervistate ha conseguito un diploma di scuola media superiore, circa il 30% è laureato, mentre solo il 4% ha ottenuto un master post-laurea Questo risultato è giustificato dal fatto che il 60% degli intervistati è composto da persone tra 18 e 35 anni. Tali individui si sono rivelati facilmente avvicinabili e disponibili alla compilazione del questionario Il questionario Questionario_Semplificato.xls