Metodi Quantitativi per Economia, Finanza
e Management
Lezione n°6
Statistica descrittiva bivariata
Indaga la relazione tra due variabili misurate. Si distingue
rispetto alla tipologia delle variabili indagate:
• var. qualitative/quantitative discrete: tavole di contingenza (o
a doppia entrata)
• var. quantitative: analisi di correlazione lineare
• una var. qualitativa e una quantitativa: confronto tra le medie
Confronto tra le medie
Se si vuole incrociare una variabile quantitativa con una variabile
qualitativa, la loro relazione può essere descritta confrontando
le medie della variabile numerica all’interno delle categorie
definite dalla variabile misurata a livello nominale/ordinale.
Rapidità
Tipo cliente
Media
N
Persone fisiche
7.8403
357
Aziende
8.5132
76
Totale
7.9584
433
Confronto tra le medie
Un indice sintetico dell’intensità della relazione si basa sulla
scomposizione della varianza per la variabile quantitativa Y, di cui
viene studiata la dipendenza nei confronti della variabile
categorica X. La variabilità totale di Y è
SQTy=SQtra + SQnei
dove SQTy (somma dei quadrati tot) è la variabilità tot, SQtra
(somma dei quadr. tra i gruppi) esprime quanta variabilità di Y
può essere legata al variare delle categorie di X, SQnei (somma
dei quadr.nei gruppi) esprime la variabilità nell’andamento di Y
indipendente da X.
Confronto tra le medie
Report
Produzione artigianale
Età
18-25
26-35
36-50
Over 50
Total
Mean
5.01
5.53
6.00
6.09
5.55
N
78
55
41
47
221
Std. Deviation
2.224
2.609
2.098
2.320
2.352
Measures of Association
Eta
Produzione
artigianale * Età
.191
Eta Squared
.036
Ricerca di mercato
“I biscotti”
Agenda





Obiettivi della ricerca
Descrizione del database
Questionario di rilevazione
Statistica descrittiva univariata
Segmentazione a posteriori per omogeneità

Modalità classica
•
•

Analisi Fattoriale
Cluster Analysis
Modalità flessibile




Conjoint Analysis
Cluster Analysis
Analisi Discriminante Lineare
Conclusioni
Il CD allegato contiene tutte le elaborazioni effettuate per la realizzazione della ricerca
Obiettivi della ricerca
 Indagine del comportamento dei
consumatori in merito all’acquisto e al
consumo di biscotti tramite l’applicazione di
opportune tecniche di analisi statistica
 Individuazione di possibili azioni
manageriali da parte delle aziende
produttrici di biscotti
Descrizione del database





Il database “DB Biscotti” contiene dati relativi ad una indagine
di mercato realizzata nell’anno 2005 (nel corso del mese di
Aprile) relativamente all’acquisto e al consumo di biscotti
Si tratta di interviste personali realizzate a persone con età
maggiore di 18 anni
Il numero di interviste realizzate sono in totale 221
Il database contiene 2 tipologie di variabili:
 Qualitative
 Quantitative
Le prime (sesso, età, dove acquista abitualmente i biscotti,
etc..) sono state ricodificate e trasformate da stringhe a
numeriche
Questionario di rilevazione
1.
Informazioni sulle abitudini di consumo/acquisto
In questa fase vengono rilevate le abitudini di acquisto dell’intervistato in
relazione a:
-
2.
occasione in cui consuma biscotti
luogo in cui consuma biscotti
chi acquista biscotti in famiglia
dove acquista biscotti
con quale frequenza acquista biscotti
Valutazione degli attributi rilevanti nell’atto di acquisto dei biscotti
Si tratta di 20 attributi caratterizzanti la categoria di riferimento su cui ogni
intervistato ha espresso un giudizio di importanza nel momento della scelta
del prodotto, su una scala da 1 a 9 (1= gradimento minimo, 9= gradimento
massimo)
3.
Esplicitazione dell’insieme evocato
E’ stato chiesto ad ogni intervistato di citare liberamente 3 marche di biscotti
4.
Valutazione della soddisfazione dell’ultima marca di biscotti acquistata
Sui medesimi 20 attributi ed in riferimento all’ultima marca acquistata il
campione ha espresso una valutazione del grado di soddisfazione su una
scala da 1 a 9 (1= gradimento minimo, 9= gradimento massimo)
Questionario di rilevazione
5.
Informazioni extra sul comportamento del consumatore



6.
Marca preferita
Grado di coinvolgimento nell’acquisto
Attenzione al messaggio pubblicitario
Informazioni socio-demografiche
In questa fase vengono rilevate le informazioni socio-demografiche
dell’intervistato





Sesso
Età
Status familiare
Professione
Titolo di studio
Abitudini di consumo/acquisto
Quando consuma abitualmente biscotti
E’ stata data la possibilità di fornire al massimo 2 risposte, ma solo il 55% del
campione ne ha usufruito
Si è compreso che i biscotti vengono consumati prevalentemente per la prima
colazione (85,5% - risp. 1) e nell’arco della giornata, sia come snack a merenda
(25,3% – risp. 2), sia come dessert dopo cena (12,2% - risp. 2)
Quando consuma abitualmente biscotti - risp 1
Quando consuma abitualmente biscotti - risp 2
200
100
80
Frequency
Frequency
150
100
60
40
50
20
0
0
Prima
colazione
Spuntino
mattutino
Dopo
pranzo,
come
dessert
Merenda
Dopo cena,
pomeridiana
come
dessert
Altro
Quando consuma abitualmente biscotti - risp 1
Prima
colazione
Spuntino
mattutino
Dopo
pranzo,
come
dessert
Merenda
Dopo cena,
pomeridiana
come
dessert
Quando consuma abitualmente biscotti - risp 2
Abitudini di consumo/acquisto
Dove consuma abitualmente biscotti
Anche per questa domanda erano consentite al massimo 2 risposte, ma solo
il 38.9% degli intervistati le ha fornite entrambe
Per il 96.4% (risp. 1) del campione il luogo preferito dove consumare biscotti
è la casa
Si evidenzia una sostanziale omogeneità in merito alle altre opzioni di
risposta
Dove consuma abitualmente biscotti - risp 1
Dove consuma abitualmente biscotti - risp 2
250
140
120
200
Frequency
Frequency
100
150
100
80
60
40
50
20
0
0
Casa
In viaggio
Bar
Sul luogo di lavoro
Scuola/università
Dove consuma abitualmente biscotti - risp 1
Bar
Casa
Scuola/università
All'aperto
In viaggio
Sul luogo di lavoro
Dove consuma abitualmente biscotti - risp 2
Abitudini di consumo/acquisto
Chi acquista biscotti in famiglia
Con quale frequenza acquista biscotti
Chi acquista biscotti in famiglia
Lei stesso/a
Genitore
Coniuge
Altro
Si osserva che nella maggioranza dei casi
(64.3%) i biscotti vengono acquistati
direttamente dal consumatore o da un
parente stretto
genitore (21.7%)
coniuge (13.6%)


Con quale frequenza acquista biscotti
Più di una volta a
settimana
Una volta a
settimana
Si evidenziano 2 tendenze
Acquisto frequente (62,9% - percentuale
cumulata di “Più di una volta a settimana” e
“Una volta a settimana”)
Acquisto sporadico (37,1% - percentuale
cumulata di “Meno di una volta a
settimana” e “Una volta al mese”)


Meno di una volta
a settimana
Una volta al mese
Abitudini di consumo/acquisto
Dove acquista abitualmente i biscotti
Dove acquista abitualmente biscotti - risp 1
Valid
Supermercato
Fornaio
Pasticceria
Erboris teria/farmacia
Total
Frequency
1
211
4
3
2
221
Percent
,5
95,5
1,8
1,4
,9
100,0
Valid Percent
,5
95,5
1,8
1,4
,9
100,0
Cumulative
Percent
,5
95,9
97,7
99,1
100,0
Dove a cquista abitualmente biscotti - risp 2
Valid
Frequency
145
Supermerc ato
5
Fornaio
27
Pastic ceria
25
Bar
11
Dis tributori automatici
6
Erbors teria/farmacia
2
Total
221
Percent
65,6
2,3
12,2
11,3
5,0
2,7
,9
100,0
Valid Percent
65,6
2,3
12,2
11,3
5,0
2,7
,9
100,0
Cumulative
Percent
65,6
67,9
80,1
91,4
96,4
99,1
100,0
Solo il 34,4% degli intervistati ha
dato una seconda risposta
Come prevedibile, nella grande
maggioranza dei casi l’acquisto di
biscotti avviene nel supermercato;
solo in un secondo momento si
sposta dal fornaio e in pasticceria
Si sottolinea come le opzioni “bar” e
“distributori automatici” siano state
selezionate nella sola risp. 2
rispettivamente dal 5% e dal 2,7%
del campione
Insieme evocato


Prima
marca
ricordata
Seconda
marca
ricordata
Terza
marca
ricordata
10,4%
9,5%
6,3%
Mulino
Bianco
58,4%
16,7%
10%
Pavesi
6,8%
18,6%
16,7%
Saiwa
9%
14,9%
16,7%
Appare evidente la netta
predominanza di marche
industriali, soprattutto Mulino
Bianco
Galbusera
Tale risultato è
probabilmente diretta
conseguenza della strategia
aziendale fortemente
focalizzata su pubblicità e
comunicazione
Mulino Bianco, Pavesi e
Saiwa che solitamente
preferiscono il canale
televisivo hanno ottenuto
valori marcatamente più alti
rispetto a Galbusera, che
Informazioni extra
Marca preferita
Ha una marca preferita
Oltre la metà del campione ha
una marca preferita (57.9%)
SI
NO
Si evidenzia un sostanziale
apprezzamento della marca
preferita tanto che gli
intervistati dichiarano di
essere intenzionati a
continuare ad acquistare tale
marca
De scri ptive Statistics
N
Apprez zo molto questa
marca
Sono disposto/ a a pagare
un prez zo più alto per
questa marca
Int endo continuare ad
ac quis tare ques ta marc a
Valid N (lis twis e)
Mean
St d. Deviat ion
Variance
128
7,39
1,293
1,673
128
5,31
2,286
5,224
128
7,20
1,342
1,801
128
Più discordanti sono le
risposte in merito alla
disponibilità a pagare un
prezzo più alto. Si registra in
questo caso un alto valore di
Std. Deviation
Informazioni extra
Grado di coinvolgimento
Descriptive Statistics
N
Presto molta attenzione
all a scelta del prodotto
Tutte le marche
propongono prodotti
sim ili
Scelgo la prima marca
che mi capi ta
Scelgo tra l e marche che
trovo nel punto vendita
Mi piace provare marche
diverse
Valid N (listwise)



Maximum
Mean
Std. Deviati on
221
1
9
6,74
1,655
221
1
9
4,35
2,242
221
1
9
2,68
2,020
221
1
9
5,47
2,319
221
1
9
5,62
2,308
221
I consumatori sono mediamente attenti alla scelta del prodotto (mean 6,74) e
non scelgono la prima marca che capita (mean 2.68)
Secondo il campione, le marche non propongono prodotti simili (mean 4.35)
Dati i risultati in merito a “Scelgo tra le marche che trovo nel punto vendita” si
deduce che esistono comportamenti di consumo contrastanti (Std. Deviation
2,319)



Minimum
Alcuni si adeguano alle marche presenti nel punto vendita
Altri non acquistano se non trovano la loro marca preferita
In media al consumatore piace provare marche diverse nonostante
comportamenti di fedeltà alla marca (ampia Std. Deviation)
Informazioni extra
Attenzione al messaggio pubblicitario

La pubblicità non risulta essere un fattore determinante nella scelta del
biscotto

Si pone una maggiore attenzione al messaggio pubblicitario quale
fonte di informazioni utili relativamente al prodotto

Tale risultato è in netta contraddizione con quanto precedentemente
esplicitato in merito all’insieme evocato. Si ritiene che l’intervistato non
abbia espressamente voluto ammettere di farsi influenzare dalla
pubblicità. Si suggerisce a questo punto una ricerca esplorativa di tipo
qualitativo
Descriptive Statistics
N
Presto attenzione al
mess aggio pubblicitario
Mi ritrovo nei valori
espress i dalla pubblicità
La pubblicità è importante
nell'acquis izione di
informazioni
Valid N (lis twis e)
Minimum
Maximum
221
1
9
3,67
2,059
221
1
9
2,99
1,866
221
1
9
4,38
2,203
221
Mean
Std. Deviation
Variabili socio-demografiche
Sesso, Età, Status familiare
Sesso
Il campione intervistato è costituito in
prevalenza da donne (61%)
39%
maschi
f emmine
Età
61%
21%
35%
26-35
Per quanto riguarda l’età, gli individui
sono distribuiti in modo
sostanzialmente equilibrato fra le
fasce proposte
Status familiare
4%
single
29%
coppia senza figli
52%
15%
coppia con figli
nucleo familiare
allargato
18-25
36-50
19%
over 50
25%
Si evidenzia la presenza di 2 principali
gruppi di intervistati
I single (più della metà del campione)
Le coppie (in prevalenza quelle senza
figli)
La percentuale di nuclei famigliari
allargati è invece residuale


Variabili socio-demografiche
Professione
Professione
80
Frequency
60
40
20
0
A
ltr
/a
tp
to
a
n
a
p
o
n
o
ia
si
o
n
ig
e
rt
P
A
u
cc
o
ta
is
m
o
n
n
to
u
io
ss
a
fe
re
ro
te
p
n
e
ro
d
o
is
tu
D
S
e
to
te
n
a
n
/a
io
/a
to
a
g
a
ra
g
ra
vo
ib
a
L
L
e
se
p
In
O
g
lin
ie
sa
p
a
Im
C
Professione
La percentuale di studenti è molto alta (32.1% ) ed è coerente con il dato relativo
all’età secondo cui i giovani tra i 18 e i 25 rappresentano il 35% del campione
La categoria impiegato/a raggiunge una percentuale pari al 27.2%; ciò dipende
dal fatto che il termine racchiude varie tipologie di lavoratori (dall’impiegato di
banca al ragioniere, al dipendente della pubblica amministrazione)
Le altre professioni sono presenti in modo omogeneo
Variabili socio-demografiche
Titolo di studio
Titolo di studio
Valid
Licenza elementare
Media inferiore
Media s uperiore
Laurea
Mas ter pos t laurea
Total
Frequency
13
21
114
64
9
221
Percent
5,9
9,5
51,6
29,0
4,1
100,0
Valid Percent
5,9
9,5
51,6
29,0
4,1
100,0
Cumulative
Percent
5,9
15,4
67,0
95,9
100,0
Il livello culturale è medio-alto. Infatti oltre il 50% delle persone intervistate
ha conseguito un diploma di scuola media superiore, circa il 30% è
laureato, mentre solo il 4% ha ottenuto un master post-laurea
Questo risultato è giustificato dal fatto che il 60% degli intervistati è
composto da persone tra 18 e 35 anni. Tali individui si sono rivelati
facilmente avvicinabili e disponibili alla compilazione del questionario
Il questionario
 Questionario_Semplificato.xls
Test per lo studio dell’associazione tra
variabili

Nella teoria dei test, il ricercatore fornisce ipotesi riguardo
la distribuzione della popolazione; tali Ip sono parametriche
se riguardano il valore di uno ò più parametri della
popolazione conoscendone la distribuzione a meno dei
parametri stessi; non parametriche se prescindono dalla
conoscenza della distribuzione della popolazione.

Obiettivo dei test: come decidere se accettare o rifiutare
un’ipotesi statistica alla luce di un risultato campionario.
Esistono due ipotesi: H0 e H 1, di cui la prima è l’ipotesi
nulla, la seconda l’ipotesi alternativa la quale rappresenta,
di fatto, l’ipotesi che il ricercatore sta cercando di dimostrare.
Test per lo studio dell’associazione tra
variabili

Si può incorrere in due tipologie di errore:
Possibili Risultati Verifica di Ipotesi
Stato di Natura
Decisione
Non
Rifiutare
H0
Rifiutare
H0
H0 Vera
No errore
Errore
Primo Tipo
H0 Falsa
Errore
Secondo Tipo
No Errore
Test per lo studio dell’associazione tra
variabili

Errore di Primo Tipo
 Rifiutare un’ipotesi nulla vera
 Considerato un tipo di errore molto serio
La probabilità dell’errore di primo tipo è 
 Chiamato livello si significatività del test
 Fissato a priori dal ricercatore
Test per lo studio dell’associazione tra
variabili

Errore di Secondo Tipo
 Non rifiutare un’ipotesi nulla falsa
La probabilità dell’errore di secondo tipo è β
Test per lo studio dell’associazione tra
variabili
Possibili Risultati Verifica di Ipotesi
Stato di Natura
Legenda:
Risultato
(Probabilità)
Decisione
H0 Vera
Non
Rifiutare
H0
No errore
(1 -  )
Rifiutare
H0
Errore
Primo Tipo
()
H0 Falsa
Errore
Secondo Tipo
(β)
No Errore
(1-β)
Test per lo studio dell’associazione tra
variabili
 Errore di primo tipo ed errore di secondo tipo non si
posso verificare contemporanemente
 Errore di primo tipo può occorrere solo se H0 è vera
 Errore di secondo tipo può occorrere solo se H0 è falsa
Se la probabilità dell’errore di primo tipo (  )
,
allora la probabilità dell’errore di secondo tipo ( β )
Lettura di un test statistico (1)
Esempio:
H0:
b1= b2 = ....=bk = 0
1) Ipotesi
H1: bi = 0
2) Statistica test
3) p-value
Statistica F
Rappresenta la probabilità di commettere
l’errore di prima specie.
Può essere interpretato come la probabilità
che H0 sia “vera” in base al valore osservato
della statistica test
Lettura di un test statistico (2)
Se p-value piccolo
RIFIUTO H0
Altrimenti
ACCETTO H0
Test χ² per l’indipendenza statistica
Si considera la distribuzione χ², con un numero di gradi di libertà
pari a (k-1)(h-1), dove k è il numero di righe e h il numero di
colonne della tabella di contingenza. Qui:
 H0 :indipendenza statistica tra X e Y
 H1 : dipendenza statistica tra X e Y
La regione di rifiuto cade nella coda di destra della distribuzione
0.2
0.15
0.1
0.05
La regione di rifiuto è
caratterizzata da valori
relativamente elevati di
χ²; se il livello di
significatività è al 5%,
si rifiuta per χ²> χ²0.95
0
Regione di rifiuto
0 1.1 2.2 3.3 4.4 5.5 6.6 7.7 8.8 9.9 11
Test χ² per l’indipendenza statistica
Chi-Square Tests
Pears on Chi-Square
Likelihood Ratio
N of Valid Cases
Value
5.471 a
5.402
221
df
3
3
Asymp. Sig.
(2-s ided)
.140
.145
a. 0 cells (.0%) have expected count les s than 5. The
minimum expected count is 15.95.
Chi-Square Tests
Pears on Chi-Square
Likelihood Ratio
N of Valid Cases
Value
26.304a
28.928
221
df
8
8
Asymp. Sig.
(2-s ided)
.001
.000
a. 0 cells (.0%) have expected count les s than 5. The
minimum expected count is 5.47.
Test t per l’indipendenza lineare
Questo test verifica l’ipotesi di indipendenza lineare tra due
variabili, partendo dall’indice di correlazione lineare ρ. Si
ha:
 H0: indipendenza lineare tra X e Y (ρpopolaz=0)
 H1: dipendenza lineare tra X e Y (ρpopolaz ≠ 0)
La statistica test è distribuita come una t di Student con n-2
gradi di libertà, e tende a crescere all’aumentare
dell’ampiezza campionaria
t= ρ √(n-2)/ (1- ρ²)
Test t per l’indipendenza lineare
La regione di rifiuto è caratterizzata da valori relativamente
elevati di t in modulo; se il livello di significatività è al
5%, si rifiuta per |t| >t0,975
0,35
0,3
0,25
0,2
0,15
0,1
0,05
0
Regione di rifiuto
Regione di rifiuto
Test t per l’indipendenza lineare
Correlations
Qualità degli ingredienti
Genuinità
Leggerezza
Sapore/gusto
Pears on Correlation
Sig. (2-tailed)
N
Pears on Correlation
Sig. (2-tailed)
N
Pears on Correlation
Sig. (2-tailed)
N
Pears on Correlation
Sig. (2-tailed)
N
Qualità degli
ingredienti
1
**. Correlation is s ignificant at the 0.01 level (2-tailed).
Genuinità Leggerezza Sapore/gusto
.629**
.299**
.232**
.000
.000
.001
220
220
218
220
.629**
1
.468**
.090
.000
.000
.181
220
220
218
220
.299**
.468**
1
.030
.000
.000
.657
218
218
219
219
.232**
.090
.030
1
.001
.181
.657
220
220
219
221
Test F per la verifica di ipotesi sulla
differenza tra medie
Si prende in considerazione la scomposizione della varianza; qui


H0: le medie sono tutte uguali tra loro
H1: esistono almeno due medie diverse tra loro
La statistica test da utilizzare, sotto l’ipotesi H0, si distribuisce
come una F di Fisher con (c-1,n-1) gradi di libertà. Tende a
crescere all’aumentare della varianza tra medie e al
diminuire della variabilità interna alle categorie. Cresce
inoltre all’aumentare dell’ampiezza campionaria.
Test F per la verifica di ipotesi sulla
differenza tra medie
La regione di rifiuto cade nella coda di destra della distribuzione,
cioè è caratterizzata da valori relativamente elevati di F; se
il livello di significatività è 5%, si rifiuta per F> F0,95
0.8
0.7
0.6
0.5
0.4
0.3
0.2
Regione di rifiuto
0.1
0
0
0.7
1.4
2.1
2.8
3.5
4.2
4.9
Test F per la verifica di ipotesi
sulla differenza tra medie
Report
Measures of Association
Produzione artigianale
Età
18-25
26-35
36-50
Over 50
Total
Mean
5.01
5.53
6.00
6.09
5.55
Eta
N
78
55
41
47
221
Std. Deviation
2.224
2.609
2.098
2.320
2.352
Produzione
artigianale * Età
Eta Squared
.191
.036
ANOVA Table
Produzione
artigianale * Età
Between Groups
Within Groups
Total
(Combined)
Sum of
Squares
44.296
1172.356
1216.652
df
3
217
220
Mean Square
14.765
5.403
F
2.733
Sig.
.045
Produzione artigianale
Età
18-25
26-35
36-50
Over 50
Total
Mean
5.01
5.53
6.00
6.09
5.55
N
78
55
41
47
221
Std. Deviation
2.224
2.609
2.098
2.320
2.352
ANOVA Table
Produzione
artigianale * Età
Between Groups
Within Groups
Total
(Combined)
Sum of
Squares
44.296
1172.356
1216.652
df
3
217
220
Mean Square
14.765
5.403
F
2.733
Sig.
.045
Report
Attenzione a bis ogni s pecifici
Età
18-25
26-35
36-50
Over 50
Total
Mean
4.05
4.53
5.00
5.83
4.73
N
78
53
41
47
219
Std. Deviation
2.772
2.791
2.837
8.168
4.536
ANOVA Table
Attenzione a bisogni
s pecifici * Età
Between Groups
Within Groups
Total
(Combined)
Sum of
Squares
97.921
4387.641
4485.562
df
3
215
218
Mean Square
32.640
20.408
F
1.599
Sig.
.191
Univariate Analysis
Nominal
Ordinal
Quantitative
Distribution
X
X
X
Mode
X
X
X
Percentiles
Moments
Shape
X
X
X
X
Bivariate Analysis
Objective
To describe the relationship between two variables
jointly.

qualitative variables: Analysis of Connection

quantitative variables: Analysis of Correlation

mixed variables: Analysis of Variance
Bivariate Analysis
Connection
Correlation
ANOVA
Descriptive
Tools
Contingency
Table
Scatter Plot
Means by
Classes
Descriptive
Indexes
Chi-Square
Kramer's V
Linear
Correlation
Coeffcient
Spearman
Coefficient
Statistical
Test
Chi-Square
test
Null
Hypothesis
Statistical
Indipend.
t-Test
No linear
relation
F-Test
Indipend. by
mean