Analisi Bivariata

annuncio pubblicitario
Analisi dei dati: file per esercitazione
Si consideri il file DATI_Analisi_DESCRITTIVA.sas7bdat
Si tratta dei dati relativi ad un campione di clienti di un’azienda di abbigliamento
importiamo i dati nel NUOVO flusso del progetto che chiamiamo “ANALISI DESCRITTIVA”
Inseriamo un nodo “Programma” nel progetto e eseguiamo il comando
options compress = char
Metodi quantitativi per il marketing – Anno Accademico 2015 - 2016 LIUC
0
Analisi dei dati: Descrittiva, Bivariata
Analisi Descrittiva:
Analisi caratteristiche principali delle variabili del data set:
analisi eventuali dati anomali
analisi missing
analisi tipologia di distribuzione delle frequenze
calcolo dei principali indicatori di posizione e di variabilità
Analisi Bivariata:
Analisi di Connessione, indicatori di significatività
Analisi di Correlazione, indicatori di significatività
Analisi della varianza (Anova), indicatori di significatività
Metodi quantitativi per il marketing – Anno Accademico 2015 - 2016 LIUC
1
Analisi dei dati: Analisi descrittiva
Caratterizza Dati: Tutte le Variabili
permette di ricavare una serie di informazioni per tutte le variabili
inserite nel data set.
Semplice ma poco significativo per data set con un elevato numero di
variabili
Statistiche di riepilogo: Variabili Continue
Utile per individuare eventuali errori di importazione o variabili
“costanti”, è possibile filtrare l’analisi on riferimento ad un sottoinsieme
di dati sia in un’unica tabella che in tabelle separate, effettuare le
analisi confrontando gruppi definiti da specifiche variabili categoria,
limitare l’analisi a determinate variabili, è possibile calcolare gli
indicatori di posizione e di variabilità di ciascuna variabile contenuta nel
data set.,
Analisi della distribuzione: Variabili Continue
Applicare su
file
esercitazione
è possibile analizzare la distribuzione di frequenza delle variabili
continue sia globalmente che per sottoinsiemi, opportunamente
definiti, del data set. Con l’opzione Variabile di classificazione è possibile
ottenere un confronto “grafico” della variabile dipendente rispetto ad
una specifica variabile categoria (l’opzione Raggruppa analisi per,
semplicemente replica l’analisi rispetto alle modalità della variabile
categoria selezionata)
Frequenza ad una via: è possibile personalizzare l’analisi delle
variabili in modo particolare con riferimento alle statistiche.
Metodi quantitativi per il marketing – Anno Accademico 2015 - 2016 LIUC
2
Analisi dei dati: Analisi descrittiva
Indicatori di Posizione: Media, Moda, Mediana (percentili e decili)
Quali differenze fra i diversi indicatori di Posizione?
Indicatori di Dispersione: Varianza, Scarto quadratico medio, coefficiente di variazione
Quali differenze fra i diversi indicatori di Dispersione?
Attenzione una variabile DEVE essere definita come continua, il fatto che sia codificata come numero,
esempio sesso 0,1, NON implica che lo sia. Qualunque sw statistico se richiesto calcola la media di tutte
le variabile “numeriche”……..
Metodi quantitativi per il marketing – Anno Accademico 2015 - 2016 LIUC
3
Analisi dei dati: Analisi descrittiva
1)
Selezionare da Processi:Descrivi: Statistiche di
riepilogo (NON procedura guidata)
2)
Scegliere le variabili oggetto dell’analisi ed
eventualmente le variabili di raggruppamento
3)
Definire le statistiche e i diagrammi
4)
Sono possibile una serie di opzioni
Metodi quantitativi per il marketing – Anno Accademico 2015 - 2016 LIUC
4
Analisi dei dati: Analisi descrittiva - esercitazione
Applicare su
file
esercitazione
1) Statistiche di riepilogo
1)
Analizzare le variabili continue, quali osservazioni sulla variabile sellout?
2)
Ripetere l’analisi con un opportuno filtro sulla variabile sellout?
3)
Se ordiniamo il file per la variabile sellout possiamo avere un’idea della rilevanza del problema?
2) Analisi Distribuzione
1)
Analizzate la distribuzione dell’eta rispetto al sesso con le due opzioni Raggruppa analisi per e variabili di
Classificazione
2)
Quale delle due distribuzioni dell’età (Femmine /Maschio) è più simile ad una distribuzione normale? Filtrare le
analisi considerando solo Gender NON missing o “.”
3)
Analizzate la distribuzione del sellout rispetto alla nazione, solo Italia, Francai, Giappone e USA, quali
considerazioni possiamo cogliere?
3) Frequenza ad una via
1)
Analizziamo la variabile classe di età
2)
Confrontando i risultati per sesso emergono delle differenze?
3)
Costruiamo una variabile che indichi l’anzianità di relazione con l’azienda (da quanto tempo è cliente)
Metodi quantitativi per il marketing – Anno Accademico 2015 - 2016 LIUC
5
Analisi dei dati: Analisi Bivariata
Precedentemente abbiamo visto come sia possibile ottenere degli indicatori/descrittori per ciascuna
variabile sia globali che per sotto insiemi del data set.
Tali metodologie però evidenziano solo eventuali differenze tra le variabili per sotto gruppi senza
“misurare” queste differenze:
Metodi quantitativi per il marketing – Anno Accademico 2015 - 2016 LIUC
6
Analisi dei dati: Analisi Bivariata - Connessione
Confrontare statisticamente due variabili significa verifica se esiste un legame/dipendenza tra le due
variabili, vale a dire verificare se la distribuzione della variabile originaria mostra delle differenze
STATISTICAMENTE SIGNIFICATIVE all’interno delle sub popolazioni del dataset individuate
dall’altra variabile.
Quando le variabili sono DISCRETE, è necessario effettuare un’analisi di CONNESSIONE, vale a dire
analizzare se la distribuzione delle frequenze di una data variabile sull’intera popolazione mostra una
distribuzione diversa all’interno delle sotto popolazioni individuate dalla variabile rispetto a quale si
sta valutando l’eventuale connessione
ANALISI TABELLA A DOPPIA ENTRATA – TEST DEL CHI QUADRO
Metodi quantitativi per il marketing – Anno Accademico 2015 - 2016 LIUC
7
Analisi dei dati: Analisi Bivariata - Connessione
Consideriamo il file Info_Farma, ove abbiamo una classificazione delle farmacie relativamente a 7
segmenti che si caratterizzano in funzione delle caratteristiche socio-demo e strutturali del proprio
bacino di utenza
Metodi quantitativi per il marketing – Anno Accademico 2015 - 2016 LIUC
8
Analisi dei dati: Analisi Bivariata - Connessione
Come precedentemente visto operiamo con l’opzione join tabelle nel comando Costruttore di
query per importare questa nuova variabile nel nostro data set ottenuto dalle 2 tabelle importate
Apriamo Costruttore di query dal db Cluster,
aggiungiamo la tabella QUERY DB
FARMACIE_1, quella in cui si era costruita la
variabile regione
Metodi quantitativi per il marketing – Anno Accademico 2015 - 2016 LIUC
9
Analisi dei dati: Analisi Bivariata - Connessione
Il sw identifica la variabili ID
comune ai due dataset e la
propone come chiave di
unione
Metodi quantitativi per il marketing – Anno Accademico 2015 - 2016 LIUC
10
Analisi dei dati: Analisi Bivariata - Connessione
Selezionando il simbolo di
insieme tra le due tabelle è
possibile selezionare il criterio
rispetto al quale le due tabelle
devono essere unite
Quali sono le differenze tra i
criteri?
Metodi quantitativi per il marketing – Anno Accademico 2015 - 2016 LIUC
11
Analisi dei dati: Analisi Bivariata - Connessione
SAS_EGJoin Option
Join Type
Description
Matching rows only given
Inner join
a condition
The output rows include those for which the column in the first table matches the joining criterion of the column in
the second table. Joins are inner joins by default.
All rows from the left
table given a condition
Left join
The output rows include all rows from the first table and the rows from the second table in which the joining
criterion is met.
All rows from the right
table given a condition
Right join
The output rows include all rows from the second table and the rows from the first table in which the joining
criterion is met.
All rows from both tables
Full outer join
given a condition
The output rows include all rows from both tables in which the joining criterion is met.
The Cartesian product
The output rows include each row from the first table combined with each row from the second table. The total
number of output rows is the product of the number of rows in each table. For example, if Table A, which contains 9
rows, is combined with Table B, which contains 13 rows, then the number of output rows will be 9 * 13, or 117.
Cross join
Matching rows only with
The output rows include all rows in which the common columns in the two tables contain values that are equal.
Natural inner join
equal common columns
Common columns are those that have the same name and same data type.
All rows from the left
table with equal common Natural left join
columns
The output rows include all rows from the first table and the rows from the second table in which the common
columns in the two tables contain values that are equal. Common columns are those that have the same name and
same data type.
All rows from the right
table with equal common Natural right join
columns
The output rows include all rows from the second table and the rows from the first table in which the common
columns in the two tables contain values that are equal. Common columns are those that have the same name and
same data type.
All rows from both tables
Natural Full Outer
with equal common
The output rows include all rows from both tables. Rows that do not have a match are filled in with missing values.
Join
columns
Metodi quantitativi per il marketing – Anno Accademico 2015 - 2016 LIUC
12
Analisi dei dati: Analisi Bivariata - Connessione
Considerando che il nostro
dataset principale è DB
FARMACIE specificheremo
come criterio TUTTE LE RIGHE
DELLA TABELLA DI DESTRA
DATA UNA CONDIZIONE (nel
nostro caso nessuna)
Metodi quantitativi per il marketing – Anno Accademico 2015 - 2016 LIUC
13
Analisi dei dati: Analisi Bivariata - Connessione
Inseriamo tutte le variabili
presenti nei due dataset ed
eseguiamo il nodo: quante
dovrebbero essere le
osservazioni nella nuova
tabella? Perché?
Metodi quantitativi per il marketing – Anno Accademico 2015 - 2016 LIUC
14
Analisi dei dati: Analisi Bivariata - Connessione
Da un punto statistico si può dire che la distribuzione dei
cluster è differente per le regione Calabria, Piemonte e
Lombardia?
Costruiamo la tabella a doppia entrata:
Selezioniamo da Processi, Descrivi, Analisi delle tabelle
Specifichiamo le variabili che vogliamo Inserire
Nella tabella: Cluster e Regione
In Tabella specifichiamo le righe e le colonne
In statistiche per cella specifichiamo % riga/colonna e % celle
Eseguiamo il nodo
Metodi quantitativi per il marketing – Anno Accademico 2015 - 2016 LIUC
15
Analisi dei dati: Analisi Bivariata - Connessione
 Analizziamo il risultato
 Confrontiamo la distribuzioni
di frequenza totale della
variabile Cluster rispetto alle
distribuzione della stessa
variabile all’interno delle
regioni (… naturalmente si
può ragionare anche
all’inverso)
Metodi quantitativi per il marketing – Anno Accademico 2015 - 2016 LIUC
16
Analisi dei dati: Analisi Bivariata - Connessione
Modifichiamo il nodo Analisi
delle tabelle specificando Test di
Associazione Chi quadrato e
Contributo cella al chi quadrato
di Pearson nelle Statistiche per
le celle
Metodi quantitativi per il marketing – Anno Accademico 2015 - 2016 LIUC
17
Analisi dei dati: Analisi Bivariata - Connessione
Analizziamo l’output
Il valore del Chi_Square
rappresenta il risultato del
test omonimo verifica se
l’ipotesi nulla e
probabilisticamente
Il valore Prob evidenzia quale
compatibile con i dati
è la probabilità con cui è
In particolare l’ipotesi nulla è
verificata l’ipotesi nulla, nel
che i due campioni sono
nostro caso RIFIUTIAMO
indipendenti cioè che la
l’ipotesi nulla quindi le due
distribuzione delle farmacie
variabili NON sono
per esempio nei cluster è la
indipendenti quindi sono
stessa nelle 3 regioni
dipendenti
Metodi quantitativi per il marketing – Anno Accademico 2015 - 2016 LIUC
18
Analisi dei dati: Analisi Bivariata - Connessione
La variabile così calcolata che
confronta quindi le distribuzioni
reali con quelle che teoricamente
dovrebbero essere in caso di
indipendenza, si distribuisce
come una variabile causale con
(g-1) gradi di liberta
In questo modo, se il valore “” ottenuto è maggiore di quello riportato sulle
tavole della distribuzione di frequenza, dato un certo valore di significatività,
si può rifiutare l’ipotesi nulla di indipendenza
Metodi quantitativi per il marketing – Anno Accademico 2015 - 2016 LIUC
19
Analisi dei dati: Analisi Connessione - esercitazione
1. La distribuzione dell’eta per sesso è statisticamente differente?
2. Fra Austria, Francia, Germani, Grecia e Italia qual’è la nazione con i clienti più
Applicare su
file
esercitazione
“giovani”
3. Considerando le stesse nazioni qual è quella ove sembra esserci un maggiore
interesse per la Categoria 3
Metodi quantitativi per il marketing – Anno Accademico 2015 - 2016 LIUC
20
Analisi dei dati: Analisi Bivariata - Correlazione
Nel caso in cui le variabili di cui vogliamo valutare il legame sono di natura continua è necessari
valutarne la CORRELAZIONE
Si ipotizzi che si voglia verificare se la spesa media in Sanità e in Personale Care risulti legata alla
rilevanza nel bacino della farmacia di bambini di età inferiore ai 14 anni
1) costruiamo il nuovo data set partendo dal database DB_farmacie inserendo le variabili utili
all’analisi e calcolando la nuova variabile % di bambini di età inferiore ai 13 (perché la percentuale
e non consideriamo semplicemente la numerosità di bambini inferiori a 13 anni)
Metodi quantitativi per il marketing – Anno Accademico 2015 - 2016 LIUC
21
Analisi dei dati: Analisi Bivariata - Correlazione
2) Sulla tabella derivata,
Processi, Multivariata,
Correlazione
3) Specifichiamo le variabili di
cui vogliamo analizzare il
legame
4) Selezioniamo il test di
Pearson nelle opzioni
5) Eseguiamo il nodo
Metodi quantitativi per il marketing – Anno Accademico 2015 - 2016 LIUC
22
Analisi dei dati: Analisi Bivariata - Correlazione
L’output evidenzia:
1) l’intensità della correlazione
2) La significatività della stessa. Anche
in questo caso l’ipotesi nulla è che i
campioni siano indipendenti, con
Prob<=0,05 possiamo rifiutare
l’ipotesi che i campioni siano
indipendenti quindi esiste un legame
tra spesa in sanità e in personal care
e presenza di bambini nel bacino ……
ma quale è l’intensità di tale
correlazione ?
Metodi quantitativi per il marketing – Anno Accademico 2015 - 2016 LIUC
23
Analisi dei dati: Analisi Bivariata - Correlazione
L’indice di correlazione è
ottenuto come il rapporto tra la
Covarianza delle due variabili e il
prodotto delle loro deviazioni
standard
La significatività è ottenuto
attraverso  che si distribuisce
come una T_Student con n-2
gradi di libertà.
In questo modo, se il valore “T” ottenuto è maggiore di quello riportato sulle
tavole della distribuzione di frequenza, dato un certo valore di significatività,
si può rifiutare l’ipotesi nulla di indipendenza
Metodi quantitativi per il marketing – Anno Accademico 2015 - 2016 LIUC
24
Analisi dei dati: Analisi Bivariata - Correlazione
Proviamo a rappresentare graficamente il legame
tra la variabile presenza bambini e spesa:
Direttamente dall’output di della correlazione:
 Processi,
 Grafico,
 Grafico a Dispersione
 Inseriamo le due variabili Sanità e Perfinoa14anni
Metodi quantitativi per il marketing – Anno Accademico 2015 - 2016 LIUC
25
Analisi dei dati: Analisi Bivariata - Correlazione
Come analizziamo il grafico???
Metodi quantitativi per il marketing – Anno Accademico 2015 - 2016 LIUC
26
Analisi dei dati: Analisi Correlazione - esercitazione
1. Calcoliamo la variabile anzianità di relazione ad oggi di ciascun cliente
Applicare su
file
esercitazione
2. Esiste una relazione fra percentuale di acquisto della Categoria 3 e anzianità?
3. I clienti da più tempo hanno una propensione ad acquistare a Natale maggiore o minore?
4. Coloro che acquistano di più a Natale hanno uno scontrino medio più alto? (calcolare la
variabile valore medio scontrino AVT)
Metodi quantitativi per il marketing – Anno Accademico 2015 - 2016 LIUC
27
Analisi dei dati: Analisi Bivariata - ANOVA
Come ultimo caso analizziamo l’eventualità che si voglia analizzare il legame tra una variabile
CONTINUA ed una DISCRETA, in questo caso si ricorre all’analisi della varianza: ANOVA
Metodi quantitativi per il marketing – Anno Accademico 2015 - 2016 LIUC
28
Analisi dei dati: Analisi Bivariata - ANOVA
L‘analisi della varianza confronta la variabilità interna a due o più gruppi
rispetto alla variabilità tra i gruppi
Si voglia verificare se la spesa media per individuo in personale care (variabile
continua) sia diversa nelle Regioni
Costruiamo la nuova variabile:SPESA MEDIA INDIVIDUALE PER PERSONALE CARE
Analizziamo la variabile con il Processo Statistiche di riepilogo
Metodi quantitativi per il marketing – Anno Accademico 2015 - 2016 LIUC
29
Analisi dei dati: Analisi Bivariata - ANOVA
Costruiamo la variabile Spesa pro capite in Personale Care
Con il Processo Statistiche di riepilogo, calcoliamo la media
e il suo intervallo al 95% per le Regioni e il numero di
osservazioni
Metodi quantitativi per il marketing – Anno Accademico 2015 - 2016 LIUC
30
Analisi dei dati: Analisi Bivariata - ANOVA
Confrontiamo i dati per la Regione
Lazio rispetto alle Regioni, Val
D’Aosta e Liguria apparentemente
diremo che la spesa in personale
care nel Lazio è inferiore
Consideriamo anche
l’informazione relativa
all’intervallo di confidenza
Metodi quantitativi per il marketing – Anno Accademico 2015 - 2016 LIUC
31
Analisi dei dati: Analisi Bivariata - ANOVA
Regione Media Dev std
ABR
BAS
CAL
CAM
EMR
FVG
LAZ
LIG
LOM
MAR
MOL
PIE
PUG
SAR
SIC
TAA
TOS
UMB
VDA
VEN
211,59
168,28
195,89
189,11
249,40
273,40
243,90
271,76
277,45
246,04
205,37
229,00
193,88
178,62
147,98
253,93
272,93
243,65
268,91
259,36
51,02
34,99
39,68
69,65
50,35
49,02
87,44
84,09
135,64
40,70
46,91
41,91
43,53
35,35
46,07
55,94
64,59
51,02
45,95
83,30
CL inf al 95% CL sup al 95%
per la media per la media
207,02
216,16
163,48
173,08
193,05
198,73
185,72
192,49
246,56
252,24
268,43
278,37
LAZ_M
239,48
248,33
239,48
243,90 248,33
LIG_M
264,90
278,62
264,90
271,76
272,30
282,60
242,44
249,63
198,13
212,60
226,85
231,15
191,29
196,47
175,73
181,51
145,59
150,37
247,17
260,70
269,08
276,79
237,38
249,91
VDA_M
254,94
282,88
254,94
268,91
254,81
263,91
278,62
282,88
L’area di sovrapposizione tra i dati del Lazio e quelli della Val D’Aosta è sensibilmente
maggiore rispetto all’area “comune” Lazio e Liguria
Metodi quantitativi per il marketing – Anno Accademico 2015 - 2016 LIUC
32
Analisi dei dati: Analisi Bivariata - ANOVA
In generale quando si dispone di una variabile continua e si vuole valutare se il valore medio tra gruppi
di osservazioni sia diverso statisticamente si ricorre all’analisi della Varianza, in particolare si verifica
l’ipotesi nulla: solitamente prevede che i dati di tutti i gruppi abbiano la stessa origine, ovvero la
stessa distribuzione e che le differenze osservate tra i gruppi siano dovute solo al caso.
Il test comunemente utilizzato è il test F calcolato come
𝑉𝑎𝑟𝑖𝑎𝑛𝑧𝑎 𝑇𝑅𝐴 𝑔𝑟𝑢𝑝𝑝𝑖
𝑉𝑎𝑟𝑖𝑎𝑛𝑧𝑎 𝑁𝐸𝐼 𝑔𝑟𝑢𝑝𝑝𝑖
Esiste, per ogni combinazione di gradi di libertà del numeratore e del denominatore, e per ogni livello di
probabilità, una particolare curva statistica (distribuzione di F) che ci consente di stabilire se il rapporto
ottenuto è superiore ad un certo valore soglia per cui è poco probabile (e noi dobbiamo scegliere il livello
di probabilità che vogliamo tenere in considerazione, solitamente 5%-0,05) ottenere quei valori quando
si considerino gruppi random di una stessa popolazione
Metodi quantitativi per il marketing – Anno Accademico 2015 - 2016 LIUC
33
Analisi dei dati: Analisi Bivariata - ANOVA
Proviamo a calcolare il test F –file confrontimedie.xls
N° gruppi
20
Regione
N. oss
ABR
481
BAS
207
CAL
751
CAM 1630
EMR
1208
FVG
376
LAZ
1500
LIG
580
LOM 2668
MAR
495
MOL
164
PIE
1460
PUG
1084
SAR
577
SIC
1427
TAA
265
TOS
1081
UMB
257
VDA
44
VEN
1291
TOTALE 17544
Media Dev std Varianza
211,59
168,28
195,89
189,11
249,40
273,40
243,90
271,76
277,45
246,04
205,37
229,00
193,88
178,62
147,98
253,93
272,93
243,65
268,91
259,36
230,57
51,02 2.603,52
34,99 1.224,60
39,68 1.574,57
69,65 4.850,60
50,35 2.535,41
49,02 2.402,82
87,44 7.646,36
84,09 7.070,32
135,64 18.396,89
40,70 1.656,68
46,91 2.200,81
41,91 1.756,22
43,53 1.894,88
35,35 1.249,73
46,07 2.122,63
55,94 3.129,44
64,59 4.171,61
51,02 2.603,28
45,95 2.111,73
83,30 6.938,29
87,03
Quadrati
Intergruppo
173.275,40
803.147,79
903.296,28
2.801.875,13
428.294,15
689.735,28
266.720,46
984.171,85
5.863.491,74
118.457,90
104.156,82
3.601,44
1.459.191,91
1.557.051,37
9.733.738,77
144.672,63
1.940.113,66
43.946,43
64.677,14
1.070.162,88
29.153.779,02
Quadrati
Intragruppo
1.249.690,68
252.266,77
1.180.928,18
7.901.634,52
3.060.235,98
901.055,71
11.461.892,76
4.093.715,48
49.064.493,50
818.400,38
358.732,25
2.562.321,20
2.052.151,51
719.845,35
3.026.877,51
826.173,23
4.505.341,58
666.440,43
90.804,22
8.950.394,19
103.743.395,40
Media Intergruppo
Media Intragruppo
Consuntivo Test Anova
Metodi quantitativi per il marketing – Anno Accademico 2015 - 2016 LIUC
1.534.409,42
5.920,08
259,19
Livello alfa
GdL numeratore
GdL denominatore
0,05
19,00
17.524,00
Valore Funzione F
1,59
34
Analisi dei dati: Analisi Bivariata - ANOVA
Calcoliamo il test F con SAS EG:
1) Processo: Anova, Anova a una via
2) Selezioniamo la variabile dipendente
e quella indipendente
3) Specifichiamo il Test
4) Selezioniamo le statistiche per la
variabile dipendente
Metodi quantitativi per il marketing – Anno Accademico 2015 - 2016 LIUC
35
Analisi dei dati: Analisi Bivariata - ANOVA
Il valore del Test F è 259,21
Possiamo rifiutare con una
probabilità del 99% l’ipotesi
che le medie siano uguali
Media Intergruppo
Media Intragruppo
Metodi quantitativi per il marketing – Anno Accademico 2015 - 2016 LIUC
36
Analisi dei dati: Analisi Bivariata - ANOVA
Un ulteriore risultato è dato dalla tabella delle medie
e delle Deviazioni Standard per la variabile
dipendente per ciascuna Regione
Ma quale media è statisticamente
significativa?
Metodi quantitativi per il marketing – Anno Accademico 2015 - 2016 LIUC
37
Analisi dei dati: Analisi Bivariata - Bonferroni
Per verificare quale coppia delle medie sia statisticamente significativa dovremmo analizzare ciascuna
copia ma così facendo non consideriamo il problema della correzione per l'inflazione dell'errore
complessivo.
La logica è, se eseguo molti test sui medesimi dati (come nel caso dei confronti multipli tra medie di
gruppi) l'errore a priori di ogni singolo test è 0.05 ma complessivamente cresce, Bonferroni dimostra
mediante una disuguaglianza che utilizzando un livello alfa diviso per il numero di test garantisce di
avere un errore che ha come limite superiore quello nominale (diciamo 0.05).
In particolare se l’intervallo così definito NON contiene lo zero le medie si possono definire
statisticamente diverse:
Vale a dire, delta medie valore
 corretto * Deviazione Standard (Radice quadrata dell’errore quadratico
medio) * rdq(1/osservazioni gruppo1 +1/osservazioni gruppo 2)
Metodi quantitativi per il marketing – Anno Accademico 2015 - 2016 LIUC
38
Analisi dei dati: Analisi Bivariata – Bonferroni
Analogamente a quanto visto per il test F calcoliamo l’intervallo di confidenza per il delta medie di
Bonferroni - confrontimedie.xls
gruppi
20 Regione
ABR
BAS
CAL
CAM
EMR
FVG
LAZ
LIG
LOM
MAR
MOL
PIE
PUG
SAR
SIC
TAA
TOS
UMB
VDA
VEN
TOTALE
N. oss
481
207
751
1630
1208
376
1500
580
2668
495
164
1460
1084
577
1427
265
1081
257
44
1291
17544
Media
€ 211,59
€ 168,28
€ 195,89
€ 189,11
€ 249,40
€ 273,40
€ 243,90
€ 271,76
€ 277,45
€ 246,04
€ 205,37
€ 229,00
€ 193,88
€ 178,62
€ 147,98
€ 253,93
€ 272,93
€ 243,65
€ 268,91
€ 259,36
€ 230,57
Dev std Varianza
51,02 2.603,52
34,99 1.224,60
39,68 1.574,57
69,65 4.850,60
50,35 2.535,41
49,02 2.402,82
87,44 7.646,36
84,09 7.070,32
135,64 18.396,89
40,70 1.656,68
46,91 2.200,81
41,91 1.756,22
43,53 1.894,88
35,35 1.249,73
46,07 2.122,63
55,94 3.129,44
64,59 4.171,61
51,02 2.603,28
45,95 2.111,73
83,30 6.938,29
87,03
LOM
LIG
media_1
media_2
n1
n2
var_1
var_2
std_1
std_2
BONFERRONI
LOM-LIG
alpha
N° confronti
alpha Corretto
GdL
Valore Tavole T
Delta Medie
Media Intragruppo
DEV. Entro gruppi
low
high
Metodi quantitativi per il marketing – Anno Accademico 2015 - 2016 LIUC
€ 277,45
€ 271,76
2668
580
18396,885
7070,320
135,635
84,085
NO
0,05
190
0,00026
17524
3,650
€ 5,69
5.920,08
76,9420
-7,179
18,553
39
Analisi dei dati: Analisi Bivariata – Bonferroni SAS
Per poter identificare quale delle medie siano
effettivamente statisticamente differenti si integra
l’analisi del test F con il test di Bonferroni
Specifichiamo Test di Bonferroni nella finestra
Medie-Confronto, scegliendo il livello di confidenza
Cosa cambia se lo variamo?
Metodi quantitativi per il marketing – Anno Accademico 2015 - 2016 LIUC
40
Analisi dei dati: Analisi Bivariata – Bonferroni SAS
Dato un livello di significatività pari a 0,05 il valore
di riferimento

corretto è 3,649.
La differenza tra la spesa media pro capite in
Lombardia e quella in Liguria NON è significativa
mentre è statisticamente diversa la meda della
Lombardia rispetto a quella del Piemonte
Metodi quantitativi per il marketing – Anno Accademico 2015 - 2016 LIUC
41
Analisi dei dati: Analisi Bivariata – Test
Quando i gruppi sono solo 2 è possibile utilizzare il Test


per campioni indipendenti.
S è la deviazione standard media delle deviazioni standard dei due campioni, cioè la radice quadrata
della varianza che si ottiene sommando le devianze dei due campioni e dividendo per la somma dei gradi
di libertà.
Una volta trovato il valore , esso va confrontato con quelli tabulati in apposite Tabelle, dal confronto
fra il valore ottenuto e quello tabulato si potrà stabilire se la differenza fra le due medie è dovuta al caso
o no.
Se il valore calcolato è maggiore del valore tabulato si può rifiutare l’ipotesi che le medie
siano uguali
Metodi quantitativi per il marketing – Anno Accademico 2015 - 2016 LIUC
42
Analisi dei dati: Analisi Bivariata – Test

Calcoliamo il test analogamente a quanto visto precedentemente con - confrontimedie.xls
gruppi
20 Regione
ABR
BAS
CAL
CAM
EMR
FVG
LAZ
LIG
LOM
MAR
N. oss
481
207
751
1630
1208
376
1500
580
2668
495
MOL
164
PIE
1460
PUG
1084
SAR
577
SIC
1427
TAA
265
TOS
1081
UMB
257
VDA
44
VEN
1291
TOTALE 17544
Media
€ 211,59
€ 168,28
€ 195,89
€ 189,11
€ 249,40
€ 273,40
€ 243,90
€ 271,76
€ 277,45
€ 246,04
€ 205,37
€ 229,00
€ 193,88
€ 178,62
€ 147,98
€ 253,93
€ 272,93
€ 243,65
€ 268,91
€ 259,36
€ 230,57
Dev std Varianza
51,02 2.603,52
34,99 1.224,60
39,68 1.574,57
69,65 4.850,60
50,35 2.535,41
49,02 2.402,82
87,44 7.646,36
84,09 7.070,32
135,64 18.396,89
40,70 1.656,68
46,91 2.200,81
41,91 1.756,22
43,53 1.894,88
35,35 1.249,73
46,07 2.122,63
55,94 3.129,44
64,59 4.171,61
51,02 2.603,28
45,95 2.111,73
83,30 6.938,29
87,03
TAA
FVG
media_1
media_2
n1
n2
var_1
var_2
std_1
std_2
€ 253,93
€ 273,40
265
376
3129,444
2402,815
55,941
49,019
TEST 
TAA-FVG
SI
a Delta Medie
b Dev. Std Media
c radq(1/n1+1/n2)
b*c

GdL
Prob>
Metodi quantitativi per il marketing – Anno Accademico 2015 - 2016 LIUC
€ 19,46
51,99
0,08
4,17
4,67
639
0,0000
43
Analisi dei dati: Analisi Bivariata – Test

- SAS
Trattandosi di un test per 2 campioni è necessario filtrare il dataset con riferimento alla variabile
categoria Regione così da selezionare solo 2 modalità
Per esempio consideriamo di voler valutare la differenza tra la spesa media pro capite in
personale care in TAA e in FVG
Costruzione query per Filtro
Processo – Anova - test t
Due campioni
Selezionare variabili categoria e di
analisi
Metodi quantitativi per il marketing – Anno Accademico 2015 - 2016 LIUC
44
Analisi dei dati: Analisi Bivariata – Test

- SAS
La probabilità che le
medie siano uguali è
inferiore a 0,0001,
quindi possiamo rifiutare
l’ipotesi nulla di
uguaglianza delle medie
Metodi quantitativi per il marketing – Anno Accademico 2015 - 2016 LIUC
45
Analisi dei dati: Analisi Bivariata – Test  - Bonferroni
Si commenti il seguente output
gruppi
20 Regione
ABR
BAS
CAL
CAM
EMR
FVG
LAZ
LIG
LOM
MAR
MOL
PIE
PUG
SAR
SIC
TAA
TOS
UMB
VDA
VEN
TOTALE
N. oss
481
207
751
1630
1208
376
1500
580
2668
495
164
1460
1084
577
1427
265
1081
257
44
1291
17544
Media
€ 211,59
€ 168,28
€ 195,89
€ 189,11
€ 249,40
€ 273,40
€ 243,90
€ 271,76
€ 277,45
€ 246,04
€ 205,37
€ 229,00
€ 193,88
€ 178,62
€ 147,98
€ 253,93
€ 272,93
€ 243,65
€ 268,91
€ 259,36
€ 230,57
Dev std Varianza
51,02 2.603,52
34,99 1.224,60
39,68 1.574,57
69,65 4.850,60
50,35 2.535,41
49,02 2.402,82
87,44 7.646,36
84,09 7.070,32
135,64 18.396,89
40,70 1.656,68
46,91 2.200,81
41,91 1.756,22
43,53 1.894,88
35,35 1.249,73
46,07 2.122,63
55,94 3.129,44
64,59 4.171,61
51,02 2.603,28
45,95 2.111,73
83,30 6.938,29
87,03
BONFERRONI
TAA-FVG
NO
TAA
FVG
media_1
media_2
n1
n2
var_1
var_2
std_1
std_2
€ 253,93
€ 273,40
265
376
3129,444
2402,815
55,941
49,019
TEST 
TAA-FVG
SI
a Delta Medie
€ 19,46
b Dev. Std Media
51,99
c radq(1/n1+1/n2)
0,08
b*c
4,17

4,67
GdL
639
Prob>
0,0000
alpha
0,05
N° confronti
190
alpha Corretto
0,00026
GdL
17524
Valore Tavole T
3,650
Delta Medie
-€ 19,46
Media Intragruppo 5.920,08
DEV. Entro gruppi
76,9420
low
-41,989
high
3,060
Metodi quantitativi per il marketing – Anno Accademico 2015 - 2016 LIUC
46
Analisi dei dati: Analisi Anova - esercitazione
Applicare su
file
esercitazione
1. L’età è legata alla propensione all’acquisto della Categoria 3? Se si quali indicazioni si
possono trarre?
2. Il numero di item per scontrino fra Giappone, Stati Uniti e Italia è statisticamente
differente?
3. L’acquisto di prodotti di categoria 3 comporta un numero di item per scontrini maggiore?
(test t)
4. Il tempo fra primo e ultimo acquisto, per coloro che hanno fatto almeno 2 acquisti, è
maggiore, in modo statisticamente valido, in quale fascia di età?
Metodi quantitativi per il marketing – Anno Accademico 2015 - 2016 LIUC
47
Scarica