ELABORATO FINALE DI
STATISTICA:
• PRIMA PARTE
Analisi Descrittiva e Inferenziale
di un campione di dati
• SECONDA PARTE
Anova ad una via
1
PRIMA PARTE
Analisi Descrittiva e Inferenziale di un campione di dati
Dataset di riferimento: 52.out
•
Introduzione: la STATISTICA
La Statistica è una disciplina, molto importante nell’ambito manageriale, che si
occupa della trattazione dei dati rilevati su fenomeni misurabili, con lo scopo di
sintetizzarli e interpretarli per prendere decisioni strategiche a riguardo.
La statistica si divide in due classi principali:
- DESCRITTIVA
Questa si occupa di sintetizzare e rappresentare i dati a nostra disposizione.
Nonostante sia molto utile, presenta un limite molto rilevante: essa si basa su un
campione, quindi con essa non si può estendere l’analisi a tutta la popolazione.
- INFERENZIALE
Questa è composta da un complesso di metodi che consentono di generalizzare
ed estendere i dati del campione alla popolazione. I dati del campione vengono
quindi considerati un fenomeno probabilistico.
•
IL PROBLEMA STATISTICO
Analisi di mercato per prossima apertura di un ristorante in una data location.
Il campione a disposizione per l’analisi è formato da persone che abitano nella città
in cui si vuole iniziare la nuova attività, ed è costituito da potenziale clienti del futuro
ristorante. Di queste persone abbiamo a disposizione dati riguardanti il reddito, l’età
e il sesso di appartenenza. Queste informazioni sono sufficienti per trarre
conclusioni relative alla tipologia di locale da costituire. Il proprietario manifesta
dubbi sulla tipologia di ristorante da creare: un luogo di lusso, rivolto a persone con
un certo reddito e di una certa età, in grado di apprezzare l’alto prezzo dei prodotti e
l’elevata qualità del locale; in alternativa una trattoria, con prodotti meno ricercati e
più economici, in grado di essere apprezzati da ogni età e da un più esteso gruppo
di persone. In base all’analisi dei dati in nostro possesso si deciderà la tipologia di
locale e la ricercatezza del menù offerto. Le considerazioni riguardanti il campione
verranno poi estese a tutta la popolazione con metodi adeguati.
•
Descrizione del DATASET:
Un fenomeno statistico è caratterizzato da tre elementi fondamentali:
- avere a disposizione le UNITA’ STATISTICHE:
CAMPIONE= sottoinsieme di unità statistiche provenienti dalla popolazione
selezionate per l’analisi
POPOLAZIONE= insieme degli elementi che si prendono in considerazione
-
le VARIABILI STATISTICHE:
fenomeni che sono oggetto di studio. Esse possono essere:
di tipo QUALITATIVO= non sono ordinabili, quindi non sono variabili numeriche.
di tipo QUANTITATIVO= variabili numeriche, le cui risposte sono ordinabili. Si
suddividono a loro volta in: CONTINUE, se derivano da un processo di
misurazione, DISCRETE, se derivano da un processo di conteggio e assumono
valori interi.
2
la MATRICE DEI DATI o DATASET:
rappresenta i dati a disposizione organizzati in una matrice di righe e colonne.
Nelle colonne della matrice vengono inserite le variabili, mentre nelle righe le
unità statistiche (o record).
Il dataset, nel nostro caso, è formato da:
- ampiezza del campione: 73 abitanti
- n° variabili: 3
- classificazione variabili: - reddito: per persona, variabile aleatoria continua
- sesso: variabile aleatoria qualitativa: modalità 1
corrispondente ai maschi , modalità 2 corrispondente
alle femmine. Maschi= 50, Femmine= 23
- età: variabile aleatoria quantitativa continua.
-
•
ANALISI DEL CAMPIONE
L’analisi del nostro campione verrà svolta in un primo momento solo per la variabile
età; successivamente anche per la variabile reddito. Entrambe le analisi verranno
svolte essenzialmente in due parti:
statistica descrittiva
statistica inferenziale.
STATISTICA DESCRITTIVA
Il punto di partenza di ogni analisi statistica è il dataset. La statistica descrittiva consiste
nell’elaborazione dei dati contenuti nel dataset , la quale produce una sintesi
rappresentabili con diversi grafici. E’ quindi un complesso di vari metodi che comprendono
la raccolta, la presentazione e la caratterizzazione di un insieme di dati. Il suo scopo è di
descrivere le caratteristiche del campione di riferimento in maniera appropriata.
OBBIETTIVO DELLA NOSTRA ANALISI: Analizzare con gli strumenti statistici a nostra
disposizione le variabili età, reddito e sesso, cercando di arrivare a conclusioni che
permettano di prendere decisioni strategiche riguardo alla tipologia del ristorante da aprire
e ai prodotti che in esso saranno disponibili.
•
ANALISI DELLA VARIABILE ETA’
Per una corretta sinterizzazione dei dati si calcola per prima cosa la distribuzione
delle frequenze per tutto il campione:
per Frequenza si intende il conteggio del numero di unità statistiche (per le variabili
numeriche) che cadono in un certo intervallo di valori, detto classe, oppure il
conteggi delle unità statistiche (per le variabili categoriali) che assumono una data
modalità. Nel nostro caso conteggeremo le persone che appartengono ad un
determinato intervallo di età.
Per organizzare i nostri dati in classi di raggruppamento, cioè intervalli di valori, è
necessario calcolare innanzi tutto le principali misure descrittive della variabile età:
Descriptive Statistics: età
Variable
età
N
73
Mean
45,53
Median
46,00
TrMean
45,45
Variable
età
Minimum
19,00
Maximum
70,00
Q1
36,00
Q3
58,00
StDev
15,71
SE Mean
1,84
3
Vedo che i dati a disposizione sono 73 e sono compresi da un minimo di 19 a un
massimo di 70 anni. Grazie a questi dati posso calcolare il RANGE del mio
campione, pari alla differenza tra il valore massimo e quello minimo: 70-19=51.
Inoltre, approssimando il valore della MEDIA (mean) per eccesso, si può affermare
che l’età media del campione è di circa 46 anni. Valuteremo più avanti l’eventuale
presenza di outliers, valori estremi che modificano significatamene l’analisi.
La MEDIANA (median) è anch’essa pari a 46 anni. Questa rappresenta l’elemento
centrale di una successione ordinata di dati e non è soggetta a distorsioni
provocate da osservazioni estreme.
Il PRIMO e il TERZO QUARTILE (Q1, Q3) sono rispettivamente di 36 e 58 anni.
Lo SCARTO QUADRATICO MEDIO (StDev) vale circa 16 anni e ci aiuta a stabilire
la dispersione dei dati intorno alla media.
A questo punto si può passare a definire l’ampiezza delle classi in cui suddividerò i
miei dati. Vista l’ampiezza del campione, sarà sufficiente suddividere i dati in 6
classi. E’ infatti buona norma scegliere un numero di classi da un minimo di 5 a un
massimo di 15. Esse devono inoltre essere equispaziate e con estremi interi. Per
determinare l’ampiezza delle classi uso la formula:
ampiezza classi = range / n°classi
Il valore risulta essere circa 9. Calcolo così:
classi di età Count
1) 15-24
2
2) 25-34
14
3) 35-44
18
4) 45-54
10
5) 45-64
18
6) 65-74
11
N=
73
CumCnt Percent CumPct
2
2,74
2,74
16
19,18 21,92
34
24,66 46,58
44
13,70 60,27
62
24,66 84,93
73
15,07 100,00
Noto intanto che gli estremi delle classi scelte sono disgiunte; questa è una buona
norma per evitare il conteggio di valori estremi in classi contigue.
La tabella presenta quattro colonne rappresentanti quattro diverse misure di
frequenza:
1. frequenze ASSOLUTE
2. frequenze ASSOLUTE CUMULATE (che si ottengono sommando al numero di
persone all’interno di una classe quelle delle classi precedenti)
3. frequenze PERCENTUALI (si ottengono dividendo le frequenze assolute per il
totale di persone e moltiplicando per 100)
4. frequenze PERCENTUALI CUMULATE (si ottengono come le cumulate
assolute ma sommando le frequenze percentuali)
Commento
Dalla distribuzione delle frequenze si può notare come le classi più frequenti sono
due, quella con età compresa tra i 35 e i 44 anni e quella dai 45 ai 64 anni, con
entrambe una percentuale del 24,66% e 18 unità statistiche. Vi è poi la classe dai
25 ai 34 anni con una percentuale del 19,18%, subito seguita dalla classe dai 65 ai
74 anni con il 15,07% e da quella dai 45 ai 54 anni con il 13,70%. La classe con
meno unità statistiche e la più bassa frequenza percentuale è quella dai 15 ai 24
anni. Da questi risultati si può osservare che la popolazione che stiamo analizzando
è composta di persone di varie età, distribuite maggiormente nell’età adulta, tra i 35
e i 64 anni. Nel nostro campione vi è invece una bassissima presenza di giovani al
di sotto dei 25 anni. Questo ultimo dato è di grande utilità: possiamo fin d’ora
supporre che sarà conveniente rivolgersi ad una clientela adulta, che presenza
gusti e necessità diverse da quelli di clienti molto giovani.
4
Per un’analisi più veloce e immediata dei dati appena calcolati, possiamo usare un
ausilio grafico: possiamo costruire un ISTOGRAMMA. Questo è un diagramma a
barre verticali in cui le barre rettangolari hanno come base gli intervalli in cui sono
state raggruppate le osservazioni. Nell’asse delle ascisse è riportato il fenomeno
preso in considerazione suddiviso in classi, mentre nell’asse delle ordinate è
riportata la frequenza. Nel nostro caso utilizzeremo l’istogramma delle frequenze
percentuali, molto usato per l’analisi in statistica descrittiva.
Un altro grafico molto utili nell’analisi statistica è il POLIGONO, che come
l’istogramma presenta nell’asse orizzontale il fenomeno oggetto di analisi, e in
quello verticale il numero,la percentuale o la frequenza relativa di osservazioni per
ogni intervallo di raggruppamento. Noi utilizziamo il poligono delle frequenze
percentuali. Esso si costruisce scegliendo il punto medio di ciascuna classe a
rappresentare tutte le osservazioni che cadono nella classe stessa, e congiungendo
poi la sequenza dei punti medi alla percentuale di osservazioni nella classe
corrispondente.
POLIGONO DELLA VARIABILE ETA'
25
FREQUENZE %
20
15
10
5
0
20
30
40
50
ETA'(anni)
60
70
5
Il BOXPLOT è un indicatore di variabilità che fornisce una rappresentazione grafica
dei dati sulla base dei cinque numeri di sintesi: il valore minimo, il primo quartile, la
mediana, il terzo quartile e il valore massimo del campione.
Una scatola rettangolare i cui lati orizzontali,dove si congiungono i segmenti
tratteggiati, rappresentano il primo e il terzo quartile.una linea orizzontale all’interno
del rettangolo che rappresenta la mediana e due segmenti tratteggiati che si
iniziano ai lati del quadrato e finiscono al Xmax e Xmin.
Da questo diagramma si può vedere come la mediana(linea continua all’interno del
rettangolo) sia spostata verso l’alto,ciò genera l’asimmetria già evidenziata dallo
studio degli indici di sintesi.Inoltre si vede come le linee tratteggiate siano
pressoché della stessa lunghezza. All’interno del rettangolo ci sono il 50% delle
osservazioni
Rappresentata la distribuzione dei dati, si procede all’analisi degli INDICI
STATISTICI, che si dividono in: misure di variabilità, di posizione e di forma. Essi
si applicano solo su variabili numeriche, quando si considerano dati quantitativi.
Le misure di posizione (dette misure di tendenza centrale,perché solitamente le
osservazioni si concentrano attorno ad un valore centrale):
1. media aritmetica: si calcola dividendo dei valori osservati per il numero totale di
osservazioni. E’ il “punto di equilibrio” tra le osservazioni più grandi e quelle più
piccole, e si basa su tutte le osservazioni dell’insieme di dati. Per questo motivo la
media presenta un grosso limite: è molto influenzata da valori estremi, o outliers.
Dove:n = ampiezza del campione.
Xi = i-esima osservazione della variabile età.
2. mediana: è il valore centrale di una successione ordinata di dati. E’
l’osservazione che, nella serie di dati, lascia alla sua destra la metà delle
osservazioni e a sinistra l’altra metà di osservazioni. Non si basa su tutti dati del
campione, e quindi non risulta influenzata dagli outliers. Rappresenta un buona
misura sostitutiva della media in presenza di valori estremi.
3. moda: è il valore più frequente in un insieme di dati. Non è influenzata dagli
outliers, ma viene utilizzata solo per scopi descrittivi per la sua maggiore variabilità
rispetto alle altre misure di posizione.
4. midrange: è dato dalla media tra la più piccola e la più grande delle osservazioni
di un insieme di dati. Midrange=(Xmax + Xmin)/2. E’ molto influenzato dalla
presenza di outliers.
5.media interquartile: è la media tra il primo e il terzo quartile
6
Media interquartile= (Q1+ Q3)/2
I quartili sono misure descrittive che dividono i dati ordinati in quattro parti. Il primo
quartile (Q1) è il valore che lascia il 25% delle osservazioni più piccole e il 75% di
quelle più grandi. Il terzo quartile (Q3) è tale che il 75% delle osservazioni sia più
piccolo, mentre il 25% sia più grande.
Le misure di variabilità ( misurano la quantità di dispersione presente nei dati):
1. Range: (o intervallo di variazione) è la differenza tra l’osservazione più grande e
quella più piccola di un insieme di dati. Misura la dispersione totale nell’insieme
di dati, ma non tiene conto di come essi si distribuiscano effettivamente tra il
valore più piccolo e quello più grande. E’ quindi inadeguata in presenza di valori
estremi.
2. Range Interquartile: è la differenza tra il terzo e il primo quartile in un insieme
di dati. Sintetizza la dispersione del 50% delle osservazioni che occupano le
posizioni centrali, e pertanto non è influenzata da valori estremi.
3. Varianza: è approssimativamente la media dei quadrati sugli scarti di ciascuna
osservazione dalla media: più grande è il valore, più alta è la variabilità dei dati,
in quanto essi si discostano maggiormente dal valore di posizione centrale.
Sintetizza quindi la dispersione dei valori attorno alla media. L’unità di misura
corrisponde al quadrato di quella dei dati di partenza.
)2 / n-1
S2= Σ (Xi –
4. Scarto quadratico medio: è la radice quadrata della varianza. E’ espresso nell’
unità di misura originaria ei dati. Anch’esso ci aiuta a stabilire se e quanto i dati
sono concentrati o dispersi intorno alla loro media. Per quasi tutti gli insiemi di
dati, la maggior parte dei valori osservati si trova nell’intervallo centrato sulla
media e i cui estremi distano dalla media per uno scarto quadratico medio.
Le misure di forma: prendono in considerazione la forma della distribuzione dei
dati, cioè il modo in cui si distribuiscono. Per descrivere la forma è sufficiente
confrontare la media con la mediana:
asimmetria negativa o distribuzione obliqua a sinistra: media < mediana
asimmetria positiva o distribuzione obliqua a destra: media > mediana
simmetria: media = mediana.
Il nostro campione di dati presenta una leggera asimmetria negativa, poichè la
media è leggermente inferiore alla mediana.
Poiché l’analisi fatta fin d’ora non può essere estesa a tutta la popolazione, limite
della statistica descrittiva stessa, dobbiamo passare alla statistica inferenziale.
LA STATISTICA INFERENZIALE
Per poter ricavare conclusioni sulla popolazione, sulla base del campione, abbiamo
bisogno di passare alla statistica inferenziale. E’ possibile considerare i dati statistici
generati da un fenomeno probabilistico, da una variabile aleatoria casuale che può
assumere infinite modalità.
Il mio obiettivo è quello di verificare se la media calcolata per il mio campione coincide con
quella della popolazione a cui appartiene.
Per fare ciò devo individuare una funzione in grado di fornire la probabilità con la quale si
realizza un certo dato. Lo strumento della statistica che ci viene in aiuto è la VERIFICA DI
IPOTESI. Essa traduce un problema reale in un problema statistico e in base ai risultati
7
osservati sulla statistica campionaria permette di trarre conclusioni sulla verosimiglianza
dell’ipotesi formulata.
La verifica d’ipotesi ha inizio con la considerazione di una proposizione riguardante un
parametro della popolazione. Si formula quindi un sistema di ipotesi composto da:
- Ipotesi nulla H0:è sottoposta a verifica. Essa si riferisce sempre ad un
parametro della popolazione, mai ad una statistica campionaria e in genere
coincide con lo stato celle cose. Si riferisce al caso in cui il parametro della
popolazione assuma il valore specificato da colui che compie l’indagine.
- Ipotesi Alternativa H1: rappresenta la conclusione a cui si giunge quando si
rifiuta l’ipotesi nulla, qualora sulla base del campione si possa ritenere che è
poco probabile che H0 sia vera. Essa non contiene mai un segno di uguale, ed
è l’ipotesi opposta a quella nulla.
Ritornando alla nostra analisi, supponiamo che la media della popolazione sia μ = 46;
impongo allora il seguente sistema di ipotesi:
H0: μ = 46
H1: μ ≠ 46
Determinato il nostro sistema, dovremo verificare se l’ipotesi nulla è vera o meno. A
questo scopo supponiamo di poter estrarre dalla popolazione un’infinità di campioni diversi
con le proprie medie. A questo punto è necessaria la statistica test, una funzione che,
fissata la media della popolazione, possa restituire la probabilità che ho di estrarre un
campione con una determinata media.
Per affrontare questa analisi è molto importante fissare la componente di incertezza o di
rischio per determinare il valore della probabilità in base al quale accetto o meno l’ipotesi
nulla. Tutto ciò consiste nel dividere lo spazio campionario in due zone, una di
accettazione e una di rifiuto. Le due zone sono separate dal valore al quale corrisponde la
minima probabilità di accettare H0, cioè al valore critico dello spazio campionario.
Nella verifica di ipotesi è però molto facile compiere degli errori. I due più importanti e
frequenti sono:
- errore di prima specie: si verifica se si rifiuta l’ipotesi nulla quando è vera. La
probabilità che si verifichi un errore di questo tipo si chiama livello di
significatività e si indica con il simbolo α. Per coefficiente ci confidenza (1-α)
si intende la probabilità che l’ipotesi nulla non sia rifiutata quando è vera. E’ il
complemento a uno dell’errore di prima specie
- errore di seconda specie: si verifica se si accetta l’ipotesi nulla quando è falsa.
La probabilità che si verifichi un errore di seconda specie è β, che viene anche
detto rischio β o rischio del consumatore. La potenza della statistica test (1- β)
rappresenta la probabilità di rifiutare l’ipotesi nulla quando è falsa.
Scelgo il livello di significatività pari al 5%, e quindi α = 0,05.
Esistono due tipologie di statistica test per test ad un campione: il Test Z, utilizzato in caso
sia noto lo scarto quadratico medio della popolazione vera e propria; il Test T, utilizzato
quando non si conosce lo scarto quadratico medio reale.
Test T di Student
Nel nostro caso è noto solo lo scarto quadratico medio del campione, è quindi utilizziamo
questa statistica test.
Il test T di Student è dato dalla seguente formula: t =
x−μ
S
n
8
One-Sample T: età
Test of mu = 46 vs mu not = 46
Variable
età
N
73
Variable
età
(
Mean
45,53
StDev
15,71
95,0% CI
41,87;
49,20)
SE Mean
1,84
T
-0,25
P
0,801
Histogram of età
(with Ho and 95% t-confidence interval for the mean)
Frequency
15
10
5
0
[
20
25
30
35
40
_
X
Ho
45
]
50
55
60
65
70
età
Basandomi sulla regola decisionale del p-value (sistema usato dal software per prendere
decisioni con aree piuttosto che percentili in un sistema di ipotesi) che mi dice di accettare
H0 se il p-value >=α, rifiutare H0 se invece il p-value <α.
Nel nostro caso il p-value è maggiore dell’intervallo di confidenza scelto, quindi l’ipotesi
nulla viene accettata: l’età media della nostra popolazione è di 46 anni. Questo vuol dire
che il ristorante che sta per nascere, dovrà avere un arredamento sobrio, e in ogni modo
adatto a signori e signore di mezza età. Anche il menù dovrà essere adatto a questa
fascia d’età.
9
•
ANALISI DELLA VARIABILE REDDITO
Riprendiamo l’analisi della seconda variabile, il reddito del nostro campione. Verrà
eseguite le stese operazioni utilizzate per l’analisi della variabile età, e anche gli
stessi strumenti statistici.
ANALISI DESCRITTIVA
Le misure descrittive di base, che verranno utilizzate per calcolare le classi di
reddito e per lo studio degli indici sono:
Descriptive Statistics: reddito
Variable
reddito
N
73
Mean
4234
Median
3620
TrMean
4080
Variable
reddito
Minimum
180
Maximum
13645
Q1
1560
Q3
6505
StDev
2923
SE Mean
342
La media è abbastanza spostata dalla mediana. Questo ci permette di osservare fin
d’ora la probabile presenza di outliers, valori estremi che influenzano la media. La
distribuzione è caratterizzata da un’asimmetria positiva: infatti il valore della media
è maggiore di quello della mediana. Il valore minimo di reddito è 180, mentre il
valore massimo è di 13645. Il nostro range di valori sarà quindi: 13645-180=13465.
Lo scarto quadratico medio è di 2923; ciò significa che la maggioranza dei dati si
discostano dalla media di questo valore.
Dividiamo ora i dati del reddito in classi. Anche per questa variabile scegliamo la
divisione in 6 classi, tutte di uguale ampiezza pari a 2245. Otteniamo:
Tally for Discrete Variables: classi di reddito
classi di reddito
1)180-2424
2)2425-4669
3)4670-6914
4)6915-9159
5)9160-11404
6)11405-13650
N=
Count CumCnt
28
28
13
41
17
58
11
69
3
72
1
73
73
Percent CumPct
38,36 38,36
17,81 56,16
23,29 79,45
15,07 94,52
4,11 98,63
1,37 100,00
Come si può notare dalla terza colonna, che rappresenta le frequenze percentuali,
la classe di reddito più frequente è quella dai 180 ai 2424 euro con circa il 38% . La
seconda classe è quella dai 4670 ai 6914 euro con il 23,29%, seguita dalla classe
dai 2425 ai 4669 euro con il 17,81 %, e da quella dai 6915 ai 9159 euro con il
15,07%. Le classi di reddito meno frequenti sono le ultime due, quelle dei redditi più
alti, e cioè quella dai 9160 agli 11404 euro con il 4,11%, e quella dagli 11405 ai
13650 euro con l’1,37%. E’ probabile che sia in quest’ultima il valore estremo che
influenza la nostra media.
Possiamo ora rappresentare la nostra variabile con metodi grafici, e cioè con
l’ISTOGRAMMA e il POLIGONO DELLE FREQUENZE PERCENTUALI della
variabile reddito.
10
ISTOGRAMMA DELLA VARIABILE REDDITO
FREQUENZE %
40
30
20
10
0
180
2425
4670
6915
9160
11405
13650
REDDITO
POLIGONO DELLA VARIABILE REDDITO
FREQUENZE %
30
20
10
0
180
2425
4670
6915
9160
11405 13650
REDDITO
Nei grafici è rappresentata la distribuzione dei dati e si notano facilmente tutte le
osservazioni fatte precedentemente: la frequenza di reddito delle varie classi,
l’andamento asimmetrico positivo della curva e così via.
Per un’analisi più approfondita della situazione conviene differenziare i due gruppi:
maschi e femmine. Analizzando separatamente le distribuzioni di frequenze del
reddito delle due categorie e facendo i dovuti confronti, si giungerà a risultati più
attendibili.
11
Partiamo dalla categoria maschi. Individuiamo innanzitutto le misure descrittive di
questo gruppo:
Descriptive Statistics: reddito_maschi
Variable
reddito_1
N
50
Mean
4925
Median
4680
TrMean
4796
Variable
reddito_1
Minimum
560
Maximum
13645
Q1
2363
Q3
7410
StDev
2946
SE Mean
417
Le unità statistiche di questo campione sono 50. il valore minimo di reddito dei
maschi è 560, mentre il valore massimo è 13645. Il range è : 13645-560=13085.
La media è 4925, mentre la mediana è 4680: anche la distribuzione di frequenza
del reddito dei maschi presenta quindi un’asimmetria positiva, però è molto meno
accentuata di quella della variabile reddito totale.
Lo scarto quadratico medio è 5032: tale sarà quindi la quantità di cui la
maggioranza dei dati si discosta dalla media.
Dividiamo ora i valori di reddito della categoria maschi in classi, utilizzando la
stessa divisione precedentemente calcolata per il reddito totale:
classi ci reddito_maschi
1)180-2424
2)2425-4669
3)4670-6914
4)6915-9159
5)9160-11404
6)11405-13650
N=
Count CumCnt
13
13
12
25
12
37
9
46
3
49
1
50
50
Percent CumPct
26,00 26,00
24,00 50,00
24,00 74,00
18,00 92,00
6,00 98,00
2,00 100,00
Vediamo che le classi più frequenti sono le prime tre: la prima che va dai 180 ai
2424 euro con il 26%, le altre due, che vanno dai 2425 ai 4669 e dai 4670 ai 6914
euro, con il 24%. Vi è poi la classe dai 6915 ai 9159 con il 18%. La classe dai 9160
ai 11404 euro con il 6%, e quella da 11405 ai 13650 con il 2%. La situazione
rimane molto simile a quella generale, con la differenza che la distribuzione di
maschi nelle prime 3 categorie di reddito è piuttosto omogenea.
Rappresentiamo graficamente la situazione per avere un’idea più chiara della
situazione:
POLIGONO DELLA VARIABILE REDDITO_MASCHI
FREQUENZE %
30
20
10
0
180
2425
4670
6915
9160
REDDITO MASCHI
11405 13650
12
BOXPLOT REDDITO_MASCHI
14000
reddito_maschi
12000
10000
8000
6000
4000
2000
0
Passiamo ora ad effettuare la stessa analisi per il reddito delle donne. Cominciamo
con l’osservare le misure descrittive:
Descriptive Statistics: reddito_donne
Variable
reddito_2
N
23
Mean
2731
Median
1573
TrMean
2630
Variable
reddito_2
Minimum
180
Maximum
7400
Q1
910
Q3
4800
StDev
2278
SE Mean
475
Le unità statistiche in questo caso sono solo 23, il valore minimo è 180, mentre il
valore massimo è 7400. Il range risulta essere quindi: 7400-180=7220. Il valore
appena trovato è molto più basso del range dei maschi; questo sta a significare che
probabilmente le donne del nostro campione hanno redditi mediamente più bassi
degli uomini. Ciò si vede anche dalla media che in questo caso vale 2731, contro i
4925 dei maschi. Il valore della mediana è 1573, molto più basso della media;
avremo dunque anche qui una distribuzione di frequenza asimmetrica positiva.
Probabilmente anche qui vi è la presenza di un valore estremo, che potrebbe
essere un reddito più basso degli altri.
Lo scarto quadratico medio è 2278: questo vuol dire che il gruppo delle donne è
meno variabile di quello degli uomini.
Dividiamo ora il gruppo del reddito delle donne in classi, seguendo la stessa
suddivisione utilizzata in precedenza:
classi di reddito_donne
1)180-2424
2)2425-4669
3)4670-6914
4)6915-9159
N=
Count CumCnt
15
15
1
16
5
21
2
23
23
Percent CumPct
65,22 65,22
4,35 69,57
21,74 91,30
8,70 100,00
Si vede che la classe di reddito più frequente è di gran lunga quella dai 180 ai 2424
euro, con il 65,22%. L’altra classe significativa è quella dai 4670 ai 6914 euro con il
21.74%. Le altre due classi presenti, quella dai 6915 ai 9159 euro con l’8,70% e
quella dai 2425 ai 4669 euro, sono poco presenti. S può notare che anche se vi
13
fosse la presenza di valori estremi non influenzerebbero significativamente questa
distribuzione: la prima classe rimarrebbe comunque la più frequente.
Rappresentiamo anche per le femmine i dati trovati coni grafici opportuni:
POLIGONO DELLA VARIABILE REDDITO_FEMMINE
FREQUENZE %
30
20
10
0
180
2425
4670
6915
9160
11405 13650
REDDITO FEMMINE
BOXPLOT REDDITO_FEMMINE
8000
reddito_donne
7000
6000
5000
4000
3000
2000
1000
0
A questo punto è necessario fare un confronto più approfondito, prima di passare
all’analisi inferenziale dei nostri dati.
Osservando e confrontando i dati appena calcolati per maschi e femmine, si nota
che in media i maschi hanno un reddito più elevato delle donne: 4925 contro 2731
euro. Nonostante questa grande differenza nella media, la distribuzione dei redditi
nelle due categorie è molto simile. Infatti nonostante il range degli uomini sia molto
più vasto di quello delle donne, le frequenze più alte di reddito si riscontrano in
14
entrambi i casi nella prima classe, quella compresa tra i 180 e i 2424 euro. Dopo
questa classe nelle donne c’è un abbassamento della percentuale che superati i
6914 cade velocemente verso lo zero. Negli uomini invece si mantiene più o meno
la stessa percentuale fino a 6914 euro, e poi le frequenze scendono più o meno
rapidamente. Per vedere meglio questi andamenti, possiamo visualizzare i due
poligoni delle frequenze percentuali delle due categorie sovrapposti nello stesso
grafico:
POLIGONO DI CONFRONTO DEL REDDITO
FREQUENZE %
30
20
10
0
180
2425
4670
6915
9160
11405 13650
REDDITO
E’ utile anche un altro confronto grafico, quello dei boxplot delle due categorie di
redito:
BOXPLOT DI CONFRONTO REDDITO
14000
12000
REDDITO
10000
8000
6000
4000
2000
0
reddito_maschi
reddito_donne
15
Possiamo concludere che dai dati in nostro possesso la tipologia di ristorante più
adeguato alle esigenze del nostro campione di persone è un trattoria, con un
arredamento adatto a persone di mezza età e che presenti prezzi medio bassi. Il
menù da proporre sarà probabilmente composto da piatti tradizionali, abbondanti e
composti sia da carne che da pesce, così da incontrare i gusti della maggioranza.
Si pone a questo punto un ulteriore problema: queste conclusioni sono state fatte
rispetto al nostro campione, per arricchirle e renderle utilizzabile bisognerebbe
conoscere tutta la popolazione. Devo passare quindi dall’analisi descrittiva a quella
inferenziale, e cercare di generalizzare i risultati ottenuti.
ANALISI INFERENZIALE
Anche in questo caso utilizzo la verifica di ipotesi e applico la statistica test più
appropriata.
Dobbiamo applicare in questo caso un test a due campioni e, visto che ancora una
volta non conosco la varianza della popolazione ma solo quella del campione,
utilizzo un test T di Student. La Statistica test in questo caso è.
t=
dove:
Sp
2
(X
1
)
− X 2 − (μ1 − μ 2 )
1 ⎞
2 ⎛ 1
S p ⋅ ⎜⎜ + ⎟⎟
⎝ n1 n2 ⎠
2
2
(
n1 − 1) ⋅ S1 + (n2 − 1) ⋅ S 2
=
(n1 − 1) + (n2 − 1)
Sp2= varianza ponderata
X 1 = media degli elementi del campione estratto dalla popolazione1
S12= ampiezza del campione estratto dalla popolazione 1
…
Il mio sistema di ipotesi è:
H0: μ1 = μ 2
H1: μ1 > μ 2
L’ipotesi nulla H0 rappresenta la situazione in cui il reddito medio maschile e quello
femminile coincidano.
L’ipotesi alternativa H1 rappresenta invece il caso in cui il reddito maschile sia
maggiore di quello femminile.
Visto il sistema di ipotesi il test sarà ad una coda e il livello di significatività che
scelgo è pari a α = 0,01.
16
Two-Sample T-Test and CI: reddito-maschi; reddito-donne
Two-sample T for reddito-maschi vs reddito-donne
reddito-1
reddito-2
N
50
23
Mean
4925
2731
StDev
2946
2278
SE Mean
417
475
Difference = mu reddito-maschi - mu reddito-donne
Estimate for difference: 2195
99% lower bound for difference: 542
T-Test of difference = 0 (vs >): T-Value = 3,16 P-Value = 0,001
Both use Pooled StDev = 2756
DF = 71
Da questi dati osservo che il p-value è pari a 0.001, e quindi è inferiore al mio livello
di significatività. Per questo motivo posso rifiutare l’ipotesi nulla a favore di quella
alternativa.
CONCLUSIONI
Dopo quest’ultima analisi possiamo dire con certezza che la popolazione maschile
guadagna di più di quella femminile.
In seguito alle analisi effettuate fino a questo momento, è possibile determinare il
tipo di ristorante più adeguato per il tipo di persone analizzate. Probabilmente sarà
una trattoria-pizzeria, con un arredamento informale ma comunque elegante, adatto
a persone adulte. Il locale offrirà una vasta scelta di piatti locali e tradizionali, con
l’aggiunta di qualche piatto leggero e meno abbondante per assecondare anche le
necessità di bambini o persone con poco appetito. Il menù offrirà una varietà di
scelta considerevole: piatti di carne, di pesce, e pizza. I prezzi saranno mediamente
bassi, anche se portate particolarmente ricche in quantità e ricercate nel gusto,
avranno prezzi elevati. Per quanto riguarda le bevande, la scelta non sarà molto
ampia, soprattutto per quelle alla spina. Per i vini invece si avrà un occhio di
riguardo, per permettere a eventuali intenditori di trovare il miglior abbinamento tra
portate prelibate e vino.
In questo modo siamo riusciti ad arrivare ad un compromesso: abbiamo una vasta
gamma di prodotti, che sono prevalentemente rivolti a persone con un reddito non
molto alto,come ad esempio le donne, ma vi è anche la possibilità di gustare piatti
più costosi per coloro che possono permetterselo e anche per le donne, tenendo
conto che molto spesso è l’uomo a pagare per loro, soprattutto se sposate.
Le nostre conclusioni sono sufficienti convincerci della nostra scelta. Tuttavia si
potrebbe migliorarle studiando altri dati riguardanti locali di ristorazione, desideri
delle persone; oppure interrogando più giovani e adolescenti per conoscere meglio
le loro esigenze.
17
SECONDA PARTE
Anova ad una via
Dataset di riferimento: anova_beer_1
•
IL PROBLEMA STATISTICO
E’ stata fatta un’indagine su &9 diverse birre di cui si è rilevato il prezzo e il tipo.
L’obiettivo è quello di realizzare una completa analisi descrittiva della variabile
risposta e quindi condurre un’Analisi della varianza ad una via, e i relativi confronti
multipli sulla variabile “price” rispetto ai fattori “type”.
•
Descrizione del DATASET
Popolazione: l’insieme delle birre
Campione: sottoinsieme della popolazione
Unità statistiche: 69
Variabile risposta: Price. E’ un aspetto del fenomeno di interesse oggetto di studio,
del quale è disponibile una serie di misurazioni
Fattore controllato: Type; esso può assumere cinque livelli o modalità, ogni livello
identifica un gruppo; ogni gruppo contiene una o più risposte.
Dato che per ogni tipo di birra ( fattore fi) è stato assegnato un numero diverso di
unità statistiche, posso dire che l’esperimento è sbilanciato.
•
STATISTICA DESCRITTIVA DELLA VARIABILE RISPOSTA
Un’assunzione necessaria per la validità della procedura ANOVA è la normalità
delle distribuzioni dei gruppi da cui vengono prese le misure. Per verificare
quest’assunzione si effettua quindi l’analisi descrittiva del campione. Rileviamo
intanto le principali misure statistiche della variabile “Price($)”:
Descriptive Statistics: Price($)
Variable
Price($)
N
69
Mean
4,963
Median
4,790
TrMean
4,947
Variable
Price($)
Minimum
2,360
Maximum
7,800
Q1
3,890
Q3
6,275
StDev
1,447
SE Mean
0,174
Otteniamo così I principali indici statistici, che ci saranno utili per la divisione in
classi e per lo studio della distribuzione di frequenza della nostra variabile.
Con lo stesso procedimento utilizzato nella prima parte della relazione, calcoliamo il
range dei dati e decidiamo in quante classi raggrupparli.
Il RANGE vale: X max − X min
nel nostro caso quindi vale: 7,8-2,36=5,44.
Dividiamo quindi i dati in 6 classi. Approssimando il range a 6, otteniamo lassi di
ampiezza: 6/6=1.
Otteniamo quindi la seguente distribuzione delle frequenze:
18
classi di prezzi
1)2,00-2,99
2)3,00-3,99
3)4,00-4,99
4)5,00-5,99
5)6,00-6,99
6)7,00-7,99
N=
Count CumCnt
7
7
13
20
16
36
13
49
14
63
6
69
69
Percent CumPct
10,14 10,14
18,84 28,99
23,19 52,17
18,84 71,01
20,29 91,30
8,70 100,00
Si può osservare che la massima frequenza si raggiunge nella classe 3. Se
consideriamo le frequenze percentuali (colonna 3), la classe 3, che va dai 4,00 ai 4,99
dollari, è presente al 23,19%. E’ seguita: dalla classe 5, dai 6,00 ai 6,99 dollari, con il
20,29%; dalle classi 2 e 4, che vanno rispettivamente dai 3,00 ai 3,99 e dai 5,00 ai
5,99, con entrambe il 18,84%; dalla classe 1,dai 2,00 ai 2,99 dollari, con il 10,14%; e
infine dalla classe 6, dai 7,00 ai 7,99 dollari, con l’8,7%. Vediamo più dell’80% delle
informazioni sono distribuite nelle quattro classi centrali in maniera abbastanza
omogenea, mentre poi le frequenze tendono a diminuire nelle due classi estreme. La
distribuzione quindi sembra abbastanza simmetrica. Per vedere meglio la distribuzione
di frequenze della nostra variabile, costruiamo l’istogramma relativo:
ISTOGRAMMA DEI PREZZI
FREQUENZE %
20
10
0
2
3
4
5
6
7
8
PREZZI ($)
Dall’istogramma delle frequenze si vede come la distribuzione sia piuttosto simmetrica.
Per una completa analisi, bisogna però analizzare gli indici statistici già rilevati nella
tabella delle misure statistiche principali.
Indici di posizione
Media: nel nostro caso risulta essere pari a 4.963 dollari.
Mediana: è 4.760 dollari. La mediana rilevata è minore della media, quindi in realtà la
distribuzione della variabile prezzi è quella di una leggera asimmetria positiva.
Moda: il valore più frequente è 4,02 dollari
( X + X min )
Midrange: Midrange = max
, quindi: (7,8+2,36)/2=5,08
2
(Q − Q3 )
Media interquartile: MediaInterquartile = 1
, quindi: (3,89+6,275)=5,0825
2
19
Indici di variabilità
Range: già calcolato, è uguale a 5.44 dollari
Range interquartile: Range int erquartile = Q3 − Q1 , quindi: 6,275-3,89=2,385. E’
questo il livello di dispersione entrale dei dati.
Varianza: approssimativamente è la media degli scarti di ciascuna osservazione dalla
media:
(X
)
2
−X
S =∑
n −1
Scarto quadratico medio: ha la stessa funzione della varianza, ma ha il pregio di
avere la stessa unità di misura dei dati misurati. Corrisponde alla radice quadrata della
varianza e nel nostro caso corrisponde a: 1.447. Il valore basso dello scarto sta a
significare che i dati non si discostano molto dalla media.
Coefficiente di variazione: è un indice utile quando si devono confrontare insiemi di
dati con unità di misura differenti; è dimensionale e vale:
⎛ ⎞
S
CV = ⎜⎜ ⎟⎟ ⋅ 100 ≈ 30%
⎜ X ⎟
⎝ ⎠
2
i
Misure di forma
Misurano la simmetria o il tipo di asimmetria della distribuzione.
Dagli indici calcolati si rileva la leggera asimmetria positiva già visibile dalle frequenze
percentuali e dall’istogramma della variabile. Per un’analisi completa della situazione
sarà utile introdurre anche il secondo grafico fondamentale per l’analisi di una variabile:
il boxplot.
BOXPLOT DELLA FREQUENZA DEI PREZZI
8
PREZZI ($)
7
6
5
4
3
2
TIPO DI BIRRA
Da questo diagramma si può vedere che la linea della mediana è leggermente
spostata verso il basso rispetto alla media (segnalata dal puntino nero dentro alla
“scatola”), ciò genera l’asimmetria. Le linee verticali al di fuori della scatola, che vanno
dai quartili al minimo e massimo, sono pressoché uguali. Questo ci fa pensare che la
20
distribuzione può essere considerata simmetrica, e quindi si può considerare la
normalità della distribuzione dei gruppi. Questa assunzione però sarà specificata con
più chiarezza quando verrà effettuata l’analisi della varianza.
Terminata l’analisi descrittiva della nostra variabile risposta possiamo ora passare alla
statistica inferenziale, che in questo caso coinciderà con l’analisi della varianza:
l’ANOVA.
•
ANALISI DELLA VARIANZA: ANOVA ad una via
Per confrontare le medie dei tre diversi campioni si utilizza una procedura di statistica
inferenziale: l’ANOVA AD UNA VIA (dall’inglese Analysis Of Variance).
Attraverso quest’analisi possiamo estendere le osservazioni fatte riguardo al campione
a tutta la popolazione, e siamo in grado di trarre delle conclusioni circa le possibili
differenze fra le medie dei diversi gruppi.
Il nostro obiettivo è quindi quello di confrontare i diversi livelli di tipo di birra e vedere se
inducono una differente risposta media nelle osservazioni.
Per applicare tale procedura è necessario che siano verificate le seguenti assunzioni:
- La raccolta dei dati deve avvenire attraverso “randomizzazione”: è una
procedura che permette di associare ad ogni unità statistica un livello di fattore
in maniera del tutto casuale.
- La distribuzione della media campionaria deve approssimativamente essere una
distribuzione normale. Il “Teorema del limite centrale” ci assicura che se le
unità statistiche sono indipendenti le une dalle altre, la distribuzione è
abbastanza simmetrica e la numerosità campionaria è superiore a 15, si può
approssimare la distribuzione come una normale. Se invece la numerosità
campionaria è superiore a 24-25, si può dire che la distribuzione è normale
indipendentemente dalla sua forma reale. Il campione di riferimento in questo
caso è composto da 69 unità statistiche, e presenta anche una forma piuttosto
simmetrica. Si può senz’altro approssimare la sua distribuzione ad una normale.
- I gruppi devono avere la stessa varianza.
Molto importante è che le osservazioni derivano da una misurazione, e quindi quando
applico un fattore fi (Type) il risultato di una misura yij (risposta) è soggetto ad una
componente di errore casuale, per cui:
Yij = μi + Eij
Dove:
i = indice dei livelli dei fattori, varia quindi da 1 a 5;
j = indice della rilevazione che varia in base al tipo di fattore;
Yij = risposta ottenuta nel rilevamento j con il fattore al livello i;
μi = valore reale della misura al livello i;
Eij = errore commesso nella rilevazione j con fattore i.
A questo punto possiamo applicare la procedura, la quale consiste nel suddividere la
variabilità totale delle osservazioni in una variabilità attribuibile tra i gruppi e una
variabilità dovuta al caso inerente alle variazioni all’interno dei gruppi.
21
SVOLGIMENTO
Prima di passare all’analisi di varianza vera e propria, possiamo confrontare i boxplot
dei 5 tipi di birra.
Boxplots of Price($) by Type
(means are indicated by solid circles)
8
7
Price($)
6
5
4
3
5
4
3
2
Type
1
2
Nel grafico sono indicate con puntini rossi le medie dei vari tipi di birra. Le birre più
economiche sono quelle del gruppo quattro, le bionde leggere, mentre le più costose
sono invece quelle del gruppo due, cioè le scure doppio malto. Si nota inoltre che le
distribuzioni dei tipi sono quasi tutte leggermente asimmetriche positive, poiché la
media è maggiore della mediana; solamente il livello 4 presenta un’asimmetria
negativa. Questo è anche il gruppo dove la media si distanzia di più dalla mediana. E’
invece il tipo di birra uno che presenta la maggiore variabilità.
Dopo questa analisi, che ha solo una validità descrittiva, per determinare cosa succede
realmente alla popolazione bisogna passare alla verifica di ipotesi.
Il sistema di ipotesi, anche con questa procedura, è caratterizzato da un’ipotesi nulla e
da un’ipotesi alternativa. Assumiamo che l’ipotesi nulla H0 sia che tutte le medie dei
fattori siano tra loro uguali; nel caso in cui questo non sia vero, rifiuto H0 e accetto
l’ipotesi alternativa H1 per cui esiste almeno un valore delle medie diverso:
H 0 : μ1 = μ 2 = μ 3 = μ 4 = μ 5
H 1 = esiste almeno un μ i tale che μ i ≠ μ j ∀i, j i = j = 1,2,3,4,5
Risolvo il sistema attraverso una statistica test “F di Fisher o di Snedecor” e scelgo un
livello di significatività pari a α = 0,05.
Per utilizzare tale test è necessario studiare la variabilità dei dati.
Si distinguono tre tipi di variabilità:
- VARIABILITA’ TOTALE (SST): è la somma dei quadrati totali, ottenuta sommando i
quadrati delle differenze tra ciascuna osservazione e la media complessiva:
22
c
nj
(
SST = ∑∑ Yij − Y
j =1 i =1
2
)
dove: Y è la media complessiva
Yij è l’osservazione i-esima del gruppo j-esimo
n j è il numero di osservazioni del gruppo j-esimo
Il numero di gradi di libertà di SST è n-1, dove n è il numero delle osservazioni, e cioè 69. La
variabilità totale nel nostro caso presenta 68 gradi di libertà.
- VARIABILITA’ TRA GRUPPI (SSA): rappresenta la variabilità attribuibile alle differenze tra i
gruppi (tipi di birra), e si ottiene sommando i quadrati delle differenze tra le medie campionarie
di ciascun gruppo e la media complessiva:
∑ n ⋅ (Y
i =1
j
)
2
c
j
−Y
dove: Y j è la media del gruppo j-esimo.
I gradi di libertà di SSA sono c-1, dove c è il numero dei livelli di fattore, che nel caso delle
birre sono cinque.
- VARIABILITA’ TRA I GRUPPI (SSW): rappresenta la variabilità dovuta al caso e inerente
alle variazioni all’interno dei gruppi. Si ottiene sommando i quadrati delle differenze tra
ciascuna osservazione e la media del gruppo di appartenenza:
c
nj
(
SSW = ∑∑ Yij − Y
j =1 i =1
2
)
I gradi di libertà di SSW sono n-c.
La relazione che lega i tre tipi di variabilità è: SST = SSA + SSW.
Si può calcolare la statistica F per l’ANOVA, ma prima bisogna calcolare le medie dei quadrati
degli indici di variabilità appena analizzati:
MSA =
SSA
c −1
MSW =
SSW
n−c
MST =
SST
n −1
F=
MSA
MSW
La nostra statistica presenta quindi una distribuzione con (c-1,n-c) gradi di libertà.
Studiamo la varianza ad una via con un metodo molto più semplice: invece di svolgere tutti i
calcoli sopra descritti, utilizziamo il software MINITAB, come abbiamo già fatto per tutte le altre
analisi:
One-way ANOVA: Price($) versus Type
Analysis of Variance for Price($)
Source
DF
SS
MS
Type
4
87,314
21,828
Error
64
54,970
0,859
Total
68
142,284
Level
1
2
3
4
5
N
13
17
10
16
13
Pooled StDev =
Mean
4,8562
6,4965
5,8240
3,6044
4,0754
0,9268
StDev
1,1960
0,7557
0,9027
0,6273
1,1340
F
25,41
P
0,000
Individual 95% CIs For Mean
Based on Pooled StDev
----+---------+---------+---------+-(---*----)
(---*---)
(----*---)
(---*---)
(---*---)
----+---------+---------+---------+-3,6
4,8
6,0
7,2
23
Il p-value (P) è minore del livello di significatività scelto (0,00<0,05), quindi rifiuto
l’ipotesi nulla. Questo significa che il costo dei cinque diversi tipi di birra è diverso. A
questo punto bisogna confrontare i risultati ottenuti per determinare quale sia il tipo di
birra più conveniente. Per fare ciò si utilizza un procedimento detto “stima puntuale”
Per ottenere questa informazione uso il criterio dei minimi quadrati,con il quale si ricava
la stima i-esima:
τ i = Yi − Y
Trovo così le seguenti cinque stime:
τ 1 = stima puntuale del tipo 1
τ 2 = stima puntuale del tipo 2
τ 3 = stima puntuale del tipo 3
τ 4 = stima puntuale del tipo 4
τ 5 = stima puntuale del tipo 5
Questo procedimento viene utilizzato solamente quando c’è differenza tra le medie.
Questo vuol dire che si passa a valutare questa stima solo quando si rifiuta l’ipotesi
nulla.
Il grafico che rappresenta tutto ciò è:
Main Effects Plot - Data Means for Price($)
6,5
Price($)
5,5
4,5
3,5
1
2
3
4
5
Type
Come avevamo già osservato dai boxplot il tipo di birra più economico risulta essere
proprio il 4, e cioè quello formato dalle birre bionde leggere. Anche la stima puntuale,
però, ha solo una valenza descrittiva. Bisogna verificare se quanto visto vale anche per
l’intera popolazione.
Ancora una volta utilizziamo quindi la statistica inferenziale, e in particolare un
procedimento detto “confronti multipli a coppie”:
24
Tukey's pairwise comparisons
Family error rate = 0,0500
Individual error rate = 0,00662
Critical value = 3,97
Intervals for (column level mean) - (row level mean)
1
2
3
2
-2,5989
-0,6818
3
-2,0622
0,1265
-0,3644
1,7093
4
0,2803
2,2232
1,9859
3,7983
1,1709
3,2684
5
-0,2397
1,8012
1,4625
3,3796
0,6543
2,8429
4
-1,4424
0,5004
Con questo procedimento si effettuano confronti a coppie tra i prezzi di ciascun tipo di
⎛ c ⎞ c ⋅ (c − 1)
birra, e il metodo utilizzato è quello di Turkey, che prevede ⎜⎜ ⎟⎟ =
confronti.
2
⎝n⎠
Questa procedura analizza se tra i diversi tipi di birra ci sono differenze significative
oppure no. Quando gli intervalli riportati nella matrice comprendono lo zero, significa
che non c’è una differenza significativa tra le risposte medie ottenute dai due tipi di
birra considerati; quando lo zero non è invece compreso, allora la differenza è di una
certa importanza.
Abbiamo quindi: - confronto 1-2: differenza significativa tra i due tipi di birra;
- confronto 1-3: differenza non significativa (-2,0622<0<0,1265)
- confronto 1-4: differenza significativa
- confronto 1-5: differenza non significativa (-0,2397<0<1,8012)
- confronto 2-3: differenza non significativa (-0,3644<0<1,7093)
- confronto 2-4: differenza significativa
- confronto 2-5: differenza significativa
- confronto 3-4: differenza significativa
- confronto 3-5: differenza significativa
- confronto 4-5: differenza non significativa (-1,4424<0<0,5004)
I risultati ottenuti con i confronti multipli a coppie rispecchiano quelli tratti con le stime
puntuali sul campione.
• CONCLUSIONI
Dopo queste analisi accurate, possiamo concludere che il tipo di birra più economico è
il quattro, è cioè quello formato dalle bionde leggere. In realtà però non esistono grandi
differenze tra queste birre e quelle del gruppo cinque, le ultra leggere. Sicuramente le
più costose sono invece le birre scure del gruppo due, le quali differiscono
significativamente dai gruppi 4 o 5.
25