ELABORATO FINALE DI STATISTICA: • PRIMA PARTE Analisi Descrittiva e Inferenziale di un campione di dati • SECONDA PARTE Anova ad una via 1 PRIMA PARTE Analisi Descrittiva e Inferenziale di un campione di dati Dataset di riferimento: 52.out • Introduzione: la STATISTICA La Statistica è una disciplina, molto importante nell’ambito manageriale, che si occupa della trattazione dei dati rilevati su fenomeni misurabili, con lo scopo di sintetizzarli e interpretarli per prendere decisioni strategiche a riguardo. La statistica si divide in due classi principali: - DESCRITTIVA Questa si occupa di sintetizzare e rappresentare i dati a nostra disposizione. Nonostante sia molto utile, presenta un limite molto rilevante: essa si basa su un campione, quindi con essa non si può estendere l’analisi a tutta la popolazione. - INFERENZIALE Questa è composta da un complesso di metodi che consentono di generalizzare ed estendere i dati del campione alla popolazione. I dati del campione vengono quindi considerati un fenomeno probabilistico. • IL PROBLEMA STATISTICO Analisi di mercato per prossima apertura di un ristorante in una data location. Il campione a disposizione per l’analisi è formato da persone che abitano nella città in cui si vuole iniziare la nuova attività, ed è costituito da potenziale clienti del futuro ristorante. Di queste persone abbiamo a disposizione dati riguardanti il reddito, l’età e il sesso di appartenenza. Queste informazioni sono sufficienti per trarre conclusioni relative alla tipologia di locale da costituire. Il proprietario manifesta dubbi sulla tipologia di ristorante da creare: un luogo di lusso, rivolto a persone con un certo reddito e di una certa età, in grado di apprezzare l’alto prezzo dei prodotti e l’elevata qualità del locale; in alternativa una trattoria, con prodotti meno ricercati e più economici, in grado di essere apprezzati da ogni età e da un più esteso gruppo di persone. In base all’analisi dei dati in nostro possesso si deciderà la tipologia di locale e la ricercatezza del menù offerto. Le considerazioni riguardanti il campione verranno poi estese a tutta la popolazione con metodi adeguati. • Descrizione del DATASET: Un fenomeno statistico è caratterizzato da tre elementi fondamentali: - avere a disposizione le UNITA’ STATISTICHE: CAMPIONE= sottoinsieme di unità statistiche provenienti dalla popolazione selezionate per l’analisi POPOLAZIONE= insieme degli elementi che si prendono in considerazione - le VARIABILI STATISTICHE: fenomeni che sono oggetto di studio. Esse possono essere: di tipo QUALITATIVO= non sono ordinabili, quindi non sono variabili numeriche. di tipo QUANTITATIVO= variabili numeriche, le cui risposte sono ordinabili. Si suddividono a loro volta in: CONTINUE, se derivano da un processo di misurazione, DISCRETE, se derivano da un processo di conteggio e assumono valori interi. 2 la MATRICE DEI DATI o DATASET: rappresenta i dati a disposizione organizzati in una matrice di righe e colonne. Nelle colonne della matrice vengono inserite le variabili, mentre nelle righe le unità statistiche (o record). Il dataset, nel nostro caso, è formato da: - ampiezza del campione: 73 abitanti - n° variabili: 3 - classificazione variabili: - reddito: per persona, variabile aleatoria continua - sesso: variabile aleatoria qualitativa: modalità 1 corrispondente ai maschi , modalità 2 corrispondente alle femmine. Maschi= 50, Femmine= 23 - età: variabile aleatoria quantitativa continua. - • ANALISI DEL CAMPIONE L’analisi del nostro campione verrà svolta in un primo momento solo per la variabile età; successivamente anche per la variabile reddito. Entrambe le analisi verranno svolte essenzialmente in due parti: statistica descrittiva statistica inferenziale. STATISTICA DESCRITTIVA Il punto di partenza di ogni analisi statistica è il dataset. La statistica descrittiva consiste nell’elaborazione dei dati contenuti nel dataset , la quale produce una sintesi rappresentabili con diversi grafici. E’ quindi un complesso di vari metodi che comprendono la raccolta, la presentazione e la caratterizzazione di un insieme di dati. Il suo scopo è di descrivere le caratteristiche del campione di riferimento in maniera appropriata. OBBIETTIVO DELLA NOSTRA ANALISI: Analizzare con gli strumenti statistici a nostra disposizione le variabili età, reddito e sesso, cercando di arrivare a conclusioni che permettano di prendere decisioni strategiche riguardo alla tipologia del ristorante da aprire e ai prodotti che in esso saranno disponibili. • ANALISI DELLA VARIABILE ETA’ Per una corretta sinterizzazione dei dati si calcola per prima cosa la distribuzione delle frequenze per tutto il campione: per Frequenza si intende il conteggio del numero di unità statistiche (per le variabili numeriche) che cadono in un certo intervallo di valori, detto classe, oppure il conteggi delle unità statistiche (per le variabili categoriali) che assumono una data modalità. Nel nostro caso conteggeremo le persone che appartengono ad un determinato intervallo di età. Per organizzare i nostri dati in classi di raggruppamento, cioè intervalli di valori, è necessario calcolare innanzi tutto le principali misure descrittive della variabile età: Descriptive Statistics: età Variable età N 73 Mean 45,53 Median 46,00 TrMean 45,45 Variable età Minimum 19,00 Maximum 70,00 Q1 36,00 Q3 58,00 StDev 15,71 SE Mean 1,84 3 Vedo che i dati a disposizione sono 73 e sono compresi da un minimo di 19 a un massimo di 70 anni. Grazie a questi dati posso calcolare il RANGE del mio campione, pari alla differenza tra il valore massimo e quello minimo: 70-19=51. Inoltre, approssimando il valore della MEDIA (mean) per eccesso, si può affermare che l’età media del campione è di circa 46 anni. Valuteremo più avanti l’eventuale presenza di outliers, valori estremi che modificano significatamene l’analisi. La MEDIANA (median) è anch’essa pari a 46 anni. Questa rappresenta l’elemento centrale di una successione ordinata di dati e non è soggetta a distorsioni provocate da osservazioni estreme. Il PRIMO e il TERZO QUARTILE (Q1, Q3) sono rispettivamente di 36 e 58 anni. Lo SCARTO QUADRATICO MEDIO (StDev) vale circa 16 anni e ci aiuta a stabilire la dispersione dei dati intorno alla media. A questo punto si può passare a definire l’ampiezza delle classi in cui suddividerò i miei dati. Vista l’ampiezza del campione, sarà sufficiente suddividere i dati in 6 classi. E’ infatti buona norma scegliere un numero di classi da un minimo di 5 a un massimo di 15. Esse devono inoltre essere equispaziate e con estremi interi. Per determinare l’ampiezza delle classi uso la formula: ampiezza classi = range / n°classi Il valore risulta essere circa 9. Calcolo così: classi di età Count 1) 15-24 2 2) 25-34 14 3) 35-44 18 4) 45-54 10 5) 45-64 18 6) 65-74 11 N= 73 CumCnt Percent CumPct 2 2,74 2,74 16 19,18 21,92 34 24,66 46,58 44 13,70 60,27 62 24,66 84,93 73 15,07 100,00 Noto intanto che gli estremi delle classi scelte sono disgiunte; questa è una buona norma per evitare il conteggio di valori estremi in classi contigue. La tabella presenta quattro colonne rappresentanti quattro diverse misure di frequenza: 1. frequenze ASSOLUTE 2. frequenze ASSOLUTE CUMULATE (che si ottengono sommando al numero di persone all’interno di una classe quelle delle classi precedenti) 3. frequenze PERCENTUALI (si ottengono dividendo le frequenze assolute per il totale di persone e moltiplicando per 100) 4. frequenze PERCENTUALI CUMULATE (si ottengono come le cumulate assolute ma sommando le frequenze percentuali) Commento Dalla distribuzione delle frequenze si può notare come le classi più frequenti sono due, quella con età compresa tra i 35 e i 44 anni e quella dai 45 ai 64 anni, con entrambe una percentuale del 24,66% e 18 unità statistiche. Vi è poi la classe dai 25 ai 34 anni con una percentuale del 19,18%, subito seguita dalla classe dai 65 ai 74 anni con il 15,07% e da quella dai 45 ai 54 anni con il 13,70%. La classe con meno unità statistiche e la più bassa frequenza percentuale è quella dai 15 ai 24 anni. Da questi risultati si può osservare che la popolazione che stiamo analizzando è composta di persone di varie età, distribuite maggiormente nell’età adulta, tra i 35 e i 64 anni. Nel nostro campione vi è invece una bassissima presenza di giovani al di sotto dei 25 anni. Questo ultimo dato è di grande utilità: possiamo fin d’ora supporre che sarà conveniente rivolgersi ad una clientela adulta, che presenza gusti e necessità diverse da quelli di clienti molto giovani. 4 Per un’analisi più veloce e immediata dei dati appena calcolati, possiamo usare un ausilio grafico: possiamo costruire un ISTOGRAMMA. Questo è un diagramma a barre verticali in cui le barre rettangolari hanno come base gli intervalli in cui sono state raggruppate le osservazioni. Nell’asse delle ascisse è riportato il fenomeno preso in considerazione suddiviso in classi, mentre nell’asse delle ordinate è riportata la frequenza. Nel nostro caso utilizzeremo l’istogramma delle frequenze percentuali, molto usato per l’analisi in statistica descrittiva. Un altro grafico molto utili nell’analisi statistica è il POLIGONO, che come l’istogramma presenta nell’asse orizzontale il fenomeno oggetto di analisi, e in quello verticale il numero,la percentuale o la frequenza relativa di osservazioni per ogni intervallo di raggruppamento. Noi utilizziamo il poligono delle frequenze percentuali. Esso si costruisce scegliendo il punto medio di ciascuna classe a rappresentare tutte le osservazioni che cadono nella classe stessa, e congiungendo poi la sequenza dei punti medi alla percentuale di osservazioni nella classe corrispondente. POLIGONO DELLA VARIABILE ETA' 25 FREQUENZE % 20 15 10 5 0 20 30 40 50 ETA'(anni) 60 70 5 Il BOXPLOT è un indicatore di variabilità che fornisce una rappresentazione grafica dei dati sulla base dei cinque numeri di sintesi: il valore minimo, il primo quartile, la mediana, il terzo quartile e il valore massimo del campione. Una scatola rettangolare i cui lati orizzontali,dove si congiungono i segmenti tratteggiati, rappresentano il primo e il terzo quartile.una linea orizzontale all’interno del rettangolo che rappresenta la mediana e due segmenti tratteggiati che si iniziano ai lati del quadrato e finiscono al Xmax e Xmin. Da questo diagramma si può vedere come la mediana(linea continua all’interno del rettangolo) sia spostata verso l’alto,ciò genera l’asimmetria già evidenziata dallo studio degli indici di sintesi.Inoltre si vede come le linee tratteggiate siano pressoché della stessa lunghezza. All’interno del rettangolo ci sono il 50% delle osservazioni Rappresentata la distribuzione dei dati, si procede all’analisi degli INDICI STATISTICI, che si dividono in: misure di variabilità, di posizione e di forma. Essi si applicano solo su variabili numeriche, quando si considerano dati quantitativi. Le misure di posizione (dette misure di tendenza centrale,perché solitamente le osservazioni si concentrano attorno ad un valore centrale): 1. media aritmetica: si calcola dividendo dei valori osservati per il numero totale di osservazioni. E’ il “punto di equilibrio” tra le osservazioni più grandi e quelle più piccole, e si basa su tutte le osservazioni dell’insieme di dati. Per questo motivo la media presenta un grosso limite: è molto influenzata da valori estremi, o outliers. Dove:n = ampiezza del campione. Xi = i-esima osservazione della variabile età. 2. mediana: è il valore centrale di una successione ordinata di dati. E’ l’osservazione che, nella serie di dati, lascia alla sua destra la metà delle osservazioni e a sinistra l’altra metà di osservazioni. Non si basa su tutti dati del campione, e quindi non risulta influenzata dagli outliers. Rappresenta un buona misura sostitutiva della media in presenza di valori estremi. 3. moda: è il valore più frequente in un insieme di dati. Non è influenzata dagli outliers, ma viene utilizzata solo per scopi descrittivi per la sua maggiore variabilità rispetto alle altre misure di posizione. 4. midrange: è dato dalla media tra la più piccola e la più grande delle osservazioni di un insieme di dati. Midrange=(Xmax + Xmin)/2. E’ molto influenzato dalla presenza di outliers. 5.media interquartile: è la media tra il primo e il terzo quartile 6 Media interquartile= (Q1+ Q3)/2 I quartili sono misure descrittive che dividono i dati ordinati in quattro parti. Il primo quartile (Q1) è il valore che lascia il 25% delle osservazioni più piccole e il 75% di quelle più grandi. Il terzo quartile (Q3) è tale che il 75% delle osservazioni sia più piccolo, mentre il 25% sia più grande. Le misure di variabilità ( misurano la quantità di dispersione presente nei dati): 1. Range: (o intervallo di variazione) è la differenza tra l’osservazione più grande e quella più piccola di un insieme di dati. Misura la dispersione totale nell’insieme di dati, ma non tiene conto di come essi si distribuiscano effettivamente tra il valore più piccolo e quello più grande. E’ quindi inadeguata in presenza di valori estremi. 2. Range Interquartile: è la differenza tra il terzo e il primo quartile in un insieme di dati. Sintetizza la dispersione del 50% delle osservazioni che occupano le posizioni centrali, e pertanto non è influenzata da valori estremi. 3. Varianza: è approssimativamente la media dei quadrati sugli scarti di ciascuna osservazione dalla media: più grande è il valore, più alta è la variabilità dei dati, in quanto essi si discostano maggiormente dal valore di posizione centrale. Sintetizza quindi la dispersione dei valori attorno alla media. L’unità di misura corrisponde al quadrato di quella dei dati di partenza. )2 / n-1 S2= Σ (Xi – 4. Scarto quadratico medio: è la radice quadrata della varianza. E’ espresso nell’ unità di misura originaria ei dati. Anch’esso ci aiuta a stabilire se e quanto i dati sono concentrati o dispersi intorno alla loro media. Per quasi tutti gli insiemi di dati, la maggior parte dei valori osservati si trova nell’intervallo centrato sulla media e i cui estremi distano dalla media per uno scarto quadratico medio. Le misure di forma: prendono in considerazione la forma della distribuzione dei dati, cioè il modo in cui si distribuiscono. Per descrivere la forma è sufficiente confrontare la media con la mediana: asimmetria negativa o distribuzione obliqua a sinistra: media < mediana asimmetria positiva o distribuzione obliqua a destra: media > mediana simmetria: media = mediana. Il nostro campione di dati presenta una leggera asimmetria negativa, poichè la media è leggermente inferiore alla mediana. Poiché l’analisi fatta fin d’ora non può essere estesa a tutta la popolazione, limite della statistica descrittiva stessa, dobbiamo passare alla statistica inferenziale. LA STATISTICA INFERENZIALE Per poter ricavare conclusioni sulla popolazione, sulla base del campione, abbiamo bisogno di passare alla statistica inferenziale. E’ possibile considerare i dati statistici generati da un fenomeno probabilistico, da una variabile aleatoria casuale che può assumere infinite modalità. Il mio obiettivo è quello di verificare se la media calcolata per il mio campione coincide con quella della popolazione a cui appartiene. Per fare ciò devo individuare una funzione in grado di fornire la probabilità con la quale si realizza un certo dato. Lo strumento della statistica che ci viene in aiuto è la VERIFICA DI IPOTESI. Essa traduce un problema reale in un problema statistico e in base ai risultati 7 osservati sulla statistica campionaria permette di trarre conclusioni sulla verosimiglianza dell’ipotesi formulata. La verifica d’ipotesi ha inizio con la considerazione di una proposizione riguardante un parametro della popolazione. Si formula quindi un sistema di ipotesi composto da: - Ipotesi nulla H0:è sottoposta a verifica. Essa si riferisce sempre ad un parametro della popolazione, mai ad una statistica campionaria e in genere coincide con lo stato celle cose. Si riferisce al caso in cui il parametro della popolazione assuma il valore specificato da colui che compie l’indagine. - Ipotesi Alternativa H1: rappresenta la conclusione a cui si giunge quando si rifiuta l’ipotesi nulla, qualora sulla base del campione si possa ritenere che è poco probabile che H0 sia vera. Essa non contiene mai un segno di uguale, ed è l’ipotesi opposta a quella nulla. Ritornando alla nostra analisi, supponiamo che la media della popolazione sia μ = 46; impongo allora il seguente sistema di ipotesi: H0: μ = 46 H1: μ ≠ 46 Determinato il nostro sistema, dovremo verificare se l’ipotesi nulla è vera o meno. A questo scopo supponiamo di poter estrarre dalla popolazione un’infinità di campioni diversi con le proprie medie. A questo punto è necessaria la statistica test, una funzione che, fissata la media della popolazione, possa restituire la probabilità che ho di estrarre un campione con una determinata media. Per affrontare questa analisi è molto importante fissare la componente di incertezza o di rischio per determinare il valore della probabilità in base al quale accetto o meno l’ipotesi nulla. Tutto ciò consiste nel dividere lo spazio campionario in due zone, una di accettazione e una di rifiuto. Le due zone sono separate dal valore al quale corrisponde la minima probabilità di accettare H0, cioè al valore critico dello spazio campionario. Nella verifica di ipotesi è però molto facile compiere degli errori. I due più importanti e frequenti sono: - errore di prima specie: si verifica se si rifiuta l’ipotesi nulla quando è vera. La probabilità che si verifichi un errore di questo tipo si chiama livello di significatività e si indica con il simbolo α. Per coefficiente ci confidenza (1-α) si intende la probabilità che l’ipotesi nulla non sia rifiutata quando è vera. E’ il complemento a uno dell’errore di prima specie - errore di seconda specie: si verifica se si accetta l’ipotesi nulla quando è falsa. La probabilità che si verifichi un errore di seconda specie è β, che viene anche detto rischio β o rischio del consumatore. La potenza della statistica test (1- β) rappresenta la probabilità di rifiutare l’ipotesi nulla quando è falsa. Scelgo il livello di significatività pari al 5%, e quindi α = 0,05. Esistono due tipologie di statistica test per test ad un campione: il Test Z, utilizzato in caso sia noto lo scarto quadratico medio della popolazione vera e propria; il Test T, utilizzato quando non si conosce lo scarto quadratico medio reale. Test T di Student Nel nostro caso è noto solo lo scarto quadratico medio del campione, è quindi utilizziamo questa statistica test. Il test T di Student è dato dalla seguente formula: t = x−μ S n 8 One-Sample T: età Test of mu = 46 vs mu not = 46 Variable età N 73 Variable età ( Mean 45,53 StDev 15,71 95,0% CI 41,87; 49,20) SE Mean 1,84 T -0,25 P 0,801 Histogram of età (with Ho and 95% t-confidence interval for the mean) Frequency 15 10 5 0 [ 20 25 30 35 40 _ X Ho 45 ] 50 55 60 65 70 età Basandomi sulla regola decisionale del p-value (sistema usato dal software per prendere decisioni con aree piuttosto che percentili in un sistema di ipotesi) che mi dice di accettare H0 se il p-value >=α, rifiutare H0 se invece il p-value <α. Nel nostro caso il p-value è maggiore dell’intervallo di confidenza scelto, quindi l’ipotesi nulla viene accettata: l’età media della nostra popolazione è di 46 anni. Questo vuol dire che il ristorante che sta per nascere, dovrà avere un arredamento sobrio, e in ogni modo adatto a signori e signore di mezza età. Anche il menù dovrà essere adatto a questa fascia d’età. 9 • ANALISI DELLA VARIABILE REDDITO Riprendiamo l’analisi della seconda variabile, il reddito del nostro campione. Verrà eseguite le stese operazioni utilizzate per l’analisi della variabile età, e anche gli stessi strumenti statistici. ANALISI DESCRITTIVA Le misure descrittive di base, che verranno utilizzate per calcolare le classi di reddito e per lo studio degli indici sono: Descriptive Statistics: reddito Variable reddito N 73 Mean 4234 Median 3620 TrMean 4080 Variable reddito Minimum 180 Maximum 13645 Q1 1560 Q3 6505 StDev 2923 SE Mean 342 La media è abbastanza spostata dalla mediana. Questo ci permette di osservare fin d’ora la probabile presenza di outliers, valori estremi che influenzano la media. La distribuzione è caratterizzata da un’asimmetria positiva: infatti il valore della media è maggiore di quello della mediana. Il valore minimo di reddito è 180, mentre il valore massimo è di 13645. Il nostro range di valori sarà quindi: 13645-180=13465. Lo scarto quadratico medio è di 2923; ciò significa che la maggioranza dei dati si discostano dalla media di questo valore. Dividiamo ora i dati del reddito in classi. Anche per questa variabile scegliamo la divisione in 6 classi, tutte di uguale ampiezza pari a 2245. Otteniamo: Tally for Discrete Variables: classi di reddito classi di reddito 1)180-2424 2)2425-4669 3)4670-6914 4)6915-9159 5)9160-11404 6)11405-13650 N= Count CumCnt 28 28 13 41 17 58 11 69 3 72 1 73 73 Percent CumPct 38,36 38,36 17,81 56,16 23,29 79,45 15,07 94,52 4,11 98,63 1,37 100,00 Come si può notare dalla terza colonna, che rappresenta le frequenze percentuali, la classe di reddito più frequente è quella dai 180 ai 2424 euro con circa il 38% . La seconda classe è quella dai 4670 ai 6914 euro con il 23,29%, seguita dalla classe dai 2425 ai 4669 euro con il 17,81 %, e da quella dai 6915 ai 9159 euro con il 15,07%. Le classi di reddito meno frequenti sono le ultime due, quelle dei redditi più alti, e cioè quella dai 9160 agli 11404 euro con il 4,11%, e quella dagli 11405 ai 13650 euro con l’1,37%. E’ probabile che sia in quest’ultima il valore estremo che influenza la nostra media. Possiamo ora rappresentare la nostra variabile con metodi grafici, e cioè con l’ISTOGRAMMA e il POLIGONO DELLE FREQUENZE PERCENTUALI della variabile reddito. 10 ISTOGRAMMA DELLA VARIABILE REDDITO FREQUENZE % 40 30 20 10 0 180 2425 4670 6915 9160 11405 13650 REDDITO POLIGONO DELLA VARIABILE REDDITO FREQUENZE % 30 20 10 0 180 2425 4670 6915 9160 11405 13650 REDDITO Nei grafici è rappresentata la distribuzione dei dati e si notano facilmente tutte le osservazioni fatte precedentemente: la frequenza di reddito delle varie classi, l’andamento asimmetrico positivo della curva e così via. Per un’analisi più approfondita della situazione conviene differenziare i due gruppi: maschi e femmine. Analizzando separatamente le distribuzioni di frequenze del reddito delle due categorie e facendo i dovuti confronti, si giungerà a risultati più attendibili. 11 Partiamo dalla categoria maschi. Individuiamo innanzitutto le misure descrittive di questo gruppo: Descriptive Statistics: reddito_maschi Variable reddito_1 N 50 Mean 4925 Median 4680 TrMean 4796 Variable reddito_1 Minimum 560 Maximum 13645 Q1 2363 Q3 7410 StDev 2946 SE Mean 417 Le unità statistiche di questo campione sono 50. il valore minimo di reddito dei maschi è 560, mentre il valore massimo è 13645. Il range è : 13645-560=13085. La media è 4925, mentre la mediana è 4680: anche la distribuzione di frequenza del reddito dei maschi presenta quindi un’asimmetria positiva, però è molto meno accentuata di quella della variabile reddito totale. Lo scarto quadratico medio è 5032: tale sarà quindi la quantità di cui la maggioranza dei dati si discosta dalla media. Dividiamo ora i valori di reddito della categoria maschi in classi, utilizzando la stessa divisione precedentemente calcolata per il reddito totale: classi ci reddito_maschi 1)180-2424 2)2425-4669 3)4670-6914 4)6915-9159 5)9160-11404 6)11405-13650 N= Count CumCnt 13 13 12 25 12 37 9 46 3 49 1 50 50 Percent CumPct 26,00 26,00 24,00 50,00 24,00 74,00 18,00 92,00 6,00 98,00 2,00 100,00 Vediamo che le classi più frequenti sono le prime tre: la prima che va dai 180 ai 2424 euro con il 26%, le altre due, che vanno dai 2425 ai 4669 e dai 4670 ai 6914 euro, con il 24%. Vi è poi la classe dai 6915 ai 9159 con il 18%. La classe dai 9160 ai 11404 euro con il 6%, e quella da 11405 ai 13650 con il 2%. La situazione rimane molto simile a quella generale, con la differenza che la distribuzione di maschi nelle prime 3 categorie di reddito è piuttosto omogenea. Rappresentiamo graficamente la situazione per avere un’idea più chiara della situazione: POLIGONO DELLA VARIABILE REDDITO_MASCHI FREQUENZE % 30 20 10 0 180 2425 4670 6915 9160 REDDITO MASCHI 11405 13650 12 BOXPLOT REDDITO_MASCHI 14000 reddito_maschi 12000 10000 8000 6000 4000 2000 0 Passiamo ora ad effettuare la stessa analisi per il reddito delle donne. Cominciamo con l’osservare le misure descrittive: Descriptive Statistics: reddito_donne Variable reddito_2 N 23 Mean 2731 Median 1573 TrMean 2630 Variable reddito_2 Minimum 180 Maximum 7400 Q1 910 Q3 4800 StDev 2278 SE Mean 475 Le unità statistiche in questo caso sono solo 23, il valore minimo è 180, mentre il valore massimo è 7400. Il range risulta essere quindi: 7400-180=7220. Il valore appena trovato è molto più basso del range dei maschi; questo sta a significare che probabilmente le donne del nostro campione hanno redditi mediamente più bassi degli uomini. Ciò si vede anche dalla media che in questo caso vale 2731, contro i 4925 dei maschi. Il valore della mediana è 1573, molto più basso della media; avremo dunque anche qui una distribuzione di frequenza asimmetrica positiva. Probabilmente anche qui vi è la presenza di un valore estremo, che potrebbe essere un reddito più basso degli altri. Lo scarto quadratico medio è 2278: questo vuol dire che il gruppo delle donne è meno variabile di quello degli uomini. Dividiamo ora il gruppo del reddito delle donne in classi, seguendo la stessa suddivisione utilizzata in precedenza: classi di reddito_donne 1)180-2424 2)2425-4669 3)4670-6914 4)6915-9159 N= Count CumCnt 15 15 1 16 5 21 2 23 23 Percent CumPct 65,22 65,22 4,35 69,57 21,74 91,30 8,70 100,00 Si vede che la classe di reddito più frequente è di gran lunga quella dai 180 ai 2424 euro, con il 65,22%. L’altra classe significativa è quella dai 4670 ai 6914 euro con il 21.74%. Le altre due classi presenti, quella dai 6915 ai 9159 euro con l’8,70% e quella dai 2425 ai 4669 euro, sono poco presenti. S può notare che anche se vi 13 fosse la presenza di valori estremi non influenzerebbero significativamente questa distribuzione: la prima classe rimarrebbe comunque la più frequente. Rappresentiamo anche per le femmine i dati trovati coni grafici opportuni: POLIGONO DELLA VARIABILE REDDITO_FEMMINE FREQUENZE % 30 20 10 0 180 2425 4670 6915 9160 11405 13650 REDDITO FEMMINE BOXPLOT REDDITO_FEMMINE 8000 reddito_donne 7000 6000 5000 4000 3000 2000 1000 0 A questo punto è necessario fare un confronto più approfondito, prima di passare all’analisi inferenziale dei nostri dati. Osservando e confrontando i dati appena calcolati per maschi e femmine, si nota che in media i maschi hanno un reddito più elevato delle donne: 4925 contro 2731 euro. Nonostante questa grande differenza nella media, la distribuzione dei redditi nelle due categorie è molto simile. Infatti nonostante il range degli uomini sia molto più vasto di quello delle donne, le frequenze più alte di reddito si riscontrano in 14 entrambi i casi nella prima classe, quella compresa tra i 180 e i 2424 euro. Dopo questa classe nelle donne c’è un abbassamento della percentuale che superati i 6914 cade velocemente verso lo zero. Negli uomini invece si mantiene più o meno la stessa percentuale fino a 6914 euro, e poi le frequenze scendono più o meno rapidamente. Per vedere meglio questi andamenti, possiamo visualizzare i due poligoni delle frequenze percentuali delle due categorie sovrapposti nello stesso grafico: POLIGONO DI CONFRONTO DEL REDDITO FREQUENZE % 30 20 10 0 180 2425 4670 6915 9160 11405 13650 REDDITO E’ utile anche un altro confronto grafico, quello dei boxplot delle due categorie di redito: BOXPLOT DI CONFRONTO REDDITO 14000 12000 REDDITO 10000 8000 6000 4000 2000 0 reddito_maschi reddito_donne 15 Possiamo concludere che dai dati in nostro possesso la tipologia di ristorante più adeguato alle esigenze del nostro campione di persone è un trattoria, con un arredamento adatto a persone di mezza età e che presenti prezzi medio bassi. Il menù da proporre sarà probabilmente composto da piatti tradizionali, abbondanti e composti sia da carne che da pesce, così da incontrare i gusti della maggioranza. Si pone a questo punto un ulteriore problema: queste conclusioni sono state fatte rispetto al nostro campione, per arricchirle e renderle utilizzabile bisognerebbe conoscere tutta la popolazione. Devo passare quindi dall’analisi descrittiva a quella inferenziale, e cercare di generalizzare i risultati ottenuti. ANALISI INFERENZIALE Anche in questo caso utilizzo la verifica di ipotesi e applico la statistica test più appropriata. Dobbiamo applicare in questo caso un test a due campioni e, visto che ancora una volta non conosco la varianza della popolazione ma solo quella del campione, utilizzo un test T di Student. La Statistica test in questo caso è. t= dove: Sp 2 (X 1 ) − X 2 − (μ1 − μ 2 ) 1 ⎞ 2 ⎛ 1 S p ⋅ ⎜⎜ + ⎟⎟ ⎝ n1 n2 ⎠ 2 2 ( n1 − 1) ⋅ S1 + (n2 − 1) ⋅ S 2 = (n1 − 1) + (n2 − 1) Sp2= varianza ponderata X 1 = media degli elementi del campione estratto dalla popolazione1 S12= ampiezza del campione estratto dalla popolazione 1 … Il mio sistema di ipotesi è: H0: μ1 = μ 2 H1: μ1 > μ 2 L’ipotesi nulla H0 rappresenta la situazione in cui il reddito medio maschile e quello femminile coincidano. L’ipotesi alternativa H1 rappresenta invece il caso in cui il reddito maschile sia maggiore di quello femminile. Visto il sistema di ipotesi il test sarà ad una coda e il livello di significatività che scelgo è pari a α = 0,01. 16 Two-Sample T-Test and CI: reddito-maschi; reddito-donne Two-sample T for reddito-maschi vs reddito-donne reddito-1 reddito-2 N 50 23 Mean 4925 2731 StDev 2946 2278 SE Mean 417 475 Difference = mu reddito-maschi - mu reddito-donne Estimate for difference: 2195 99% lower bound for difference: 542 T-Test of difference = 0 (vs >): T-Value = 3,16 P-Value = 0,001 Both use Pooled StDev = 2756 DF = 71 Da questi dati osservo che il p-value è pari a 0.001, e quindi è inferiore al mio livello di significatività. Per questo motivo posso rifiutare l’ipotesi nulla a favore di quella alternativa. CONCLUSIONI Dopo quest’ultima analisi possiamo dire con certezza che la popolazione maschile guadagna di più di quella femminile. In seguito alle analisi effettuate fino a questo momento, è possibile determinare il tipo di ristorante più adeguato per il tipo di persone analizzate. Probabilmente sarà una trattoria-pizzeria, con un arredamento informale ma comunque elegante, adatto a persone adulte. Il locale offrirà una vasta scelta di piatti locali e tradizionali, con l’aggiunta di qualche piatto leggero e meno abbondante per assecondare anche le necessità di bambini o persone con poco appetito. Il menù offrirà una varietà di scelta considerevole: piatti di carne, di pesce, e pizza. I prezzi saranno mediamente bassi, anche se portate particolarmente ricche in quantità e ricercate nel gusto, avranno prezzi elevati. Per quanto riguarda le bevande, la scelta non sarà molto ampia, soprattutto per quelle alla spina. Per i vini invece si avrà un occhio di riguardo, per permettere a eventuali intenditori di trovare il miglior abbinamento tra portate prelibate e vino. In questo modo siamo riusciti ad arrivare ad un compromesso: abbiamo una vasta gamma di prodotti, che sono prevalentemente rivolti a persone con un reddito non molto alto,come ad esempio le donne, ma vi è anche la possibilità di gustare piatti più costosi per coloro che possono permetterselo e anche per le donne, tenendo conto che molto spesso è l’uomo a pagare per loro, soprattutto se sposate. Le nostre conclusioni sono sufficienti convincerci della nostra scelta. Tuttavia si potrebbe migliorarle studiando altri dati riguardanti locali di ristorazione, desideri delle persone; oppure interrogando più giovani e adolescenti per conoscere meglio le loro esigenze. 17 SECONDA PARTE Anova ad una via Dataset di riferimento: anova_beer_1 • IL PROBLEMA STATISTICO E’ stata fatta un’indagine su &9 diverse birre di cui si è rilevato il prezzo e il tipo. L’obiettivo è quello di realizzare una completa analisi descrittiva della variabile risposta e quindi condurre un’Analisi della varianza ad una via, e i relativi confronti multipli sulla variabile “price” rispetto ai fattori “type”. • Descrizione del DATASET Popolazione: l’insieme delle birre Campione: sottoinsieme della popolazione Unità statistiche: 69 Variabile risposta: Price. E’ un aspetto del fenomeno di interesse oggetto di studio, del quale è disponibile una serie di misurazioni Fattore controllato: Type; esso può assumere cinque livelli o modalità, ogni livello identifica un gruppo; ogni gruppo contiene una o più risposte. Dato che per ogni tipo di birra ( fattore fi) è stato assegnato un numero diverso di unità statistiche, posso dire che l’esperimento è sbilanciato. • STATISTICA DESCRITTIVA DELLA VARIABILE RISPOSTA Un’assunzione necessaria per la validità della procedura ANOVA è la normalità delle distribuzioni dei gruppi da cui vengono prese le misure. Per verificare quest’assunzione si effettua quindi l’analisi descrittiva del campione. Rileviamo intanto le principali misure statistiche della variabile “Price($)”: Descriptive Statistics: Price($) Variable Price($) N 69 Mean 4,963 Median 4,790 TrMean 4,947 Variable Price($) Minimum 2,360 Maximum 7,800 Q1 3,890 Q3 6,275 StDev 1,447 SE Mean 0,174 Otteniamo così I principali indici statistici, che ci saranno utili per la divisione in classi e per lo studio della distribuzione di frequenza della nostra variabile. Con lo stesso procedimento utilizzato nella prima parte della relazione, calcoliamo il range dei dati e decidiamo in quante classi raggrupparli. Il RANGE vale: X max − X min nel nostro caso quindi vale: 7,8-2,36=5,44. Dividiamo quindi i dati in 6 classi. Approssimando il range a 6, otteniamo lassi di ampiezza: 6/6=1. Otteniamo quindi la seguente distribuzione delle frequenze: 18 classi di prezzi 1)2,00-2,99 2)3,00-3,99 3)4,00-4,99 4)5,00-5,99 5)6,00-6,99 6)7,00-7,99 N= Count CumCnt 7 7 13 20 16 36 13 49 14 63 6 69 69 Percent CumPct 10,14 10,14 18,84 28,99 23,19 52,17 18,84 71,01 20,29 91,30 8,70 100,00 Si può osservare che la massima frequenza si raggiunge nella classe 3. Se consideriamo le frequenze percentuali (colonna 3), la classe 3, che va dai 4,00 ai 4,99 dollari, è presente al 23,19%. E’ seguita: dalla classe 5, dai 6,00 ai 6,99 dollari, con il 20,29%; dalle classi 2 e 4, che vanno rispettivamente dai 3,00 ai 3,99 e dai 5,00 ai 5,99, con entrambe il 18,84%; dalla classe 1,dai 2,00 ai 2,99 dollari, con il 10,14%; e infine dalla classe 6, dai 7,00 ai 7,99 dollari, con l’8,7%. Vediamo più dell’80% delle informazioni sono distribuite nelle quattro classi centrali in maniera abbastanza omogenea, mentre poi le frequenze tendono a diminuire nelle due classi estreme. La distribuzione quindi sembra abbastanza simmetrica. Per vedere meglio la distribuzione di frequenze della nostra variabile, costruiamo l’istogramma relativo: ISTOGRAMMA DEI PREZZI FREQUENZE % 20 10 0 2 3 4 5 6 7 8 PREZZI ($) Dall’istogramma delle frequenze si vede come la distribuzione sia piuttosto simmetrica. Per una completa analisi, bisogna però analizzare gli indici statistici già rilevati nella tabella delle misure statistiche principali. Indici di posizione Media: nel nostro caso risulta essere pari a 4.963 dollari. Mediana: è 4.760 dollari. La mediana rilevata è minore della media, quindi in realtà la distribuzione della variabile prezzi è quella di una leggera asimmetria positiva. Moda: il valore più frequente è 4,02 dollari ( X + X min ) Midrange: Midrange = max , quindi: (7,8+2,36)/2=5,08 2 (Q − Q3 ) Media interquartile: MediaInterquartile = 1 , quindi: (3,89+6,275)=5,0825 2 19 Indici di variabilità Range: già calcolato, è uguale a 5.44 dollari Range interquartile: Range int erquartile = Q3 − Q1 , quindi: 6,275-3,89=2,385. E’ questo il livello di dispersione entrale dei dati. Varianza: approssimativamente è la media degli scarti di ciascuna osservazione dalla media: (X ) 2 −X S =∑ n −1 Scarto quadratico medio: ha la stessa funzione della varianza, ma ha il pregio di avere la stessa unità di misura dei dati misurati. Corrisponde alla radice quadrata della varianza e nel nostro caso corrisponde a: 1.447. Il valore basso dello scarto sta a significare che i dati non si discostano molto dalla media. Coefficiente di variazione: è un indice utile quando si devono confrontare insiemi di dati con unità di misura differenti; è dimensionale e vale: ⎛ ⎞ S CV = ⎜⎜ ⎟⎟ ⋅ 100 ≈ 30% ⎜ X ⎟ ⎝ ⎠ 2 i Misure di forma Misurano la simmetria o il tipo di asimmetria della distribuzione. Dagli indici calcolati si rileva la leggera asimmetria positiva già visibile dalle frequenze percentuali e dall’istogramma della variabile. Per un’analisi completa della situazione sarà utile introdurre anche il secondo grafico fondamentale per l’analisi di una variabile: il boxplot. BOXPLOT DELLA FREQUENZA DEI PREZZI 8 PREZZI ($) 7 6 5 4 3 2 TIPO DI BIRRA Da questo diagramma si può vedere che la linea della mediana è leggermente spostata verso il basso rispetto alla media (segnalata dal puntino nero dentro alla “scatola”), ciò genera l’asimmetria. Le linee verticali al di fuori della scatola, che vanno dai quartili al minimo e massimo, sono pressoché uguali. Questo ci fa pensare che la 20 distribuzione può essere considerata simmetrica, e quindi si può considerare la normalità della distribuzione dei gruppi. Questa assunzione però sarà specificata con più chiarezza quando verrà effettuata l’analisi della varianza. Terminata l’analisi descrittiva della nostra variabile risposta possiamo ora passare alla statistica inferenziale, che in questo caso coinciderà con l’analisi della varianza: l’ANOVA. • ANALISI DELLA VARIANZA: ANOVA ad una via Per confrontare le medie dei tre diversi campioni si utilizza una procedura di statistica inferenziale: l’ANOVA AD UNA VIA (dall’inglese Analysis Of Variance). Attraverso quest’analisi possiamo estendere le osservazioni fatte riguardo al campione a tutta la popolazione, e siamo in grado di trarre delle conclusioni circa le possibili differenze fra le medie dei diversi gruppi. Il nostro obiettivo è quindi quello di confrontare i diversi livelli di tipo di birra e vedere se inducono una differente risposta media nelle osservazioni. Per applicare tale procedura è necessario che siano verificate le seguenti assunzioni: - La raccolta dei dati deve avvenire attraverso “randomizzazione”: è una procedura che permette di associare ad ogni unità statistica un livello di fattore in maniera del tutto casuale. - La distribuzione della media campionaria deve approssimativamente essere una distribuzione normale. Il “Teorema del limite centrale” ci assicura che se le unità statistiche sono indipendenti le une dalle altre, la distribuzione è abbastanza simmetrica e la numerosità campionaria è superiore a 15, si può approssimare la distribuzione come una normale. Se invece la numerosità campionaria è superiore a 24-25, si può dire che la distribuzione è normale indipendentemente dalla sua forma reale. Il campione di riferimento in questo caso è composto da 69 unità statistiche, e presenta anche una forma piuttosto simmetrica. Si può senz’altro approssimare la sua distribuzione ad una normale. - I gruppi devono avere la stessa varianza. Molto importante è che le osservazioni derivano da una misurazione, e quindi quando applico un fattore fi (Type) il risultato di una misura yij (risposta) è soggetto ad una componente di errore casuale, per cui: Yij = μi + Eij Dove: i = indice dei livelli dei fattori, varia quindi da 1 a 5; j = indice della rilevazione che varia in base al tipo di fattore; Yij = risposta ottenuta nel rilevamento j con il fattore al livello i; μi = valore reale della misura al livello i; Eij = errore commesso nella rilevazione j con fattore i. A questo punto possiamo applicare la procedura, la quale consiste nel suddividere la variabilità totale delle osservazioni in una variabilità attribuibile tra i gruppi e una variabilità dovuta al caso inerente alle variazioni all’interno dei gruppi. 21 SVOLGIMENTO Prima di passare all’analisi di varianza vera e propria, possiamo confrontare i boxplot dei 5 tipi di birra. Boxplots of Price($) by Type (means are indicated by solid circles) 8 7 Price($) 6 5 4 3 5 4 3 2 Type 1 2 Nel grafico sono indicate con puntini rossi le medie dei vari tipi di birra. Le birre più economiche sono quelle del gruppo quattro, le bionde leggere, mentre le più costose sono invece quelle del gruppo due, cioè le scure doppio malto. Si nota inoltre che le distribuzioni dei tipi sono quasi tutte leggermente asimmetriche positive, poiché la media è maggiore della mediana; solamente il livello 4 presenta un’asimmetria negativa. Questo è anche il gruppo dove la media si distanzia di più dalla mediana. E’ invece il tipo di birra uno che presenta la maggiore variabilità. Dopo questa analisi, che ha solo una validità descrittiva, per determinare cosa succede realmente alla popolazione bisogna passare alla verifica di ipotesi. Il sistema di ipotesi, anche con questa procedura, è caratterizzato da un’ipotesi nulla e da un’ipotesi alternativa. Assumiamo che l’ipotesi nulla H0 sia che tutte le medie dei fattori siano tra loro uguali; nel caso in cui questo non sia vero, rifiuto H0 e accetto l’ipotesi alternativa H1 per cui esiste almeno un valore delle medie diverso: H 0 : μ1 = μ 2 = μ 3 = μ 4 = μ 5 H 1 = esiste almeno un μ i tale che μ i ≠ μ j ∀i, j i = j = 1,2,3,4,5 Risolvo il sistema attraverso una statistica test “F di Fisher o di Snedecor” e scelgo un livello di significatività pari a α = 0,05. Per utilizzare tale test è necessario studiare la variabilità dei dati. Si distinguono tre tipi di variabilità: - VARIABILITA’ TOTALE (SST): è la somma dei quadrati totali, ottenuta sommando i quadrati delle differenze tra ciascuna osservazione e la media complessiva: 22 c nj ( SST = ∑∑ Yij − Y j =1 i =1 2 ) dove: Y è la media complessiva Yij è l’osservazione i-esima del gruppo j-esimo n j è il numero di osservazioni del gruppo j-esimo Il numero di gradi di libertà di SST è n-1, dove n è il numero delle osservazioni, e cioè 69. La variabilità totale nel nostro caso presenta 68 gradi di libertà. - VARIABILITA’ TRA GRUPPI (SSA): rappresenta la variabilità attribuibile alle differenze tra i gruppi (tipi di birra), e si ottiene sommando i quadrati delle differenze tra le medie campionarie di ciascun gruppo e la media complessiva: ∑ n ⋅ (Y i =1 j ) 2 c j −Y dove: Y j è la media del gruppo j-esimo. I gradi di libertà di SSA sono c-1, dove c è il numero dei livelli di fattore, che nel caso delle birre sono cinque. - VARIABILITA’ TRA I GRUPPI (SSW): rappresenta la variabilità dovuta al caso e inerente alle variazioni all’interno dei gruppi. Si ottiene sommando i quadrati delle differenze tra ciascuna osservazione e la media del gruppo di appartenenza: c nj ( SSW = ∑∑ Yij − Y j =1 i =1 2 ) I gradi di libertà di SSW sono n-c. La relazione che lega i tre tipi di variabilità è: SST = SSA + SSW. Si può calcolare la statistica F per l’ANOVA, ma prima bisogna calcolare le medie dei quadrati degli indici di variabilità appena analizzati: MSA = SSA c −1 MSW = SSW n−c MST = SST n −1 F= MSA MSW La nostra statistica presenta quindi una distribuzione con (c-1,n-c) gradi di libertà. Studiamo la varianza ad una via con un metodo molto più semplice: invece di svolgere tutti i calcoli sopra descritti, utilizziamo il software MINITAB, come abbiamo già fatto per tutte le altre analisi: One-way ANOVA: Price($) versus Type Analysis of Variance for Price($) Source DF SS MS Type 4 87,314 21,828 Error 64 54,970 0,859 Total 68 142,284 Level 1 2 3 4 5 N 13 17 10 16 13 Pooled StDev = Mean 4,8562 6,4965 5,8240 3,6044 4,0754 0,9268 StDev 1,1960 0,7557 0,9027 0,6273 1,1340 F 25,41 P 0,000 Individual 95% CIs For Mean Based on Pooled StDev ----+---------+---------+---------+-(---*----) (---*---) (----*---) (---*---) (---*---) ----+---------+---------+---------+-3,6 4,8 6,0 7,2 23 Il p-value (P) è minore del livello di significatività scelto (0,00<0,05), quindi rifiuto l’ipotesi nulla. Questo significa che il costo dei cinque diversi tipi di birra è diverso. A questo punto bisogna confrontare i risultati ottenuti per determinare quale sia il tipo di birra più conveniente. Per fare ciò si utilizza un procedimento detto “stima puntuale” Per ottenere questa informazione uso il criterio dei minimi quadrati,con il quale si ricava la stima i-esima: τ i = Yi − Y Trovo così le seguenti cinque stime: τ 1 = stima puntuale del tipo 1 τ 2 = stima puntuale del tipo 2 τ 3 = stima puntuale del tipo 3 τ 4 = stima puntuale del tipo 4 τ 5 = stima puntuale del tipo 5 Questo procedimento viene utilizzato solamente quando c’è differenza tra le medie. Questo vuol dire che si passa a valutare questa stima solo quando si rifiuta l’ipotesi nulla. Il grafico che rappresenta tutto ciò è: Main Effects Plot - Data Means for Price($) 6,5 Price($) 5,5 4,5 3,5 1 2 3 4 5 Type Come avevamo già osservato dai boxplot il tipo di birra più economico risulta essere proprio il 4, e cioè quello formato dalle birre bionde leggere. Anche la stima puntuale, però, ha solo una valenza descrittiva. Bisogna verificare se quanto visto vale anche per l’intera popolazione. Ancora una volta utilizziamo quindi la statistica inferenziale, e in particolare un procedimento detto “confronti multipli a coppie”: 24 Tukey's pairwise comparisons Family error rate = 0,0500 Individual error rate = 0,00662 Critical value = 3,97 Intervals for (column level mean) - (row level mean) 1 2 3 2 -2,5989 -0,6818 3 -2,0622 0,1265 -0,3644 1,7093 4 0,2803 2,2232 1,9859 3,7983 1,1709 3,2684 5 -0,2397 1,8012 1,4625 3,3796 0,6543 2,8429 4 -1,4424 0,5004 Con questo procedimento si effettuano confronti a coppie tra i prezzi di ciascun tipo di ⎛ c ⎞ c ⋅ (c − 1) birra, e il metodo utilizzato è quello di Turkey, che prevede ⎜⎜ ⎟⎟ = confronti. 2 ⎝n⎠ Questa procedura analizza se tra i diversi tipi di birra ci sono differenze significative oppure no. Quando gli intervalli riportati nella matrice comprendono lo zero, significa che non c’è una differenza significativa tra le risposte medie ottenute dai due tipi di birra considerati; quando lo zero non è invece compreso, allora la differenza è di una certa importanza. Abbiamo quindi: - confronto 1-2: differenza significativa tra i due tipi di birra; - confronto 1-3: differenza non significativa (-2,0622<0<0,1265) - confronto 1-4: differenza significativa - confronto 1-5: differenza non significativa (-0,2397<0<1,8012) - confronto 2-3: differenza non significativa (-0,3644<0<1,7093) - confronto 2-4: differenza significativa - confronto 2-5: differenza significativa - confronto 3-4: differenza significativa - confronto 3-5: differenza significativa - confronto 4-5: differenza non significativa (-1,4424<0<0,5004) I risultati ottenuti con i confronti multipli a coppie rispecchiano quelli tratti con le stime puntuali sul campione. • CONCLUSIONI Dopo queste analisi accurate, possiamo concludere che il tipo di birra più economico è il quattro, è cioè quello formato dalle bionde leggere. In realtà però non esistono grandi differenze tra queste birre e quelle del gruppo cinque, le ultra leggere. Sicuramente le più costose sono invece le birre scure del gruppo due, le quali differiscono significativamente dai gruppi 4 o 5. 25