LEZIONI IN LABORATORIO Corso di MARKETING L. Baldi Università degli Studi di Milano Strumenti statistici in Excell Pacchetto “Analisi di dati” Strumenti di analisi: • • • • • • • • • • • • • • • • • • • Analisi varianza: ad un fattore Analisi varianza: a due fattori con replica Analisi varianza: a due fattori senza replica Correlazione Covarianza Statistica descrittiva Smorzamento esponenziale Test F a due campioni per varianze Analisi di Fourier Istogramma Media mobile Generazione di un numero casuale Rango e percentile Regressione Campionamento Test t: due campioni accoppiati per le medie Test t: due campioni assumendo uguale varianza Test t: due campioni assumendo varianze diverse Test z: due campioni accoppiati per le medie 2 strumento: Statistica descrittiva (cenni) Media: si ottiene dividendo la somma dei valori di una variabile per il numero dei dati n. Errore standard (della media): misura dell’incertezza sulla stima della media (dipende da n) Mediana: valore che divide a metà i dati dell’insieme Moda: valore che si presenta con maggiore frequenza Deviazione standard: misura di variabilità, è la radice quadrata della varianza Varianza campionaria: misura di variabilità; media degli scarti (differenza tra ogni valore della variabile e la media) elevati al quadrato Curtosi: misura la “pesantezza” delle code delle distribuzioni simmetriche di freq./probabilità. Se le code sono più pesanti della Gaussiana, allora la curtosi è positiva. Code “leggere” = curtosi negativa. Asimmetria: identifica la mancanza di simmetria in una distribuzione di freq./prob. L'asimmetria positiva indica una distribuzione con una coda asimmetrica che si estende verso i valori più positivi. L'asimmetria negativa indica una distribuzione con una coda asimmetrica che si estende verso i valori più negativi. Intervallo: differenza tra valore max e min. Minimo: valore minimo Massimo: valore massimo Somma: somma di tutti i valori della variabile Conteggio: numero dei valori della variabile Più grande(k): k-esimo valore più grande Più piccolo(k): k-esimo valore più piccolo Livello di confidenza(95,0%): misura dell’affidabilità della stima della media 3 Strumento: Istogramma Consente di calcolare le frequenze individuali e cumulative per un intervallo di celle e di classi di dati. Permette di avere una prima indicazione della distribuzione di frequenza/probabilità di una serie di dati. La distribuzione delle frequenze è dipendente dalle classi scelte. Opzioni della finestra di dialogo Istogramma: •intervallo di classe (facoltativo): immettere un intervallo di celle contenente un insieme di valori limite che definiscano gli intervalli delle classi 4 Strumento: test T per il confronto tra due campioni (cenni!) •Tale strumento permette di confrontare le medie di due popolazioni rappresentate da due campioni. •I test si basano sull’ipotesi che: - le popolazioni seguano una distribuzione di probabilità gaussiana - i campioni siano casuali e indipendenti - le varianze delle popolazioni siano uguali 5 Strumento: test T per il confronto tra due campioni (cenni!) •Per svolgere il test è necessario fissare una ipotesi (chiamata ipotesi nulla) che afferma l’uguaglianza dei due campioni (test a due code). •Il valore del test T permette di rifiutare o non rifiutare tale ipotesi. • l’excel fornisce il valore del test “stat t” e il “valore critico di t”, quest’ultimo utilizzato per arrivare alla decisione statistica. •Se stat t < t critico allora non rifiuto l’ipotesi nulla (i due campioni sono uguali) •Se stat t > t critico allora rifiuto l’ipotesi nulla (i due campioni sono diversi) 6 Strumento:Correlazione (cenni) Il coefficiente di correlazione r misura la forza e il tipo di relazione lineare tra due variabili quantitative. L’excel può fornire anche una matrice di coefficienti di correlazione (basta inserire nell’intervallo di input più di due variabili) Se r= -1 => perfetta relazione negativa Se r=1=> perfetta relazione positiva. Se r=0 => relazione nulla 7 Strumento:Regressione (cenni) IL MODELLO DI REGRESSIONE LINEARE SEMPLICE Relazioni statiche-deterministiche... Relazioni statistiche.... Relazione deterministica tra il costo totale di un ordine e il numero di pezzi ordinati Relazione statistica tra profitti e spese pubblicitarie 2 8 REGRESSIONE (cenni) •L’obiettivo della R.L.S. è: -trovare un’equazione lineare che descriva la relazione tra due variabili X e Y. •La relazione tra X e Y, ovvero il modello di regressione lineare semplice, è descritto da: y = β0 + β1 x + ε • ε: variabile casuale, detta errore. • I coefficienti β0 e β1 vengono stimati dall’excell con il metodo dei minimi quadrati ordinari (OLS) • E’ possibile considerare più variabili x (regressione multivariata) REGRESSIONE (cenni) I risultati di una regressione devono essere giudicati essenzialmente in due livelli: • “bontà di adattamento del modello”: misurabile mediante il valore di R2 (coefficiente di determinazione lineare) che deve tendere al valore 1. • valore del test t di Student che dovrebbe assumere un valore pari circa a due.