Corso di Statistica Computazionale Prof.ssa Paola Vicard Questa nota consiste per la maggior parte nella traduzione (con alcune modifiche e integrazioni) da “Descriptive statistics” di J. Shalliker e C. Ricketts, 2000, University of Plymouth Questa nota si occupa dell’illustrazione dei metodi per il calcolo degli indici di variabilità di una distribuzione. In particolare si vedrà l’uso di Excel per il calcolo: i) del campo di variazione (o range) ii) dello scarto interquartile iii) della varianza e della deviazione standard Nell’illustrazione dei metodi useremo il file “esercizio4_dati.xls”. Il campo di variazione (o range) Siano x1,…,xK le diverse modalità osservate del carattere Indichiamo con xmax la modalità massima osservata, ossia max(x1,…,xK), e con xmin la modalità minima osservata, ossia min(x1,…,xK); allora il range è dato da R = xmax − xmin Consideriamo l’esempio nel foglio di lavoro “statura”. Osserviamo che nelle celle F3:G4 abbiamo già calcolato l’altezza massima (in G3) e minima (in G4). Per calcolare il range: - nella cella F28 scrivere il titolo R= - nella cella G28 scrivere la formula =G3 – G4 Nel nostro esempio si trova che il campo di variazione è 24,5. Lo scarto interquartile Esso è dato dalla differenza tra il terzo quartile e il primo quartile. In formule Scarto interquartile = Q3 − Q1 abbiamo visto nella nota precedente come calcolare i quartili con Excel (nel caso di distribuzioni sia unitarie sia di frequenze). Il calcolo dello scarto interquartile, una volta calcolati Q1 e Q3, è molto semplice. Consideriamo l’esempio nel foglio di lavoro “statura” e calcoliamo: 1) lo scarto interquartile esatto, ossia la differenza tra il terzo quartile (nella cella G25) e il primo quartile (nella cella G24) ottenuti dalla distribuzione di unità 2) lo scarto interquartile approssimato, ossia la differenza tra il terzo quartile approssimato (nella cella G27) e il primo quartile approssimato (nella cella G26) ottenuti dalla distribuzione di frequenza del carattere raggruppato in classi. Per calcolare lo scarto interquartile - nella cella F29 scrivere il titolo Scarto interquatile= - nella cella G29 scrivere la formula =G25 – G24 Nel nostro esempio si trova che il campo di variazione è 8,2. Per calcolare lo scarto interquartile approssimato - nella cella F30 scrivere il titolo Scarto interquatile approssimato= - nella cella G30 scrivere la formula =G27 – G26 Nel nostro esempio si trova che il campo di variazione è 8,7. 1 Corso di Statistica Computazionale Prof.ssa Paola Vicard La varianza e la deviazione standard Si ricordi che la varianza e la deviazione standard si possono calcolare quando il carattere è quantitativo. Vengono presentate separatamente l’analisi dei dati sotto forma di distribuzione per unità e l’analisi dei dati sotto forma di distribuzione di frequenza. Distribuzioni per unità Data una distribuzione unitaria a1, a2, … , an, avente media aritmetica µ, la varianza è data da n 1 n 2 1 σ2 = ai − µ ) = a i2 − µ 2 ( n i =1 n i =1 le due formule sopra riportate sono del tutto equivalenti. La deviazione standard è data dalla radice quadrata della varianza ossia σ= 1 n 1 n 2 2 ai − µ ) = ai − µ 2 ( n i =1 n i =1 anche in questo caso, le due formule sopra riportate sono del tutto equivalenti. Consideriamo come esempio il data set contenuto nel foglio di lavoro “statura”. Lavoriamo sulla lista dei dati (D4:D102). Esiste una funzione statistica in Excel che calcola automaticamente la varianza di una distribuzione data sotto forma di distribuzione unitaria. Quindi per calcolare la varianza: - nella cella F31 scrivere il titolo Varianza= - nella cella G31 scrivere la formula =VAR.POP(D4:D102) Nel nostro esempio con la funzione VAR.POP1 si ottiene σ 2 = 34,8 cm2 La funzione VAR.POP si riferisce al calcolo della varianza di una popolazione e quindi trova applicazione nell’ambito della statistica descrittiva. La funzione VAR, da non usare in questo caso, trova applicazione nell’ambito 1 n 2 ai − µ ) . della statistica inferenziale e calcola la formula σ 2 = ( n - 1 i =1 - A questo punto potete anche cambiare il numero di cifre decimali che volete siano visualizzate. Per calcolare la deviazione standard: - nella cella F32 scrivere il titolo Deviazione standard= - nella cella G32 scrivere la formula =DEV.ST.POP(D4:D102) 1 Se non vi ricordate la funzione da usare: una volta posizionati nella cella G31, nella barra dei comandi cliccare su Inserisci e nel menu che si apre scegliere Funzione. Si apre una finestra di dialogo. In questa scegliere le funzioni statistiche (in questo modo vedrete la lista di tutte le funzioni statistiche. In questa lista scegliere VAR.POP. Cliccare su OK. Si apre una nuova finestra di dialogo. Nello spazio chiamato Num1 inserire l’intervallo in cui si trovano i dati (ossia D4:D102). Cliccare su OK. 2 Corso di Statistica Computazionale Prof.ssa Paola Vicard Alternativamente, se si è già calcolata la varianza, la deviazione standard può essere calcolata come radice quadrata della varianza. Quindi, ad esempio, nel nostro caso nella cella H32 basta scrivere la formula =RADQ(G31). Nel nostro esempio sia con la funzione DEV.ST.POP sia con RADQ si ottiene σ = 5,90 cm La funzione DEV.ST.POP, come VAR.POP, trova applicazione nell’ambito della statistica descrittiva. - A questo punto potete anche cambiare il numero di cifre decimali che volete siano visualizzate. Distribuzioni di frequenza In molto casi può accadere che non si disponga della distribuzione per unità ma solo della distribuzione di frequenza. Allora, come già visto per gli indici di posizione, Excel non dispone di funzioni per il calcolo automatico. Ricordiamo che data una generica distribuzione di frequenze X ni fi x1 n1 f1 xi ni fi xK nK fK avente media µ la varianza si definisce come segue σ2 = 2 1 K 1 K 2 x − µ n = ( ) i n xi ni − µ 2 n i =1 i i =1 se si usano le frequenze assolute o in modo equivalente σ2 = K i =1 2 ( xi − µ ) fi = K i =1 xi2 fi − µ 2 se si usano le frequenze relative. Consideriamo per esempio il data set contenuto nel foglio di lavoro “Voto chiarezza” del file “esercizio4_dati.xls”. In particolare lavoriamo solo sulla tabella di frequenza (ignorando la lista di dati). I calcoli per la media aritmetica sono stati eseguiti nella nota precedente e qui vengo dati per assunti. Il calcolo della varianza prevede (se si usa la formula nel riquadro azzurro) 1) il calcolo del prodotto tra il quadrato di ciascuna modalità e la sua rispettiva frequenza 2) la somma dei prodotti eseguiti nel passo precedente 3) la divisione del totale per la numerosità della popolazione 4) la sottrazione a questo totale del quadrato della media aritmetica (abbiamo visto il calcolo della media aritmetica per distribuzioni in classi nella nota precedente). Vediamo come fare con Excel 3 Corso di Statistica Computazionale - Prof.ssa Paola Vicard nella cella J6 scrivere il titolo x^2*freq. nella cella J7 scrivere la formula =E7^2*F7 e trascinare la formula fino a coprire la cella J13. Nella cella J15 calcolare la somma del prodotti appena eseguiti usando il tasto di somma automatica Σ oppure scrivendo =somma(J7:J13). Nella cella E24 scrivere Varianza= Nella cella F24 scrivere la formula =J15/F15-F22^2. Si ricordi che nella cella F22 si trova le media aritmetica calcolata in precedenza. A questo punto, se si vuole, è possibile cambiare il formato del numero. Il risultato nel nostro esempio è 1,82. Se volete potete verificare che il risultato che si ottiene in questo modo è lo stesso che si otterrebbe utilizzando la funzione VAR.POP sulla lista dei dati in C4:C55. La deviazione standard a questo punto si calcola come radice quadrata della varianza: - Nella cella E25 scrivere Deviazione standard= - Nella cella F25 scrivere la formula =RADQ(F24). Il risultato nel nostro esempio è 1,35. - Dati raggruppati in classi Data la distribuzione di un carattere, avente media µ, raggruppato in classi X ni fi c0 – c1 n1 f1 ci-1 – ci ni fi cK-1 – cK nK fK esattamente come visto nel caso del calcolo della media aritmetica, per ogni classe , c +c diciamo ci – 1 e ci, si calcola il suo valore centrale come segue: c xi = i −1 i . Quando 2 la classe è aperta allora si fanno opportune ipotesi sul valore rappresentativo della classe. La varianza si calcola con una delle quattro espressioni sotto riportate. σ2 = K K 1 K 1 K 2 2 2 2 2 2 ( ( c xi − µ ) ni = c xi − µ ) f i = c xi ni − µ = c xi f i − µ n i =1 n i =1 i =1 i =1 Consideriamo come esempio il data set contenuto nel foglio di lavoro “statura” del file “esercizio4_dati.xls”. In particolare lavoriamo solo sulla tabella di frequenza (ignorando la lista di dati). Il calcolo della varianza in questo caso è approssimato visto che ogni classe viene rappresentata dal suo valore centrale. Il calcolo si svolge nei seguenti passi (se si usa la formula nel riquadro rosso) 1) calcolo del valore centrale di ciascuna classe (valore che chiamiamo qui centro) – nel nostro esempio già disponiamo del valore centrale e quindi non è necessario ricalcolarlo 2) calcolo del prodotto tra il quadrato del centro di ciascuna classe e la sua rispettiva frequenza assoluta 3) somma dei prodotti eseguiti nel passo precedente 4 Corso di Statistica Computazionale Prof.ssa Paola Vicard 4) divisione del totale per la numerosità della popolazione 5) sottrazione a questo totale del quadrato della media aritmetica (abbiamo visto il calcolo della media aritmetica per distribuzioni in classi nella nota precedente). 6) divisione del totale per la numerosità della popolazione Vediamo come fare con Excel - nella cella O3 scrivere il titolo centro^2*freq. - nella cella O4 scrivere la formula =J4^2*K4 e trascinare la formula fino a coprire la cella O15. - Nella cella O17 calcolare la somma del prodotti appena eseguiti usando il tasto di somma automatica Σ oppure scrivendo =somma(O4:O15). - Nella cella F33 scrivere Varianza approssimata= Nella cella G33 scrivere la formula =O17/K17-G22^2. Si ricordi che nella cella G22 si trova le media aritmetica approssimata calcolata in precedenza. A questo punto, se si vuole, è possibile cambiare il formato del numero. La varianza approssimata nel nostro esempio è 34,7 cm2. In questo caso si verifica che la varianza approssimata (calcolata a partire dalla distribuzione in classi) differisce, sebbene di poco, dalla varianza calcolata a partire dalla lista completa dei dati. La deviazione standard a questo punto si calcola come radice quadrata della varianza: - Nella cella F34 scrivere Deviazione standard approssimata= - Nella cella G34 scrivere la formula =RADQ(G33). Il risultato nel nostro esempio è 5,89 cm. 5