Corso di
Statistica Computazionale
Prof.ssa Paola Vicard
Questa nota consiste per la maggior parte nella traduzione (con alcune modifiche e
integrazioni) da “Descriptive statistics” di J. Shalliker e C. Ricketts, 2000, University
of Plymouth
Questa nota si occupa dell’illustrazione dei metodi per il calcolo degli indici di
variabilità di una distribuzione. In particolare si vedrà l’uso di Excel per il calcolo:
i)
del campo di variazione (o range)
ii)
dello scarto interquartile
iii)
della varianza e della deviazione standard
Nell’illustrazione dei metodi useremo il file “esercizio4_dati.xls”.
Il campo di variazione (o range)
Siano x1,…,xK le diverse modalità osservate del carattere Indichiamo con xmax la
modalità massima osservata, ossia max(x1,…,xK), e con xmin la modalità minima
osservata, ossia min(x1,…,xK); allora il range è dato da
R = xmax − xmin
Consideriamo l’esempio nel foglio di lavoro “statura”. Osserviamo che nelle celle
F3:G4 abbiamo già calcolato l’altezza massima (in G3) e minima (in G4). Per
calcolare il range:
- nella cella F28 scrivere il titolo R=
- nella cella G28 scrivere la formula =G3 – G4
Nel nostro esempio si trova che il campo di variazione è 24,5.
Lo scarto interquartile
Esso è dato dalla differenza tra il terzo quartile e il primo quartile. In formule
Scarto interquartile = Q3 − Q1
abbiamo visto nella nota precedente come calcolare i quartili con Excel (nel caso di
distribuzioni sia unitarie sia di frequenze).
Il calcolo dello scarto interquartile, una volta calcolati Q1 e Q3, è molto semplice.
Consideriamo l’esempio nel foglio di lavoro “statura” e calcoliamo:
1) lo scarto interquartile esatto, ossia la differenza tra il terzo quartile (nella cella
G25) e il primo quartile (nella cella G24) ottenuti dalla distribuzione di unità
2) lo scarto interquartile approssimato, ossia la differenza tra il terzo quartile
approssimato (nella cella G27) e il primo quartile approssimato (nella cella
G26) ottenuti dalla distribuzione di frequenza del carattere raggruppato in
classi.
Per calcolare lo scarto interquartile
- nella cella F29 scrivere il titolo Scarto interquatile=
- nella cella G29 scrivere la formula =G25 – G24
Nel nostro esempio si trova che il campo di variazione è 8,2.
Per calcolare lo scarto interquartile approssimato
- nella cella F30 scrivere il titolo Scarto interquatile approssimato=
- nella cella G30 scrivere la formula =G27 – G26
Nel nostro esempio si trova che il campo di variazione è 8,7.
1
Corso di
Statistica Computazionale
Prof.ssa Paola Vicard
La varianza e la deviazione standard
Si ricordi che la varianza e la deviazione standard si possono calcolare quando il
carattere è quantitativo.
Vengono presentate separatamente l’analisi dei dati sotto forma di distribuzione per
unità e l’analisi dei dati sotto forma di distribuzione di frequenza.
Distribuzioni per unità
Data una distribuzione unitaria a1, a2, … , an, avente media aritmetica µ, la varianza
è data da
n
1 n
2 1
σ2 =
ai − µ ) =
a i2 − µ 2
(
n i =1
n i =1
le due formule sopra riportate sono del tutto equivalenti.
La deviazione standard è data dalla radice quadrata della varianza ossia
σ=
1 n
1 n 2
2
ai − µ ) =
ai − µ 2
(
n i =1
n i =1
anche in questo caso, le due formule sopra riportate sono del tutto equivalenti.
Consideriamo come esempio il data set contenuto nel foglio di lavoro “statura”.
Lavoriamo sulla lista dei dati (D4:D102).
Esiste una funzione statistica in Excel che calcola automaticamente la varianza di una
distribuzione data sotto forma di distribuzione unitaria.
Quindi per calcolare la varianza:
-
nella cella F31 scrivere il titolo Varianza=
-
nella cella G31 scrivere la formula =VAR.POP(D4:D102)
Nel nostro esempio con la funzione VAR.POP1 si ottiene σ 2 = 34,8 cm2
La funzione VAR.POP si riferisce al calcolo della varianza di una
popolazione e quindi trova applicazione nell’ambito della statistica descrittiva.
La funzione VAR, da non usare in questo caso, trova applicazione nell’ambito
1 n
2
ai − µ ) .
della statistica inferenziale e calcola la formula σ 2 =
(
n - 1 i =1
-
A questo punto potete anche cambiare il numero di cifre decimali che volete
siano visualizzate.
Per calcolare la deviazione standard:
-
nella cella F32 scrivere il titolo Deviazione standard=
-
nella cella G32 scrivere la formula =DEV.ST.POP(D4:D102)
1
Se non vi ricordate la funzione da usare: una volta posizionati nella cella G31, nella barra dei
comandi cliccare su Inserisci e nel menu che si apre scegliere Funzione. Si apre una finestra di
dialogo. In questa scegliere le funzioni statistiche (in questo modo vedrete la lista di tutte le
funzioni statistiche. In questa lista scegliere VAR.POP. Cliccare su OK. Si apre una nuova finestra di
dialogo. Nello spazio chiamato Num1 inserire l’intervallo in cui si trovano i dati (ossia D4:D102).
Cliccare su OK.
2
Corso di
Statistica Computazionale
Prof.ssa Paola Vicard
Alternativamente, se si è già calcolata la varianza, la deviazione standard
può essere calcolata come radice quadrata della varianza. Quindi, ad esempio,
nel nostro caso nella cella H32 basta scrivere la formula =RADQ(G31).
Nel nostro esempio sia con la funzione DEV.ST.POP sia con RADQ si
ottiene σ = 5,90 cm
La funzione DEV.ST.POP, come VAR.POP, trova applicazione nell’ambito
della statistica descrittiva.
-
A questo punto potete anche cambiare il numero di cifre decimali che volete
siano visualizzate.
Distribuzioni di frequenza
In molto casi può accadere che non si disponga della distribuzione per unità ma solo
della distribuzione di frequenza. Allora, come già visto per gli indici di posizione,
Excel non dispone di funzioni per il calcolo automatico.
Ricordiamo che data una generica distribuzione di frequenze
X
ni
fi
x1
n1
f1
xi
ni
fi
xK
nK
fK
avente media µ la varianza si definisce come segue
σ2 =
2
1 K
1 K 2
x
−
µ
n
=
(
) i n xi ni − µ 2
n i =1 i
i =1
se si usano le frequenze assolute o in modo equivalente
σ2 =
K
i =1
2
( xi − µ ) fi =
K
i =1
xi2 fi − µ 2
se si usano le frequenze relative.
Consideriamo per esempio il data set contenuto nel foglio di lavoro “Voto chiarezza”
del file “esercizio4_dati.xls”.
In particolare lavoriamo solo sulla tabella di frequenza (ignorando la lista di dati). I
calcoli per la media aritmetica sono stati eseguiti nella nota precedente e qui vengo
dati per assunti.
Il calcolo della varianza prevede (se si usa la formula nel riquadro azzurro)
1) il calcolo del prodotto tra il quadrato di ciascuna modalità e la sua rispettiva
frequenza
2) la somma dei prodotti eseguiti nel passo precedente
3) la divisione del totale per la numerosità della popolazione
4) la sottrazione a questo totale del quadrato della media aritmetica (abbiamo
visto il calcolo della media aritmetica per distribuzioni in classi nella nota
precedente).
Vediamo come fare con Excel
3
Corso di
Statistica Computazionale
-
Prof.ssa Paola Vicard
nella cella J6 scrivere il titolo x^2*freq.
nella cella J7 scrivere la formula =E7^2*F7 e trascinare la formula fino
a coprire la cella J13.
Nella cella J15 calcolare la somma del prodotti appena eseguiti usando il tasto
di somma automatica Σ oppure scrivendo =somma(J7:J13).
Nella cella E24 scrivere Varianza=
Nella cella F24 scrivere la formula =J15/F15-F22^2. Si ricordi che nella
cella F22 si trova le media aritmetica calcolata in precedenza.
A questo punto, se si vuole, è possibile cambiare il formato del numero.
Il risultato nel nostro esempio è 1,82.
Se volete potete verificare che il risultato che si ottiene in questo modo è lo
stesso che si otterrebbe utilizzando la funzione VAR.POP sulla lista dei dati in
C4:C55.
La deviazione standard a questo punto si calcola come radice quadrata della varianza:
- Nella cella E25 scrivere Deviazione standard=
- Nella cella F25 scrivere la formula =RADQ(F24).
Il risultato nel nostro esempio è 1,35.
-
Dati raggruppati in classi
Data la distribuzione di un carattere, avente media µ, raggruppato in classi
X
ni
fi
c0 – c1
n1
f1
ci-1 – ci
ni
fi
cK-1 – cK
nK
fK
esattamente come visto nel caso del calcolo della media aritmetica, per ogni classe ,
c +c
diciamo ci – 1 e ci, si calcola il suo valore centrale come segue: c xi = i −1 i . Quando
2
la classe è aperta allora si fanno opportune ipotesi sul valore rappresentativo della
classe.
La varianza si calcola con una delle quattro espressioni sotto riportate.
σ2 =
K
K
1 K
1 K
2
2
2
2
2
2
(
(
c xi − µ ) ni =
c xi − µ ) f i =
c xi ni − µ =
c xi f i − µ
n i =1
n
i =1
i =1
i =1
Consideriamo come esempio il data set contenuto nel foglio di lavoro “statura” del
file “esercizio4_dati.xls”.
In particolare lavoriamo solo sulla tabella di frequenza (ignorando la lista di dati).
Il calcolo della varianza in questo caso è approssimato visto che ogni classe viene
rappresentata dal suo valore centrale.
Il calcolo si svolge nei seguenti passi (se si usa la formula nel riquadro rosso)
1) calcolo del valore centrale di ciascuna classe (valore che chiamiamo qui
centro) – nel nostro esempio già disponiamo del valore centrale e quindi non è
necessario ricalcolarlo
2) calcolo del prodotto tra il quadrato del centro di ciascuna classe e la sua
rispettiva frequenza assoluta
3) somma dei prodotti eseguiti nel passo precedente
4
Corso di
Statistica Computazionale
Prof.ssa Paola Vicard
4) divisione del totale per la numerosità della popolazione
5) sottrazione a questo totale del quadrato della media aritmetica (abbiamo visto
il calcolo della media aritmetica per distribuzioni in classi nella nota
precedente).
6) divisione del totale per la numerosità della popolazione
Vediamo come fare con Excel
- nella cella O3 scrivere il titolo centro^2*freq.
- nella cella O4 scrivere la formula =J4^2*K4 e trascinare la formula fino
a coprire la cella O15.
- Nella cella O17 calcolare la somma del prodotti appena eseguiti usando il
tasto di somma automatica Σ oppure scrivendo =somma(O4:O15).
-
Nella cella F33 scrivere Varianza approssimata=
Nella cella G33 scrivere la formula =O17/K17-G22^2. Si ricordi che nella
cella G22 si trova le media aritmetica approssimata calcolata in precedenza.
A questo punto, se si vuole, è possibile cambiare il formato del numero.
La varianza approssimata nel nostro esempio è 34,7 cm2.
In questo caso si verifica che la varianza approssimata (calcolata a partire dalla
distribuzione in classi) differisce, sebbene di poco, dalla varianza calcolata a
partire dalla lista completa dei dati.
La deviazione standard a questo punto si calcola come radice quadrata della varianza:
- Nella cella F34 scrivere Deviazione standard approssimata=
- Nella cella G34 scrivere la formula =RADQ(G33).
Il risultato nel nostro esempio è 5,89 cm.
5