Come calcolare i principali riassunti statistici di un insieme di dati

Come calcolare i principali riassunti statistici di un insieme
di dati
Riprendiamo l’esempio sulla rilevazione dei ricavi della Società XXXX nell’anno
2000. Partiamo dalla prima soluzione, quella in cui avevamo ricavato la distribuzione
di frequenza dei valori delle forniture ai clienti, considerando un raggruppamento dei
dati in 12 classi tutte della stessa dimensione, pari a 5000.
Apriamo il primo foglio di lavoro (quello denominato dati) del file esempio4.xls.
Affrontiamo ora il problema del calcolo dei principali riassunti statistici della
distribuzione, sia nel caso in cui si abbia a disposizione la distribuzione unitaria, cioè
l’elenco completo dei singoli dati rilevati, sia quando invece si disponga direttamente
della distribuzione di frequenza.
Partiamo dalla situazione in cui sia disponibile l’elenco completo dei dati rilevati.
Nel nostro caso sono elencati nelle colonne A, B e C.
Vediamo come calcolare la media aritmetica dei ricavi per ogni fornitura.
• nella casella E24 scrivi il titolo media=
• nella casella F24 scrivi la formula =media(C4:C102) e premi invio
Il valore della media aritmetica deve risultare 8045.7.
Per individuare la mediana ed il primo e terzo quartile della distribuzione
sappiamo che dobbiamo preliminarmente ordinare le modalità osservate in ordine
crescente. Per farlo seleziona le colonne dalla A alla C. Nel menu principale seleziona
dati, ordina ed in ordina per fai comparire colonna C agendo sulla freccia rivolta
verso il basso (assicurati che sia selezionato crescente). Seleziona ok.
Ricordando le definizioni, nel nostro caso la mediana è la modalità assunta
dall’unità che occupa la posizione 50, cioè 6191; il primo quartile è la semisomma
delle modalità assunte dalle unità che occupano la posizioni 25 e 26, cioè (3849 +
3914)/2 = 3881.5; il terzo quartile è la semisomma delle modalità assunte dalle unità
che occupano la posizioni 74 e 75, cioè (9199 + 9288)/2 = 9243.5.
In realtà possiamo chiedere direttamente ad Excel di calcolarci le stesse quantità.
Prima dobbiamo ripristinare l’ordine originario dei valori. Il modo più veloce per
farlo consiste nell’annullare l’ultima operazione effettuata, selezionando nel menu
principale Modifica e poi Annulla Ordina.
• nella casella E25 scrivi il titolo mediana=
• nella casella F25 scrivi la formula =mediana(C4:C102) e premi invio
Il valore della mediana, come sappiamo, deve risultare 6191.
• nella casella E26 scrivi il titolo primo quartile=
• nella casella F26 scrivi la formula =quartile(C4:C102;1) e premi invio
• nella casella E27 scrivi il titolo terzo quartile=
1
• nella casella F27 scrivi la formula =quartile(C4:C102;3) e premi invio
Il valore del primo quartile deve essere 3881.5 e quello del terzo quartile 9243.5.
Per ottenere la differenza interquartilica
• nella casella E28 scrivi il titolo differenza interquartilica=
• nella casella F28 scrivi la formula =F27-F26 e premi invio
Il risultato deve essere 5362.
Sappiamo che la moda è la modalità più frequente.
Per individuarla
dobbiamo disporre della distribuzione di frequenze. In realtà nel caso di caratteri
quantitativi, come il nostro, non ha senso parlare di modalià modale (i valori
rilevati sono generalmente tutti diversi). Parliamo di classe modale. Guardando
alla distribuzione di frequenze, la classe modale è (5000, 10000].
Per calcolare la varianza
• nella casella E29 scrivi il titolo varianza=
• nella casella F29 scrivi la formula =var.pop(C4:C102) e premi invio
Il risultato deve essere 60977916.6.
P
Attenzione: var.pop calcola la formula ni=1 (xi − µ)2 /n (puoi anche verificare
leggendo l’help del comando), cioè la varianza di un insieme di dati. Se il fine
dell’analisi è solo descrittivo, come nel nostro caso, non bisogna usare var, che calcola
P
la formula ni=1 (xi − µ)2 /(n − 1). Conosceremo il suo utilizzo quando parleremo di
inferenza statistica.
Per calcolare la deviazione standard
• nella casella E30 scrivi il titolo deviazione standard=
• nella casella F30 scrivi la formula =dev.st.pop(C4:C102) e premi invio.
In alternativa avremmo potuto scrivere nella casella F30 la formula
=radq(F29), che ci avrebbe fornito la deviazione standard come radice
quadrata della varianza.
Il risultato deve essere 7808.8.
Qui valgono raccomandazioni analoghe a quelle fatte nel caso della varianza:
devi usare dev.st.pop, che calcola la radice quadrata di var.pop e non dev.st, che
calcola la radice quadrata di var.
Supponiamo adesso di dover calcolare i precedenti riassunti di un insieme di dati
nel caso in cui disponiamo direttamente della distribuzione di frequenza.
Sappiamo che quando, come nel nostro caso, il campo di variazione del carattere
nella popolazione è suddiviso in classi, in assenza di altre informazioni, di solito
supponiamo che le unità si distribuiscano in ciascuna classe in modo uniforme. Sulla
base di questa ipotesi possiamo calcolarci un valore approssimato delle quantità
richieste, come vedremo tra breve.
2
Nella casella F23 scrivi il titolo valori esatti (nella caselle sottostanti sono
contenuti i valori dei riassunti statistici calcolati sulla base dei dati analitici), nella
casella G23 scrivi il titolo valori approssimati (fr.ass.) e nella casella H23 scrivi
il titolo valori approssimati (fr.rel.) (nelle caselle sottostanti andremo ad inserire
i valori dei riassunti statistici ottenuti rispettivamente sulla base della distribuzione
di frequenze assolute e relative). I valori approssimati risulteranno tanto più vicini
ai valori esatti quanto più i dati verificheranno l’ipotesi di uniforme distribuzione
nelle classi.
Sappiamo che per il calcolo della media aritmetica e della varianza procediamo
sostituendo a ciascuna classe di modalità (xi−1 , xi ] il corrispondente valore centrale,
cioè la semisomma degli estremi:
x̃i =
xi−1 + xi
2
i = 1, 2, . . . , k.
La media aritmetica µ si ottiene attraverso le formule
Pn
µ=
i=1
ni · x̃i
n
µ=
n
X
fi · x̃i
i=1
e la varianza σ 2 da
2
σ =
Pn
i=1
ni · x̃2i
− µ2
n
σ2 =
n
X
fi · x̃2i − µ2
i=1
a seconda che si disponga delle frequenze assolute (ni ; i = 1, 2, . . . , k) o delle
frequenze relative (fi ; i = 1, 2, . . . , k).
Nell’esempio già disponiamo dei valori centrali delle classi. Se cosı̀ non fosse
stato, avremmo chiaramente dovuto calcolarli.
Consideriamo prima il caso della distribuzione di frequenze assolute.
Per calcolare il numeratore della media aritmetica
• nella casella J7 scrivi il titolo fr. ass. x val. centr.
• nella casella J8 scrivi la formula =F8*G8 e premi invio
• copia la formula nelle caselle sottostanti fino alla casella J19
• evidenzia la casella J20 e somma il contenuto delle caselle sovrastanti
(seleziona il simbolo Σ nel menu principale e premi invio.
Il risultato deve essere 787500.
La media aritmetica si ottiene scrivendo nella casella G24, dopo averla
selezionata, =J20/G20. Il risultato deve essere 7954.5.
Per il calcolo della varianza
• nella casella K7 scrivi il titolo fr. ass. x val. centr. al quadr.
• nella casella K8 scrivi la formula =(F8^2)*G8 e premi invio
3
• copia la formula nelle caselle sottostanti fino alla casella K19
• evidenzia la casella K20 e somma il contenuto delle caselle sovrastanti
(seleziona il simbolo Σ nel menu principale e premi invio. Il risultato deve
essere 12368750000.
• nella casella G29 scrivi =K20/G20-G24^2 e premi invio.
Il risultato deve essere 61662075.3
Per ottenere la deviazione standard, basta scrivere nella casella G30 la formula
=radq(G29). Il risultato deve essere 7852.5
Se disponiamo della distribuzione di frequenze relative, le operazioni da effettuare
sono del tutto analoghe, tranne piccoli aggiustamenti.
Per calcolare la media aritmetica
• nella casella L7 scrivi il titolo fr. rel. x val. centr.
• nella casella L8 scrivi la formula =F8*H8 e premi invio
• copia la formula nelle caselle sottostanti fino alla casella H19
• evidenzia la casella H20 e somma il contenuto delle caselle sovrastanti
(seleziona il simbolo Σ nel menu principale e premi invio.
Hai ottenuto la media aritmetica. Il risultato deve essere 7954.5 Scrivi =H20 nella
casella H24.
Per il calcolo della varianza
• nella casella M7 scrivi il titolo fr. rel. x val. centr. al quadr.
• nella casella M8 scrivi la formula =(F8^2)*H8 e premi invio
• copia la formula nelle caselle sottostanti fino alla casella M19
• evidenzia la casella M20 e somma il contenuto delle caselle sovrastanti
(seleziona il simbolo Σ nel menu principale e premi invio. Il risultato deve
essere 124936868.7.
• nella casella H29 scrivi =M20-H24^2 e premi invio.
Il risultato deve essere 61662075.3
Per ottenere la deviazione standard, basta scrivere nella casella H30 la formula
=radq(H29). Il risultato deve essere 7852.5
Passiamo infine al calcolo dei quartili. Coerentemente con quanto visto
nella parte teorica, facciamo riferimento alla funzione di ripartizione empirica,
che negli estremi delle classi assume il valore delle frequenze relative cumulate.
Possiamo chiaramente calcolare i quartili anche sulla base della distribuzione di
frequenze assolute, tuttavia non abbiamo considerato in dettaglio le formule per
non appesantire eccessivamente la trattazione.
4
Ricordiamo che se (xi−1 , xi ] è la classe mediana, il valore della mediana M e si
ricava attraverso
M e = xi−1 + (xi − xi−1 )
0.5 − F (xi−1 )
.
F (xi ) − F (xi−1 )
In modo analogo, se (xj−1 , xj ] è la classe in cui cade il primo quartile Q1 , il suo
valore si trova come
Q1 = xj−1 + (xj − xj−1 )
0.25 − F (xj−1 )
.
F (xj ) − F (xj−1 )
Infine, se (xk−1 , xk ] è la classe in cui cade il terzo quartile Q3 , il suo valore si trova
come
0.75 − F (xk−1 )
Q3 = xk−1 + (xk − xk−1 )
.
F (xk ) − F (xk−1 )
Per calcolare le frequenze relative cumulate
• seleziona la colonna I ed inserisci una colonna
• nella casella I7 scrivi il titolo frequenze relative cumulate
• nella casella I8 scrivi la formula =somma($H$8:H8) e premi invio
• copia la formula nelle caselle sottostanti fino alla casella I19
Se avessi dovuto ricavarla a partire dalla distribuzione di frequenze assolute, nella
casella I8 avresti scritto la formula =somma($G$8:G8)/G20.
Il primo quartile cade nella classe (0, 5000], mentre la mediana ed il terzo quartile
cadono entrambi nella classe (5000, 10000].
• nella casella H25 scrivi la formula =E8+(E9-E8)*(0.5-I8)/(I9-I8) e premi
invio
• nella casella H26 scrivi la formula =E8*0.25/I8 e premi invio
• nella casella H27 scrivi la formula =E8+(E9-E8)*(0.75-I8)/(I9-I8) e
premi invio
• nella casella H28 scrivi la formula =H27-H26 e premi invio
I risultati sono rispettivamente 6686.0, 3535.7, 9564.0, e 6028.2
Formatta le caselle dalla F24 alla H30 come valuta, senza simbolo ed una
sola cifra decimale. Nel riportare i risultati una precisione eccessiva non migliora
l’interpretazione dell’analisi ed a volte può anche essere fuorviante.
Di solito, dopo aver costruito una distribuzione di frequenza ed eventualmente
aver calcolato gli opportuni riassunti statistici, possiamo essere interessati a
riportarli in un foglio di lavoro separato.
5
Per inserire un nuovo foglio di lavoro nello stesso file nel menu principale seleziona
Inserisci e poi foglio di lavoro. Se vuoi cambiare l’ordine dei fogli di lavoro nel
menu principale seleziona Modifica e poi sposta o copia foglio.
Consideriamo il caso in cui siamo interessati a copiare sul nuovo foglio la sola
distribuzione di frequenze relative. Non basta copiare le colonne di interesse ed
incollarle nel nuovo foglio perché quelli che a noi appaiono come i valori delle
frequenze relative sono in realtà per Excel delle formule che hanno significato solo
insieme ai dati originali. Prova a selezionare la casella H8 ed a premere sul tasto
sinistro del mouse.
Dobbiamo allora copiare ed incollare nel nuovo foglio di lavoro anche le colonne
che contengono i singoli dati. Per semplicità ricopiamo l’intero contenuto del
foglio. Seleziona la casella vuota presente all’incrocio della prima riga e della
prima colonna del foglio su cui hai lavorato fino a questo momento e copia il
contenuto. Ora seleziona la stessa casella del foglio di lavoro appena inserito ed
incolla. Prima di procedere all’eliminazione di quanto non ci interessa, bisogna
eliminare la dipendenza delle frequenze relative dai dati originali.
• Seleziona le casella dalla H8 alla H20
• nel menu principale seleziona Modifica e copia
• lasciando selezionate le stesse caselle, seleziona Modifica ed incolla speciale
• in incolla seleziona valori e poi ok
Se adesso selezioni una qualsiasi delle frequenze relative e premi sul tasto sinistro
del mouse avrai la conferma che ora sono dei numeri, non più legati da una formula
ai dati originali.
Ora puoi cancellare tutto il resto.
6