Come calcolare i principali riassunti statistici di un insieme di dati Riprendiamo l’esempio sulla rilevazione dei ricavi della Società XXXX nell’anno 2000. Partiamo dalla prima soluzione, quella in cui avevamo ricavato la distribuzione di frequenza dei valori delle forniture ai clienti, considerando un raggruppamento dei dati in 12 classi tutte della stessa dimensione, pari a 5000. Apriamo il primo foglio di lavoro (quello denominato dati) del file esempio4.xls. Affrontiamo ora il problema del calcolo dei principali riassunti statistici della distribuzione, sia nel caso in cui si abbia a disposizione la distribuzione unitaria, cioè l’elenco completo dei singoli dati rilevati, sia quando invece si disponga direttamente della distribuzione di frequenza. Partiamo dalla situazione in cui sia disponibile l’elenco completo dei dati rilevati. Nel nostro caso sono elencati nelle colonne A, B e C. Vediamo come calcolare la media aritmetica dei ricavi per ogni fornitura. • nella casella E24 scrivi il titolo media= • nella casella F24 scrivi la formula =media(C4:C102) e premi invio Il valore della media aritmetica deve risultare 8045.7. Per individuare la mediana ed il primo e terzo quartile della distribuzione sappiamo che dobbiamo preliminarmente ordinare le modalità osservate in ordine crescente. Per farlo seleziona le colonne dalla A alla C. Nel menu principale seleziona dati, ordina ed in ordina per fai comparire colonna C agendo sulla freccia rivolta verso il basso (assicurati che sia selezionato crescente). Seleziona ok. Ricordando le definizioni, nel nostro caso la mediana è la modalità assunta dall’unità che occupa la posizione 50, cioè 6191; il primo quartile è la semisomma delle modalità assunte dalle unità che occupano la posizioni 25 e 26, cioè (3849 + 3914)/2 = 3881.5; il terzo quartile è la semisomma delle modalità assunte dalle unità che occupano la posizioni 74 e 75, cioè (9199 + 9288)/2 = 9243.5. In realtà possiamo chiedere direttamente ad Excel di calcolarci le stesse quantità. Prima dobbiamo ripristinare l’ordine originario dei valori. Il modo più veloce per farlo consiste nell’annullare l’ultima operazione effettuata, selezionando nel menu principale Modifica e poi Annulla Ordina. • nella casella E25 scrivi il titolo mediana= • nella casella F25 scrivi la formula =mediana(C4:C102) e premi invio Il valore della mediana, come sappiamo, deve risultare 6191. • nella casella E26 scrivi il titolo primo quartile= • nella casella F26 scrivi la formula =quartile(C4:C102;1) e premi invio • nella casella E27 scrivi il titolo terzo quartile= 1 • nella casella F27 scrivi la formula =quartile(C4:C102;3) e premi invio Il valore del primo quartile deve essere 3881.5 e quello del terzo quartile 9243.5. Per ottenere la differenza interquartilica • nella casella E28 scrivi il titolo differenza interquartilica= • nella casella F28 scrivi la formula =F27-F26 e premi invio Il risultato deve essere 5362. Sappiamo che la moda è la modalità più frequente. Per individuarla dobbiamo disporre della distribuzione di frequenze. In realtà nel caso di caratteri quantitativi, come il nostro, non ha senso parlare di modalià modale (i valori rilevati sono generalmente tutti diversi). Parliamo di classe modale. Guardando alla distribuzione di frequenze, la classe modale è (5000, 10000]. Per calcolare la varianza • nella casella E29 scrivi il titolo varianza= • nella casella F29 scrivi la formula =var.pop(C4:C102) e premi invio Il risultato deve essere 60977916.6. P Attenzione: var.pop calcola la formula ni=1 (xi − µ)2 /n (puoi anche verificare leggendo l’help del comando), cioè la varianza di un insieme di dati. Se il fine dell’analisi è solo descrittivo, come nel nostro caso, non bisogna usare var, che calcola P la formula ni=1 (xi − µ)2 /(n − 1). Conosceremo il suo utilizzo quando parleremo di inferenza statistica. Per calcolare la deviazione standard • nella casella E30 scrivi il titolo deviazione standard= • nella casella F30 scrivi la formula =dev.st.pop(C4:C102) e premi invio. In alternativa avremmo potuto scrivere nella casella F30 la formula =radq(F29), che ci avrebbe fornito la deviazione standard come radice quadrata della varianza. Il risultato deve essere 7808.8. Qui valgono raccomandazioni analoghe a quelle fatte nel caso della varianza: devi usare dev.st.pop, che calcola la radice quadrata di var.pop e non dev.st, che calcola la radice quadrata di var. Supponiamo adesso di dover calcolare i precedenti riassunti di un insieme di dati nel caso in cui disponiamo direttamente della distribuzione di frequenza. Sappiamo che quando, come nel nostro caso, il campo di variazione del carattere nella popolazione è suddiviso in classi, in assenza di altre informazioni, di solito supponiamo che le unità si distribuiscano in ciascuna classe in modo uniforme. Sulla base di questa ipotesi possiamo calcolarci un valore approssimato delle quantità richieste, come vedremo tra breve. 2 Nella casella F23 scrivi il titolo valori esatti (nella caselle sottostanti sono contenuti i valori dei riassunti statistici calcolati sulla base dei dati analitici), nella casella G23 scrivi il titolo valori approssimati (fr.ass.) e nella casella H23 scrivi il titolo valori approssimati (fr.rel.) (nelle caselle sottostanti andremo ad inserire i valori dei riassunti statistici ottenuti rispettivamente sulla base della distribuzione di frequenze assolute e relative). I valori approssimati risulteranno tanto più vicini ai valori esatti quanto più i dati verificheranno l’ipotesi di uniforme distribuzione nelle classi. Sappiamo che per il calcolo della media aritmetica e della varianza procediamo sostituendo a ciascuna classe di modalità (xi−1 , xi ] il corrispondente valore centrale, cioè la semisomma degli estremi: x̃i = xi−1 + xi 2 i = 1, 2, . . . , k. La media aritmetica µ si ottiene attraverso le formule Pn µ= i=1 ni · x̃i n µ= n X fi · x̃i i=1 e la varianza σ 2 da 2 σ = Pn i=1 ni · x̃2i − µ2 n σ2 = n X fi · x̃2i − µ2 i=1 a seconda che si disponga delle frequenze assolute (ni ; i = 1, 2, . . . , k) o delle frequenze relative (fi ; i = 1, 2, . . . , k). Nell’esempio già disponiamo dei valori centrali delle classi. Se cosı̀ non fosse stato, avremmo chiaramente dovuto calcolarli. Consideriamo prima il caso della distribuzione di frequenze assolute. Per calcolare il numeratore della media aritmetica • nella casella J7 scrivi il titolo fr. ass. x val. centr. • nella casella J8 scrivi la formula =F8*G8 e premi invio • copia la formula nelle caselle sottostanti fino alla casella J19 • evidenzia la casella J20 e somma il contenuto delle caselle sovrastanti (seleziona il simbolo Σ nel menu principale e premi invio. Il risultato deve essere 787500. La media aritmetica si ottiene scrivendo nella casella G24, dopo averla selezionata, =J20/G20. Il risultato deve essere 7954.5. Per il calcolo della varianza • nella casella K7 scrivi il titolo fr. ass. x val. centr. al quadr. • nella casella K8 scrivi la formula =(F8^2)*G8 e premi invio 3 • copia la formula nelle caselle sottostanti fino alla casella K19 • evidenzia la casella K20 e somma il contenuto delle caselle sovrastanti (seleziona il simbolo Σ nel menu principale e premi invio. Il risultato deve essere 12368750000. • nella casella G29 scrivi =K20/G20-G24^2 e premi invio. Il risultato deve essere 61662075.3 Per ottenere la deviazione standard, basta scrivere nella casella G30 la formula =radq(G29). Il risultato deve essere 7852.5 Se disponiamo della distribuzione di frequenze relative, le operazioni da effettuare sono del tutto analoghe, tranne piccoli aggiustamenti. Per calcolare la media aritmetica • nella casella L7 scrivi il titolo fr. rel. x val. centr. • nella casella L8 scrivi la formula =F8*H8 e premi invio • copia la formula nelle caselle sottostanti fino alla casella H19 • evidenzia la casella H20 e somma il contenuto delle caselle sovrastanti (seleziona il simbolo Σ nel menu principale e premi invio. Hai ottenuto la media aritmetica. Il risultato deve essere 7954.5 Scrivi =H20 nella casella H24. Per il calcolo della varianza • nella casella M7 scrivi il titolo fr. rel. x val. centr. al quadr. • nella casella M8 scrivi la formula =(F8^2)*H8 e premi invio • copia la formula nelle caselle sottostanti fino alla casella M19 • evidenzia la casella M20 e somma il contenuto delle caselle sovrastanti (seleziona il simbolo Σ nel menu principale e premi invio. Il risultato deve essere 124936868.7. • nella casella H29 scrivi =M20-H24^2 e premi invio. Il risultato deve essere 61662075.3 Per ottenere la deviazione standard, basta scrivere nella casella H30 la formula =radq(H29). Il risultato deve essere 7852.5 Passiamo infine al calcolo dei quartili. Coerentemente con quanto visto nella parte teorica, facciamo riferimento alla funzione di ripartizione empirica, che negli estremi delle classi assume il valore delle frequenze relative cumulate. Possiamo chiaramente calcolare i quartili anche sulla base della distribuzione di frequenze assolute, tuttavia non abbiamo considerato in dettaglio le formule per non appesantire eccessivamente la trattazione. 4 Ricordiamo che se (xi−1 , xi ] è la classe mediana, il valore della mediana M e si ricava attraverso M e = xi−1 + (xi − xi−1 ) 0.5 − F (xi−1 ) . F (xi ) − F (xi−1 ) In modo analogo, se (xj−1 , xj ] è la classe in cui cade il primo quartile Q1 , il suo valore si trova come Q1 = xj−1 + (xj − xj−1 ) 0.25 − F (xj−1 ) . F (xj ) − F (xj−1 ) Infine, se (xk−1 , xk ] è la classe in cui cade il terzo quartile Q3 , il suo valore si trova come 0.75 − F (xk−1 ) Q3 = xk−1 + (xk − xk−1 ) . F (xk ) − F (xk−1 ) Per calcolare le frequenze relative cumulate • seleziona la colonna I ed inserisci una colonna • nella casella I7 scrivi il titolo frequenze relative cumulate • nella casella I8 scrivi la formula =somma($H$8:H8) e premi invio • copia la formula nelle caselle sottostanti fino alla casella I19 Se avessi dovuto ricavarla a partire dalla distribuzione di frequenze assolute, nella casella I8 avresti scritto la formula =somma($G$8:G8)/G20. Il primo quartile cade nella classe (0, 5000], mentre la mediana ed il terzo quartile cadono entrambi nella classe (5000, 10000]. • nella casella H25 scrivi la formula =E8+(E9-E8)*(0.5-I8)/(I9-I8) e premi invio • nella casella H26 scrivi la formula =E8*0.25/I8 e premi invio • nella casella H27 scrivi la formula =E8+(E9-E8)*(0.75-I8)/(I9-I8) e premi invio • nella casella H28 scrivi la formula =H27-H26 e premi invio I risultati sono rispettivamente 6686.0, 3535.7, 9564.0, e 6028.2 Formatta le caselle dalla F24 alla H30 come valuta, senza simbolo ed una sola cifra decimale. Nel riportare i risultati una precisione eccessiva non migliora l’interpretazione dell’analisi ed a volte può anche essere fuorviante. Di solito, dopo aver costruito una distribuzione di frequenza ed eventualmente aver calcolato gli opportuni riassunti statistici, possiamo essere interessati a riportarli in un foglio di lavoro separato. 5 Per inserire un nuovo foglio di lavoro nello stesso file nel menu principale seleziona Inserisci e poi foglio di lavoro. Se vuoi cambiare l’ordine dei fogli di lavoro nel menu principale seleziona Modifica e poi sposta o copia foglio. Consideriamo il caso in cui siamo interessati a copiare sul nuovo foglio la sola distribuzione di frequenze relative. Non basta copiare le colonne di interesse ed incollarle nel nuovo foglio perché quelli che a noi appaiono come i valori delle frequenze relative sono in realtà per Excel delle formule che hanno significato solo insieme ai dati originali. Prova a selezionare la casella H8 ed a premere sul tasto sinistro del mouse. Dobbiamo allora copiare ed incollare nel nuovo foglio di lavoro anche le colonne che contengono i singoli dati. Per semplicità ricopiamo l’intero contenuto del foglio. Seleziona la casella vuota presente all’incrocio della prima riga e della prima colonna del foglio su cui hai lavorato fino a questo momento e copia il contenuto. Ora seleziona la stessa casella del foglio di lavoro appena inserito ed incolla. Prima di procedere all’eliminazione di quanto non ci interessa, bisogna eliminare la dipendenza delle frequenze relative dai dati originali. • Seleziona le casella dalla H8 alla H20 • nel menu principale seleziona Modifica e copia • lasciando selezionate le stesse caselle, seleziona Modifica ed incolla speciale • in incolla seleziona valori e poi ok Se adesso selezioni una qualsiasi delle frequenze relative e premi sul tasto sinistro del mouse avrai la conferma che ora sono dei numeri, non più legati da una formula ai dati originali. Ora puoi cancellare tutto il resto. 6