Corso di Statistica Computazionale Prof.ssa Paola Vicard Questa nota consiste perlopiù nella traduzione da “Descriptive statistics” di J. Shalliker e C. Ricketts, 2000, University of Plymouth Consideriamo come esempio il data set contenuto nel foglio excel “esercizio2_dati.xls”. Il data set si riferisce a 99 studenti di cui è stata rilevata la statura in cm. Creazione guidata del grafico Barra dei comandi Somma automatica Tasto di incolla funzione Figura 1. Costruzione della distribuzione di frequenza Per costruire una distribuzione di frequenze, come prima cosa occorre la statura massima e la statura minima rilevate. (In generale occorre conoscere la modalità massima e la modalità minima osservate nella nostra popolazione). Vediamo come si fa: - nelle celle F3 scrivere il titolo MAX= e nella cella F4 scrivere il titolo MIN= - nella cella G3 scrivere la formula =MAX(D4:D102) e nella ella G4 scrivere la formula =MIN(D4:D102) nel nostro esempio il massimo è 183.3 e il minimo è 158.8. Nota: in alternativa il massimo e il minimo possono essere calcolati usando le funzioni implementate in Excel. Per fare ciò occorre cliccare sull’icona , selezionare le funzioni statistiche e tra queste scegliere MAX (se si desidera calcolare il massimo) 1 Corso di Statistica Computazionale Prof.ssa Paola Vicard oppure MIN (se si desidera calcolare il minimo)1. In entrambi i casi si apre una finestra di dialogo. Nella linea chiamata 1 scrivere D4:D102e poi cliccare OK. Una volta trovate le stature massima e minima, occorre passare alla suddivisione in classi dell’intervallo di osservazione [158.8, 183.3]. la scelta del numero delle classi è piuttosto soggettiva ed in generale dipende dall’obiettivo dell’analisi statistica. Come visto nel corso di Statistica, le classi possono essere di uguale ampiezza o di ampiezza diversa. Qui consideriamo il caso di classi di uguale ampiezza. Supponiamo che nel nostro esempio si decida di avere 12 classi. Una volta stabilito il numero di classi e che queste hanno uguale ampiezza, possiamo passare a definire queste classi. Visto che min=158.8 e max=183.3, possiamo considerare che il carattere statura assume valore compresi tra 158cm e 185 cm; quindi l’ampiezza dell’intervallo con cui il carattere si può manifestare (questo intervallo è detto range) è pari a 27cm. - Nella cella F6 scrivere Range= - Nella cella G6 scrivere la formula =27 - Nella cella F7 scrivere Ampiezza classi= - Nella cella G7 scrivere la formula =G6/12. Come risultato si ottiene 2.25 - nella cella I3 scrivere il titolo Estremo superiore Statura - nella cella I4 scrivere l’estremo della prima classe ossia 160.25 (osservate che 160.25 è ottenuto 158+ampiezza classe ossia 158+2.25) - nella cella I5 scrivere l’estremo superiore della seconda classe ossia 162.5 (osservate che 162.5 è ottenuto come estremo superiore della prima classe+ampiezza classe=160.25+2.25) - selezionare le celle I4:I5 e spostare il cursore sull’angolo in basso a destra dello spazio selezionato. Quando il cursore appare come una crocetta, premere il tasto sinistro del mouse e trascinare il cursore fino a coprire la cella I15. Lasciando il mouse si otterranno come risultato gli estremi superiori di tutte le classi, ossia 160.25, 162.5, 164.75,..., 185. Nota: alternativamente (e in modo equivalente) gli estremi superiori delle classi possono essere calcolati come segue: - nella cella I4 scrivere l’estremo della prima classe ossia =158+G7 (ossia 158+ampiezza classe; ottenete 160.25) - nella cella I5 scrivere =I4+G$7 ossia estremo superiore della prima classe+ampiezza classe (ottenete 162.5) - Posizionare il cursore nell’angolino in basso a destra della cella I5 in modo che il cursore stesso diventi una crocetta - Quando il cursore appare come una crocetta cliccare e tenere premuto trascinando la formula fino a coprire la cella I15. Scritte le classi, occorre passare al calcolo delle frequenze. - Nella cella J3 scrivere il titolo Frequenza 1 Se l’icona non è presente nella barra degli strumenti, è possibili cliccare su Inserisci e nel menu che si apre scegliere Funzione. Si apre una finestra di dialogo. In questa scegliere le funzioni statistiche e tra questa scegliere Max o Min a seconda che si debba calcolare il massimo o il minimo. Si noti che Excel dispone di un elevato numero di funzioni tra cui scegliere proprio usando Inserisci/Funzione. 2 Corso di Statistica Computazionale - Prof.ssa Paola Vicard Selezionare le celle J4:J16 (ossia selezionare una cella in più di quante sono le classi; questa aggiunta è utile quando si analizzano dati continui perché la classe aggiuntiva può contenere valori maggiore dell’estremo superiore scelto) Scrivere la formula =FREQUENZA(D4:D102;I4:I15) e premere contemporaneamente i tasti Ctrl e Invio. La lista delle frequenze apparirà nelle celle J4:J16. Notare che Excel inserisce in ciascuna classe quelle osservazioni (nel nostro esempio, stature) che sono minori o uguali dell’estremo superiore della classe associata (ossia sulla stessa riga). Nella figura di seguito vedete come appare il risultato finale nel foglio Excel. Per completare la tabella possiamo inserire il totale. - nella cella I17 scrivere Totale - nella cella J17 usare il tasto di somma automatica Σ Premendo questo tasto equivale a scrivere la funzione =SOMMA(J4:J16) e si ottiene il totale. Il totale deve essere uguale al numero complessivo di studenti di cui è stata rilevata la statura, ossia 99. Rappresentazione della distribuzione di frequenza mediante istogramma Impariamo a rappresentare una distribuzione di frequenze mediante un istogramma. L’istogramma somiglia nel sua aspetto a un diagramma a barre ma si differenza in modo sostanziale nella definizione concettuale (che avete studiato nel corso di 3 Corso di Statistica Computazionale Prof.ssa Paola Vicard Statistica). Queste differenze si manifestano anche nella costruzione pratica dell’istogramma mediante il software Excel. Le principali differenze sono: 1) le colonne (barre) non devono essere separate da spazi vuoti (ossia le colonne devono essere contigue) perché i dati analizzati sono continui 2) per come abbiamo costruito la distribuzione di frequenza, ogni colonna si riferisce ad un intervallo (classe) di valori e nella distribuzione è etichettata con l’estremo superiore. Da un punto di vista grafico questo è scorretto e quindi nella rappresentazione dobbiamo etichettare ciascuna classe con il suo valore centrale e non con l’estremo superiore. Quindi occorre calcolare il valore centrale di ogni classe e porre questo nel grafico. Vediamo innanzitutto come calcolare il valore centrale delle classi. - cliccare sull’intestazione della colonna J, ossia proprio dove è scritta la lettera J (vedrete che si seleziona automaticamente tutta la colonna J). Nella barra dei comandi cliccare su Inserisci e nel menu che si apre cliccare su Colonne (in questo modo avete spostato la colonna delle frequenze alla colonna K lasciando libera la colonna J dove calcolerete i valori centrali) - nella cella J3 scrivere il titolo Valore centrale - nella cella J4 scrivere la formula =I4-G7/2 il valore centrale è dato dall’estremo superiore meno la semiampiezza della classe. - nella cella J5 scrivere la formula =(I5+I4)/2 (questa è la media tra estremo superiore e inferiore della classe) - copiare la formula trascinandola fino alle cella J15 - nella cella J16 scrivere Oltre Nota: il metodo sopra illustrato per calcolare il valore centrale delle classi vali in generale (ossia per classi di uguale e di diversa ampiezza). Se, come nel nostro esempio, le classi sono di uguale ampiezza, i valori centrali delle classi possono essere calcolati anche più velocemente. Vediamo come: - nella cella J3 scrivere il titolo Valore centrale - nella cella J4 scrivere la formula =I4-G$7/2 il valore centrale è dato dall’estremo superiore meno la semiampiezza della classe. - Posizionare il cursore nell’angolino in basso a destra della cella J4 in modo che il cursore stesso diventi una crocetta - Quando il cursore appare come una crocetta cliccare e tenere premuto trascinando la formula fino a coprire la cella J15. - nella cella J16 scrivere Oltre Produrre l’istogramma delle frequenze (si possono rappresentare le frequenze perché le classi sono di uguale ampiezza) nelle celle K3:K16 (titolo incluso) usando i valori centrali come etichette dell’asse X. - selezionare le celle K3:K16 (includendo nella selezione anche il titolo) - cliccare sull’icona di creazione guidata del grafico per aprire la prima finestra di dialogo Passo 1 - Controllare che la pagina attiva sia Tipi standard - Tra le opzioni in Tipo di grafico selezionare Istogramma 4 Corso di Statistica Computazionale Prof.ssa Paola Vicard Selezionare la prima tra le Scelte disponibili nella parte destra della finestra di dialogo - Cliccare su Avanti Passo 2 - Controllare che la pagina attiva sia Intervallo dati - Confermare nello spazio sotto il grafico che Intervallo dati e Serie siano in Colonne - Sempre all’interno della stessa finestra di dialogo cambiare pagina e passare da Intervallo dati a Serie - Nella parte in basso di questa finestra cliccare nello spazio bianco posto accanto alla dicitura Etichette asse categorie (X). Le etichette sono le modalità del carattere (ossia, nel nostro esempio, i valori in J4:J16) - per inserire le etichette di X, cliccare sulla freccetta rossa alla destra dello spazio bianco accanto alla dicitura Etichette asse categorie (X). - Selezionare le celle J4:J16 e premere Invio - Cliccare su Avanti Passo 3 - Sulla pagina Titoli, scrivere il Titolo del grafico (nel nostro esempio distribuzione di 99 studenti per statura); scrivere il nome dell’Asse delle categorie (X) (nel nostro esempio Statura); scrivere il nome dell’Asse dei valori (Y) (nel nostro esempio n° di studenti) - Sulla pagina Assi, confermare che Asse delle categorie (X) è fissato su Automatico - Sulla pagina Griglia, deselezionare tutte i tipi di griglie - Sulla pagina Legenda, deselezionare l’opzione Mostra legenda - Sulla pagina Etichette dati, assicurarsi che sia selezionato Assente - Sulla pagina Tabella dati assicurarsi che Mostra tabella dati non sia selezionato - Cliccare su Avanti Passo 4 - Posiziona il grafico Come oggetto in, ossia nel foglio di lavoro corrente - Cliccare su Fine - Terminata questa fase, è ancora necessario apportare delle modifiche al grafico in modo da: 1) eliminare gli spazi vuoti tra le colonne 2) rendere chiara l’associazione tra il segmentino sull’asse orizzontale ed i valori centrali. Vediamo come fare. Innanzitutto, se, quando si seleziona il grafico, la barra degli strumenti per editare il grafico è ancora aperta chiuderla cliccando sulla piccola x nell’angolo in alto a destra. Come modificare l’area del grafico - Cliccare sull’area del tracciato (per fare questo posizionare il cursore nell’area all’interno degli assi evitando le colonne e poi cliccare) - Nella barra dei comandi cliccare su Formato. Nel menu che si apre cliccare su Area del tracciato. Si apre una finestra di dialogo chiamata Motivo. - Tra le opzioni per Bordo, scegliere Assente - Tra le opzioni per Area scegliere Assente - Cliccare su OK 5 Corso di Statistica Computazionale Prof.ssa Paola Vicard Come eliminare lo spazio tra le colonne: - cliccare su una delle colonne del grafico - nella barra dei comandi cliccare su Formato. Nel menu che si apre cliccare su Serie dei dati selezionati. Si apre una finestra di dialogo chiamata Formato serie dati. - Tra le pagine disponibili in questa finestra scegliere Opzioni. - Nello spazio destinato a Spazio tra le barre inserire 0 - Cliccare su OK Sistemazione dei segmentini sull’asse delle X. - posizionare il cursore sull’asse orizzontale e cliccare - Nella barra dei comandi cliccare su Formato. Nel menu che si apre cliccare su Asse selezionato. Si apre una finestra di dialogo chiamata. - Nella pagina Motivo: 1) tra le opzioni per Segno di graduazione principale, scegliere Interno 2) tra le opzioni per Segno di graduazione secondario, scegliere Interseca - nella pagina Allineamento fissare Orientamento a 90° - Cliccare su OK Alla fine di questa procedura otterrete il grafico seguente: Altro 183.88 181.63 179.38 177.13 174.88 172.63 170.38 168.13 165.88 163.63 161.38 16 14 12 10 8 6 4 2 0 159.13 n° studenti Distribuzione di 99 studenti per statura Statura Figura 2 Se non si è soddisfatti del grafico, è possibile anche cambiare la divisione in classi. In tal caso, è necessario ricostruire ex novo la tabella di frequenza e quindi il grafico. Le frequenze relative e percentuali Torniamo alla nostra distribuzione di frequenze. Osserviamo che le frequenze che abbiamo calcolato usando la funzione FREQUENZA di Excel sono le frequenze 6 Corso di Statistica Computazionale Prof.ssa Paola Vicard assolute. A partire da queste è molto semplice calcolare anche le frequenze relative e le frequenze percentuali. Basta seguire gli stessi passi visti nella nota 1 per il caso dei caratteri quantitativi discreti. In sostanza, torniamo quindi al nostro foglio excel. Sappiamo che nella cella K17 si trova il totale. Quindi non ci resta che calcolare le frequenze relative dividendo ogni frequenza assoluta per il totale delle osservazioni (ossia 99). - Nella cella L3 scrivere il titolo Freq. Rel. - posizionarsi nella cella L4 e scrivere la formula =K4/K$17 - Posizionare il cursore nell’angolino in basso a destra della cella L4 in modo che il cursore stesso diventi una crocetta - Quando il cursore appare come una crocetta cliccare e tenere premuto trascinando la formula fino a coprire la cella L16. Possiamo controllare di avere eseguito correttamente questo calcolo, facendo la somma delle frequenze relative. Infatti, sappiamo che questa somma è sempre pari a uno. A questo scopo - nella cella L17 usare il tasto di somma automatica Σ . Così si esegue in automatico il calcolo della funzione =SOMMA(L4:L16) e si ottiene il totale. Il totale deve essere uguale 1. Ricordiamo i passaggi per il calcolo delle frequenze percentuali. - Nella cella M3 scrivere il titolo Freq. % - posizionarsi nella cella M4 e scrivere la formula =L4*100 - Posizionare il cursore nell’angolino in basso a destra della cella M4 in modo che il cursore stesso diventi una crocetta Quando il cursore appare come una crocetta cliccare e tenere premuto trascinando la formula fino a coprire la cella M16. Controllare che l’operazione sia stata bene eseguita calcolando il totale. Ossia nella cella M17 usare il tasto di somma automatica Σ . Così si esegue in automatico il calcolo della funzione =SOMMA(M4:M16) e si ottiene il totale. Il totale deve essere uguale 100. Costruzione della distribuzione di frequenze e del grafico usando il comando Istogramma. Un metodo alternativo per la costruzione di tabelle di frequenze e di istogrammi consiste nell’uso del comando Istogramma. Il comando Istogramma fa parte di quegli strumenti di Analisi dei dati che si rendono disponibili una volta installati cliccando, nella barra dei comandi, su Strumenti e scegliendo nel menu Componenti aggiuntivi. Una volta cliccato su componenti aggiuntivi si apre una finestra di dialogo. Controllare che sia selezionata la casellina relativa a Strumenti di analisi (se è già selezionata, mantenerla selezionata). Fatto ciò, cliccare su OK. Anche il comando istogramma si basa sull’uso degli estremi superiori delle classi. Pertanto gli estremi superiori possono essere ricavati esattamente come visto a pag.2 della presente nota. 7 Corso di Statistica Computazionale Prof.ssa Paola Vicard Possiamo quindi fare riferimento ai fini dell’illustrazione di questo metodo alla lista Estremo superiore statura che si trova nelle celle I3:I15 (titolo incluso). Vediamo come procedere. - nella barra dei comandi cliccare su Strumenti - dal menu che si apre cliccare su Analisi dati - nella lista degli strumenti di analisi selezionare Istogramma e premere OK Si apre una finestra di dialogo in cui occorre inserire una serie di informazioni per la costruzione della tabella e del grafico: - per quanto riguarda Intervallo di input, posizionarsi nello spazio bianco accanto e cliccare sulla freccetta rossa a destra dello spazio bianco. Selezionare tutte le celle D3:D102 relative alla lista delle stature (titolo incluso). Premere Invio - per quanto riguarda Intervallo della classe, posizionarsi nello spazio bianco accanto e cliccare sulla freccetta rossa a destra dello spazio bianco. Selezionare tutte le celle I3:I15 relative alla lista degli estremi superiori delle classi (titolo incluso). Premere Invio - selezionare la casellina accanto ad Etichette (in questo modo si esprime che nelle liste di dati fornite nei due passi precedenti sono stati inclusi anche i titoli) - inseriamo l’output in un nuovo foglio di lavoro e quindi controlliamo che sia selezionata l’opzione Nuovo foglio di lavoro - infine non resta che selezionare l’output grafico desiderato. Ai nostri fini basta selezionare la casella Grafico in output - Premere OK. A differenza dell’istogramma prodotto con il metodo precedente, questo riporta sull’asse delle X gli estremi superiori delle classi. Per una migliore rappresentazione, ossia per ottenere un risultato come quello mostrato in Figura 2, è necessario - sostituire nella tabella di frequenza data in output dal comando Istogramma i valori degli estremi superiori delle classi con i valori centrali (nel caso in cui detti valori centrali non siano stati calcolati, calcolarli usando il metodo visto a pag. 4 di questa nota). Come fare questa sostituzione. a) Una volta calcolati i valori centrali (nel nostro esempio consideriamo quelli nel foglio di lavoro dati nelle celle per J3:J15, titolo incluso) ricopiarli. Per fare questo occorre selezionare le celle J3:J15 nel foglio dati, cliccare su Modifica e poi scegliere nel menu Copia. b) Quanto copiato va poi incollato nel foglio di lavoro dove è l’output del metodo istogramma (nel nostro esempio abbiamo chiamato questo foglio metodo “Istogramma”). Passare al foglio di lavoro metodo “Istogramma”. Cliccare sulla cella A1 (ossia la cella con il titolo Estremo superiore Statura) quindi cliccare su Modifica e poi scegliere nel menu Incolla speciale. A questo punto si apre una finestra di dialogo e nello spazio dedicato a Incolla selezionare Valori. Premere OK. - Effettuare tutte le modifiche viste a pag. 5 della presente nota per: modificare l’area del grafico, eliminare lo spazio tra le colonne, sistemare i segmentini sull’asse delle X. Osservazione 1: qualunque dei due metodi illustrati venga usato per costruire la tabella, Excel lavora assumendo implicitamente che ciascuna classe sia aperta a 8 Corso di Statistica Computazionale Prof.ssa Paola Vicard sinistra (ossia l’estremo inferiore sia escluso) e sia chiusa a destra (ossia l’estremo superiore è incluso nella classe). Osservazione 2: la funzione Istogramma consente anche: 1) di calcolare le frequenze percentuali cumulate e 2) di costruire la funzione di ripartizione. Per fare questo basta selezionare nella finestra di dialogo di Istogramma, oltre a Grafico in output, anche Percentuale cumulativa. Classi di ampiezza diversa Quanto illustrato fino ad ora si riferisce al caso di caratteri quantitativi raggruppati in classi di uguale ampiezza. Consideriamo ora il caso di classi di ampiezza diversa. Ricordiamo che come valore minimo abbiamo assunto 158cm e come valore massimo 185cm. Prendiamo come estremi superiori i seguenti valori: 162, 165, 167, 169, 171, 173, 175, 177, 179, 182, 185. - nella cella P3 scrivere il titolo Estremo superiore Statura - nella cella P4 scrivere l’estremo della prima classe ossia 162 (ossia l’ampiezza della prima classe è 4). - nella cella P5 scrivere l’estremo superiore della seconda classe ossia 165 (ossia l’ampiezza della prima classe è 3) - nella cella P6 scrivere 167 (ossia l’ampiezza della prima classe è 2). - Procedere nello stesso modo inserendo uno dopo l’altro gli estremi superiori fino a riempire la cella P14. Scritte le classi, occorre passare al calcolo delle frequenze ripetendo quanto visto a pag. 2 della presente nota. Ricapitolando: - Nella cella Q3 scrivere il titolo Frequenza - Selezionare le celle Q4:Q15 (ossia selezionare una cella in più di quante sono le classi) - Scrivere la formula =FREQUENZA(D4:D102;P4:P14) e premere contemporaneamente i tasti Ctrl e Invio. La lista delle frequenze apparirà nelle celle Q4:Q15. Excel non consente di effettuare un corretta rappresentazione grafica della distribuzione con classi diverse. Questo perché non dispone della possibilità di produrre grafici a colonne di base diversa. Noi potremmo, pertanto, anche calcolare le densità ma poi non abbiamo lo strumento grafico adeguato. Limitiamoci a vedere come calcolare le densità. Supponiamo di essere interessati in particolare al calcolo delle densità relative. Si ricordi che la densità relativa per la generica classe i è definita come segue: densità relativa classe i = freq. rel.classe i ampiezza classe i = freq. ass.classe i n ⋅ ampiezza classe i Innanzitutto costruiamo la colonna per l’ampiezza delle classi. - nella cella R3 scrivere il titolo Ampiezza - nella cella R4 scrivere l’ampiezza della prima classe. Questa può essere calcolata usando una formula. Si ricordi che abbiamo fissato pari a 158 l’estremo inferiore potenzialmente osservabile. Allora l’ampiezza della prima 9 Corso di Statistica Computazionale - Prof.ssa Paola Vicard classe si calcola scrivendo =P4–158 (ossia come differenza tra estremo superiore ed estremo inferiore della classe) nella cella R5 scrivere l’ampiezza della seconda classe usando la formula =P5–P4 (ossia, anche qui, calcolando la differenza tra estremo superiore ed estremo inferiore della classe) le ampiezze delle altre classi possono essere calcolate trascinando la formula. Trascinare la formula scritta nella cella R5 fino a coprire la cella R14. Avendo calcolato le ampiezze, possiamo costruire la colonna delle densità. Questo può essere fatto o calcolando prima la colonna delle frequenze relative e poi le densità oppure calcolando direttamente la densità. Dal momento che abbiamo già visto varia volte come calcolare le frequenze relative, consideriamo la seconda opzione e quindi calcoliamo direttamente le densità2. - nella cella S3 scrivere il titolo Densità relativa - nella cella S4 scrivere la formula =Q4/(Q$17*R4). Abbiamo messo il $ davanti al codice di riga di Q17 perché nella cella Q17 si trova il totale. - Posizionare il cursore nell’angolo in basso a destra di S4 in modo che il cursore diventi una crocetta. Cliccare e tenere premuto trascinando la formula fino a coprire la cella S14. 2 Rimane inteso che, qualora si scegliesse la prima opzione, il risultato finale sarebbe lo stesso. 10