Corso di Statistica Computazionale Prof.ssa Paola Vicard Questa nota consiste perlopiù nella traduzione da “Descriptive statistics” di J. Shalliker e C. Ricketts, 2000, University of Plymouth Consideriamo come esempio il data set contenuto nel foglio excel “esercizio1_dati.xls”. Il data set si riferisce a 52 studenti intervistati in merito alla chiarezza del docente. Ogni studente doveva dare un voto alla chiarezza del docente. Il voto è compreso tra 1 e 7. Creazione guidata del grafico Barra dei comandi Somma automatica Tasto di incolla funzione Figura 1. Ordinamento dei dati Per avere una prima impressione in merito ai giudizi che gli studenti hanno dato al docente, può essere utile ordinare i dati in base al carattere rilevato (nel nostro esempio il voto). Excel consente di trattare i nostri dati come una lista. Possiamo mettere in ordine una lista di numeri. Per fare questo usiamo il comando ordina. Vediamo come fare: - Posizionare, cliccando, il cursore in una cella della lista da ordinare - nella barra dei comandi cliccare su dati - quindi, nel menu che si apre, cliccare su ordina (Excel seleziona automaticamente tutta le righe e colonne contigue che contengono i dati in lista). 1 Corso di Statistica Computazionale Prof.ssa Paola Vicard Si apre una finestra di dialogo. Con riferimento a ordina per, selezionare la variabile rispetto a cui si vuole ordinare (ossia nel nostro esempio voto chiarezza) - Cliccare su ordinamento crescente - Controllare che sia selezionato intervallo dati con riga di intestazione. - Cliccare su OK. Terminata questa operazione, si vedrà che i dati sono in ordine crescente dal voto più basso al voto più alto. Questa operazione consenta, tra l’altro, di vedere qual è il voto più basso che è stato dato e qual è il voto più alto. Nota: quando si esegue l’operazione di ordinamento il voto dato rimane associato allo studente che ha dato quel voto. Questo fa sì che non si perda l’associazione unitàmodalità. - Costruzione della distribuzione di frequenza Per costruire una distribuzione di frequenze, come prima cosa occorre conoscere l’altezza massima e l’altezza minima osservata che. (In generale occorre conoscere la modalità massima e la modalità minima osservate nella nostra popolazione). Vediamo come si fa: - nelle celle E3 scrivere il titolo MAX= e nella cella E4 scrivere il titolo MIN= - nella cella F3 scrivere la formula =MAX(C4:C55) e nella ella F4 scrivere la formula =MIN(C4:C55) nel nostro esempio il massimo è 7 e il minimo è 1. Nota: in alternativa il massimo e il minimo possono essere calcolati usando le funzioni implementate in Excel. Per fare ciò occorre cliccare sull’icona , selezionare le funzioni statistiche e tra queste scegliere MAX (se si desidera calcolare il massimo) oppure MIN (se si desidera calcolare il minimo). In entrambi i casi si apre una finestra di dialogo. Nella linea chiamata 1 scrivere C4:C55 e poi cliccare OK. Una volta trovati il massimo e il minimo voto dato, sappiamo che i possibili voti dati alla chiarezza del docente sono: 1 (che è il minimo), 2,3, 4, 5, 6 e 7 (che è il massimo). Possiamo creare le etichette delle righe (ossia le modalità del carattere “voto”) della distribuzione di frequenza. Vediamo come fare: - nella cella E6 scrivere il titolo voto sulla chiarezza - nelle celle E7:E13 (ossia da E7 a E13 estremi inclusi) scrivere i numeri 1, 2, 3, 4, 5, 6, 7 (in particolare 1 va scritto in E7, 2 in E8, 3 in E9,..., 7 in E13) Queste etichette sono chiamate classi perché l’idea dietro la costruzione della nostra tabella di frequenza è quella di classificare gli studenti in base al voto che hanno dato al docente. Scritte le classi, occorre passare al calcolo delle frequenze. - Nella cella F6 scrivere il titolo Frequenza - Selezionare le celle F7:F13 - Scrivere la formula =FREQUENZA(C4:C55;E7:E13) ma non premere il tasto Invio - Per fare in modo che la formula calcoli tutte le frequenze della distribuzione (ossia calcoli i valori corrispondenti a tutte le celle selezionate F7:F13), 2 Corso di Statistica Computazionale Prof.ssa Paola Vicard occorre tenere premuti allo stesso tempo i tasti e Ctrl e premere anche il tasto Invio. (La funzione FREQUENZA è di tipo matriciale e quindi produce il risultato per un blocco di celle. Il comando inserito abbiamo visto che è =FREQUENZA(C4:C55;E7:E13); il blocco di celle C4:C55 è l’origine dei dati, ossia la lista dei voti dati dagli studenti; il blocco di celle E7:E13 sono le classi, ossia le modalità del carattere voto a cui associare le frequenze; l’uso congiunto di /Ctrl/Invio produce una formula matriciale che si applica a tutte le celle selezionate.) Nella figura di seguito vedete come appare il risultato finale nel foglio Excel. In particolare, poi, se stiamo scrivendo un rapporto sui risultati di un’analisi statistica, da questo foglio copiamo solo la tabella e la incolliamo in un documento di testo ed apparirà come segue. Voto chiarezza Frequenza 1 1 2 1 3 2 4 6 5 8 6 21 7 13 Torniamo ad occuparci della tabella in Excel. Per completare la tabella possiamo inserire il totale. Vediamo come fare: - nella cella E15 scrivere Totale 3 Corso di Statistica Computazionale - nella cella F15 usare il tasto Prof.ssa Paola Vicard Σ (è il testo di somma automatica). Premendo questo tasto si esegue in automatico il calcolo della funzione =SOMMA(F7:F13) e si ottiene il totale. Il totale deve essere uguale al numero complessivo di studenti a cui è stato chiesto di dare il voto alla chiarezza del docente, ossia 52. Rappresentazione della distribuzione di frequenza Impariamo a rappresentare una distribuzione di frequenze mediante un diagramma a barre verticali. Excel usa l’espressione istogramma per indicare il diagramma a barre verticali mentre usa l’espressione barre per indicare il diagramma a barre orizzontali (o a nastri). Vediamo come costruire il diagramma a barre verticali: - selezionare le celle F6:F13 includendo nella selezione anche il titolo (ossia frequenza) - cliccare sull’icona di creazione guidata del grafico per aprire la prima di quattro finestre di dialogo. Passo 1 - Controllare che la pagina attiva sia Tipi standard - Tra le opzioni in Tipo di grafico selezionare Istogramma - Selezionare la prima tra le Scelte disponibili nella parte destra della finestra di dialogo - Cliccare su Avanti Passo 2 - Controllare che la pagina attiva sia Intervallo dati - Confermare nello spazio sotto il grafico che Intervallo dati e Serie siano in Colonne - Sempre all’interno della stessa finestra di dialogo cambiare pagina e passare da Intervallo dati a Serie - Nella parte in basso di questa finestra cliccare nello spazio bianco posto accanto alla dicitura Etichette asse categorie (X). Le etichette sono le modalità del carattere (ossia, nel nostro esempio, i valori in E7:E13) - per inserire le etichette di X, cliccare sulla freccetta rossa alla destra dello spazio bianco accanto alla dicitura Etichette asse categorie (X). - Selezionare le celle E7:E13 e premere Invio - Cliccare su Avanti Passo 3 - Sulla pagina Titoli, scrivere il Titolo del grafico (nel nostro esempio distribuzione per voto sulla chiarezza del docente); scrivere il nome dell’Asse delle categorie (X) (nel nostro esempio Voto); scrivere il nome dell’Asse dei valori (Y) (nel nostro esempio n° di studenti) - Sulla pagina Assi, confermare che Asse delle categorie (X) è fissato su Automatico - Sulla pagina Griglia, deselezionare tutte i tipi di griglie - Sulla pagina Legenda, deselezionare l’opzione Mostra legenda - Sulla pagina Etichette dati, assicurarsi che sia selezionato Assente 4 Corso di Statistica Computazionale Prof.ssa Paola Vicard Sulla pagina Tabella dati assicurarsi che Mostra tabella dati non sia selezionato - Cliccare su Avanti Passo 4 - Posiziona il grafico Come oggetto in, ossia nel foglio di lavoro corrente - Cliccare su Fine - Terminata questa fase, è possibile modificare il grafico per miglioramenti di tipo estetico. Vediamo come fare. - se, quando si seleziona il grafico, la barra degli strumenti per editare il grafico è ancora aperta chiuderla cliccando sulla piccola x nell’angolo in alto a destra. Come modificare l’area del grafico - Cliccare sull’area del tracciato (per fare questo posizionare il cursore nell’area all’interno degli assi evitando le colonne e poi cliccare) - Nella barra dei comandi cliccare su Formato. Nel menu che si apre cliccare su Area del tracciato. Si apre una finestra di dialogo chiamata Motivo. - Tra le opzioni per Bordo, scegliere Assente - Tra le opzioni per Area scegliere Assente - Cliccare su OK Eliminazione dei segmentini che separano i diversi valori della X. - posizionare il cursore sull’asse orizzontale e cliccare - Nella barra dei comandi cliccare su Formato. Nel menu che si apre cliccare su Asse selezionato. Si apre una finestra di dialogo chiamata. - Nella pagina Motivo tra le opzioni per Segno di graduazione principale, scegliere Assente - Cliccare su OK Alla fine di questa procedura otterrete il grafico seguente. Distribuzione per voto sulla chiarezza del docente 25 n° studenti 20 15 10 5 0 1 2 3 4 Voto 5 5 6 7 Corso di Statistica Computazionale Prof.ssa Paola Vicard Le frequenze relative e percentuali Torniamo alla nostra distribuzione di frequenze. Osserviamo che le frequenze che abbiamo calcolato usando la funzione FREQUENZA di Excel sono le frequenze assolute. A partire da queste è molto semplice calcolare anche le frequenze relative e le frequenze percentuali. Torniamo quindi al nostro foglio excel e vediamo come calcolare le frequenze relative. Sappiamo che nella cella F15 si trova il totale. Quindi non ci resta che calcolare le frequenze relative dividendo ogni frequenza assoluta per il totale delle osservazioni (ossia 52). - Nella cella H6 scrivere il titolo Freq. Rel. - posizionarsi nella cella H7 e scrivere la formula =F7/F15 - posizionarsi nella cella H8 e scrivere la formula =F8/F15 - posizionarsi nella cella H9 e scrivere la formula =F9/F15 - posizionarsi nella cella H10 e scrivere la formula =F10/F15 - posizionarsi nella cella H11 e scrivere la formula =F11/F15 - posizionarsi nella cella H12 e scrivere la formula =F12/F15 - posizionarsi nella cella H13 e scrivere la formula =F13/F15 Come si può notare questo procedimento di calcolo è piuttosto lungo e può essere troppo lungo nel caso in cui il numero delle modalità del carattere rilevato siano molte. Un metodo alternativo più veloce è il seguente: - posizionarsi nella cella H7 e scrivere la formula =F7/F$15 Spiegazione di $: il simbolo $ posto prima del codice di riga serve a bloccare lo scorrimento sulle righe. In altre parole questo ci consente di trascinare la formula nelle celle sottostanti F7 facendo in modo che il totale venga sempre cercato in F15. L’operazione di trascinamento di una formula nelle celle sottostanti, qualora non venisse usato il dollaro, farebbe sì che nella cella H8 si verrebbe a calcolare F8/F16 (in altre parole i codici di riga verrebbero aumentati sia a numeratore che a denominatore di una unità dal momento che si passa alla riga successiva). Ma la cella F16 non contiene il totale e quindi la formula o risulterebbe non calcolabile o darebbe un risultato errato. Posizionare il cursore nell’angolino in basso a destra della cella H7 in modo che il cursore stesso diventi una crocetta - Quando il cursore appare come una crocetta cliccare e tenere premuto trascinando la formula fino a coprire la cella H13. Possiamo controllare di avere eseguito correttamente questo calcolo, facendo la somma delle frequenze relative. Infatti, sappiamo che questa somma è sempre pari a uno. A questo scopo - - nella cella H15 usare il tasto di somma automatica Σ . Così si esegue in automatico il calcolo della funzione =SOMMA(H7:H13) e si ottiene il totale. Il totale deve essere uguale 1. Vediamo come calcolare le frequenze percentuali a partire dalle frequenze relative. Ricordiamo che le frequenze percentuali si calcolano a partire dalle frequenze relative moltiplicandole per 100. - Nella cella I6 scrivere il titolo Freq. % 6 Corso di Statistica Computazionale Prof.ssa Paola Vicard - posizionarsi nella cella I7 e scrivere la formula =H7*100 - Posizionare il cursore nell’angolino in basso a destra della cella I7 in modo che il cursore stesso diventi una crocetta Quando il cursore appare come una crocetta cliccare e tenere premuto trascinando la formula fino a coprire la cella I13. - Controllare che l’operazione sia stata bene eseguita calcolando il totale. Ossia nella cella I15 usare il tasto di somma automatica Σ . Così si esegue in automatico il calcolo della funzione =SOMMA(I7:I13) e si ottiene il totale. Il totale deve essere uguale 100. 7