CAPITOLO 1 La statistica descrittiva 1. LA STATISTICA CON EXCEL I grafici Excel eÁ sicuramente uno degli strumenti piuÁ utili per rappresentare graficamente in modo semplice i dati di una distribuzione di frequenze, calcolare i valori sintetici e studiare la variabilitaÁ. Consideriamo la seguente tabella di frequenze che riporta i dati relativi al numero di insufficienze registrate allo scrutinio del primo quadrimestre in alcune materie, su un campione formato da tre sezioni selezionate casualmente fra le classi prime di una scuola superiore. Materia 1a sezione 2a sezione 3a sezione Lingua e lett. italiana 3 2 5 Lingua inglese 5 6 4 Storia, cittad. e costit. 2 3 3 Matematica 6 8 5 Fisica 4 4 3 Diritto ed economia 2 0 2 Scienze 1 3 0 Prepara innanzi tutto il foglio di lavoro inserendo i dati della tabella; per costruire il grafico si deve: l l l selezionare le celle che contengono i dati del grafico: nel nostro caso le celle da A1 a D8 attivare il menu Inserisci e successivamente scegliere la tipologia di grafico fra quelle proposte nella barra multifunzione (con Excel 2003 o versioni precedenti devi selezionare il comando Inserisci/Grafico e seguire la procedura guidata); nella figura abbiamo usato un diagramma a barre orizzontali scegliere il tipo di diagramma fra quelli proposti: scegliamo Barre 2D Il grafico eÁ stato creato. Per calcolare i valori centrali di una distribuzione di frequenze, Excel ha tre funzioni statistiche predefinite: n MEDIA (n1; n2; ....) Calcola la media aritmetica degli elementi elencati. I parametri "n1", "n2" ecc. devono essere valori numerici: ad esempio MEDIA (1; 3; 9; 4; 5) eÁ 4,4; se i numeri di cui calcolare la media sono invece contenuti in un intervallo di celle, basta indicare come parametro tale intervallo: ad esempio MEDIA(A1:A10) calcola la media aritmetica dei numeri contenuti nelle celle da A1 ad A10. Altre funzioni per il calcolo di un valore medio sono MEDIA.GEOMETRICA, MEDIA.ARMONICA, MEDIA.DEV, MEDIA.TRONCATA, MEDIA.VALORI che hanno una sintassi analoga a quella di MEDIA. Q Re Fraschini - Grazzi, Atlas SpA Tema 4 - Cap. 1: LA STATISTICA DESCRITTIVA 1 n MEDIANA (n1; n2; ....) Calcola la mediana dei valori elencati; ad esempio MEDIANA(1; 2; 3; 4; 6; 8; 9) eÁ 4. Se gli elementi (ricorda che devono essere ordinati) fra cui calcolare il valore mediano sono contenuti in un intervallo di celle, ad esempio B1:B10, basta indicare tale intervallo come parametro della funzione e scrivere quindi MEDIANA (B1:B10). n MODA (n1; n2; ....) Calcola la moda degli elementi elencati, con le stesse modalitaÁ di MEDIA e di MEDIANA. Ad esempio MODA(1; 2; 2; 3; 1; 4; 2; 6) eÁ 2. Usando la funzione MEDIA calcola la media di insufficienze nelle diverse materie. Il risultato che devi ottenere eÁ visibile nella figura che segue. A B a C a D a 1 sezione 2 sezione 3 sezione E F 1 Materia 2 Lingua e lett. italiana 3 2 5 3,33 3 Lingua inglese 5 6 4 5,00 4 Storia, cittad. e costit. 2 3 3 2,67 5 Matematica 6 8 5 6,33 6 Fisica 4 4 3 3,67 7 Diritto ed economia 2 0 2 1,33 8 Scienze 1 3 0 1,33 9 Totale 23 26 22 G H I L Media 10 11 12 13 14 15 16 17 18 19 20 21 22 23 Lo studio della variabilitaÁ Il calcolo della deviazione standard si puoÁ fare con due funzioni predefinite: n DEV.ST (num1; num2; .....) daÁ una stima della deviazione standard su un campione della popolazione n DEV.ST.POP (num1; num2; ......) calcola la deviazione standard sull'intera popolazione. 2 Tema 4 - Cap. 1: LA STATISTICA DESCRITTIVA Q Re Fraschini - Grazzi, Atlas SpA La prima funzione valuta la deviazione standard di un campione della popolazione usando una formula che ancora non conosciamo e che si riferisce alla teoria sul campionamento che non eÁ per ora oggetto del nostro studio. r X 2 X 1 2 La seconda usa la formula xi n xi n che eÁ un altro modo di scrivere quella che abbiamo visto. In entrambi i casi, i parametri num1, num2, .... sono i dati statistici, di tipo numerico, di cui calcolare la deviazione standard; l'elenco dei parametri puoÁ anche essere individuato da un intervallo di celle. Con osservazioni del tutto analoghe si definiscono le funzioni per il calcolo della varianza: n VAR (num1; num2; .....) per una stima della varianza di un campione n VAR.POP (num1; num2; ......) per il calcolo della varianza sull'intera popolazione. Consideriamo dunque, a titolo di esempio, la distribuzione di frequenze che si ricava dal foglio di lavoro che segue, nella quale sono indicati il numero di insufficienze assegnate dai Consigli di Classe allo scrutinio finale nel biennio e nel triennio di una scuola superiore, distinti per sezioni (i dati rilevati sono dunque sull'intera popolazione). Predisponi il foglio in modo da calcolare la deviazione standard e la varianza applicando le formule appropriate. Qualche indicazione sulla procedura che abbiamo seguito: n nelle celle B11 e B12 abbiamo calcolato la media delle due distribuzioni con la funzione MEDIA; n nelle celle B13 e B14 abbiamo calcolato la deviazione standard dopo aver predisposto le colonne E e G per il calcolo dei quadrati degli scarti; n a fianco di queste ultime due celle abbiamo ricalcolato lo stesso parametro con la funzione DEV.ST.POP di Excel: come eÁ evidente, i risultati sono gli stessi; n nelle celle B15 e B16 abbiamo poi calcolato la varianza delle due distribuzioni con la funzione VAR.POP. A B C D E F G 1 SEZIONE BIENNIO TRIENNIO SCARTI B. (SCARTI B.)^2 SCARTI T. (SCARTI T.)^2 2 A 57 48 1,285714286 1,653061224 0,428571429 0,183673469 3 B 58 52 2,285714286 5,224489796 4,428571429 19,6122449 4 C 62 54 6,285714286 39,51020408 6,428571429 41,32653061 5 D 45 50 -10,71428571 114,7959184 2,428571429 5,897959184 6 E 50 45 -5,714285714 32,65306122 -2,571428571 6,612244898 7 F 65 38 9,285714286 86,2244898 -9,571428571 91,6122449 -2,714285714 7,367346939 -1,571428571 8 G 53 46 9 TOTALE 390 333 11 MEDIA B. 55,71428571 12 MEDIA T. 47,57142857 13 DEV.ST. B 6,407903283 6,407903283 14 DEV.ST. T 4,894811914 4,894811914 15 VARIANZA B 41,06122449 16 VARIANZA T 23,95918367 287,4285714 2,469387755 167,7142857 10 17 Q Re Fraschini - Grazzi, Atlas SpA Tema 4 - Cap. 1: LA STATISTICA DESCRITTIVA 3 ESERCIZI 1. Da una indagine eÁ risultato che le abitudini piuÁ fastidiose dei passeggeri degli aerei sono le seguenti (nel questionario era possibile indicare piuÁ voci): Abitudine Frequenza % Passeggeri che scalciano 57 Vicini invadenti 50 Bambini senza controllo 48 Passeggeri che russano 46 Passeggeri che si lamentano 41 Passeggeri che parlano ad alta voce 38 Passeggeri che si alzano frequentemente 32 Rappresenta i dati con un diagramma a barre; eÁ possibile in questo caso usare un diagramma a torta? 2. Rappresenta graficamente i dati della seguente tabella costruendone il diagramma a barre e quello a torta; calcola poi media e mediana della distribuzione: Dati 1 2 3 4 5 Frequenza 12 15 8 25 18 3. La tabella che segue riguarda il numero dei docenti universitari negli anni 2007 e 2008 ripartiti in categorie: ModalitaÁ 2007 2008 Ordinario 19625 18930 Associato 18733 18257 Ricercatore 23571 25585 Rappresenta i dati mediante le modalitaÁ grafiche che ritieni piuÁ opportune. 4. Negli ultimi tre mesi in una clinica sono nati bambini i cui pesi alla nascita hanno dato origine alla seguente distribuzione: Pesi Frequenza 1,5 2 2 2 2,5 14 2,5 43 3 3 3,5 87 3,5 124 4 4 4,5 115 4,5 5 68 Rappresenta i dati graficamente, trova il valor medio del peso dei neonati, la moda della distribuzione, il valore mediano e calcola lo scarto quadratico medio. 4 Tema 4 - Cap. 1: LA STATISTICA DESCRITTIVA Q Re Fraschini - Grazzi, Atlas SpA Matematica e storia Perche nasce e come si sviluppa la statistica Nella societaÁ moderna la possibilitaÁ di avere informazioni corrette in modo rapido eÁ diventata una delle esigenze fondamentali in tutti i campi dell'attivitaÁ umana, dall'economia, alla medicina, alle scienze, alla ricerca, alla produzione. I problemi che nascono in questi settori e i tentativi di proporre soluzioni portano inevitabilmente a dover analizzare grandi masse di dati; la scienza che si occupa della gestione dei dati e delle informazioni che da essi si possono trarre eÁ la statistica. Pur essendosi sviluppata in modo significativo in tempi abbastanza recenti, la statistica ha origini antichissime se si pensa alle grandi raccolte di dati relative ai censimenti che venivano fatte dai Romani; anche la Bibbia, parlando della nascita di Cristo, ci parla per esempio di grandi movimenti di popolazioni per andare a registrare il proprio nome nei libri dei censimenti. Fu peroÁ solo verso la metaÁ del diciassettesimo secolo che si cominciarono a studiare i primi fenomeni collettivi in modo sistematico; essi riguardavano soprattutto il governo e l'amministrazione dello Stato, da cui il termine statistica, e i fenomeni demografici. Nel 1662 J. Graunt (1620-1674) pubblicoÁ un lavoro sulla struttura della popolazione londinese, Figura 1 Particolare di una tavola di mortalitaÁ pubblicata da Graunt Q Re Fraschini - Grazzi, Atlas SpA con lo scopo di mettere in evidenza eventuali caratteristiche e la relazione fra la popolazione cittadina e quella della campagna circostante; in esso si legge, per esempio, che il rapporto fra le nascite di maschi e di femmine nella cittaÁ era di 14 a 13, mentre nella campagna era di 15 a 14. L'importanza del lavoro di Graunt sta nel fatto che per la prima volta non vi fu una mera raccolta di dati, ma si cercoÁ di affrontare il problema con metodo scientifico cercando di trovare relazioni fra le variabili coinvolte. Nello stesso periodo W. Petty (1623-1687), pubblicoÁ il suo Saggi di aritmetica politica nel quale egli attribuiva alla diversa distribuzione della popolazione sul territorio la causa fondamentale della disuguaglianza nella distribuzione delle ricchezze. Nel 1660 un professore dell'universitaÁ di Herlmstadt di nome H. Conring, nel suo corso di politica, parlava di statistica intendendo con questo termine una mescolanza fra descrizione storica e richiami ai fondamenti degli Stati. Un suo successore, G. Achenval (1719-1772), sosteneva che la politica stabilisce come gli Stati devono essere, mentre la statistica li descrive come sono in realtaÁ; di conseguenza la statistica deve occuparsi dei cambiamenti politici, del territorio, dei suoi abitanti. Non a caso i primi sviluppi delle tecniche statistiche avvennero in questo periodo; il diciassettesimo secolo eÁ infatti il secolo delle grandi scoperte scientifiche: fu per esempio inventata la prima macchina calcolatrice ad opera di Blaise Pascal, nacque la geometria analitica ad opera di Cartesio e Fermat ed il calcolo delle probabilitaÁ con Pascal e Fermat. Il metodo sperimentale cominciava a farsi strada grazie soprattutto a Galileo, per il quale compito della scienza doveva essere non solo il descrivere i fenomeni, ma soprattutto spiegarli, cioeÁ costruire una teoria dalla quale si potesse dedurre il loro comportamento. Anche gli strumenti di indagine e di misura che furono inventati e costruiti nel seicento risultarono essenziali per raccogliere i dati che servivano per studiare i fenomeni; eÁ in questo periodo che furono costruiti i primi cannocchiali, i telescopi e i microscopi, che fu perfezionato l'orologio e furono poste le basi per la misurazione della temperatura. Si coTema 4 - Cap. 1: LA STATISTICA DESCRITTIVA 5 minciarono anche a fabbricare ed usare strumenti che permettessero la ripetizione degli esperimenti; basta pensare, per esempio, al piano inclinato di Galileo che permise di studiare le leggi della caduta dei corpi. La statistica, cosõÁ come noi la intendiamo oggi, stentava peroÁ a decollare soprattutto a causa della mancanza di strumenti matematici adatti; una semplice tabella a doppia entrata che consentisse di rappresentare congiuntamente due serie di dati compariraÁ per esempio solo molto piuÁ tardi, verso la fine del XIX secolo. Lo sviluppo della statistica moderna eÁ associata ai nomi di F. Galton (1822-1911) e di K. Pearson (1857-1936). Galton era uno scienziato inglese, fondatore dell'eugenetica (la branca della genetica che studia il patrimonio ereditario umano al fine di migliorare la condizione dell'uomo) e divulgatore dell'opera di Darwin, del quale era cugino; per primo usoÁ il questionario e, in modo consapevole, la curva della distribuzione normale studiando le caratteristiche fisiche e psichiche di un gruppo di individui. Pearson, matematico e biologo, gettoÁ le basi della statistica metodologica applicata alla biologia; la rivista Biometrika da lui fondata ne eÁ una testimonianza significativa. Un passo decisivo verso la costruzione rigorosa della statistica metodologica si deve a Fisher (1890-1962) che si occupoÁ del problema della stima statistica e del campionamento, nonche della programmazione degli esperimenti. Lo studio statistico dei fenomeni riveste oggi grande importanza per poter affrontare e risolvere molti problemi. L'aumento della popolazione mondiale, per esempio, ha comportato, nel recente passato e ancora di piuÁ ai nostri giorni, un aumento dei consumi di una grande quantitaÁ di beni e, conseguentemente, problemi di approvvigionamento, di servizi, di sicurezza, di gestione delle risorse. Avere un occhio sempre attento su come variano le abitudini delle persone al variare delle situazioni, eÁ di grande utilitaÁ per il progresso dell'umanitaÁ e per la crescita di un paese. Uno studio sulla vita media di una popolazione, per esempio, puoÁ far prendere ad un governo decisioni importanti in campo pensionistico; uno studio sulla produzione industriale puoÁ aiutare a compiere scelte sulla programmazione o a prevedere la variazione sulla percentuale di disoccupazione; uno studio sulla natalitaÁ puoÁ far prevedere quanti pediatri saranno necessari o quanti insegnanti dovranno essere assunti in futuro per coprire le cattedre del corso di studi obbligatori. Il metodo statistico eÁ oggi diventato uno strumento indispensabile di lavoro in tutti i campi; per questo motivo esso eÁ regolato da precise norme (U.N.I. in Italia, E.N. in Europa, I.S.O. nel mondo). A queste norme fa riferimento la legislazione italiana in tutti i rapporti di certificazione obbligatoria della qualitaÁ, nei rapporti di conformitaÁ con gli Enti Pubblici, nei rapporti internazionali. Figura 2 Pearson (a sinistra) con Galton in una fotografia dell'epoca. 6 Tema 4 - Cap. 1: LA STATISTICA DESCRITTIVA Q Re Fraschini - Grazzi, Atlas SpA L'indagine statistica e il questionario Molte indagini statistiche hanno per oggetto un fenomeno sociale che riguarda una popolazione di esseri umani; per esempio tutte le indagini che riguardano il grado di soddisfazione dei clienti relativo ad un certo servizio o prodotto (customer satisfaction), oppure le indagini sugli indici di ascolto di una trasmissione, sulle previsioni relative ai risultati elettorali, sulla situazione dell'occupazione e cosõÁ via. In questi casi il questionario eÁ senza dubbio uno degli strumenti piuÁ importanti per la raccolta dei dati. Normalmente esso consiste in una serie di domande che vengono sottoposte ad un campione della popolazione oggetto dell'indagine e che producono i dati statistici che saranno poi analizzati. Per costruire un questionario efficace bisogna tener presenti alcuni fattori. Innanzi tutto bisogna procedere al campionamento della popolazione in base a qualche criterio; nel caso, per esempio, di una indagine fra gli studenti di una scuola si possono selezionare un certo numero di studenti da ciascuna classe, oppure scegliere una classe per ogni anno di corso a seconda del tipo di indagine. Poi si deve decidere in che modo somministrare il questionario: per posta, per telefono, per e-mail, attraverso un intervistatore, mediante la compilazione scritta di un modulo e cosõÁ via. La scelta della modalitaÁ piuÁ adatta dipende sia dal tipo di indagine che dal tipo di popolazione; per esempio, un'indagine per determinare gli indici di ascolto di una trasmissione puoÁ essere fatta per telefono; un'indagine pre-elettorale eÁ opportuno che si faccia tramite un intervistatore che, opportunamente preparato, eÁ in grado di mettere a proprio agio l'intervistato, in modo da vincere reticenze e avere risposte attendibili; un'indagine fra gli studenti di una scuola puoÁ essere fatta tramite un questionario scritto. La difficoltaÁ successiva sta nello scegliere la tipologia di domande da utilizzare per avere le informazioni desiderate; essa puoÁ essere scelta fra: l domande aperte che prevedono assoluta libertaÁ di risposta da parte dell'intervistato l domande chiuse con un numero prefissato di possibili risposte fra cui scegliere l domande a risposta graduata per mezzo delle quali eÁ possibile esprimere valutazioni di tipo quantitativo del tipo mai, poche volte, molte volte, sempre oppure scarso, insufficiente, sufficiente, buono, ottimo e cosõÁ via. Anche in questo caso ci sono vantaggi e svantaggi in ciascuna delle scelte. Le domande aperte sono utili quando non si conoscono a priori le modalitaÁ con cui si puoÁ presentare il carattere oggetto dell'indagine e lasciano ampio margine alla creativitaÁ dell'intervistato; gli svantaggi stanno proprio nella libertaÁ delle risposte che potrebbero essere difficili da codificare, potrebbero andare fuori tema, o potrebbero non esserci perche l'intervistato non sa che cosa dire. Le domande chiuse sono indubbiamente piuÁ semplici da codificare, analizzare e confrontare, facilitano la risposta da parte dell'intervistato che difficilmente non eÁ in grado di rispondere, ma hanno anche degli svantaggi da non sottovalutare: si possono infatti presentare situazioni di risposte date a caso, di errori nel barrare la casella della risposta ed inoltre non eÁ possibile verificare se la domanda eÁ stata interpretata correttamente. Le domande a risposta graduata sono le piuÁ adatte a misurare atteggiamenti ed opinioni, ma due intervistati potrebbero aver dato la stessa risposta per motivi completamente differenti attribuendole quindi significati diversi. Per esempio, giudicare insufficiente il trattamento avuto in un albergo potrebbe voler dire per una persona non avere avuto il cambio giornaliero della biancheria, per un'altra non avere avuto una soddisfacente diversificazione del menu a tavola. Anche relativamente al contenuto delle domande bisogna porre molta attenzione. I quesiti, infatti, devono avere un filo logico conduttore e quelli relativi ad uno stesso argomento devono essere raggruppati; inoltre ci deve essere un avvicinamento progressivo all'argomento in modo da introdurre gradualmente quei temi che possono essere piuÁ difficili, piuÁ delicati o che possono creare fraintendimenti. Bisogna poi stare attenti a che le domande non siano troppe perche l'intervistato deve potersi concentrare sugli aspetti piuÁ significativi del tema trattato. A questo proposito eÁ utile preparare un questionario di prova da somministrare ad un gruppo ristretto di persone Q Re Fraschini - Grazzi, Atlas SpA Tema 4 - Cap. 1: LA STATISTICA DESCRITTIVA 7 per testare le eventuali difficoltaÁ incontrate dall'intervistato, le ambiguitaÁ, la poca precisione o un ordine errato nelle domande e nelle risposte, le domande superflue o di scarso interesse per l'indagine. In base ai risultati ottenuti da questa operazione, il questionario puoÁ essere migliorato. Da ultimo, ricordiamo che un questionario eÁ necessariamente anonimo, ma eÁ importante che contenga alcune informazioni relative ai dati dell'intervistato, quali, per esempio, l'etaÁ, la professione, la Regione di residenza, il titolo di studio o altro. E' poi bene che compaiano alcune righe che indichino chi eÁ l'ente o il soggetto che organizza l'indagine e quali sono gli scopi che l'indagine stessa si prefigge, con la garanzia che i dati verranno trattati solo per gli scopi indicati; una persona, infatti, si sente piuÁ invogliata a rispondere "bene" se sa a che cosa servono le sue risposte e se eÁ sicuro del fatto che esse non verranno usate per altri scopi. Alcune proposte Di seguito diamo alcune indicazioni su possibili temi che possono essere oggetto di un'indagine statistica condotta all'interno della tua scuola. Per evitare eventuali difficoltaÁ nella codifica e nell'interpretazione delle risposte, consigliamo di preparare questionari con domande a risposta chiusa ed eventualmente a risposta graduata per qualche quesito (abbiamo proposto una sola indagine con domande a risposta aperta). Una volta raccolti i dati, si dovranno costruire le tabelle di frequenza per le risposte ad ogni domanda e rappresentare graficamente i dati individuando i valori di sintesi piuÁ significativi. I temi n Molti degli studenti di una scuola superiore devono prendere dei mezzi di trasporto per recarsi a scuola; al fine di influenzare le compagnie di trasporto sulla numerositaÁ dei mezzi messi a disposizione e sugli orari, puoÁ essere interessante e utile fare un'analisi di quanti studenti sono in questa situazione individuando: l il tipo di mezzo utilizzato l il tempo impiegato a recarsi a scuola l il numero di volte in un mese che si e Á entrati dopo il suono della campanella a causa dei ritardi dei mezzi sull'orario previsto. n L'insuccesso scolastico eÁ dovuto probabilmente a numerose cause; si puoÁ condurre un'indagine fra gli studenti per conoscere: l come e Á avvenuta la scelta del tipo di scuola (consiglio orientativo della scuola media, genitori, scelta consapevole dello studente, condizionata dagli amici, ecc) l quali sono le difficolta Á incontrate nei primi mesi di scuola (impegno piuÁ gravoso di quello che si pensava, poca voglia di studiare, difficoltaÁ di inserimento, ecc) l quali sono stati gli aiuti offerti dalla scuola che sono risultati utili e quali inutili l come si giudicano questi aiuti (scarsi, insufficienti, sufficienti, ecc). n Nell'ambiente scolastico, negli ultimi anni, si eÁ accumulato un certo diffuso malcontento. Il personale della scuola (docenti, personale di segreteria, tecnici di laboratorio e operatori scolastici in genere) si lamenta spesso che gli studenti giungono alla scuola superiore sempre meno preparati e con meno voglia di studiare, che c'eÁ meno rispetto per le persone e per le cose, che i fondi attribuiti alla scuola sono sempre meno e che si possono mettere in atto meno iniziative; dall'altra parte alcuni studenti si lamentano che qualche docente eÁ troppo esigente, che le lezioni sono a volte noiose, che gli argomenti proposti sono lontani dalla realtaÁ giovanile, che gli strumenti didattici usati sono spesso antiquati e poco accattivanti. PuoÁ essere allora interessante cercare di scoprire quale potrebbe essere la scuola ideale che metta d'accordo studenti, docenti ed operatori scolastici in genere. Partendo dalla realtaÁ del proprio Istituto, si possono proporre una serie di domande che mirino ad avere la percezione della scuola e la sua visione ideale da parte dei diversi gruppi (docenti, studenti e cosõÁ via). La prima serie di domande (quelle relative alla percezione della scuola) puoÁ essere a risposta chiusa o graduata; eÁ invece opportuno che la seconda serie sia a risposta aperta in modo da raccogliere le opinioni nel modo piuÁ vasto possibile. 8 Tema 4 - Cap. 1: LA STATISTICA DESCRITTIVA Q Re Fraschini - Grazzi, Atlas SpA