UNIVERSITÀ DEGLI STUDI DI GENOVA SCUOLA DI SPECIALIZZAZIONE ALL’INSEGNAMENTO SECONDARIO CORSO DI LABORATORIO DI DIDATTICA DELLA MATEMATICA Prof. CARLO DAPUETO – Prof.ssa GIOVANNA PESCE DALLE DISTRIBUZIONI DI FRQUENZA ALLE LEGGI DI DISTRIBUZIONE di Paolo BERGAMINO – Rosangela CHIAVAZZA – Davide COSTA – Laura DEAMBROGIO – Luca GOGGI Anno Accademico 2008/2009 Si intende collocare il presente progetto didattico in un istituto tecnico commerciale indirizzo “Mercurio” con riferimento alla classe IV (per quanto concerne il discreto) e alla classe V (per quanto concerne il continuo). Parimenti, il suddetto progetto è collocabile nel triennio di un istituto tecnico ITIS oppure nel triennio di un liceo scientifico. Sebbene siamo consapevoli che le tematiche attinenti alla statistica ed alla probabilità tradizionalmente vengano tralasciate o trattate solo marginalmente e superficialmente, riteniamo che trattasi di argomenti particolarmente importanti per lo sviluppo della capacità critica dei discenti, anche alla luce della considerazione che l’insegnamento della matematica debba contribuire alla formazione di un cittadino conscio (matematica per il cittadino), in grado di saper interpretare e analizzare la realtà che lo circonda in modo consapevole. Inoltre, si ritiene importante sviluppare i suddetti concetti anche alla luce del fatto che i recenti temi dei test di ammissione alle facoltà scientifiche, nonché i test PISA, dedichino particolare importanza alla statistica e alla probabilità. La statistica è, inoltre, un fondamentale strumento per superare alcuni limiti relativi a ciò che un alunno pensa di sé rispetto ai suoi compagni relativamente a determinati caratteri personali, quali l’altezza o il peso. In tutti i tipi di indirizzo, si reputa utile ed opportuno introdurre il concetto di distribuzione di frequenza partendo da esempi concreti, anche al fine di stimolare maggiormente l’interesse e il coinvolgimento degli studenti, considerando anche che trattasi di tematiche che presentano numerosi risvolti pratici e immediatamente percepibili. Inoltre, i suddetti concetti presentano un elevato grado di interdisciplinarietà, ad esempio con l’economia aziendale, l’economia politica, scienza delle finanze, fisica, biologia, ma anche con materie più umanistiche, in quanto dalla semplice lettura di un quotidiano si evince 2 l’importanza di saper analizzare, comprendere ed interpretare dati e grafici riferiti ai più svariati contesti. L’approccio didattico previsto non consiste nel seguire pedissequamente un libro di testo ma di predisporre delle schede ad hoc, anche con esercizi motivanti gli interessi degli allievi. Pur partendo sempre da casi concreti, il livello di approfondimento e di formalizzazione sarà maggiore con riguardo al liceo scientifico rispetto all’approccio seguito negli istituti tecnici. La trattazione che si intende seguire prevede dapprima lo sviluppo della statistica descrittiva, nel discreto e nel continuo, per poi passare alla trattazione degli eventi aleatori, e quindi della probabilità, sempre con riferimento prima al discreto e poi al continuo. Statistica. Per meglio esemplificare il concetto di distribuzione di frequenza, si ritiene interessante far considerare agli studenti un certo insieme di oggetti, possibilmente a loro vicino e noto, ad esempio: - l’altezza degli alunni della classe - i tempi di percorrenza da casa a scuola - la scelta dei mezzi di trasferimento casa-scuola - i voti dell’ultimo compito in classe - i cd che un negozio di musica ha venduto nelle due settimane successive al festival di Sanremo Per quanto riguarda specificatamente gli studenti di un istituto tecnico commerciale potrebbe essere interessante proporre anche esempi attinenti all’economia, quali il PIL dei diversi Paesi dell’Unione Europea. A partire da tali rilevazioni si invitano gli studenti ad analizzare il tipo di carattere considerato (qualitativo o quantitativo). Quindi si può passare 3 ad una discussione critica per stimolare i discenti, accertandosi che abbiano una prima idea dei fenomeni osservati. Si invitano, poi, ad esaminare come si distribuiscono queste informazioni, facendo ad esempio osservare quali siano le altezze più frequenti, i cantanti che vendono maggiormente, i Paesi che presentano i livelli di PIL più elevati…. È questo un modo per introdurre empiricamente i concetti di modalità, di popolazione, di frequenza assoluta e relativa (percentuale) nonché di distribuzione. Si intende in seguito far sviluppare agli studenti esercizi relativi proprio alla costruzione di tabelle (o distribuzioni di frequenza), il che consente loro di familiarizzare con la manipolazione di dati grezzi. Si conducono così gli studenti alla comprensione e all’opportunità del raggruppamento di dati in classi separate, esponendo agli allievi come raggruppare opportunamente i dati in classi. Parallelamente, si propongono le medesime attività anche in laboratorio informatico mediante l’ausilio di Excel, di XLSTAT e di STAT, scaricabile dal sito di MACOSA. Si sottolinea a questo riguardo che la rappresentazione dei dati con carta e matita risulta spesso più difficile per gli studenti, infatti devono prestare attenzione ad errori di calcolo che potrebbero portare a rappresentazioni totalmente errate, distogliendoli così dalla finalità principale del lavoro. In particolare, l’uso di Excel facilita proprio la parte grafica e di calcolo, con lo studente che è comunque sempre coinvolto nel processo di apprendimento. XLStat, invece, pur essendo uno strumento più potente, presenta un costo sicuramente più elevato e, inoltre, da un punto di vista didattico si ritiene che debba essere utilizzato solo a posteriori dopo l’apprendimento dei concetti, come verifica del lavoro svolto dagli alunni, in quanto esso calcola automaticamente i vari indici statistici. 4 Agendo in tal modo, si utilizza una metodologia didattica di tipo percettivo-motorio, molto più efficace rispetto ad una metodologia di tipo simbolico-ricostruttivo in quanto consente di semplificare il processo di apprendimento dei discenti, risultando in tal modo meno faticoso e più incentivante. Una volta acquisita dimestichezza con il trattamento di dati grezzi, potrebbe essere particolarmente interessante far svolgere agli studenti, in maniera diretta, indagini su fenomeni specifici. A questo proposito, si potrebbe proporre agli studenti un’indagine sul numero di alunni stranieri iscritti nella scuola negli ultimi anni, oppure un’indagine sul costo di un determinato bene nel tempo. Qualora trattasi di un liceo scientifico, si potrebbe far rilevare la temperatura nei vari giorni dell’anno. A questo punto si può agevolmente introdurre il concetto di istogramma come strumento per raffigurare la distribuzione di frequenze, evidenziando le differenze di rappresentazione a seconda che le modalità siano di tipo numerico o non numerico. Si ritiene particolarmente importante, soprattutto con riferimento agli studenti di istituti tecnici commerciali, far svolgere molti esercizi di lettura, interpretazione, comprensione e confronto di grafici con riferimento a fenomeni reali presi anche dai quotidiani, in quanto tipicamente tali studenti hanno nel proprio curriculum meno dimestichezza con le rappresentazioni grafiche, le quali, tuttavia, rivestono molta importanza per i collegamenti con le materie economiche di indirizzo. Si intende quindi procedere con l’introduzione degli indici di posizione (moda, mediana, media aritmetica) e dei principali indici di dispersione 5 (varianza, scarto quadratico medio, coefficiente di variazione), con lo scopo di ottenere misure di sintesi e di confronto tra variabili statistiche. È importante, a nostro avviso, che tali esempi siano sempre collegati con casi reali vicini agli studenti, per un maggior coinvolgimento e per un più elevato grado di motivazione degli stessi (ad esempio la media dei voti, l’altezza media, modale e mediana, la variabilità delle altezze tra maschi e femmine, il reddito medio degli italiani, con riferimento alle varie regioni, la velocità media di un percorso per gli studenti dei licei scientifici…). Si riportano alcuni esempi di esercizi iniziali per introdurre le rappresentazioni grafiche delle distribuzioni e i concetti di media, moda e mediana. ESERCIZIO 1 La tabella seguente riporta la distribuzione dei voti conseguiti in matematica da 26 studenti di una classe. A B C D E F G H I J K L M N O 7 4 8 9 8 7 7 6 5 4 4 3 7 6 8 Q R S T U W X Y Z 5 7 6 7 8 8 9 6 4 P 5 Si individui la tipologia di carattere osservata, si raggruppino i dati in un’opportuna tabella e si proceda quindi al calcolo degli opportuni indici di posizione. 6 ESERCZIO 2 Nella tabella seguente si riporta la distribuzione dei redditi reali conseguiti da un commerciante in 12 mesi. Dopo aver opportunamente rappresentato la distribuzione, si proceda al calcolo del reddito medio mensile conseguito in tale arco temporale dal soggetto. MESE REDDITO Gennaio 2100 Febbraio 2150 Marzo 2120 Aprile 2210 Maggio 2250 Giugno 2310 Luglio 1800 Agosto 670 Settembre 2600 Ottobre 2700 Novembre 3100 Dicembre 3850 ESERCIZIO 3 Le azioni FIAT, in 5 sedute successive della Borsa di Milano, hanno avuto le seguenti quotazioni (in euro): 2,98; 2,97; 2,98; 2,99; 2,98 Se una persona ha acquistato, a ogni seduta, 100 azioni, qual è stato il costo medio per azione? E se ne ha acquistate 200 ad ogni seduta? ESERCIZIO 4 Se mescolo 0.40 litri di succo di arancia e 0.10 litri di liquore a 40 gradi (40% di alcol), qual è la gradazione alcolica del cocktail ottenuto? (A) 4% (B) 8% (C) 12.5% (D) 10% (E) 25% 7 A questo punto, attraverso opportuni esempi, si vogliono portare gli studenti al passaggio dal discreto al continuo, mostrando proprio come molti fenomeni reali possono assumere un qualsiasi valore in un certo intervallo (ad esempio la velocità di un’auto, l’altezza di una persona, il peso di un oggetto…). Sviluppiamo più dettagliatamente tale modulo didattico. Inizialmente si può far rilevare agli studenti le loro altezze. In questo caso si ha a che fare con un “piccolo” campione, e con riferimento ad esso si possono calcolare la media e la varianza, nonché tracciare l’istogramma sperimentale. Successivamente si ipotizza di ampliare la dimensione del campione, considerando la distribuzione di una variabile continua, come ad esempio l’altezza non degli studenti dell’aula, ma degli italiani o, comunque, di una popolazione ampia. Se si misura un grande numero di individui, ad esempio 100.000, si ottengono 100.000 valori compresi tra un minimo ed un massimo. Si possono rappresentare graficamente tutti i suddetti valori raggruppandoli in classi e costruendo un istogramma, in cui sulle ascisse sono riportati i valori delle altezze e sull’ordinata la densità di frequenza (che si intende proprio introdurre in questa sede, come rapporto tra la frequenza relativa e l’ampiezza della classe). L’istogramma sarà costituito da tanti rettangoli quante sono le classi in cui sono stati suddivisi i valori. Aumentando il numero di classi diminuisce la loro ampiezza e, quindi, la base dei singoli rettangoli, ma l’area totale dell’istogramma rimane sempre costante, pari ad uno. Si evidenzia che maggiore è la numerosità del campione tanto è maggiore la precisione nella determinazione della media e della varianza. È inoltre importante sottolineare che con l’aumentare della numerosità del campione aumenta anche il grado di precisione dei valori rilevati (ad 8 esempio si può ottenere una misura dell’altezza media in mm invece che in cm). Peraltro, con riferimento agli studenti di un istituto tecnico commerciale, tale approccio può rappresentare un rimando alla geometria, che tendenzialmente in tali istituti viene spesso trattata solo superficialmente. L’area dell’istogramma è determinabile come somma delle aree di tutti i rettangoli e l’area di ogni rettangolo risulta: Area rettangolo = base * altezza = (ampiezza classe * densità di frequenza) = frequenza relativa In questo modo si portano gli studenti alla comprensione di un concetto di per sé complesso passo passo, partendo proprio dalla rappresentazione grafica. Diventa così possibile ovviare ad un nodo concettuale problematico, in quanto non sarebbe altrimenti così evidente ed immediato comprendere che l’area di ogni rettangolo risulta pari alla frequenza relativa della manifestazione del carattere. Al crescere del numero dei rettangoli, l’istogramma tende ad una funzione continua, la cui area vale ancora uno, detta funzione di densità. Si intende evidenziare che, poiché innumerevoli fenomeni statistici tendono ad avere distribuzioni di forma simile, sono state studiate distribuzioni teoriche che riproducono andamenti tipici delle distribuzioni di frequenza (è il caso, ad esempio, della distribuzione normale o gaussiana). È opportuno procedere poi al confronto fra l’istogramma sperimentale ottenuto in precedenza con la distribuzione gaussiana teorica. Agendo in tal modo si potrà osservare che la gaussiana costituisce una buona approssimazione del fenomeno considerato. 9 Si può far notare come diventi così possibile, note la media e la varianza del campione, calcolare in modo preciso la percentuale di popolazione avente, ad esempio, l’altezza compresa in un certo intervallo senza dover procedere in modo più complesso e lungo, sommando le aree dei singoli rettangoli dell’istogramma. Si evidenzia in questo un proficuo collegamento con l’analisi, con riferimento al concetto di integrale. Per gli studenti di un liceo scientifico, in analisi si approfondirà poi dettagliatamente il concetto di integrale indefinito e definito, mentre per gli studenti di un istituto tecnico commerciale tale concetto sarà sviluppato solo a livello intuitivo, senza eccessivi formalismi. Ad ogni modo, con siffatto approccio verrà ben interiorizzato il significato stesso di integrale come area sottesa ad una curva. La percentuale di soggetti che hanno carattere (ad es. l’altezza) compreso all’interno di un determinato intervallo è calcolabile come area (e, quindi, come integrale) sottesa alla curva di densità in quell’intervallo. Probabilità. Con la statistica si analizzano dati certi, osservati ex post, mentre con la probabilità si introduce il concetto di evento aleatorio inteso come accadimento il cui esito sia incerto. A tal fine si possono illustrare una serie di esempi (il numero di automobili che transitano su un’autostrada in un dato giorno, l’uscita di un determinato numero al gioco del lotto, il valore che può assumere un titolo azionario, la temperatura registrata in una giornata…). Si va così a definire il concetto di probabilità: si tratta di un nodo concettuale che presenta numerose problematiche definitorie e didattiche. 10 Proprio per far rendere conto ai discenti di tali problematiche, si intende partire con una serie di esempi basati sempre su casi pratici e vicini agli interessi degli studenti. Infatti, spesso le inferenze si basano proprio su credenze stereotipate. In particolare si intende interessante proporre ad esempio il seguente esercizio: Luisa, che sa della fine della mia storia con Mario, ed ama gli indovinelli, mi dice: «Sai, viene a trovarmi per qualche giorno Sergio, un mio lontano cugino, dall'Emilia. Potremmo andare a cena assieme, e poi, chissà, potrebbe nascere qualcosa! Sergio non è molto alto, ma ha un bell'aspetto, anche se porta gli occhiali. Gli piace leggere. È un po' taciturno, ma quando parla sa essere piacevole. Non ti dico altro. Prova a indovinare che mestiere fa: (A) il magistrato, (B) il bibliotecario, (C) l'agricoltore, (D) l'attore o (E) il dentista?» In assenza di altre informazioni su Sergio e, in generale, sui parenti di Luisa, ipotizzando che Luisa sappia che io non ho particolari preferenze per un mestiere o l'altro, … come dovrei rispondere per individuare il mestiere più probabile? In effetti, si può osservare proprio come fra i mestieri indicati, in Emilia, e in tutte le regioni italiane, il più frequente è di gran lunga sicuramente l'agricoltore. E ai nostri giorni anche gli agricoltori portano gli occhiali, e leggono. statistiche, Solo qualche potrebbe stereotipo, indurre a e l'assenza pensare che la di considerazioni risposta OK sia "bibliotecario". Diversa, ovviamente, sarebbe la situazione se Luisa avesse 5 cugini che fanno i mestieri indicati. 11 Altri esempi opportuni potrebbero essere i seguenti: Un dado da gioco viene costruito con del cartoncino secondo il modello raffigurato a lato. Quale delle seguenti potrebbe essere la distribuzione delle uscite? (A) (B) (C) (D) (E) 1: 9%, 1: 30%, 1: 10%, 1: 1/6, 1: 5%, 2: 20%, 2: 12%, 2: 15%, 2: 1/6, 2: 15%, 3: 12%, 3: 17%, 3: 30%, 3: 1/6, 3: 30%, 4: 12%, 4: 20%, 4: 20%, 4: 1/6, 4: 20%, 5: 17%, 5: 12%, 5: 15%, 5: 1/6, 5: 15%, 6: 30% 6: 9% 6: 10% 6: 1/6 6: 5% (E) è da escludere in quanto la somma delle probabilità farebbe 90%, che differisce da 100% più di quanto potrebbe accadere a causa delle approssimazioni. (D) è da escludere in quanto il baricentro del dado non è equidistante dalle facce a causa della presenza delle linguette. La faccia più pesante è "6" in quanto ad essa si incollano 3 linguette, mentre la sua opposta, "1", senza linguette, è la più leggera. Queste due facce sono quindi, rispettivamente, quella che esce, ossia appare rivolta verso l'alto, con probabilità massima e quella che esce con probabilità minima: la risposta OK è (B). Lancio ripetutamente un dado (non truccato). Quale tra i seguenti fatti è più probabile? (A) Ottenere di fila 5,2,1,4,3,6 (B) Ottenere di fila 5 volte 6 (C) Ottenere di fila 1,2,3,4,5,6 (D) Ottenere di fila 6 volte 1 (E) Ottenere di fila 1,1,2,2,3,3 Se lancio un fissato numero di volte un dado non truccato, tutte le sequenze di uscite hanno la stessa probabilità: non c'è motivo per cui, facendo 3 lanci, 666 sia meno probabile di, ad es., 524. Nel nostro caso il fatto più probabile è (b) in quanto si tratta di una sequenza tra tutte le possibili (e tra loro equiprobabili) sequenze di 5 uscite; tutte gli altri fatti sono meno probabili: si tratta di una sequenza 12 tra tutte le possibili sequenze di 6 uscite, che sono molte di più (sono 6 volte la quantità delle sequenze di 5 uscite: la probabilità di B è 6 volte la probabilità di ciascuno degli altri eventi). Si ritiene che gli studenti avranno molte difficoltà con la risoluzione di tali esercizi. Si riscontra infatti una difficoltà tipica del pensiero probabilistico, ovvero l'idea che una successione "regolare" di uscite sia più improbabile di una uscita meno regolare. Esercizi di questo genere sono assai utili per mettere in luce le misconcezioni e aprire con gli alunni momenti di discussione su di esse. Si mostreranno quindi le differenti definizioni di probabilità (classica e frequentista), mostrandone altresì i limiti. Si è ora in grado di introdurre il concetto di variabile aleatoria, che è proprio una grandezza che può assumere valori differenti in modo imprevedibile. Si forniscono quindi alcuni esempi di variabili aleatorie (ad esempio il numero di teste che si presentano lanciando n monete, la velocità di un’auto in un determinato istante, il numero dei centri di un bersaglio nel tiro al piattello su n colpi, il numero di carte di cuori estraibili da un mazzo di 40 (con o senza reinserimento…), la statura di una persona… Alcune delle precedenti variabili possono assumere solo determinati valori (il numero di teste, il numero dei centri del bersaglio, il numero di carte…) mentre altre possono assumere qualsiasi valore entro un certo intervallo (velocità, statura…). Nel primo caso si parla di variabili aleatorie discrete, nel secondo caso di variabili aleatorie continue. Per definire in modo esauriente una variabile aleatoria è necessario definire sia i valori che la grandezza può assumere sia con quale 13 probabilità può assumere tali valori, ovvero si deve definire la sua distribuzione di probabilità (funzione di probabilità). Si forniscono quindi esempi di variabili aleatorie discrete, procedendo altresì ad una loro rappresentazione grafica mediante istogrammi. Tipica distribuzione di probabilità discreta è la binomiale, che calcola la probabilità di ottenere x successi in n prove indipendenti tra loro. Quindi, analogamente e specularmente a quanto osservato con riferimento alle distribuzioni di frequenza di fenomeni statistici, si procede al passaggio al continuo anche per le variabili aleatorie. In particolare si fa notare attraverso esempi opportuni con l’ausilio di software (ad esempio Stat o Excel) come, aumentando il numero delle prove effettuate, l’istogramma distribuzione teorica continua, sperimentale converga come ad esempio la verso una gaussiana o l’uniforme. Si vuole anche evidenziare come esistano fenomeni che presentano andamento continuo irregolare (ad esempio, il peso degli individui), non rappresentabili mediante distribuzione gaussiana o uniforme. Senza procedere ad una dimostrazione rigorosa, si vuole evidenziare come con l’aumentare del numero delle prove, la binomiale tenda alla gaussiana. Si intende riprendere l’esempio delle altezze, proposto con riferimento alla statistica, per far notare come l’istogramma sperimentale sia ben approssimabile dalla distribuzione gaussiana teorica, avente media e varianza della popolazione in esame. 14 Pertanto, note media e varianza, è possibile calcolare la probabilità che l’altezza degli individui sia compresa in un certo intervallo. Mentre con riferimento ai fenomeni statistici l’area sottesa alla curva in un certo intervallo rappresenta la percentuale - ovvero la frequenza relativa - di soggetti aventi carattere con valori in tale intervallo, per quanto concerne gli eventi aleatori, l’area sottesa rappresenta la probabilità che l’evento assuma valori in tale intervallo. Tale area, ovvero la probabilità, potrà essere calcolata tramite calcolo integrale oppure, qualora trattasi di particolari distribuzioni, quale la gaussiana, mediante l’ausilio di tavole o, più opportunamente, tramite calcolatrici o software. Qualora trattasi invece di distribuzione uniforme, si può ricorrere alla geometria (area di un rettangolo). Il passo conclusivo può essere quello di affrontare il concetto di inferenza, mostrando come, nota la distribuzione del campione, sia 15 possibile passare alla distribuzione della popolazione con un certo livello di confidenza (stima). A conclusione del presente lavoro si ritiene utile descrivere le principali tipologia di difficoltà incontrabili dai discenti. - difficoltà a distinguere il concetto di carattere da quello di frequenza; - difficoltà a raggruppare opportunamente i dati in classi; - difficoltà riscontrabili nel passaggio dal discreto al continuo relative alla non consapevolezza dell’importanza della numerosità del campione, in quanto solo con popolazioni ampie vale la legge dei grandi numeri e la convergenza della distribuzione discreta verso quella continua; - difficoltà tipica del pensiero probabilistico, ovvero l'idea che una successione "regolare" di uscite sia più improbabile di una uscita meno regolare; - difficoltà legate all’atteggiamento di pensiero che potrebbero condizionare in futuro la vita sociale molto di più rispetto ai tradizionali concetti matematici; - difficoltà di comprensione della differenza tra fenomeno statistico ed evento aleatorio. 16