1. Importanza dei metodi statistici e probabilistici nelle scienze umane e sperimentali (Statistica, probabilità, conoscenza e razionalità: l'inferenza induttiva) Un'usuale caratterizzazione del lavoro del ricercatore è la seguente: a) il ricercatore esegue un esperimento o una serie di esperimenti allo scopo di ottenere dati, ossia informazioni relativamente a una determinata situazione oggetto di studio b) il ricercatore rappresenta, in modi che ritiene particolarmente adeguati al suo studio, i dati ottenuti nella fase a), aiutandosi con tecniche che trovano il loro fondamento sia nell'esperienza, sia in specifiche teorie c) il ricercatore effettua l'analisi dei dati, cercando di ottenere, dai dati che ha a disposizione, leggi e proprietà che caratterizzino, in generale, un insieme di situazioni analoghe a quella che è stata oggetto di indagine d) il ricercatore stima il livello di affidabilità dell'insieme di conoscenze che ritiene descrivano la situazione oggetto di studio e che ha ottenuto nella fase c) e) il ricercatore rimette al vaglio dell'esperienza e della collettività le sue valutazioni In tal modo lo scienziato può generalizzare l'esperimento singolo alla classe di tutti gli esperimenti simili operando una sorta di estensione dal particolare al generale che viene chiamata inferenza induttiva. Tramite l'inferenza induttiva si ottiene nuova conoscenza: si tratta quindi di un processo razionale, ma creativo. La creatività è in un certo senso garantita dal fatto che l'inferenza induttiva è, in fin dei conti, un processo d'azzardo: non è possibile, dalla considerazione di un insieme di situazioni particolari, effettuare generalizzazioni che siano espresse da proposizioni assolutamente certe, nel senso che discendono logicamente dai dati iniziali (ossia dalle osservazioni effettuate sulle situazioni particolari). L'inferenza induttiva caratterizza e regola quella che viene chiamata logica dell'incertezza, che spesso viene contrapposta, anche a torto, all'inferenza deduttiva (connotata talvolta come logica del certo o logica matematica tout court). Le conclusioni che si raggiungono con l'inferenza induttiva sono probabili (spesso si dice anche si va dal particolare al generale); le conclusioni che si raggiungono con l'inferenza deduttiva sono conseguenza logica delle premesse, ossia sono logicamente valide, il che vuol dire che valgono in tutte le situazioni in cui le premesse sono vere (spesso si dice anche che si va dal generale al particolare). Quindi l'inferenza induttiva consente di acquisire nuova conoscenza (è creativa), mentre quella deduttiva consente solo di esplicitare informazioni già contenute nelle premesse (non è creativa). Come si è detto le conclusioni che si raggiungono con l'inferenza induttiva sono probabili e, se gli esperimenti di acquisizione dei dati sono condotti secondo certi principi e utilizzando tecniche ben precise, se ne può stimare il grado si affidabilità, ossia misurarne il grado di incertezza. Un tipico problema di inferenza induttiva è quello di valutare i risultati di una consultazione elettorale sulla base di informazioni ottenute su un campione. Si tratta di risolvere i seguenti problemi: a) scelta di un campione adeguato b) scelta delle modalità di indagine c) raccolta e rappresentazione dei dati d) analisi dei dati e conseguente previsione e) valutazione del grado di affidabilità della previsione f) verifica dell'adeguatezza dell'indagine Un altro problema è quello di individuare l'intervallo di normalità per i valori di una determinata sostanza presente, per esempio, nel sangue. Anche qui si tratta di affrontare una serie di problemi analoghi a quelli sopra elencati. Ciascuno di tali problemi richiede competenze di statistica e probabilità: queste prime considerazioni dovrebbero essere sufficienti a suggerire l'importanza della conoscenza di elementi di probabilità e statistica nella formazione del cittadino. C'è un altro aspetto che mi preme, però, sottolineare, proprio in relazione all'importanza degli elementi di probabilità e statistica nella 1 formazione del cittadino. Si tratta di un particolare disturbo dell'apprendimento, noto come anomalia della razionalità o dysrationalia. In genere con disturbo dell'apprendimento si intende un gruppo eterogeneo di disturbi che determinano notevoli difficoltà nell'acquisizione di abilità di ascolto, di ragionamento, di linguaggio, di scrittura, di calcolo (dislessia, disgrafia, discalculia …). I disturbi dell'apprendimento possono verificarsi in concomitanza con altre situazioni di handicap (quali i disturbi sensoriali, ritardo mentale, gravi disturbi dell'emotività) o anche in concomitanza con particolari situazioni socioculturali di disagio, ma non sono causati da queste situazioni: infatti essi si verificano anche in assenza di tali situazioni. Spesso si verificano in individui che hanno un quadro anche al di sopra del livello atteso per quel che riguarda alcune performances specifiche che non sono collegate a quelle per cui si rileva il disturbo di apprendimento. L'anomalia della razionalità è stata osservata anche in individui particolarmente brillanti e capaci in molte abilità e con elevati livelli di successo nella vita sociale e professionale. Questo disturbo dell'apprendimento è caratterizzato dall'incapacità di pensare e comportarsi in modo razionale, nonostante il possesso di un'intelligenza adeguata. Si nota, negli individui che soffrono di tale disturbo dell'apprendimento, la tendenza ad assumere decisioni che non sono coerenti con il sistema di conoscenze utilizzato per prendere tali decisioni, oppure la tendenza a utilizzare, nell'atto di prendere decisioni, sistemi di credenze che sono in contrasto con i sistemi di conoscenze posseduti da tali individui. Il criterio diagnostico chiave per accertare la anomalia della razionalità è dato dal livello di razionalità che si manifesta nel pensiero e nel comportamento il quale, nel caso di questo disturbo, è significativamente al di sotto dell'abilità intellettiva generale dell'individuo. Quello di cui mi convinco sempre più è che l'anomalia della razionalità in condizioni di incertezza è più regola che non eccezione: sono sempre più convinto che la maggior parte degli individui soffra di dysrationalia quando si tratti di assumere decisioni in condizioni di incertezza, ossia quando si tratta di mettere in pratica il pensiero statistico probabilistico. Faccio notare, per inciso, che l'avvio al pensiero razionale dovrebbe essere obiettivo prioritario di ogni attività didattica: tanto per avere un'idea del danno che comportamenti irrazionali possono portare alla comunità, si pensi al fatto che il Congresso degli Stati Uniti d'America ha stimato che in questo paese, nel 1984, è stata spesa una cifra di 17000 miliardi di lire per interventi di medicina alternativa; oppure si pensi a come i desideri incidono sulle valutazioni degli investimenti azionari e obbligazionari determinando spesso forti perdite; o, ancora, al fatto che la dichiarazione dei redditi dei maghi in Italia è seconda per entità valutaria solo a quella dei notai. Secondo Stanovich, uno studioso che si è occupato a fondo della dysrationalia, "i costi della anomalia della razionalità per la società sono elevati - probabilmente pari a quelli della dislessia, il disturbo dell'apprendimento più diffuso e quello che ha ricevuto maggiore attenzione da parte della ricerca e della didattica. Se le scuole dedicassero più attenzione all'insegnamento di abilità decisionali e di pensiero razionale, si realizzerebbe un'educazione più orientata alla pratica e maggiormente collegata con il mondo reale. Una scelta curricolare di questo tipo istituirebbe probabilmente un rapporto particolarmente stretto tra insegnamento e vita reale, con molte conseguenze positive, inferiori solo a quelle dovute all'alfabetizzazione. A seguito di errori nelle decisioni e di abilità non ottimali di pensiero razionale, ad esempio, i medici prescrivono trattamenti farmacologici non adeguati; i rischi presenti nell'ambiente non vengono adeguatamente valutati; le informazioni vengono utilizzate male nei procedimenti legali; somme ingenti vengono spese dai governi e industrie private in progetti inutili; gli animali vengono cacciati fino all'estinzione; miliardi vengono spesi per medicine inutili; vengono eseguite operazioni chirurgiche inutili e prese decisioni errate in campo finanziario che si rivelano costose per la collettività. Infine, certi ambiti decisionali - uso di contraccettivi, assunzione di droghe, abitudini alla guida - sono particolarmente rilevanti per gli adolescenti" ((Stanovich, Anomalia della razionalità. Un nuovo disturbo dell'apprendimento, in Insegnare all'handicappato, vol. 8, n.2, Erickson, 1994, pag.114-115). Vorrei condurre con voi un piccolo esperimento a distanza per verificare la correttezza delle mie affermazioni sulla dysrazionalia che tutti, più o meno, manifestiamo di fronte al pensiero statistico2 probabilistico. Prima di passare a questo esperimento, però, vorrei aggiungere qualcosa sul rapporto matematica-probabilità-statistica. Il calcolo delle probabilità (sarebbe meglio dire il calcolo delle probabilità di eventi composti a partire dalla conoscenza delle probabilità degli eventi elementari) è a tutti gli effetti una teoria matematica: si può dire che sia una parte della teoria della misura. Quindi la logica che viene utilizzata nel calcolo delle probabilità è la logica deduttiva, quella che viene detta anche logica del certo. Se però si legge con attenzione quello che è scritto dentro le parentesi, ci si dovrebbe chiedere come si calcolano le probabilità degli eventi elementari. Su questo il calcolo delle probabilità dice ben poco, così come dice ben poco su come stimare se due eventi sono dipendenti o indipendenti (due eventi di cui non si conosce la probabilità, ovviamente). Il problema del calcolo delle probabilità degli eventi elementari sottrae la probabilità allo stretto ambito dell'inferenza induttiva, della logica del certo, della teoria della misura e, quindi della matematica come sistema ipotetico deduttivo. Quando ci si scontra con il problema: come stimare la probabilità degli eventi elementari? si entra nel campo dell'inferenza induttiva, ossia di tecniche e conoscenze che consentono di indurre, da un insieme di osservazioni particolari, dati di carattere generale; per esempio che consentono, da un insieme di rilevazioni statistiche relative a un determinato evento, di assegnare la probabilità di tale evento. Ogni volta che ho un problema di effettuare scelte, valutazioni, stime, verifiche di ipotesi in condizioni di incertezza, c'è sempre una fase di raccolta, elaborazione e rappresentazione dei dati (statistica descrittiva), una fase di analisi dei dati allo scopo di effettuare previsioni, valutazioni, stime (statistica inferenziale) e una fase di verifica dell'affidabilità di tali stime (in genere la fase della statistica inferenziale consente di scegliere un particolare modello probabilistico e, in base a tale modello si valuta l'affidabilità delle stime. Per esempio, si può dire: i dati che ho elaborato e analizzato, suggeriscono che la popolazione che ho studiato segua una distribuzione X di probabilità. Se ciò è vero, la probabilità di ottenere dati che si discostino da quelli che ho ottenuto è dell'y% . Ora faccio alcune verifiche e vedo che tipi di dati ottengo su nuovi campioni estratti da quella popolazione….Quindi, eventualmente, aggiorno, rifiuto o accetto il mio modello, sempre con un certo grado di fiducia, ossia con una misura quantitativa dell'incertezza). Come si vede si tratta di questioni delicate e tecnicamente complesse, che non riusciremo ad affrontare nel nostro corso (ma che dovrebbero essere affrontate in un corso di matematica PNI). Qui ci limiteremo, dopo aver preso in considerazione alcuni tipici fraintendimenti nel campo della probabilità e della statistica, a presentare alcune tecniche di statistica descrittiva, e le leggi del calcolo delle probabilità, ossia gli elementi di calcolo delle probabilità e di statistica che sono presenti nella scuola di base e nei primi tre anni di una qualunque scuola secondaria superiore (e che fanno parte dei vostri programmi di studio). Rimarrà fuori tutto il discorso della statistica inferenziale, almeno come trattazione sistematica, anche se aleggerà sullo sfondo di alcuni argomenti di statistica descrittiva (come la scelta di un campione) e di calcolo delle probabilità (come la stima delle probabilità degli eventi elementari). 2 Pregiudizi, idee distorte, misconcetti, illusioni mentali relativi al pensiero statistico e probabilistico a) Sottostimare la variabilità dei piccoli campioni In una città ci sono due cliniche con reparto maternità. Una è nettamente più grande dell'altra. Nella prima si registrano in media 45 nascite al giorno, nella seconda, sempre in media, 15 nascite al giorno. Si decide di annotare, in ciascuna clinica i giorni in cui i nati appartengono per oltre il 60% allo stesso sesso. Quale delle due cliniche ha la maggior probabilità di registrare un maggior numero di tali giorni? Perché? b) Dare un'anima alle cose Sapendo che il numero 20 sulla ruota di Bari non è uscito per 180 settimane, conviene puntare sulla sua uscita? Perché? 3 c) Confondere semplice correlazione con dipendenza causa effetto È noto che al diminuire della velocità delle automobili aumenta il numero di incidenti. Possiamo concludere che conviene andare a velocità elevate? Perché? d) Effetto rappresentatività (si confonde ciò che è più tipico con ciò che è più probabile) Ho appena gettato in aria una moneta sette volte di seguito, ma voi non avete potuto vedere i risultati dei vari lanci. Vi chiedo di dire quali delle seguenti sequenze ha maggiori probabilità di essersi effettivamente verificata: 1) TTTTCCC 2) CTTCTCC 3) CCCCCCC e) (la "legge dei piccoli numeri") Un normale dado da gioco è stato dipinto in modo tale da avere quattro facce verdi e due rosse. Lo si getta ripetutamente, dopo averlo debitamente agitato in un bussolotto, sul tappeto e si chiede di scommettere quale delle seguenti sequenze sia di fatto uscita (garantendo che una di queste sequenze si è effettivamente verificata) 1) RVRRR 2) VRVRRR 3) VRRRRR f) The framing of choice (le scelte incorniciate). Risolvere i due quesiti Un paese del Sud-est dell'Asia è minacciato da una grave epidemia che mette in pericolo la vita di 600 persone. Sono in fase di elaborazione due possibili interventi sanitari, rispettivamente designati con le lettere A e B. Se si adotta il programma A si salvano certamente 200 vite umane. Se si adotta il programma B c'è una probabilità 1/3 di salvare 600 vite umane e una probabilità 2/3 di non salvare alcuna vita. Sapendo questo, quale dei due programmi vi sentireste di raccomandare? Un paese del Sud-est dell'Asia è minacciato da una grave epidemia che mette in pericolo la vita di 600 persone. Sono in fase di elaborazione due possibili interventi sanitari, rispettivamente designati con le lettere C e D. Se si adotta il programma C moriranno certamente 400 vite umane. Se si adotta il programma D c'è una probabilità 1/3 che nessuno muoia e una probabilità 2/3 che muoiano 600 persone. Sapendo questo, quale dei due programmi vi sentireste di raccomandare? Nel 1982 McNeil, Paulker, Sox e Tversky sottomisero a un test qualitativamente molto simile, ma basato su dati clinici reali, un campione di medici degli Stati Uniti. Il risultato del test suggerì che una sensibile maggioranza di clinici professionisti è incline a commettere l'errore dell'incorniciamento: per esempio, se si dice che un certo intervento chirurgico comporta una mortalità media del 7% entro cinque anni successivi all'operazione, essi saranno restii a raccomandarlo, mentre se si dice loro che si registra una sopravvivenza media del 93% cinque anni dopo l'operazione, sono assai più disposti a raccomandarlo. Ovviamente questi dati sono perfettamente equivalenti dal punto di vista statistico, ma sono inquadrati, incorniciati in modo diverso.Da qualche anno a questa parte, in alcune facoltà di medicina degli Stati Uniti e di Israele si tengono, per i futuri medici, regolari corso proprio su questi bias (pregiudizi, errori, misconcetti), ben presenti nelle decisioni e nella formulazione delle diagnosi. g) Effetto congiunzione Viene fornita la seguente scheda attitudinale: Luigi ha 34 anni. È intelligente, ma ha poca fantasia, è abitudinario, metodico e non molto attivo. A scuola era bravo in matematica, ma debole nelle materie umanistiche e nelle scienze sociali. Sulla base di questo stringatissimo profilo, siamo invitati a indovinare quale è la probabilità che Luigi eserciti un certo mestiere o una certa professione, piuttosto che altri. In particolare ci viene chiesto di ordinare, per probabilità decrescente, una lista di mestieri e hobby tra i quali compaiono i casi seguenti: 1) Luigi fa il medico e gioca a poker per hobby 2) Luigi fa l'architetto 4 3) 4) 5) 6) 7) 8) Luigi fa il contabile Luigi suona per hobby musica jazz Luigi ha l'hobby del surf Luigi fa il giornalista Luigi fa il contabile e suona per hobby musica jazz Luigi ha l'hobby dell'alpinismo Linda ha 31 anni. È nubile, franca e molto brillante. Ha una laurea in filosofia. Da studentessa si interessava molto ai problemi di discriminazione razziale e ingiustizia sociale e prendeva parte attiva alle dimostrazioni antinucleari. Come per il caso di Luigi, siamo invitati a indovinare quale è la probabilità che Linda eserciti un certo mestiere o una certa professione, ordinando per probabilità decrescente, una lista di mestieri e hobby tra i quali compaiono i casi seguenti: 1) Linda insegna in una scuola elementare 2) Linda lavora in una libreria e prende lezioni di yoga 3) Linda è attiva nel movimento femminista 4) Linda è una assistente sociale 5) Linda è membro dell'organizzazione elettorale femminile 6) Linda lavora in una banca 7) Linda è un agente assicurativo 8) Linda lavora in una banca ed è attiva nel movimento femminista Questo effetto è stato osservato anche fra i medici e gli ingegneri nel loro campo di expertise: per esempio un medico ritiene più probabile la presenza simultanea di due sintomi solitamente e tipicamente associati (poniamo cefalea e vomito) che non la presenza di uno dei due. Esercizio: Un test clinico, atto a rivelare la presenza di una certa forma di malattia, risulta positivo in un certo paziente. Vi viene detto che: a) l'affidabilità del test in questione è del 79% b) la frequenza media della malattia, nella popolazione da cui viene il paziente, in quella fascia d'età è dell'1% c) i falsi positivi sono il 10% Tenuto conto di tutto questo, qual è, secondo voi, la probabilità che il paziente abbia effettivamente quella malattia? 3. Riflessioni sui modi in cui talvolta vengono veicolate alcune informazioni per apprezzare l'opportunità di un'educazione al pensiero statistico e probabilistico Guardate con attenzione le seguenti rappresentazioni grafiche di dati tratte da giornali americani. Per ciascuna di esse cercate di capire quale fenomeno vogliono mettere in evidenza e commentate l’adeguatezza della rappresentazione scelta. 5 6 7 8 9 4. Inquadramento del fenomeno statistico: rilevazione, organizzazione dei dati e rappresentazioni grafiche relative Vincoli di un'indagine statistica: 1) tempo di durata dell'indagine 2) territorio dove deve essere condotta l'indagine 3) stabilire se l'indagine deve essere rivolta a tutta la popolazione o a un campione 4) modalità di indagine (questionario, intervista, per telefono, personale, per posta….) 5) fondi disponibili 6) personale disponibile Fasi di un'indagine statistica: 1) individuare con precisione le variabili significative (ossia i caratteri da investigare) del fenomeno che si vuole indagare 2) scelta del campione 3) formulazione delle domande da porre 4) realizzazione dell'indagine 5) raccolta e spoglio dei dati 6) sintesi ed elaborazione dei dati 7) interpretazione dei risultati 8) comunicazione dei risultati Formazione del campione. 10 Per campione si intende una parte di una popolazione di riferimento (quella interessante per l'indagine) che viene selezionata per farne oggetto di analisi nella rilevazione statistica. La caratteristica principale di un campione è la rappresentatività: essa richiede che il campione possa rappresentare bene la popolazione. Ciò ovviamente dipende dalle informazioni che possediamo dei rapporti significativi che ci sono fra le varie classi della popolazione e dalle informazioni che abbiamo relativamente ai rapporti fra il campione e la popolazione dalla quale è tratto. Per ottenere un campione realmente rappresentativo della popolazione occorrerebbe che i vari caratteri degli elementi sottoposti a indagine fossero presenti nell'universo e nel campione nella stessa proporzione. Il procedimento di formazione del campione è detto corretto o non distorto se il campione riproduce fedelmente, per qualsiasi carattere, la popolazione. Nel caso di formazione del campione per estrazione casuale dalla popolazione, affinché si abbia un campione non distorto, è necessario che ogni elemento della popolazione abbia la stessa probabilità degli altri elementi di essere incluso nel campione. Esercizio: in un campione estratto dalla popolazione italiana, per un'indagine sulle forze di lavoro (occupati e disoccupati), quali caratteri dovranno essere presenti nella stessa proporzione della popolazione, affinché il campione non risulti distorto? Producete un elenco e confrontatelo. Grazie alla teoria della probabilità si può calcolare, su un campione casuale, l'errore di campionamento, ovvero di quanto un campione di n elementi si discosta, con una probabilità definita, dalla popolazione per un dato carattere. Questo errore diminuisce proporzionalmente alla radice quadrata del numero di elementi del campione. La rilevazione dei dati Le rilevazioni statistiche possono essere: - continue, come quelle delle nascite, delle morti, dei matrimoni, … - periodiche, quando vengono effettuate a intervalli regolari di tempo, come i censimenti, o l'analisi della balneabilità delle coste - occasionali, quando vengono effettuate solo in determinati momenti e situazioni Le tecniche di rilevazione sono le seguenti: - intervista diretta - intervista telefonica - autocompilazione del questionario Ciascuna di esse ha pregi e difetti e condizioni da rispettare. In particolare occorre prestare attenzione a non porre domande devianti, non chiare o ingannevoli. Spoglio dei dati I dati vengono innanzitutto enumerati e in un secondo momento classificati e riuniti in classi omogenee. In ogni classe compare un solo tipo di carattere (per esempio: sesso, peso, colore degli occhi, reddito,..) di cui vengono elencate le diverse modalità (maschile-femminile per il sesso; intervalli i peso per il peso; azzurro-nero-marrone… per il colore degli occhi; ……), con la numerosità con cui sono state scelte (la frequenza assoluta o relativa con cui compare quella modalità. Le tabelle che vengono così a costituirsi possono essere semplici se sono formate da due colonne, che associano alle modalità del carattere le corrispondenti frequenze o complesse (a più entrate), se vengono contemporaneamente analizzati più caratteri (per esempio se si vuole studiare un'eventuale correlazione tra i pesi e le altezze dei maschi di una determinata popolazione). La fase di rappresentazione dei dati mediante i grafici che rappresentano le distribuzioni di frequenza preludono alla fase di elaborazione dei dati. In genere, per rappresentare una distribuzione di frequenza si utilizzano tabelle semplici o complesse, oppure rappresentazioni grafiche come ideogrammi, diagrammi a barre, istogrammi o aerogrammi. Nel caso in cui si vogliano rappresentare serie storiche, si utilizzano diagrammi 11 cartesiani. Nel caso in cui si voglia studiare la correlazione tra due grandezze si usano i diagrammi di dispersione. Ecco alcuni esempi di rappresentazioni tabulari e grafiche (fonte ISTAT). Nell'ordine, vengono rappresentati un grafico a colonne, un grafico cartesiano (tempo-interruzione volontaria di gravidanza), un grafico a piramide per la rappresentazione dell'evoluzione di una popolazione, alcune tabelle sugli insuccessi scolastici con dati aggregati e disaggregati (per posizione geografica e per sesso), un aerogramma (diagramma a torta, ma potrebbe essere rappresentato con un istogramma, che è un tipo di aerogramma: la caratteristica di un aerogramma è che l'area relativa a una particolare frequenza è proporzionale alla frequenza stessa), un diagramma di dispersione. Classici ideogrammi sono per esempio quelli sul potere del dollaro e del costo del petrolio al barile (che abbiamo prima criticato). 12 13 14 15 16 Elaborazione dei dati È la fase nella quale si utilizzano indici sintetici per rappresentare il fenomeno in questione. Gli indici possono essere di posizione o di variabilità. Iniziamo dagli indici di posizione. Diciamo intanto che i caratteri di una distribuzione possono essere qualitativi o quantitativi. I qualitativi a loro volta si suddividono in sconnessi (per esempio colore degli occhi) e ordinabili (per esempio i tradizionali voti scolastici, oppure l'ordine di nascita dei figli…). I caratteri quantitativi si suddividono in discreti (numero di scarpe, il numero dei componenti di una famiglia, …) e continui (peso, età, lunghezza del piede, …). Moda: si tratta della modalità cui corrisponde la maggiore frequenza (è sempre calcolabile). Mediana: in una distribuzione di frequenze di modalità ordinabili, la mediana è il valore di modalità che, dopo aver ordinato le modalità, suddivide la distribuzione di frequenze in due parti uguali (tali cioè che alla sinistra della mediana vi sia il 50% dei dati). È calcolabile solo quando le modalità sono ordinabili. Media aritmetica: è il valore di sintesi che, sostituito a ciascuno dei valori propri delle varie modalità, mantiene invariata la somma dei valori di tali modalità. Si calcola addizionando fra loro tutti i valori dei vari dati e dividendo la somma così ottenuta per il numero totale dei dati. Se le frequenze di qualche dato sono maggiori di 1, conviene calcolare la media aritmetica ponderata, che consiste nel dividere per il numero totale dei dati la somma dei prodotti fra i singoli dati e la frequenza con cui compaiono (è calcolabile solo per modalità quantitative e, nel modo ora indicato, solo per modalità quantitative discrete). Per esempio, se si vuole valutare l'andamento che due gruppi A e B di studenti hanno ottenuto in un test standardizzato, i cui risultati sono qui di seguito riportati: A 49 50 60 36 46 46 52 47 54 46 36 60 51 50 36 46 46 58 52 44 17 B 45 54 40 52 50 42 41 40 39 40 60 60 55 40 40 51 48 si possono confrontare le due medie aritmetiche: k xi f i 49 50 2 60 2 36 3 46 5 52 2 47 54 51 58 44 48.25 n 20 45 54 40 5 52 50 42 41 39 60 2 55 51 48 mb 46.88 17 Vediamo ora gli indici di variabilità. Range: differenza fra il valore massimo e il valore minimo assunto da una modalità (deve essere quantitativa) Scarto assoluto dalla media aritmetica: valore assoluto della differenza tra il valore di una modalità e la media aritmetica (la modalità deve essere quantitativa) Scarto assoluto medio: media aritmetica degli scarti assoluti dalla media (la modalità deve essere quantitativa) Scarto quadratico medio o varianza: media aritmetica dei quadrati degli scarti dalla media (la modalità deve essere quantitativa) Deviazione standard: radice quadrata della varianza (la modalità deve essere quantitativa). ma i 1 Nel caso delle serie storiche vengono spesso utilizzati i numeri indice, che misurano l'entità dei mutamenti in una serie storica e ne indicano le variazioni dell'intensità o della frequenza di un fenomeno. Nella serie dei numeri indice a base fissa si usa come base dei numeri indice il dato rispetto al quale si vogliono mettere in evidenza le variazioni e a esso si riportano tutti gli altri. Nei numeri indice a base mobile si misurano le variazioni di un dato rispetto al precedente. Spesso tali indici vengono espressi in forma percentuale. Ma c’è un solo tipo di media? Per rispondere a questa domanda, provate innanzitutto a svolgere i seguenti esercizi, che dovrebbero portarvi a individuare un concetto più generale di media: a) Un aereo viaggia da Roma a New York. All’andata le correnti favorevoli permettono all’aereo di viaggiare alla velocità di crociera di 932 Km/h; al ritorno la velocità è, invece, di 856 Km/h. Qual è la velocità media dell’aereo nell’intero percorso andata-ritorno? b) Una agenzia che effettua indagini di mercato ha rilevato per una rete televisiva i seguenti dati medi giornalieri di ascolto, nel periodo invernale e nella fascia oraria dalle 20 alle 21: Giorno della Lunedì Martedì Mercoledì Giovedì Venerdì Sabato Domenica settimana Numero medio spettatori (in 1.200 1.800 2.000 1.600 1.200 800 900 migliaia) Una agenzia di pubblicità in quale giorno potrebbe consigliare a un proprio cliente di inserire uno spot pubblicitario di un prodotto per la neve, volendo usare la fascia oraria 20 – 21? c) In un ciclo di lavorazione tre apparecchiature lavorano in serie: la prima macchina ha un rendimento del 90 % , la seconda dell’80% , la terza del 30%. Qual è il rendimento medio complessivo? d) Uno studente nella pagella del primo quadrimestre ha riportato i seguenti voti: Italiano Storia Geografia 7 8 7 18 Lingua inglese 6 Scienze 5 Matematica 4 Educazione Fisica 9 Il padre gli ha promesso un regalo se la media dei suoi voti fosse stata superiore al 7. Otterrà lo studente il regalo? e) Uno studente universitario iscritto al corso di laurea in Matematica ha superato durante il primo anno i seguenti esami1 riportando le seguenti votazioni: Esame Punteggio in trentesimi Crediti Laboratorio di Matematica 25 9 Analisi Matematica 24 12 Geometria 21 6 Algebra 27 6 Calcolo delle probabilità 23 9 Fisica generale 24 9 Lingua inglese 30 3 Fondamenti di Informatica 28 3 Abilità relazionali 30 3 Lo studente accede ad una borsa di studio se ha conseguito una media superiore a 27/30. Otterrà il nostro studente la borsa di studio? f) In una prova multidisciplinare di Storia, Inglese, Matematica, Diritto, gli studenti vengono valutati con un punteggio da 0 a 15 per ogni materia. Il voto finale è dato dalla media dei quattro punteggi parziali. La prova non si considera superata se uno studente prende 0 punti in una delle materie. Quale valore medio consente di rappresentare adeguatamente questo modo di valutare? Interpretazione dei dati È questa la fase più delicata (dopo quella della scelta del campione e delle tecniche di indagine). Si tratta spesso di ricercare correlazioni tra dati raccolti e di verificare l'affidabilità della correlazione eventualmente trovata; oppure di verificare l'affidabilità di una stima di un parametro valutata sul campione (la domanda in questo caso è: che probabilità ho che la stima del parametro che mi interessa effettuata sul campione di dati raccolti, non si discosti più di un certo livello dal valore dello stesso parametro valutato sulla popolazione?). Oppure si deve testare un'ipotesi, per esempio che il campione appartenga o non a una certa popolazione e valutare l'affidabilità della risposta. In questa fase si fa uso delle tecniche più raffinate della statistica e di modalità di ragionamento che non solo quelle tipiche del ragionamento deduttivo, ma anche induttivo e abduttivo. Bibliografia Batini, Olivieri, Descrivere la realtà: i metodi della statistica, Pitagora editrice, Bologna Dupont, Primo incontro con la probabilità, SEI, Torino Wonnacot, Wonnacot, Introduzione alla statistica, Franco Angeli, Milano Esercizi 1. Calcola moda, mediana, media aritmetica, range e scarto assoluto medio della seguente distribuzione: 5,1; 2,4; 2,0; 1,9; 7,5; 2,4; 3,2; 2,4 2. Completa la seguente tabella che fornisce dati sulla popolazione totale francese e sugli stranieri in Francia dall’anno 1851 al 1954. 1 Secondo il nuovo ordinamento universitario ad ogni esame è associato un numero di crediti: ciascun credito corrisponde a circa 25 ore di lezione-tutoraggio-impegno individuale dello studente. Ogni anno lo studente è tenuto ad accumulare 60 crediti. 19 Legenda: A popolazione totale (in migliaia) ; B: stranieri (in migliaia); C: francesi (in migliaia); D: incremento assoluto popolazione; E: incremento assoluto francesi; F: incremento assoluto stranieri; D%,E%,F%, rispettivi incrementi percentuali Anni 1851 1861 1872 1881 1891 1901 1911 1921 1931 1946 1954 A 35785 37386 36103 37672 38343 38962 39602 37500 41835 40503 42777 B 379 506 741 1000 1102 1038 1133 1417 2891 1671 1453 C D E F D% E% F% Riferendoti alla precedente tabella, studia l’andamento del fenomeno immigrazione in Francia dal 1851 al 1954. Utilizza indici opportuni, giustifica ogni scelta effettuata e spiega ogni procedimento utilizzato. Sono graditi eventuali commenti che consentano di descrivere più approfonditamente il fenomeno dell’immigrazione in Francia. 3. Considera la seguente tabella di dati grezzi relativi alle misure del tempo (in ore) mediamente dedicato allo studio allo studio individuale da un gruppo di 30 studenti che frequentano la terza liceo scientifico nella città XX: 2 2.5 2 1 2 1.5 1.5 3 4 1.5 3 2 3 2 1 3 4 3 4 3 1 2.5 3.5 2.5 2 3.5 3.5 2.5 1.5 3 Elabora in modo opportuno i dati a tua disposizione e utilizza rappresentazioni grafiche significative per descrivere il fenomeno oggetto di studio. 4. La seguente tabella riporta il numero delle pulsazioni del cuore a riposo rilevate a studenti di una terza liceo scientifico della città XX durante una lezione di matematica e fisica nell’a.s. 1986-1987. 20 Suddividi i dati grezzi nelle classi che più ti sembrano opportune; quindi determina indici sintetici che ti sembrano significativi. Rappresenta graficamente la distribuzione ottenuta nel modo che ti sembra più opportuno. Puoi fare qualche congettura sulle caratteristiche della popolazione su cui sono state effettuate le rilevazioni? Numero alunno 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 d’ordine Pulsazioni riposo 68 71 59 64 73 75 65 66 63 65 60 71 72 68 63 64 70 58 64 70 67 69 69 62 cardiache a 5. La seguente tabella riporta i dati relativi alle altezze di studenti di una prima liceo classico della città XX rilevate nell’a.s. 1995-1996. Suddividi i dati grezzi nelle classi che più ti sembrano opportune; quindi determina indici sintetici che ritieni significativi della distribuzione così ottenuta. Rappresenta graficamente la distribuzione ottenuta nel modo che ti sembra più opportuno. Puoi fare qualche congettura sulle caratteristiche della popolazione su cui sono state effettuate le rilevazioni? Numero alunno 1 2 3 4 5 6 d’ordine Altezza (in cm.) Numero alunno 160 14 173 15 158 16 162 17 183 18 173 19 d’ordine Altezza (in cm. 157 182 178 177 175 170 21 7 8 9 10 11 12 13 176 164 168 178 175 166 164 20 21 22 23 24 25 26 164 170 163 172 166 175 174 6. Supponiamo che sia stata eseguita una rilevazione sulle famiglie di un quartiere della città XX, tesa a determinare il numero dei componenti di ciascuna famiglia. La seguente tabella riassume i dati rilevati, riportando nella prima colonna il numero di componenti (da 1 a 8) rilevati fra le famiglie intervistate; nella seconda colonna la frequenza assoluta, ossia il numero di famiglie rispettivamente con 1, 2, ..., 8 componenti; nella terza colonna il numero totale degli individui appartenenti a famiglie aventi ripetitivamente 1,2,3,...,8 componenti. Numero componenti Numero famiglie Numero totale individui 1 12 12 2 28 56 3 52 156 4 32 128 5 15 75 6 6 36 7 4 28 8 1 8 Totale 150 499 Rappresenta con il grafico che ritieni più opportuno (giustificandone la scelta) la distribuzione così ottenuta. Puoi determinare il numero medio di componenti per famiglia? Come faresti? 7. Un istituto tecnico ha deciso di somministrare un questionario agli studenti respinti e alle loro famiglie per cercare di studiare la cause delle dispersione scolastica molto elevata in quell’istituto. Innanzitutto ha cercato di mettere a confronto i dati sulla dispersione scolastica a livello nazionale nelle classi prime con quelli dell’istituto. Ecco qui i dati rilevati organizzati in tabella: Dati sulla dispersione scolastica nelle classi prime a livello nazionale a.s. 1993/1994 Ripetenze Ritirati Dispersione Professionali 12.8% 9.8% 22.6% Tecnici 13.8% 1.1% 14.9% Licei 5.7% 1.9% 7.6% Dati sulla dispersione scolastica nelle classi prime nell’istituto a.s. 1991/1992 a.s. 1992/1993 a.s. 1993/1994 Iscritti 233 236 237 Promossi 187 192 192 Non promossi 38 39 40 Ritirati 8 5 5 22 Dati sulla dispersione scolastica nelle classi prime di ragioneria dell’istituto a.s. 1991/1992 a.s. 1992/1993 a.s. 1993/1994 Iscritti 161 173 186 Promossi 132 144 150 Non promossi 23 26 33 Ritirati 6 3 3 Dati sulla dispersione scolastica nelle classi prime di geometri dell’istituto a.s. 1991/1992 a.s. 1992/1993 1993/1994 (con corso Brocca) Iscritti 72 63 75 Promossi 55 48 65 Non promossi 15 13 8 Ritirati 2 2 2 1993/1994(senza corso Brocca) 51 42 7 2 Fonte delle tabelle: Innovazione Scuola, n. 6, Ottobre 1995, rivista di informazione didattica e professionale dell’I.R.R.S.A.E. Marche. Quali conclusioni potete trarre, in base ai dati a disposizione, sull’andamento del fenomeno dispersione scolastica nel triennio 1991/92-1993/94? E’ possibile effettuare un confronto significativo con i dati riferiti alle medie nazionali? Perché? E’ possibile individuare qualche beneficio apportato dalla sperimentazione Brocca? 8. Ecco alcune cifre relative ai morti sulle strade della Gran Bretagna Gennaio Febbraio Marzo Aprile Maggio Giugno Luglio Agosto Settembre Ottobre Novembre Dicembre Totale 1959 381 372 415 456 492 541 588 546 568 655 625 881 1960 507 458 493 500 504 537 634 589 619 670 695 764 1961 552 415 581 534 580 525 607 543 612 672 613 674 a) Vi sono differenze notevoli fra i vari mesi dell’anno? b) Queste differenze sono le stesse da un anno all’altro? c) C’è un mese particolarmente pericoloso? d) Vi sono differenze notevoli da un anno all’altro? e) La situazione va migliorando o peggiorando? Rispondete alle precedenti domande utilizzando opportune rappresentazioni e indici statistici. Giustificate e spiegate ogni passaggio e commentate il fenomeno morti sulle strade della Gran Bretagna dal 1959 al 1961. 23 9. Ecco la quantità totale di pioggia (in cm.) caduta nell’arco di 5 anni nella regione XX d’Europa: Gennaio Febbraio Marzo Aprile Maggio Giugno Luglio Agosto Settembre Ottobre Novembre Dicembre Totale 1956 12.7 1.8 1.7 3.3 0.8 4.7 7.2 12.1 10.7 4.8 2.6 11.7 1957 6.7 9.0 6.0 0.7 3.9 4.5 8.4 8.1 9.8 6.6 6.2 9.5 1958 9.1 6.7 3.9 2.5 8.6 8.3 7.1 6.6 12.5 7.4 7.2 9.2 1959 13.7 0.8 12.3 7.9 3.6 5.9 4.9 4.7 0.3 5.8 8.3 20.3 1960 11.2 5.6 4.0 4.4 3.6 8.9 9.1 9.2 9.2 21.2 12.5 12.2 Qual è di solito il periodo dell’anno meno piovoso? C’è stato un anno eccezionale? Qual è la media di precipitazione nel 1956? e nel 1957? E nel 1958? E nel 1959? E qual è la media delle precipitazioni in Marzo? E in Primavera? Qual è mediamente la stagione più piovosa? Basandovi anche sulle parziali elaborazioni effettuate per rispondere alle domande precedenti, rappresentate e descrivete il fenomeno delle precipitazioni nella regione XX. Giustificate la scelta degli indici, delle rappresentazioni grafiche; sono graditi commenti. 24