1. Importanza dei metodi statistici e probabilistici nelle scienze umane e sperimentali
(Statistica, probabilità, conoscenza e razionalità: l'inferenza induttiva)
Un'usuale caratterizzazione del lavoro del ricercatore è la seguente:
a) il ricercatore esegue un esperimento o una serie di esperimenti allo scopo di ottenere dati,
ossia informazioni relativamente a una determinata situazione oggetto di studio
b) il ricercatore rappresenta, in modi che ritiene particolarmente adeguati al suo studio, i dati
ottenuti nella fase a), aiutandosi con tecniche che trovano il loro fondamento sia
nell'esperienza, sia in specifiche teorie
c) il ricercatore effettua l'analisi dei dati, cercando di ottenere, dai dati che ha a disposizione,
leggi e proprietà che caratterizzino, in generale, un insieme di situazioni analoghe a quella
che è stata oggetto di indagine
d) il ricercatore stima il livello di affidabilità dell'insieme di conoscenze che ritiene descrivano
la situazione oggetto di studio e che ha ottenuto nella fase c)
e) il ricercatore rimette al vaglio dell'esperienza e della collettività le sue valutazioni
In tal modo lo scienziato può generalizzare l'esperimento singolo alla classe di tutti gli esperimenti
simili operando una sorta di estensione dal particolare al generale che viene chiamata inferenza
induttiva. Tramite l'inferenza induttiva si ottiene nuova conoscenza: si tratta quindi di un processo
razionale, ma creativo. La creatività è in un certo senso garantita dal fatto che l'inferenza induttiva
è, in fin dei conti, un processo d'azzardo: non è possibile, dalla considerazione di un insieme di
situazioni particolari, effettuare generalizzazioni che siano espresse da proposizioni assolutamente
certe, nel senso che discendono logicamente dai dati iniziali (ossia dalle osservazioni effettuate sulle
situazioni particolari). L'inferenza induttiva caratterizza e regola quella che viene chiamata logica
dell'incertezza, che spesso viene contrapposta, anche a torto, all'inferenza deduttiva (connotata
talvolta come logica del certo o logica matematica tout court). Le conclusioni che si raggiungono
con l'inferenza induttiva sono probabili (spesso si dice anche si va dal particolare al generale); le
conclusioni che si raggiungono con l'inferenza deduttiva sono conseguenza logica delle premesse,
ossia sono logicamente valide, il che vuol dire che valgono in tutte le situazioni in cui le premesse
sono vere (spesso si dice anche che si va dal generale al particolare). Quindi l'inferenza induttiva
consente di acquisire nuova conoscenza (è creativa), mentre quella deduttiva consente solo di
esplicitare informazioni già contenute nelle premesse (non è creativa).
Come si è detto le conclusioni che si raggiungono con l'inferenza induttiva sono probabili e, se gli
esperimenti di acquisizione dei dati sono condotti secondo certi principi e utilizzando tecniche ben
precise, se ne può stimare il grado si affidabilità, ossia misurarne il grado di incertezza.
Un tipico problema di inferenza induttiva è quello di valutare i risultati di una consultazione
elettorale sulla base di informazioni ottenute su un campione.
Si tratta di risolvere i seguenti problemi:
a) scelta di un campione adeguato
b) scelta delle modalità di indagine
c) raccolta e rappresentazione dei dati
d) analisi dei dati e conseguente previsione
e) valutazione del grado di affidabilità della previsione
f) verifica dell'adeguatezza dell'indagine
Un altro problema è quello di individuare l'intervallo di normalità per i valori di una determinata
sostanza presente, per esempio, nel sangue. Anche qui si tratta di affrontare una serie di problemi
analoghi a quelli sopra elencati.
Ciascuno di tali problemi richiede competenze di statistica e probabilità: queste prime
considerazioni dovrebbero essere sufficienti a suggerire l'importanza della conoscenza di elementi
di probabilità e statistica nella formazione del cittadino. C'è un altro aspetto che mi preme, però,
sottolineare, proprio in relazione all'importanza degli elementi di probabilità e statistica nella
1
formazione del cittadino. Si tratta di un particolare disturbo dell'apprendimento, noto come
anomalia della razionalità o dysrationalia. In genere con disturbo dell'apprendimento si intende un
gruppo eterogeneo di disturbi che determinano notevoli difficoltà nell'acquisizione di abilità di
ascolto, di ragionamento, di linguaggio, di scrittura, di calcolo (dislessia, disgrafia, discalculia …). I
disturbi dell'apprendimento possono verificarsi in concomitanza con altre situazioni di handicap
(quali i disturbi sensoriali, ritardo mentale, gravi disturbi dell'emotività) o anche in concomitanza
con particolari situazioni socioculturali di disagio, ma non sono causati da queste situazioni: infatti
essi si verificano anche in assenza di tali situazioni. Spesso si verificano in individui che hanno un
quadro anche al di sopra del livello atteso per quel che riguarda alcune performances specifiche che
non sono collegate a quelle per cui si rileva il disturbo di apprendimento.
L'anomalia della razionalità è stata osservata anche in individui particolarmente brillanti e capaci in
molte abilità e con elevati livelli di successo nella vita sociale e professionale. Questo disturbo
dell'apprendimento è caratterizzato dall'incapacità di pensare e comportarsi in modo razionale,
nonostante il possesso di un'intelligenza adeguata. Si nota, negli individui che soffrono di tale
disturbo dell'apprendimento, la tendenza ad assumere decisioni che non sono coerenti con il sistema
di conoscenze utilizzato per prendere tali decisioni, oppure la tendenza a utilizzare, nell'atto di
prendere decisioni, sistemi di credenze che sono in contrasto con i sistemi di conoscenze posseduti
da tali individui. Il criterio diagnostico chiave per accertare la anomalia della razionalità è dato dal
livello di razionalità che si manifesta nel pensiero e nel comportamento il quale, nel caso di questo
disturbo, è significativamente al di sotto dell'abilità intellettiva generale dell'individuo.
Quello di cui mi convinco sempre più è che l'anomalia della razionalità in condizioni di incertezza è
più regola che non eccezione: sono sempre più convinto che la maggior parte degli individui soffra
di dysrationalia quando si tratti di assumere decisioni in condizioni di incertezza, ossia quando si
tratta di mettere in pratica il pensiero statistico probabilistico.
Faccio notare, per inciso, che l'avvio al pensiero razionale dovrebbe essere obiettivo prioritario di
ogni attività didattica: tanto per avere un'idea del danno che comportamenti irrazionali possono
portare alla comunità, si pensi al fatto che il Congresso degli Stati Uniti d'America ha stimato che in
questo paese, nel 1984, è stata spesa una cifra di 17000 miliardi di lire per interventi di medicina
alternativa; oppure si pensi a come i desideri incidono sulle valutazioni degli investimenti azionari e
obbligazionari determinando spesso forti perdite; o, ancora, al fatto che la dichiarazione dei redditi
dei maghi in Italia è seconda per entità valutaria solo a quella dei notai.
Secondo Stanovich, uno studioso che si è occupato a fondo della dysrationalia, "i costi della
anomalia della razionalità per la società sono elevati - probabilmente pari a quelli della dislessia, il
disturbo dell'apprendimento più diffuso e quello che ha ricevuto maggiore attenzione da parte della
ricerca e della didattica. Se le scuole dedicassero più attenzione all'insegnamento di abilità
decisionali e di pensiero razionale, si realizzerebbe un'educazione più orientata alla pratica e
maggiormente collegata con il mondo reale. Una scelta curricolare di questo tipo istituirebbe
probabilmente un rapporto particolarmente stretto tra insegnamento e vita reale, con molte
conseguenze positive, inferiori solo a quelle dovute all'alfabetizzazione. A seguito di errori nelle
decisioni e di abilità non ottimali di pensiero razionale, ad esempio, i medici prescrivono trattamenti
farmacologici non adeguati; i rischi presenti nell'ambiente non vengono adeguatamente valutati; le
informazioni vengono utilizzate male nei procedimenti legali; somme ingenti vengono spese dai
governi e industrie private in progetti inutili; gli animali vengono cacciati fino all'estinzione;
miliardi vengono spesi per medicine inutili; vengono eseguite operazioni chirurgiche inutili e prese
decisioni errate in campo finanziario che si rivelano costose per la collettività. Infine, certi ambiti
decisionali - uso di contraccettivi, assunzione di droghe, abitudini alla guida - sono particolarmente
rilevanti per gli adolescenti" ((Stanovich, Anomalia della razionalità. Un nuovo disturbo
dell'apprendimento, in Insegnare all'handicappato, vol. 8, n.2, Erickson, 1994, pag.114-115).
Vorrei condurre con voi un piccolo esperimento a distanza per verificare la correttezza delle mie
affermazioni sulla dysrazionalia che tutti, più o meno, manifestiamo di fronte al pensiero statistico2
probabilistico. Prima di passare a questo esperimento, però, vorrei aggiungere qualcosa sul rapporto
matematica-probabilità-statistica.
Il calcolo delle probabilità (sarebbe meglio dire il calcolo delle probabilità di eventi composti a
partire dalla conoscenza delle probabilità degli eventi elementari) è a tutti gli effetti una teoria
matematica: si può dire che sia una parte della teoria della misura. Quindi la logica che viene
utilizzata nel calcolo delle probabilità è la logica deduttiva, quella che viene detta anche logica del
certo. Se però si legge con attenzione quello che è scritto dentro le parentesi, ci si dovrebbe
chiedere come si calcolano le probabilità degli eventi elementari. Su questo il calcolo delle
probabilità dice ben poco, così come dice ben poco su come stimare se due eventi sono dipendenti o
indipendenti (due eventi di cui non si conosce la probabilità, ovviamente). Il problema del calcolo
delle probabilità degli eventi elementari sottrae la probabilità allo stretto ambito dell'inferenza
induttiva, della logica del certo, della teoria della misura e, quindi della matematica come sistema
ipotetico deduttivo. Quando ci si scontra con il problema: come stimare la probabilità degli eventi
elementari? si entra nel campo dell'inferenza induttiva, ossia di tecniche e conoscenze che
consentono di indurre, da un insieme di osservazioni particolari, dati di carattere generale; per
esempio che consentono, da un insieme di rilevazioni statistiche relative a un determinato evento, di
assegnare la probabilità di tale evento. Ogni volta che ho un problema di effettuare scelte,
valutazioni, stime, verifiche di ipotesi in condizioni di incertezza, c'è sempre una fase di raccolta,
elaborazione e rappresentazione dei dati (statistica descrittiva), una fase di analisi dei dati allo scopo
di effettuare previsioni, valutazioni, stime (statistica inferenziale) e una fase di verifica
dell'affidabilità di tali stime (in genere la fase della statistica inferenziale consente di scegliere un
particolare modello probabilistico e, in base a tale modello si valuta l'affidabilità delle stime. Per
esempio, si può dire: i dati che ho elaborato e analizzato, suggeriscono che la popolazione che ho
studiato segua una distribuzione X di probabilità. Se ciò è vero, la probabilità di ottenere dati che si
discostino da quelli che ho ottenuto è dell'y% . Ora faccio alcune verifiche e vedo che tipi di dati
ottengo su nuovi campioni estratti da quella popolazione….Quindi, eventualmente, aggiorno, rifiuto
o accetto il mio modello, sempre con un certo grado di fiducia, ossia con una misura quantitativa
dell'incertezza).
Come si vede si tratta di questioni delicate e tecnicamente complesse, che non riusciremo ad
affrontare nel nostro corso (ma che dovrebbero essere affrontate in un corso di matematica PNI).
Qui ci limiteremo, dopo aver preso in considerazione alcuni tipici fraintendimenti nel campo della
probabilità e della statistica, a presentare alcune tecniche di statistica descrittiva, e le leggi del
calcolo delle probabilità, ossia gli elementi di calcolo delle probabilità e di statistica che sono
presenti nella scuola di base e nei primi tre anni di una qualunque scuola secondaria superiore (e
che fanno parte dei vostri programmi di studio). Rimarrà fuori tutto il discorso della statistica
inferenziale, almeno come trattazione sistematica, anche se aleggerà sullo sfondo di alcuni
argomenti di statistica descrittiva (come la scelta di un campione) e di calcolo delle probabilità
(come la stima delle probabilità degli eventi elementari).
2 Pregiudizi, idee distorte, misconcetti, illusioni mentali relativi al pensiero statistico e
probabilistico
a) Sottostimare la variabilità dei piccoli campioni
In una città ci sono due cliniche con reparto maternità. Una è nettamente più grande dell'altra.
Nella prima si registrano in media 45 nascite al giorno, nella seconda, sempre in media, 15
nascite al giorno. Si decide di annotare, in ciascuna clinica i giorni in cui i nati appartengono per
oltre il 60% allo stesso sesso. Quale delle due cliniche ha la maggior probabilità di registrare un
maggior numero di tali giorni? Perché?
b) Dare un'anima alle cose
Sapendo che il numero 20 sulla ruota di Bari non è uscito per 180 settimane, conviene puntare
sulla sua uscita? Perché?
3
c) Confondere semplice correlazione con dipendenza causa effetto
È noto che al diminuire della velocità delle automobili aumenta il numero di incidenti. Possiamo
concludere che conviene andare a velocità elevate? Perché?
d) Effetto rappresentatività (si confonde ciò che è più tipico con ciò che è più probabile)
Ho appena gettato in aria una moneta sette volte di seguito, ma voi non avete potuto vedere i
risultati dei vari lanci. Vi chiedo di dire quali delle seguenti sequenze ha maggiori probabilità di
essersi effettivamente verificata:
1) TTTTCCC
2) CTTCTCC
3) CCCCCCC
e) (la "legge dei piccoli numeri")
Un normale dado da gioco è stato dipinto in modo tale da avere quattro facce verdi e due rosse.
Lo si getta ripetutamente, dopo averlo debitamente agitato in un bussolotto, sul tappeto e si
chiede di scommettere quale delle seguenti sequenze sia di fatto uscita (garantendo che una di
queste sequenze si è effettivamente verificata)
1) RVRRR
2) VRVRRR
3) VRRRRR
f) The framing of choice (le scelte incorniciate). Risolvere i due quesiti
Un paese del Sud-est dell'Asia è minacciato da una grave epidemia che mette in pericolo la vita
di 600 persone. Sono in fase di elaborazione due possibili interventi sanitari, rispettivamente
designati con le lettere A e B. Se si adotta il programma A si salvano certamente 200 vite
umane. Se si adotta il programma B c'è una probabilità 1/3 di salvare 600 vite umane e una
probabilità 2/3 di non salvare alcuna vita. Sapendo questo, quale dei due programmi vi
sentireste di raccomandare?
Un paese del Sud-est dell'Asia è minacciato da una grave epidemia che mette in pericolo la vita
di 600 persone. Sono in fase di elaborazione due possibili interventi sanitari, rispettivamente
designati con le lettere C e D. Se si adotta il programma C moriranno certamente 400 vite
umane. Se si adotta il programma D c'è una probabilità 1/3 che nessuno muoia e una probabilità
2/3 che muoiano 600 persone. Sapendo questo, quale dei due programmi vi sentireste di
raccomandare?
Nel 1982 McNeil, Paulker, Sox e Tversky sottomisero a un test qualitativamente molto simile,
ma basato su dati clinici reali, un campione di medici degli Stati Uniti. Il risultato del test
suggerì che una sensibile maggioranza di clinici professionisti è incline a commettere l'errore
dell'incorniciamento: per esempio, se si dice che un certo intervento chirurgico comporta una
mortalità media del 7% entro cinque anni successivi all'operazione, essi saranno restii a
raccomandarlo, mentre se si dice loro che si registra una sopravvivenza media del 93% cinque
anni dopo l'operazione, sono assai più disposti a raccomandarlo. Ovviamente questi dati sono
perfettamente equivalenti dal punto di vista statistico, ma sono inquadrati, incorniciati in modo
diverso.Da qualche anno a questa parte, in alcune facoltà di medicina degli Stati Uniti e di
Israele si tengono, per i futuri medici, regolari corso proprio su questi bias (pregiudizi, errori,
misconcetti), ben presenti nelle decisioni e nella formulazione delle diagnosi.
g) Effetto congiunzione
Viene fornita la seguente scheda attitudinale: Luigi ha 34 anni. È intelligente, ma ha poca
fantasia, è abitudinario, metodico e non molto attivo. A scuola era bravo in matematica, ma
debole nelle materie umanistiche e nelle scienze sociali. Sulla base di questo stringatissimo
profilo, siamo invitati a indovinare quale è la probabilità che Luigi eserciti un certo mestiere o
una certa professione, piuttosto che altri. In particolare ci viene chiesto di ordinare, per
probabilità decrescente, una lista di mestieri e hobby tra i quali compaiono i casi seguenti:
1) Luigi fa il medico e gioca a poker per hobby
2) Luigi fa l'architetto
4
3)
4)
5)
6)
7)
8)
Luigi fa il contabile
Luigi suona per hobby musica jazz
Luigi ha l'hobby del surf
Luigi fa il giornalista
Luigi fa il contabile e suona per hobby musica jazz
Luigi ha l'hobby dell'alpinismo
Linda ha 31 anni. È nubile, franca e molto brillante. Ha una laurea in filosofia. Da
studentessa si interessava molto ai problemi di discriminazione razziale e ingiustizia sociale
e prendeva parte attiva alle dimostrazioni antinucleari. Come per il caso di Luigi, siamo
invitati a indovinare quale è la probabilità che Linda eserciti un certo mestiere o una certa
professione, ordinando per probabilità decrescente, una lista di mestieri e hobby tra i quali
compaiono i casi seguenti:
1) Linda insegna in una scuola elementare
2) Linda lavora in una libreria e prende lezioni di yoga
3) Linda è attiva nel movimento femminista
4) Linda è una assistente sociale
5) Linda è membro dell'organizzazione elettorale femminile
6) Linda lavora in una banca
7) Linda è un agente assicurativo
8) Linda lavora in una banca ed è attiva nel movimento femminista
Questo effetto è stato osservato anche fra i medici e gli ingegneri nel loro campo di
expertise: per esempio un medico ritiene più probabile la presenza simultanea di due sintomi
solitamente e tipicamente associati (poniamo cefalea e vomito) che non la presenza di uno
dei due.
Esercizio:
Un test clinico, atto a rivelare la presenza di una certa forma di malattia, risulta positivo in
un certo paziente. Vi viene detto che:
a) l'affidabilità del test in questione è del 79%
b) la frequenza media della malattia, nella popolazione da cui viene il paziente, in
quella fascia d'età è dell'1%
c) i falsi positivi sono il 10%
Tenuto conto di tutto questo, qual è, secondo voi, la probabilità che il paziente abbia
effettivamente quella malattia?
3. Riflessioni sui modi in cui talvolta vengono veicolate alcune informazioni per apprezzare
l'opportunità di un'educazione al pensiero statistico e probabilistico
Guardate con attenzione le seguenti rappresentazioni grafiche di dati tratte da giornali americani.
Per ciascuna di esse cercate di capire quale fenomeno vogliono mettere in evidenza e commentate
l’adeguatezza della rappresentazione scelta.
5
6
7
8
9
4. Inquadramento del fenomeno statistico: rilevazione, organizzazione dei dati e
rappresentazioni grafiche relative
Vincoli di un'indagine statistica:
1) tempo di durata dell'indagine
2) territorio dove deve essere condotta l'indagine
3) stabilire se l'indagine deve essere rivolta a tutta la popolazione o a un campione
4) modalità di indagine (questionario, intervista, per telefono, personale, per posta….)
5) fondi disponibili
6) personale disponibile
Fasi di un'indagine statistica:
1) individuare con precisione le variabili significative (ossia i caratteri da investigare) del
fenomeno che si vuole indagare
2) scelta del campione
3) formulazione delle domande da porre
4) realizzazione dell'indagine
5) raccolta e spoglio dei dati
6) sintesi ed elaborazione dei dati
7) interpretazione dei risultati
8) comunicazione dei risultati
Formazione del campione.
10
Per campione si intende una parte di una popolazione di riferimento (quella interessante per
l'indagine) che viene selezionata per farne oggetto di analisi nella rilevazione statistica.
La caratteristica principale di un campione è la rappresentatività: essa richiede che il campione
possa rappresentare bene la popolazione. Ciò ovviamente dipende dalle informazioni che
possediamo dei rapporti significativi che ci sono fra le varie classi della popolazione e dalle
informazioni che abbiamo relativamente ai rapporti fra il campione e la popolazione dalla quale è
tratto. Per ottenere un campione realmente rappresentativo della popolazione occorrerebbe che i
vari caratteri degli elementi sottoposti a indagine fossero presenti nell'universo e nel campione nella
stessa proporzione. Il procedimento di formazione del campione è detto corretto o non distorto se il
campione riproduce fedelmente, per qualsiasi carattere, la popolazione.
Nel caso di formazione del campione per estrazione casuale dalla popolazione, affinché si abbia un
campione non distorto, è necessario che ogni elemento della popolazione abbia la stessa probabilità
degli altri elementi di essere incluso nel campione.
Esercizio: in un campione estratto dalla popolazione italiana, per un'indagine sulle forze di lavoro
(occupati e disoccupati), quali caratteri dovranno essere presenti nella stessa proporzione della
popolazione, affinché il campione non risulti distorto? Producete un elenco e confrontatelo.
Grazie alla teoria della probabilità si può calcolare, su un campione casuale, l'errore di
campionamento, ovvero di quanto un campione di n elementi si discosta, con una probabilità
definita, dalla popolazione per un dato carattere. Questo errore diminuisce proporzionalmente alla
radice quadrata del numero di elementi del campione.
La rilevazione dei dati
Le rilevazioni statistiche possono essere:
- continue, come quelle delle nascite, delle morti, dei matrimoni, …
- periodiche, quando vengono effettuate a intervalli regolari di tempo, come i
censimenti, o l'analisi della balneabilità delle coste
- occasionali, quando vengono effettuate solo in determinati momenti e situazioni
Le tecniche di rilevazione sono le seguenti:
- intervista diretta
- intervista telefonica
- autocompilazione del questionario
Ciascuna di esse ha pregi e difetti e condizioni da rispettare. In particolare occorre prestare
attenzione a non porre domande devianti, non chiare o ingannevoli.
Spoglio dei dati
I dati vengono innanzitutto enumerati e in un secondo momento classificati e riuniti in classi
omogenee. In ogni classe compare un solo tipo di carattere (per esempio: sesso, peso, colore degli
occhi, reddito,..) di cui vengono elencate le diverse modalità (maschile-femminile per il sesso;
intervalli i peso per il peso; azzurro-nero-marrone… per il colore degli occhi; ……), con la
numerosità con cui sono state scelte (la frequenza assoluta o relativa con cui compare quella
modalità. Le tabelle che vengono così a costituirsi possono essere semplici se sono formate da due
colonne, che associano alle modalità del carattere le corrispondenti frequenze o complesse (a più
entrate), se vengono contemporaneamente analizzati più caratteri (per esempio se si vuole studiare
un'eventuale correlazione tra i pesi e le altezze dei maschi di una determinata popolazione).
La fase di rappresentazione dei dati mediante i grafici che rappresentano le distribuzioni di
frequenza preludono alla fase di elaborazione dei dati.
In genere, per rappresentare una distribuzione di frequenza si utilizzano tabelle semplici o
complesse, oppure rappresentazioni grafiche come ideogrammi, diagrammi a barre, istogrammi o
aerogrammi. Nel caso in cui si vogliano rappresentare serie storiche, si utilizzano diagrammi
11
cartesiani. Nel caso in cui si voglia studiare la correlazione tra due grandezze si usano i diagrammi
di dispersione.
Ecco alcuni esempi di rappresentazioni tabulari e grafiche (fonte ISTAT).
Nell'ordine, vengono rappresentati un grafico a colonne, un grafico cartesiano (tempo-interruzione
volontaria di gravidanza), un grafico a piramide per la rappresentazione dell'evoluzione di una
popolazione, alcune tabelle sugli insuccessi scolastici con dati aggregati e disaggregati (per
posizione geografica e per sesso), un aerogramma (diagramma a torta, ma potrebbe essere
rappresentato con un istogramma, che è un tipo di aerogramma: la caratteristica di un aerogramma è
che l'area relativa a una particolare frequenza è proporzionale alla frequenza stessa), un diagramma
di dispersione. Classici ideogrammi sono per esempio quelli sul potere del dollaro e del costo del
petrolio al barile (che abbiamo prima criticato).
12
13
14
15
16
Elaborazione dei dati
È la fase nella quale si utilizzano indici sintetici per rappresentare il fenomeno in questione.
Gli indici possono essere di posizione o di variabilità. Iniziamo dagli indici di posizione.
Diciamo intanto che i caratteri di una distribuzione possono essere qualitativi o quantitativi. I
qualitativi a loro volta si suddividono in sconnessi (per esempio colore degli occhi) e ordinabili (per
esempio i tradizionali voti scolastici, oppure l'ordine di nascita dei figli…). I caratteri quantitativi si
suddividono in discreti (numero di scarpe, il numero dei componenti di una famiglia, …) e continui
(peso, età, lunghezza del piede, …).
Moda: si tratta della modalità cui corrisponde la maggiore frequenza (è sempre calcolabile).
Mediana: in una distribuzione di frequenze di modalità ordinabili, la mediana è il valore di
modalità che, dopo aver ordinato le modalità, suddivide la distribuzione di frequenze in due parti
uguali (tali cioè che alla sinistra della mediana vi sia il 50% dei dati). È calcolabile solo quando le
modalità sono ordinabili.
Media aritmetica: è il valore di sintesi che, sostituito a ciascuno dei valori propri delle varie
modalità, mantiene invariata la somma dei valori di tali modalità. Si calcola addizionando fra loro
tutti i valori dei vari dati e dividendo la somma così ottenuta per il numero totale dei dati. Se le
frequenze di qualche dato sono maggiori di 1, conviene calcolare la media aritmetica ponderata, che
consiste nel dividere per il numero totale dei dati la somma dei prodotti fra i singoli dati e la
frequenza con cui compaiono (è calcolabile solo per modalità quantitative e, nel modo ora indicato,
solo per modalità quantitative discrete).
Per esempio, se si vuole valutare l'andamento che due gruppi A e B di studenti hanno ottenuto in un
test standardizzato, i cui risultati sono qui di seguito riportati:
A
49 50 60 36 46 46 52 47 54 46 36 60 51 50 36 46 46 58 52 44
17
B
45 54 40 52 50 42 41 40 39 40 60 60 55 40 40 51 48
si possono confrontare le due medie aritmetiche:
k
 xi f i
49  50  2  60  2  36  3  46  5  52  2  47  54  51  58  44
 48.25
n
20
45  54  40  5  52  50  42  41  39  60  2  55  51  48
mb 
 46.88
17
Vediamo ora gli indici di variabilità.
Range: differenza fra il valore massimo e il valore minimo assunto da una modalità (deve essere
quantitativa)
Scarto assoluto dalla media aritmetica: valore assoluto della differenza tra il valore di una
modalità e la media aritmetica (la modalità deve essere quantitativa)
Scarto assoluto medio: media aritmetica degli scarti assoluti dalla media (la modalità deve essere
quantitativa)
Scarto quadratico medio o varianza: media aritmetica dei quadrati degli scarti dalla media (la
modalità deve essere quantitativa)
Deviazione standard: radice quadrata della varianza (la modalità deve essere quantitativa).
ma 
i 1

Nel caso delle serie storiche vengono spesso utilizzati i numeri indice, che misurano l'entità dei
mutamenti in una serie storica e ne indicano le variazioni dell'intensità o della frequenza di un
fenomeno. Nella serie dei numeri indice a base fissa si usa come base dei numeri indice il dato
rispetto al quale si vogliono mettere in evidenza le variazioni e a esso si riportano tutti gli altri. Nei
numeri indice a base mobile si misurano le variazioni di un dato rispetto al precedente.
Spesso tali indici vengono espressi in forma percentuale.
Ma c’è un solo tipo di media?
Per rispondere a questa domanda, provate innanzitutto a svolgere i seguenti esercizi, che
dovrebbero portarvi a individuare un concetto più generale di media:
a) Un aereo viaggia da Roma a New York. All’andata le correnti favorevoli permettono all’aereo di
viaggiare alla velocità di crociera di 932 Km/h; al ritorno la velocità è, invece, di 856 Km/h.
Qual è la velocità media dell’aereo nell’intero percorso andata-ritorno?
b) Una agenzia che effettua indagini di mercato ha rilevato per una rete televisiva i seguenti dati
medi giornalieri di ascolto, nel periodo invernale e nella fascia oraria dalle 20 alle 21:
Giorno
della
Lunedì
Martedì Mercoledì Giovedì Venerdì
Sabato
Domenica
settimana
Numero medio
spettatori
(in 1.200
1.800
2.000
1.600
1.200
800
900
migliaia)
Una agenzia di pubblicità in quale giorno potrebbe consigliare a un proprio cliente di inserire uno
spot pubblicitario di un prodotto per la neve, volendo usare la fascia oraria 20 – 21?
c) In un ciclo di lavorazione tre apparecchiature lavorano in serie: la prima macchina ha un
rendimento del 90 % , la seconda dell’80% , la terza del 30%. Qual è il rendimento medio
complessivo?
d) Uno studente nella pagella del
primo quadrimestre ha riportato i seguenti voti:
Italiano
Storia
Geografia
7
8
7
18
Lingua inglese
6
Scienze
5
Matematica
4
Educazione Fisica
9
Il padre gli ha promesso un regalo se la media dei suoi voti fosse stata superiore al 7. Otterrà lo
studente il regalo?
e) Uno studente universitario iscritto al corso di laurea in Matematica ha superato durante il primo
anno i seguenti esami1 riportando le seguenti votazioni:
Esame
Punteggio in trentesimi
Crediti
Laboratorio di Matematica
25
9
Analisi Matematica
24
12
Geometria
21
6
Algebra
27
6
Calcolo delle probabilità
23
9
Fisica generale
24
9
Lingua inglese
30
3
Fondamenti di Informatica
28
3
Abilità relazionali
30
3
Lo studente accede ad una borsa di studio se ha conseguito una media superiore a 27/30. Otterrà il
nostro studente la borsa di studio?
f) In una prova multidisciplinare di Storia, Inglese, Matematica, Diritto, gli studenti vengono
valutati con un punteggio da 0 a 15 per ogni materia. Il voto finale è dato dalla media dei quattro
punteggi parziali. La prova non si considera superata se uno studente prende 0 punti in una delle
materie. Quale valore medio consente di rappresentare adeguatamente questo modo di valutare?
Interpretazione dei dati
È questa la fase più delicata (dopo quella della scelta del campione e delle tecniche di indagine). Si
tratta spesso di ricercare correlazioni tra dati raccolti e di verificare l'affidabilità della correlazione
eventualmente trovata; oppure di verificare l'affidabilità di una stima di un parametro valutata sul
campione (la domanda in questo caso è: che probabilità ho che la stima del parametro che mi
interessa effettuata sul campione di dati raccolti, non si discosti più di un certo livello dal valore
dello stesso parametro valutato sulla popolazione?). Oppure si deve testare un'ipotesi, per esempio
che il campione appartenga o non a una certa popolazione e valutare l'affidabilità della risposta.
In questa fase si fa uso delle tecniche più raffinate della statistica e di modalità di ragionamento che
non solo quelle tipiche del ragionamento deduttivo, ma anche induttivo e abduttivo.
Bibliografia
Batini, Olivieri, Descrivere la realtà: i metodi della statistica, Pitagora editrice, Bologna
Dupont, Primo incontro con la probabilità, SEI, Torino
Wonnacot, Wonnacot, Introduzione alla statistica, Franco Angeli, Milano
Esercizi
1. Calcola moda, mediana, media aritmetica, range e scarto assoluto medio della seguente
distribuzione: 5,1; 2,4; 2,0; 1,9; 7,5; 2,4; 3,2; 2,4
2. Completa la seguente tabella che fornisce dati sulla popolazione totale francese e sugli stranieri in
Francia dall’anno 1851 al 1954.
1
Secondo il nuovo ordinamento universitario ad ogni esame è associato un numero di crediti: ciascun credito
corrisponde a circa 25 ore di lezione-tutoraggio-impegno individuale dello studente. Ogni anno lo studente è tenuto ad
accumulare 60 crediti.
19
Legenda: A popolazione totale (in migliaia) ; B: stranieri (in migliaia); C: francesi (in migliaia); D:
incremento assoluto popolazione; E: incremento assoluto francesi; F: incremento assoluto stranieri;
D%,E%,F%, rispettivi incrementi percentuali
Anni
1851
1861
1872
1881
1891
1901
1911
1921
1931
1946
1954
A
35785
37386
36103
37672
38343
38962
39602
37500
41835
40503
42777
B
379
506
741
1000
1102
1038
1133
1417
2891
1671
1453
C
D
E
F
D%
E%
F%
Riferendoti alla precedente tabella, studia l’andamento del fenomeno immigrazione in Francia dal
1851 al 1954. Utilizza indici opportuni, giustifica ogni scelta effettuata e spiega ogni procedimento
utilizzato. Sono graditi eventuali commenti che consentano di descrivere più approfonditamente il
fenomeno dell’immigrazione in Francia.
3. Considera la seguente tabella di dati grezzi relativi alle misure del tempo (in ore) mediamente
dedicato allo studio allo studio individuale da un gruppo di 30 studenti che frequentano la terza
liceo scientifico nella città XX:
2
2.5
2
1
2
1.5
1.5
3
4
1.5
3
2
3
2
1
3
4
3
4
3
1
2.5
3.5
2.5
2
3.5
3.5
2.5
1.5
3
Elabora in modo opportuno i dati a tua disposizione e utilizza rappresentazioni grafiche
significative per descrivere il fenomeno oggetto di studio.
4. La seguente tabella riporta il numero delle pulsazioni del cuore a riposo rilevate a studenti di una
terza liceo scientifico della città XX durante una lezione di matematica e fisica nell’a.s. 1986-1987.
20
Suddividi i dati grezzi nelle classi che più ti sembrano opportune; quindi determina indici sintetici
che ti sembrano significativi. Rappresenta graficamente la distribuzione ottenuta nel modo che ti
sembra più opportuno.
Puoi fare qualche congettura sulle caratteristiche della popolazione su cui sono state effettuate le
rilevazioni?
Numero
alunno
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
d’ordine Pulsazioni
riposo
68
71
59
64
73
75
65
66
63
65
60
71
72
68
63
64
70
58
64
70
67
69
69
62
cardiache
a
5. La seguente tabella riporta i dati relativi alle altezze di studenti di una prima liceo classico della
città XX rilevate nell’a.s. 1995-1996.
Suddividi i dati grezzi nelle classi che più ti sembrano opportune; quindi determina indici sintetici
che ritieni significativi della distribuzione così ottenuta. Rappresenta graficamente la distribuzione
ottenuta nel modo che ti sembra più opportuno.
Puoi fare qualche congettura sulle caratteristiche della popolazione su cui sono state effettuate le
rilevazioni?
Numero
alunno
1
2
3
4
5
6
d’ordine Altezza (in cm.) Numero
alunno
160
14
173
15
158
16
162
17
183
18
173
19
d’ordine Altezza (in cm.
157
182
178
177
175
170
21
7
8
9
10
11
12
13
176
164
168
178
175
166
164
20
21
22
23
24
25
26
164
170
163
172
166
175
174
6. Supponiamo che sia stata eseguita una rilevazione sulle famiglie di un quartiere della città XX,
tesa a determinare il numero dei componenti di ciascuna famiglia. La seguente tabella riassume i
dati rilevati, riportando nella prima colonna il numero di componenti (da 1 a 8) rilevati fra le
famiglie intervistate; nella seconda colonna la frequenza assoluta, ossia il numero di famiglie
rispettivamente con 1, 2, ..., 8 componenti; nella terza colonna il numero totale degli individui
appartenenti a famiglie aventi ripetitivamente 1,2,3,...,8 componenti.
Numero componenti
Numero famiglie
Numero totale individui
1
12
12
2
28
56
3
52
156
4
32
128
5
15
75
6
6
36
7
4
28
8
1
8
Totale
150
499
Rappresenta con il grafico che ritieni più opportuno (giustificandone la scelta) la distribuzione così
ottenuta.
Puoi determinare il numero medio di componenti per famiglia? Come faresti?
7. Un istituto tecnico ha deciso di somministrare un questionario agli studenti respinti e alle loro
famiglie per cercare di studiare la cause delle dispersione scolastica molto elevata in quell’istituto.
Innanzitutto ha cercato di mettere a confronto i dati sulla dispersione scolastica a livello nazionale
nelle classi prime con quelli dell’istituto. Ecco qui i dati rilevati organizzati in tabella:
Dati sulla dispersione scolastica nelle classi prime a livello nazionale
a.s. 1993/1994
Ripetenze
Ritirati
Dispersione
Professionali
12.8%
9.8%
22.6%
Tecnici
13.8%
1.1%
14.9%
Licei
5.7%
1.9%
7.6%
Dati sulla dispersione scolastica nelle classi prime nell’istituto
a.s. 1991/1992
a.s. 1992/1993
a.s. 1993/1994
Iscritti
233
236
237
Promossi
187
192
192
Non promossi
38
39
40
Ritirati
8
5
5
22
Dati sulla dispersione scolastica nelle classi prime di ragioneria dell’istituto
a.s. 1991/1992
a.s. 1992/1993
a.s. 1993/1994
Iscritti
161
173
186
Promossi
132
144
150
Non promossi
23
26
33
Ritirati
6
3
3
Dati sulla dispersione scolastica nelle classi prime di geometri dell’istituto
a.s. 1991/1992
a.s. 1992/1993
1993/1994 (con
corso Brocca)
Iscritti
72
63
75
Promossi
55
48
65
Non promossi
15
13
8
Ritirati
2
2
2
1993/1994(senza
corso Brocca)
51
42
7
2
Fonte delle tabelle: Innovazione Scuola, n. 6, Ottobre 1995, rivista di informazione didattica e
professionale dell’I.R.R.S.A.E. Marche.
Quali conclusioni potete trarre, in base ai dati a disposizione, sull’andamento del fenomeno
dispersione scolastica nel triennio 1991/92-1993/94? E’ possibile effettuare un confronto
significativo con i dati riferiti alle medie nazionali? Perché? E’ possibile individuare qualche
beneficio apportato dalla sperimentazione Brocca?
8. Ecco alcune cifre relative ai morti sulle strade della Gran Bretagna
Gennaio
Febbraio
Marzo
Aprile
Maggio
Giugno
Luglio
Agosto
Settembre
Ottobre
Novembre
Dicembre
Totale
1959
381
372
415
456
492
541
588
546
568
655
625
881
1960
507
458
493
500
504
537
634
589
619
670
695
764
1961
552
415
581
534
580
525
607
543
612
672
613
674
a) Vi sono differenze notevoli fra i vari mesi dell’anno?
b) Queste differenze sono le stesse da un anno all’altro?
c) C’è un mese particolarmente pericoloso?
d) Vi sono differenze notevoli da un anno all’altro?
e) La situazione va migliorando o peggiorando?
Rispondete alle precedenti domande utilizzando opportune rappresentazioni e indici statistici.
Giustificate e spiegate ogni passaggio e commentate il fenomeno morti sulle strade della Gran
Bretagna dal 1959 al 1961.
23
9. Ecco la quantità totale di pioggia (in cm.) caduta nell’arco di 5 anni nella regione XX d’Europa:
Gennaio
Febbraio
Marzo
Aprile
Maggio
Giugno
Luglio
Agosto
Settembre
Ottobre
Novembre
Dicembre
Totale
1956
12.7
1.8
1.7
3.3
0.8
4.7
7.2
12.1
10.7
4.8
2.6
11.7
1957
6.7
9.0
6.0
0.7
3.9
4.5
8.4
8.1
9.8
6.6
6.2
9.5
1958
9.1
6.7
3.9
2.5
8.6
8.3
7.1
6.6
12.5
7.4
7.2
9.2
1959
13.7
0.8
12.3
7.9
3.6
5.9
4.9
4.7
0.3
5.8
8.3
20.3
1960
11.2
5.6
4.0
4.4
3.6
8.9
9.1
9.2
9.2
21.2
12.5
12.2
Qual è di solito il periodo dell’anno meno piovoso? C’è stato un anno eccezionale? Qual è la media
di precipitazione nel 1956? e nel 1957? E nel 1958? E nel 1959? E qual è la media delle
precipitazioni in Marzo? E in Primavera? Qual è mediamente la stagione più piovosa? Basandovi
anche sulle parziali elaborazioni effettuate per rispondere alle domande precedenti, rappresentate e
descrivete il fenomeno delle precipitazioni nella regione XX. Giustificate la scelta degli indici, delle
rappresentazioni grafiche; sono graditi commenti.
24