L’ABC DELLA STATISTICA
1)
Perché si chiama così.
La statistica si chiama “statistica” perché fu così battezzata nel XVII (diciassettesimo) secolo (quello che va dal
1.1.1601 al 31.12.1700) col significato di “scienza dello stato”. Era, infatti, l’attività volta a raccogliere e ordinare
informazioni utili all’amministrazione pubblica: entità e composizione della popolazione, movimenti migratori,
mutamenti anagrafici, tavole di natalità e mortalità, dati sui commerci, le importazioni e le esportazioni, sui
raccolti, sulla distribuzione della ricchezza, sull’istruzione e la sanità.
2)
Cosa è e a cosa serve la statistica.
Questo paragrafo ( 2) ), con questo carattere, l’ho copia-incollato dal sito dell’ISTAT. Se vuoi approfondire ti
basta cliccare sul link qui a fianco. http://www3.istat.it/servizi/studenti/valoredati/Cap1/Cap1_1.htm
La statistica è un metodo di studio di caratteri variabili rilevabili su collettività, avente lo scopo di
sintetizzare le informazioni disponibili e di estendere induttivamente i risultati a casi più generali.
La statistica, quindi, tratta caratteri, cioè aspetti della realtà osservabili (lo stato di una spiaggia, la professione di
una persona che lavori) e variabili nel senso che possono assumere espressioni differenti (balneabile, inquinata;
calzolaio, scrittore, deputato, regista); essi devono poter essere rilevati sui soggetti che li esprimono (cioè le unità
statistiche); questi ultimi devono appartenere a una collettività (un unico dato rilevato su un singolo individuo è
privo di interesse per la statistica).
Gli scopi della statistica sono di duplice natura: sintetizzare e generalizzare. Sintetizzare significa predisporre
i dati raccolti in una forma (tabelle, grafici, sintesi numeriche) che consenta di comprendere meglio i fenomeni
rispetto ai quali è stata eseguita la rilevazione. La sintesi viene incontro all’esigenza di semplificare, che a sua volta
deriva dalla limitata capacità della mente umana di gestire informazioni articolate o complesse o multidimensionali. I
metodi orientati a soddisfare questa finalità appartengono alla statistica descrittiva.
Il secondo scopo, generalizzare, è quello di estendere il risultato dell’analisi effettuata sui dati di un gruppo limitato
di unità statistiche (campione) all’intera collettività di appartenenza (universo, o popolazione). L’estensione
avviene secondo metodi di induzione che rappresentano il contenuto della statistica inferenziale (o induttiva).
Ogni giorno utilizziamo la statistica, in molti casi senza accorgercene. In attesa alla fermata di un autobus osserviamo
le automobili che passano; contiamo quelle di fabbricazione italiana e straniera, quelle con un solo passeggero e
quelle con più passeggeri. Usiamo mentalmente i metodi della statistica descrittiva. Le automobili di fabbricazione
straniera sono prevalenti. Riusciamo a calcolare approssimativamente quanti passeggeri viaggiano mediamente su
ciascuna vettura (dividendo il totale approssimato dei passeggeri per il totale, anch'esso approssimato, delle
autovetture). Notiamo l’intensificarsi del traffico mano a mano che passano i minuti. Facciamo inferenze, seppure non
sorrette dal rigore dei metodi: le fabbriche straniere stanno invadendo il mercato italiano; il mezzo di trasporto
privato è dispendioso; prevedibilmente, arriveremo in ritardo a scuola o al posto di lavoro.
Quotidianamente siamo bersagliati da dati statistici. Spesso, le informazioni sono riferite nel contesto di una notizia
descritta dal quotidiano che leggiamo o fornita in un telegiornale; qualche volta i dati sono offerti sotto forma di
tabelle o grafici; altre volte si tratta di percentuali o di medie. Per questo è necessario attrezzarsi in forma adeguata
per valutarli criticamente. Questi strumenti minimi di analisi dovrebbero far parte del bagaglio culturale di ogni
cittadino.
3)
Qualche definizione.
Il primo passo dell’attività statistica è la raccolta di dati. Questa prima fase deve essere ben organizzata per
risparmiare fatica nelle operazioni successive e permettere, attraverso una corretta impostazione del lavoro di
analisi, di giungere a informazioni corrette e quindi utili sul fenomeno di cui si sono rilevati i dati.
Si dice unità statistica la minima unità della quale si raccolgono i dati.
Si dice popolazione l’insieme delle unità statistiche oggetto di studio.
Si dicono caratteri le proprietà che sono oggetto di rilevazione.
1
Così, in una indagine statistica sulla statura degli studenti delle scuole reggiane, ognuno di voi è una “unità
statistica”, l’insieme degli iscritti alle scuole di Reggio forma la “popolazione” e la statura è il “carattere”
rilevato.
I caratteri possono essere qualitativi o quantitativi.
I caratteri qualitativi vengono indicati mediante espressioni verbali. Sono caratteri qualitativi lo stato civile
(celibe o nubile, coniugato/a, ecc.), il sesso (maschio o femmina), il colore degli occhi (chiari, castani, neri; ma anche, grigi,
azzurri, verdi, castani, neri).
I caratteri quantitativi sono esprimibili numericamente e si dividono in discreti e continui.
I caratteri (quantitativi) discreti, come il numero degli alunni di una classe o di reti segnate in una partita di
calcio, quasi sempre sono quelli che possono essere numerati (nel senso di contati) e che quindi possono assumere
solo determinati valori, quasi sempre numeri interi.
I caratteri (quantitativi) continui, quali i pesi, le stature e più in generale le grandezze che possono essere
“misurate” e non “contate”, possono assumere qualsiasi valore in un dato intervallo (anche se usualmente si
impiegano numeri decimali finiti).
4)
Statistica induttiva e statistica descrittiva.
Sorge una discussione fra Miriana e Annalisa. Miriana afferma che i reggiani vanno al cinema assai raramente,
in media non più di 3 volte all’anno. Annalisa sostiene invece che, con l’apertura dell’Emiro e dei Petali, il
cinema è tornato di moda, e i reggiani ci vanno, in media, almeno dieci volte l’anno.
Miriana e Annalisa, per risolvere l’appassionante questione, decidono di dedicare qualche tempo a un’indagine
statistica.
Avendo così tanto da studiare tutti giorni, le nostre hanno poco tempo, e allora evidentemente non possono
intervistare tutti i reggiani: si limiteranno quindi a un campione opportunamente scelto. Ma a questo punto
devono subito porsi due interrogativi:
quale deve essere l’ampiezza del campione affinché la stima sia attendibile e si possa essere
ragionevolmente certi di aver individuato, con un accettabile margine di errore, il dato cercato? Basterà
intervistare trenta persone, o ne occorreranno cento, oppure mille?
a)
b)
come si può essere sicuri che il campione non sia distorto, ma sia rappresentativo dell’intera popolazione?
È evidente che sarebbe scorretto condurre l’indagine all’uscita di un cinema (M. e A. intuiscono che la probabilità di
incontrare lì persone a cui piace andarci – e quindi che presumibilmente ci vanno molte volte l’anno – è maggiore di quella di imbattersi in
soggetti a cui il cinema fa schifo – e quindi non ci vanno mai –), o fra gli ospiti di una casa di riposo (la cui frequentazione delle sale
cinematografiche è prevedibilmente tutt’altro che assidua); è meno ovvio, invece, se è preferibile intervistare le persone
per strada oppure per telefono o nei parcheggi dei supermercati piuttosto che in quelli dell’ospedale.
La situazione proposta è un tipico problema di statistica induttiva (o inferenziale) : la rilevazione dei dati,
anziché sull’intera popolazione, è eseguita su una parte di essa, detta campione, e dall’esame di quest’ultimo si
desumono informazioni (quanto attendibili?) sulla prima (come ho ricopiato dall’ISTAT nel paragrafo 2), la statistica
induttiva svolge cioè la funzione di generalizzare). Si tratta di questioni piuttosto complesse, la cui soluzione richiede
la conoscenza di alcuni elementi della teoria della probabilità. Di statistica induttiva, poiché vi ho promesso
che per svolgere l’argomento “statistica” userò solo la matematica più elementare, non ci occuperemo.
2
Qui, infatti, mi limito ad alcuni elementi di statistica descrittiva, il cui compito è organizzare in modo
facilmente dominabile (nel senso di utilizzabile) i dati raccolti sulla popolazione in esame. Gli strumenti della
statistica descrittiva permettono di descrivere un fenomeno in modo efficace e immediato, cioè di sintetizzarlo
(anche questo è già stato scritto nel paragrafo 2)), sollevando dalla fatica di leggere e interpretare troppi dati.
Più precisamente, ci concentreremo su alcuni parametri con i quali si riassumono i dati rilevati, e quindi
parleremo dei due strumenti più utilizzati dalla statistica (descrittiva): le medie e gli indici di dispersione.
Più avanti, al paragrafo ), tratteremo l’importante aspetto delle rappresentazioni grafiche dei dati.
5)
Le medie.
Il concetto di media è del tutto familiare, in quanto l’uomo è per natura incline a riassumere dati discordanti per
poter concentrare l’attenzione sull’intensità media di un carattere e poter più facilmente confrontare dati
omogenei relativi a popolazioni diverse (ricordo che uso il termine “popolazione” nel suo significato tecnico visto più sopra ).
Molte nostre valutazioni e decisioni sono assunte, talvolta inconsciamente, facendo riferimento a valori medi.
Così diciamo che il clima di Napoli è più caldo di quello di Torino, che gli italiani del Nord hanno un reddito
maggiore di quelli del Sud, che i maschi sono più alti delle femmine, e così via. Dicendo questo, però, non
vogliamo sostenere che a Napoli fa sempre più caldo che a Torino o che tutti gli abitanti del nord guadagnano
di più di quelli del Sud o che non ci siano femmine più alte di qualche maschio. Le nostre affermazioni sotto
intendono il concetto di media che viene colto da tutti anche se non è esplicitato.
Da una sequenza di dati si possono ottenere varie medie, che assumono nomi diversi. Qualsiasi sia il tipo di
media scelto, essa è un valore opportunamente scelto e compreso fra il minimo e il massimo dei dati. In tutti i casi,
la media è un numero che ne sintetizza molti, e consente di averne una visione unitaria, ovviamente
nascondendo la molteplicità dei dati da cui è ottenuta.
Così, il reddito medio pro capite (= a testa) degli italiani è un valore unico, utile per fare confronti con altre
nazioni o con periodi passati, ma non evidenzia che i redditi sono molto diversi e che ci sono persone al di sotto
della soglia della povertà, mentre altre hanno redditi altissimi; oppure: la statura media ci consente di dire che
gli svedesi sono, in media, più alti degli italiani, ma non evidenzia che molti italiani sono più alti di parecchi
svedesi ecc. .
Prenderemo in esame le seguenti medie: a) moda, b) mediana, c) media aritmetica semplice, d) media
aritmetica ponderata e (forse) di media armonica.
Non ci occuperemo invece, a meno che non me lo
chiediate, di media quadratica e media geometrica, poiché vengono usate per fenomeni abbastanza particolari.
5a) Moda
Si dice moda il carattere o il valore cui corrisponde la massima frequenza.
Esempio 1a.
La sequenza di numeri 5, 6, 8, 8, 8, 12, 12, 14 ha moda 8.
La sequenza di numeri 5, 6, 8, 8, 8, 12, 14, 14, 14 ha due mode: 8 e 14.
Nella sequenza di numeri: 1, 2, 3, 4, 5, 6 si potrebbe anche dire, a stretto rigore, che vi sono sei mode; ma è più
ragionevole concludere che in questo caso la moda non esiste.
3
Esempio 2a.
Si rileva il numero delle stanze di ciascuno dei 16 appartamenti di un condominio:
Numero delle stanze
2
3
4
5
6
7
Frequenze
1
3
8
2
1
1
16 numero appartamenti del condominio
La moda è 4 (stanze per appartamento) perché è quella la tipologia di appartamento più frequente.
Esempio 3a.
Il direttore di una catena di negozi di scarpe vuole provare a includere, fra gli articoli da vendere, anche un
certo modello di una nuova marca. Decide di acquistare, almeno all’inizio, un solo paio per ognuno dei suoi
tanti punti vendita in modo da ridurre al minimo l’investimento iniziale e, mettendolo nelle vetrine dei suoi tanti
negozi, poter valutare correttamente l’apprezzamento del pubblico. Volendo minimizzare il costo di questa sua
prima fornitura decide quindi acquistare un’unica misura. Per individuare quale misura è più opportuno
scegliere, chiede la misura del piede a venti abituali clienti, ottenendo i seguenti dati:
36, 42, 41, 44, 34, 39, 38, 39, 37, 34, 40, 39, 35, 37, 39, 36, 39, 42, 45, 37
.
La moda è 39, e la scelta cadrà, evidentemente, su questa misura perché ad essa corrisponde la massima
frequenza (pari a 5) del campione. In questo modo, a parità di investimento nell’acquisto, la catena di negozi
massimizzerà il ricavo di vendita. (E’ chiaro che il campione di soli 20 clienti è troppo piccolo per essere affidabile, ma mi
scocciava scriverne di più).
5b) Mediana
La mediana è il valore che occupa il posto di mezzo, quando i dati sono disposti in ordine crescente.
In altre parole, i dati che la seguono sono tanti quanti quelli che la precedono.
Esempio 1b. I voti di Pierino, intelligente ma discontinuo e scansafatiche, sono, in ordine crescente:
4, 5, 5, 6, 7, 8, 9 .
Il voto che occupa il posto di mezzo è 6, nel senso che ce ne sono tre più bassi e tre più alti. Notate che la
mediana, come la moda ma a differenza della media aritmetica (vedi 4c più avanti), può essere usata anche quando
i dati non hanno carattere numerico: è sufficiente che possano essere disposti in ordine crescente. Ad esempio,
sostituendo i voti con dei giudizi:
gravemente insufficiente, insufficiente, insufficiente, sufficiente, discreto, buono, ottimo.
La mediana è “sufficiente”, mentre la media non si può calcolare.
Esempio 2b. Consideriamo le seguenti sequenze di numeri e giudizi:
(a): 7, 15, 18, 18, 19, 23
(b): mediocre, discreto, discreto, ottimo
(c): 9, 15, 16, 18, 19, 30
(d): mediocre, discreto, buono, ottimo .
.
Quando i dati sono in numero pari esistono non uno, ma due valori centrali (18 e 18 in (a), discreto e discreto in (b), e
16 e 18 in (c) e discreto e buono in (d))
4
Se i valori centrali coincidono, è naturale assumerli come mediana, per cui in (a) la mediana è 18 e in (b) è
“discreto”.
Se invece non coincidono, ma sono numeri, allora si assume come mediana la loro media aritmetica: in (c) la
mediana è, quindi, (16 +18) / 2 = 17.
Se, infine, i due dati centrali non coincidono e non hanno carattere numerico, come in (d), non si può parlare di
mediana.
Esempio 3b. La seguente tabella mostra la distribuzione delle età dei capi famiglia degli Stati Uniti nell’anno (di
grazia, perché sono nato io) 1956:
Età del capo famiglia
fino a 25
25-29
30-34
35-44
45-54
55-64
65-74
75 o più
Numero in milioni
2,22
4,05
5,08
10,45
9,47
6,63
4,16
1,66
Numero progressivo
2,22
6,27
11,35
21,80
31,27
37,90
42,06
43,72
---------------------
43,72 (milioni di capofamiglia)
Il totale delle frequenze è, in milioni, 43,72 e la sua metà è 21,86 (43,72 /2 = 21,86). Poiché la somma delle
frequenze delle prime quattro classi è 21,8 (2,22 + 4,05 + 5,08 + 10,45 = 21,8) e quindi (seppure di poco) inferiore a
tale valore, l’età mediana si colloca all’inizio della quinta classe. Possiamo concludere che l’età mediana dei
capi famiglia è (di pochissimo superiore a) 45 anni, nel senso che quelli più giovani rispetto a tale età sono tanti
quanti quelli più vecchi.
Moda e mediana hanno un vasto campo di applicazione, ma può succedere che, cambiando alcuni dei dati
anche in modo vistoso, restino del tutto invariate. Ciò in qualche caso toglie efficacia a tali medie e sembra
andare contro il senso comune.
Consideriamo, ad esempio, i voti di Sara:
Voti del primo quadrimestre: 1, 5, 5, 5, 6, 6, 6
Voti del secondo quadrimestre: 4, 5, 5, 5, 6, 8, 10
La mediana è 5 e vi sono due mode: 5 e 6.
La mediana è 5 e l’unica moda è 5.
Il netto miglioramento dei voti di Sara nel secondo quadrimestre rispetto a quelli del primo non viene recepito
da queste due medie (la moda e la mediana). Infatti:
la sostituzione dell’1 iniziale con il 4 e di due 6 con un 8 e un 10 non ha portato alcun beneficio alla mediana e,
paradossalmente, l’8 e il 10 hanno sortito l’effetto di far sparire, delle due mode, quella favorevole (6) dando
così l’idea che Sara nel secondo quadrimestre sia peggiorata.
Ecco allora che più spesso si utilizzano le altre medie, (m. aritmetica semplice, m. aritmetica ponderata e le
altre che non facciamo) che tengono conto di tutti i dati, indipendentemente dal loro ordine.
Variando, anche di poco, anche uno solo dei dati, queste altre variano con continuità e senza salti.
Queste medie, però, si possono usare solamente per dati numerici e non con quelli qualitativi.
5
5c) Media aritmetica semplice
Dati n valori X1, X2,..., Xn, si dice media aritmetica semplice (o semplicemente media aritmetica o media) il
valore che si ottiene dividendo la loro somma per il loro numero n .
indicando con Ma la media aritmetica, in formula si ha:
X1+ X 2 +...+Xn
Ma = ----------------------n
Esempio 1c. La media aritmetica Ma dei numeri 3, 7, 8, 9, 11 e 16 è:
Ma = (3 + 7 + 8 + 9 +11+16) / 6 = 54 / 6 = 9
Esempio 2c. In un cantiere lo stipendio mensile dei quattro apprendisti è 800 €, dei venti operai è 1.200 €, del
capocantiere 2.400 € . La media aritmetica degli stipendi è in euro:
Ma = (4 x 800 + 20 x 1.200 +1 x 2.400) / 25 = 29.600 / 25 = 1.184
La media aritmetica è di gran lunga la più nota e usata delle medie. Il suo uso acritico e indiscriminato deve
però essere evitato: non è vero che, se io ho due polli e tu nessuno, è come se avessimo un pollo a testa (come si
sente dire, per denigrare la statistica, da chi non conosce la statistica ma solo il più rozzo dei suoi strumenti, la media aritmetica);
così come non è vero che per due amiche sia indifferente andare in vacanza con due ragazzi alti 180 cm, oppure
con uno alto 120 cm e l’altro alto 240 cm.
È invece indifferente se su un ascensore, di portata massima 240 Kg, salgono tre persone il cui peso è 50 Kg, 70
Kg e 120 Kg rispettivamente, o tre persone tutte del peso di 80 Kg.
In generale, ogni qualvolta ha senso sommare i dati, l’uso della media aritmetica è appropriato. In tal caso essa
esprime quale sarebbe l’intensità costante del carattere in esame, se fosse ripartita in parti uguali.
5d) Media aritmetica ponderata
Spesso, anziché la media aritmetica semplice, si usa la media ponderata: assegnati agli n valori X1, X2, ..., Xn
i pesi p1, p2, ..., pn proporzionali all’importanza che vogliamo loro attribuire, la media aritmetica ponderata
(o semplicemente “media ponderata”) è:
X1 x p1 + X 2 x p2 + ... + X n x pn
------------------------------------------------------p1 + p2 + ... + pn
Esempio 1d. In una verifica di contabilità ci sono tre esercizi, i primi due brevi, facili e su una parte
trascurabile del programma; il terzo impegnativo e su una parte importante del programma.
L’insegnante, ritenendo corretto assegnare – nella valutazione complessiva della prova – più importanza al
terzo esercizio rispetto agli altri due, dà peso 1 a ognuno dei primi due esercizi e peso 3 al terzo esercizio ( in
altre parole: il terzo esercizio è considerato tre volte più importante di ognuno degli altri due ).
I voti che hai preso sono: 1° esercizio: 9;
2° esercizio: 10;
La media aritmetica è un bel (9 + 10 + 2) / 3 = 7;
3° esercizio: 2.
purtroppo il voto nella verifica sarà solo 5, infatti:
(9 x 1 + 10 x 1 + 2 x 3) / (1 + 1 + 3) = 25 / 5 = 5
La media ponderata dei voti (5) esprime meglio di quella aritmetica (7) la reale preparazione dello studente
(ammesso che le considerazioni dell’insegnante circa l’importanza degli argomenti siano ragionevoli. Le mie lo sono sempre.).
6
Esempio 2d. Supponiamo che in Italia l’intera spesa per alimentazione si concentri su tre cibi: pane, carne e
verdura. Supponiamo poi che nel corso del 2013 il prezzo della carne sia aumentato dell’1%, quello della frutta
e verdura del 3% e quello del pane del 32% . Supponiamo infine che gli italiani destinino alla carne il 50% della
spesa per alimenti, alla frutta e verdura il 40% e al pane il rimanente 10%.
Incremento prezzo % spesa sul totale
Genere alimentare
nel corso del 2013 spesa alimentare
Pane
+ 32%
10%
Carne
+ 1%
50%
Verdura
+ 3%
40%
Media aritmetica incrementi
(1% + 3% + 32%) / 3 = 36 / 3
Media ponderata incrementi (1% x 0,5 + 3% x 0,4 + 32% x 0,1) / (0,5 + 0,4 + 0,1)
12,0%
4,9%
La media ponderata dell’aumento dei prezzi (4,9%) esprime meglio di quella aritmetica (12%) il reale maggior
costo che le famiglie devono sopportare ora, rispetto all’anno precedente, per l’alimentazione.
5e) Media armonica
Anticipo subito che la media armonica può apparire, leggendo la sua definizione, molto astratta, scarsamente
utile e lontana dalla realtà. Questa media, invece, ha importanti applicazioni pratiche, soprattutto in campo
economico. Ma vediamo la definizione:
Dati n valori X1, X2,..., Xn, si dice media armonica l’inverso della media aritmetica dei loro inversi;
.
indicando con MA la media armonica, in formula si ha:
1
MA =
n
---------------------------------------------------------
1
--------
X1
1
+
--------
+…+
X2
da cui: MA =
---------------------------------------------------------
1
1
--------
--------
Xn
1
+
X1
1
--------
+…+
X2
--------
Xn
-----------------------------------------------------
n
Esempio 1e. Percorro 21 Km alla velocità di 30 Km/h e altri 21 Km alla velocità di 70 Km/h.
Qual è la velocità media? La risposta corretta non si ottiene facendo la media aritmetica delle due velocità:
Media aritmetica delle velocità: (30 + 70) / 2 = 50 Km/h
.
.
e nemmeno facendo la media ponderata con le due distanze percorse a velocità diverse:
[(30 x 21) + (70 x 21)] / (21 + 21) = 50 km/h (la ponderata coincide con la semplice perché i pesi sono uguali).
2
La media corretta è quella armonica:
--------------------------------------------
1
-------
= 42 km/h
1
+
30
--------
70
Infatti: dette s1 e s2 le lunghezze (uguali) dei due tratti e v1 e v2 le due velocità, il tempo t1 impiegato nel
primo tratto è t1 = s1 / v1 = 21/ 30 = 0,7 ore;
il tempo t2 impiegato nel secondo tratto è t2 = s2 / v2 = 21/ 70 = 0,3 ore.
Il tempo complessivo è quindi (0,7 + 0,3) pari a un’ora.
La media corretta è quindi 42 km/h, cioè proprio la media armonica delle due velocità.
Ecco ora un’applicazione della media armonica in economia (frenate l’entusiasmo):
7
Un metodo efficace per effettuare buoni investimenti a lunga scadenza è destinare a intervalli costanti la stessa
somma all’acquisto dello stesso bene. In questo modo se ne acquista un’elevata quantità quando i prezzi sono
bassi e una quantità modesta quando i prezzi sono alti, ottenendo un prezzo medio di acquisto più basso di
quanto avverrebbe acquistando ogni volta una quantità costante di quel bene .
Esempio 2e. Un risparmiatore investe, in ciascuno di tre acquisti successivi, 2.400 € per comperare monete
d’oro la cui quotazione è una volta di 80 €, la seconda 60 € e la terza volta di 40 €.
Qual è il prezzo medio di acquisto? Il profano direbbe (80 + 60 + 40) / 3 = 60 €, e sbaglierebbe. Infatti:
Il risparmiatore acquista la prima volta 2.400 / 80 = 30 monete, la seconda volta 2.400 / 60 = 40 monete e
la terza volta 2.400 / 40 = 60 monete.
Complessivamente spende (2.400 x 3 =) 7.200 € per procurarsi (30 + 40 + 60 =)130 monete, ognuna delle quali gli è
quindi costata mediamente 7.200 / 130 = 55,38 €.
Tale prezzo, come si verifica facilmente, è proprio la media armonica dei due prezzi d’acquisto.
3
La media corretta è quella armonica:
---------------------------------------------------
1
-------
80
6)
1
+
--------
60
= 55,38
1
+
---------
40
Gli indici di dispersione.
Le medie riassumono in un unico valore il fenomeno studiato, ma non forniscono alcuna informazione sulla sua
variabilità.
Esempio 1a. Si scopre che Marte è abitato da una specie intelligente simile alla nostra.
Misurate le altezze di sette marziani adulti, si trova che moda, mediana e media aritmetica coincidono e
valgono 170 cm. Una possibile sequenza di dati che soddisfa tali condizioni è questa:
(a) 169, 169, 170, 170, 170, 171, 171
La variabilità è piccolissima e pare che l’altezza dei marziani sia quasi costante.
Anche per quest’altra sequenza, però, moda, mediana e media aritmetica sono tutte pari a 170:
(b) 161, 163, 170, 170, 173, 175, 178
La variabilità riscontrata è maggiore ed è simile a quella della statura umana.
Ma anche per questa terza serie di marziani moda, mediana e media aritmetica sono di 170:
(c) 80, 100, 120, 170, 170, 250, 300
La variabilità ora è notevole: su Marte ci sono nani e giganti.
Risulta quindi evidente che, ai fini di una descrizione sintetica ma significativa, è necessario definire dei
parametri che indichino la dispersione dei dati o anche (è l’altra faccia di una stessa medaglia) la loro maggiore
o minore concentrazione attorno a un valore medio.
8
5a) Campo di variazione
Il campo di variazione, è la differenza fra il minimo e il massimo dei valori osservati.
Il campo di variazione è la più immediata e semplice misura della variabilità. Nell’esempio 1a. dei marziani,
il campo di variazione è 2 cm per la serie di dati (a), 17 cm per (b),
220 cm per (c) e risulta notevolmente
significativo (= dà una idea valida della variabilità dell’altezza dei marziani).
Purtroppo, però, il campo di variazione è, nella maggior parte dei casi, un misuratore troppo rozzo della
variabilità per essere utile. Ciò perché tiene conto soltanto dei due valori estremi e non è influenzato in alcun
modo da quelli intermedi.
Esempio 2a. Prendiamo tre classi, (a) (b) e (c), tutte con 20 alunni e stessa media complessiva di voti in
pagella dei loro alunni (la media, e anche la mediana, nelle tre classi è sempre 6):
nella classe (a) ci sono un 2, un 10 e ben diciotto 6,
(2 + 10 + 6 x 18) / 20 = 6 di media aritmetica;
nella classe (b) ci sono sei 2, sei 10 e otto 6,
(2 x 6 + 10 x 6 + 6 x 8) / 20 = 6 di media aritmetica;
nella classe (c) ci sono nove 2, nove 10 e solo due 6 (2 x 9 + 10 x 9 + 6 x 2) / 20 = 6 di media aritmetica.
Che la variabilità del profitto scolastico sia decisamente diversa nelle tre classi è evidente: la classe (a) è
formata da alunni il cui profitto è decisamente omogeneo (sono tutti sufficienti tranne un caso disastroso e un campione),
mentre nelle altre due l’andamento scolastico è nettamente più differenziato. Il campo di variazione (pari per
tutte a 8), però, non denuncia minimamente questa diversità fra le tre classi. Si deve quindi ricorrere a indici di
dispersione meno rozzi.
5b) Lo scarto semplice medio.
Chiamiamo scarto la differenza fra il valore che assume il carattere di ogni unità statistica e il valore della
media (una media qualsiasi: moda, mediana, media aritmetica ecc.); in parole più semplici: scarto = valore
del dato – media dei dati.
Essendo la media un valore compreso fra il minimo e il massimo dei dati, alcuni scarti saranno positivi e
altri negativi e più o meno si compenseranno gli uni con gli altri. Anzi, nel caso della media aritmetica gli scarti
si compensano perfettamente, vale a dire che la somma degli scarti è, nella media aritmetica, sempre uguale a
zero. La dimostrazione è riquadrata qui sotto, ma non è essenziale capirla. Però provateci, che è abbastanza
semplice vi fa bene. Se non ci saltate fuori, fa niente.
Infatti, se assegniamo n valori X1, X2,..., Xn e indichiamo con M la loro media aritmetica, il valore dei vari scarti
sarà: X1 – M, X2 – M, ..., Xn – M.
La somma degli scarti diventa quindi: Ssc. = (X1 – M) + (X2 – M) +... + (Xn – M) che, raccogliendo M, posso
scrivere anche così: Ssc. = (X1 + X2 + ...+ Xn) – n M e quindi, sostituendo a M il suo
(X 1+ X 2 +...+X n)
significato, diventa: Ssc. = (X1 + X2 + ...+ Xn) – n ---------------------------------- . Semplificando per n il
n
sottraendo, rimane: Ssc. = (X1 + X2 + ...+ Xn) – (X1 + X2 + ...+ Xn) e quindi Ssc. = 0 (c.d.d).
La somma degli scarti calcolati da qualsiasi altra media sarà diversa da zero, ma comunque piccola e poco
significativa. Sommare gli scarti così come sono, quindi, serve a nulla, poiché porta sempre allo stesso risultato,
qualunque siano i valori di cui vogliamo sapere la variabilità.
9
È allora naturale considerare non gli scarti, ma i loro valori assoluti .
Si dice valore assoluto di un numero il numero stesso, se è positivo o nullo;
considerato è negativo. Lo si indica racchiudendolo fra due barre verticali: | |.
Ad esempio, | +7 | = +7;
| –3 | = +3;
| –9 | = +9 .
il suo opposto, se il numero
Lo scarto semplice medio da una media M è la media aritmetica dei valori assoluti degli scarti da M.
Calcoliamo, per le sequenze di dati dell’esempio 1, lo scarto semplice medio dal valore 170.
Per (a) lo scarto semplice medio è pari a:
|169 – 170| + |169 – 170| + |170 – 170| + |170 – 170| + |170 – 170| + |171 – 170| + |171 – 170|
---------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------
7
Scarto semplice medio in (a) = (1 + 1 +0 + 0 + 0 + 1 + 1) / 7 = 4/7 = 0,57 cm, che significa: mediamente la
statura di ogni marziano si differenzia da quella media di poco più di mezzo centimetro.
Per (b) lo scarto semplice medio è pari a:
|161 – 170| + |163 – 170| + |170 – 170| + |170 – 170| + |173 – 170| + |175 – 170| + |178 – 170|
----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------
7
Scarto semplice medio in (b)
= (9 + 7 + 0 + 0 + 3 + 5 + 8) /7 = 32 / 7 =4,57 cm, che significa:
mediamente la statura di ogni marziano si differenzia da quella media di 4,57 centimetri.
Per (c), infine, lo scarto semplice medio vale:
|80 – 170| + |100 – 170| + |120 – 170| + |170 – 170| + |170 – 170| + |250 – 170| + |300 – 170|
------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------
7
Scarto semplice medio in (c) = (90 + 70 + 50 + 0 + 0 + 80 +130) / 7 = 420 / 7 = 60 cm, che significa:
mediamente la statura di ogni marziano si differenzia da quella media di ben 60 cm.
Se provate a calcolare lo scarto semplice medio (rispetto alla media di 6) nell’esempio 2 delle tre classi (non
evidenzio tutti i passaggi per risparmiare tempo, ma credo sia ugualmente comprensibile ) troviamo:
scarto semplice medio nella classe (a), dove ci sono diciotto 6, un 2 e un 10:
(4 + 4 + 18 x 0) / 20 = 0,4
(mediamente gli alunni si scostano dal profitto medio della classe per 4 decimi di voto: la classe è omogenea)
nella classe (b), dove ci sono sei 2, sei 10 e otto 6:
[(|2 – 6|) x 6 + (|10 – 6|) x 6 + (|6 – 6|) x 8] / 20 = 2,4
(in media il profitto degli studenti differisce per 2,4 voti da quello medio della classe: vi è molta variabilità )
nella classe (c) ci sono nove 2, nove 10 e solo due 6:
[(|2 – 6|) x 9 + (|10 – 6|) x 9 + (|6 – 6|) x 2] / 20 = 3,6
(in media ogni alunno ha 3,6 voti in più o in meno della media della classe, il cui profitto risulta quindi estremamente vario.)
10
5c) Lo scarto quadratico medio (o deviazione standard).
Questo paragrafo (tre pagine) è piuttosto difficile. Mancando il tempo per spiegarlo adeguatamente in classe, non preoccuparti se qualcosa non ti
risulta comprensibile o anche se ci capisci nulla: non lo inserirò nel programma svolto. Tu, però, prova ugualmente a capirlo: male non ti fa.
Un altro indice di dispersione è lo scarto quadratico medio, che si indica con s ed è cosi definito:
[ (X1− M)2 + (X 2− M)2 + … + (X n − M)2 ] / n
s =
Calcoliamo, per ciascuna sequenza di dati dei marziani, lo scarto quadratico medio dal valore 170.
Per (a):
s=
2
2
2
[(169 – 170) + (169 – 170) + (170 – 170) + (170 – 170)2 + (170 – 170)2 + (171 – 170)2 + (171 – 170)2] / 7
(12 + 12 + 02 + 02 + 02 +12 + 12) / 7
=
4/7 =
=
0,57 = 0,75 (scarto quadratico medio)
Per (b):
s=
2
2
2
[(161 – 170) + (163 – 170) + (170 – 170) + (170 – 170)2 + (173 – 170)2 + (175 – 170)2 + (178 – 170)2] / 7
(92 + 72 + 02 + 02 + 32 +52 + 92) / 7
=
245/7 =
=
35 = 5,9 (scarto quadratico medio)
Per (c):
s=
2
2
2
[(80 – 170) + (100 – 170) + (120 – 170) + (170 – 170)2 + (170 – 170)2 + (250 – 170)2 + (300 – 170)2] / 7
(902 + 702 + 502 + 02 + 02 +802 + 1302) / 7 =
Caso
(a)
(b)
(c)
scarto sempli- scarto quace medio dratico medio
0,57
4,57
60,0
0,75
5,9
74,5
38.800/7 =
=
5.543 = 74,5 (scarto quadr. medio)
Dal raffronto qui di fianco si vede che lo scarto quadratico medio, o
“deviazione standard”, è un indice più sensibile dello scarto
semplice medio.
Lo scarto semplice medio e lo scarto quadratico medio sono indici di dispersione significativi in quanto tengono
conto di tutti i dati (e non solo dei due estremi, il minore e il maggiore, come fa il campo di variazione ). Il secondo,
nonostante sia matematicamente più complicato, è il più usato in statistica la per ragione che tento di spiegare
nelle prossime due pagine.
Perché lo scarto quadratico medio si usa più spesso del semplice.
Supponiamo di aver rilevato, attraverso interviste a un campione rappresentativo, il numero di persone –
suddivise per classi di età – che l’altra sera hanno seguito la trasmissione “Ballarò”. I dati sono:
classi di
età (anni)
frequenza
da 0
a 10
0
da 10
a 20
8
da 20
a 30
20
da 30
a 40
53
da 40
a 50
62
da 50
a 60
30
da 60
a 70
32
da 70
a 80
13
da 80
a 90
5
da 90
a 100
2
Per dare l’idea del fenomeno con più efficacia e immediatezza è opportuno ricorrere a un grafico che evidenzi
la “distribuzione delle frequenze”. Il grafico risultante è
quello qui di fianco:
Non avendo a disposizione le singole età, per calcolare la
media aritmetica dell’età degli spettatori ipotizziamo che gli
appartenenti a una fascia di età abbiano tutti l’età centrale
della fascia.
11
Tanto per fare un po’ di esercizio, calcoliamo la media aritmetica dell’età degli spettatori: (il primo prodotto che
appare – 5x0 – significa che vi sono zero spettatori della 1^ fascia di età di valore centrale 5; poi 8 con età media 15 anni ecc. )
(5x0+15x8+25x20+35x53+45x62+55x30+65x32+75x13+85x5+95x2) / (0+8+20+53+62+30+32+13+5+2) = 47 anni.
E’ realistico pensare che se l’indagine avesse riguardato, invece di “Ballarò”, Dragon Ball o i Pokemon, allora
la distribuzione delle frequenze sarebbe stata molto spostata a sinistra, verso le fasce d’età più basse, e la media
delle età magari risultava di 12 invece che 47. In entrambi i casi, comunque, le frequenze risultano avere una
distribuzione particolare, non prevedibile con esattezza senza una indagine statistica.
Ora, è importante sapere che per molti fenomeni, al contrario del caso precedente, accade che le frequenze di un
dato carattere abbiano una distribuzione prevedibile, la cosiddetta “distribuzione normale”, ossia si
distribuiscano in modo simmetrico e decrescente rispetto al valore della loro media, valore al quale spetta la
massima frequenza. L’andamento delle frequenze è, in questi casi, rappresentato quindi da una curva a
campana, detta “curva di Gauss”. (Il tedesco Carl Friedrich Gauss fu un genio straordinario che, nella prima metà dell’800,
diede un impulso formidabile alla matematica, alla statistica, alla geometria e fu anche un fisico e un astronomo di rilievo ).
I fenomeni reali in cui questo si verifica
sono molti: stature, pesi, i valori delle analisi
del sangue, i valori ottenuti con misurazioni
ripetute di una stessa grandezza ecc. .
Nelle “distribuzioni normali” il valore
massimo è dato, come ho già detto, dalla
media aritmetica (ma anche dalla moda e dalla
mediana, in quanto tutte e tre queste medie hanno lo
stesso valore).
Imparato questo, si può cominciare a capire perché la “deviazione standard” (e cioè lo scarto quadratico medio) è un
dato importante: infatti, la forma più o meno slanciata della “campana” dipende dal suo valore ( dal valore dello
scarto quadratico medio). Nelle figure qui sopra sono rappresentate due distribuzioni normali che hanno stesso
valore medio M e diversa ampiezza dovuta a differenti scarti quadratici medi: in quella a sinistra lo scarto
quadratico medio s è maggiore e la curva è quindi meno ripida (le frequenze decrescono più dolcemente da
entrambe le parti di M), in quella a destra s è minore e la curva è più ripida (le frequenze sono più addensate
intorno al valore medio e decrescono più rapidamente quando ci si allontana da entrambe le parti di M).
Si può dimostrare che, quando un carattere ha distribuzione normale, allora
certamente:
1) 68,27% dei dati è compreso fra M – s e M + s,
2) il 95,45% dei dati è compreso fra M – 2s e M + 2s,
3) il 99,73% dei dati è compreso fra M – 3s e M + 3s.
Come già ho scritto, le curve a campana (Gauss-like) possono descrivere
molti fenomeni.
Supponiamo di considerare l'altezza degli italiani maschi. Analizziamo un
campione rappresentativo di 1.000 soggetti. Otterremo una curva a campana,
centrata attorno a una media, ipotizziamo di 174 cm . Se la "deviazione
standard" fosse 10 cm, circa il 95% (e precisamente il 95,45%) dei soggetti analizzati sarebbe compreso fra 154 cm
e 194 cm. (174 – 2 x 10 e 174 + 2 x 10).
Ancora, se tra 1000 persone adulte si osserva un peso medio di 83 Kg con uno scarto quadratico medio di 10
Kg, si può affermare che circa 683 persone (il 68,27% di mille) hanno un peso compreso fra 73 e 93 Kg, circa 954
(il 95,45% di mille) persone hanno un peso compreso tra 63 Kg e 103 Kg e circa 997 (il 99,73% di mille) hanno un
peso compreso fra 53 e 113 Kg.
Oppure ancora: se le lampadine prodotte da una ditta hanno una durata media di 900 ore con uno scarto
quadratico medio di 30 ore, si può affermare che il 68,27% delle lampadine avrà una durata compresa fra 870
ore e 930 ore, e la quasi totalità delle lampadine (il 99,73%) avrà una durata compresa fra 810 e 990 ore.
12
7)
La rappresentazione grafica dei dati.
Quest’ultimo paragrafo è frutto di un copia incolla quasi
completo. L’ho preso da una dispensa tratta dal sito
dell’Istat, più precisamente da questo indirizzo:
http://www.istat.it/servizi/studenti/valoredati/Cap4/Cap4_4_3.htm
.
Chi volesse approfondire, fare esercizi o divertirsi
altrimenti, si colleghi pure. Di mio, qui, c’è solo
l’inserimento dei grafici a linee (che l’Istat si è scordata
di trattare nella sua dispensa), e questo ammonimento:
qualunque sia il grafico scelto, è obbligatorio citare
sempre la fonte dei dati!
I principali tipi di grafici
Esiste una grande varietà di rappresentazioni grafiche. I grafici più semplici e nello stesso tempo più efficaci e comunemente
utilizzati sono: 1) i grafici a settori circolari (grafici a torta);
2) i grafici a barre;
3) gli istogrammi; 4) i grafici a linee
(diagrammi cartesiani);
1)
5) i grafici a punti.
I grafici a settori circolari (grafici a torta)
I grafici a torta sono efficaci quando si vuole evidenziare il peso delle varie parti rispetto al totale. L’ampiezza dei singoli settori
(l’ampiezza delle fette di torta) è proporzionale alla frequenza della modalità con cui si presenta il fenomeno indagato. Supponiamo
di voler rappresentare la seguente distribuzione:
Tabella 14 - Raccolta di rifiuti urbani differenziata per tipo di rifiuto. Italia - Anno 2001 (in tonnellate e composizioni percentuali)
Il grafico a settori circolari calcolato sui valori percentuali che ne deriva è il seguente:
Ogni settore del grafico rappresenta (in frequenza assoluta o, nell'esempio proposto, percentuale) il peso assunto da ciascuna
modalità.
2)
I grafici a barre
Sono molto utilizzati per rappresentare la frequenza con cui si
presentano
le modalità
di
un
carattere
qualitativo
(come
sesso,
religione
praticata).
Per esempio, abbiamo rilevato il carattere Sesso di 118 bambini di una
scuola elementare. Sono risultati 75 bambini e 43 bambine. Possiamo
visualizzare i risultati ottenuti in questo modo:
L'asse verticale è graduato e serve per indicare la frequenza (assoluta,
come nell’esempio, o relativa) con cui le modalità si presentano. L'asse
orizzontale serve soltanto come base di appoggio dell'elemento grafico (le
13
due barre).
Se le modalità fossero numerose, potrebbe essere più efficace rappresentare il grafico ruotandolo sul foglio, ponendo cioè le barre
orizzontalmente anziché verticalmente.
Ad esempio, la seguente distribuzione degli studenti che frequentano lo stesso insegnamento in 20 università:
si può rappresentare sul grafico che segue (nella
pagina successiva):
È anche possibile rappresentare contemporaneamente sullo stesso grafico due o più caratteri in diverse situazioni (di luogo o di
tempo), come i dati presenti nella tabella 13 - Raccolta di rifiuti urbani per regione - Anno 2001 (in tonnellate)
14
Dal grafico è evidente la netta prevalenza in Italia della raccolta non differenziata dei rifiuti, nonché la variabilità geografica. Inoltre,
soltanto per motivi di scala, non sono leggibili nel grafico i valori della modalità Rifiuti ingombranti per il Centro e per il Mezzogiorno.
Il dato è invece presente in tabella (Tabella 13), alla quale bisogna quindi sempre riferirsi se si è interessati a un’informazione
numerica precisa.
3)
Gli istogrammi
Si usano per rappresentare graficamente dati quantitativi suddivisi in classi. Ogni frequenza è rappresentata dall'area di un
rettangolo, la cui base è uguale all'ampiezza della classe e l'altezza è pari alla densità di frequenza, cioè al rapporto tra la frequenza
della classe e l'ampiezza della classe stessa.
Classi di uguale ampiezza
Nota che l'ampiezza di ogni classe di età in questa tabella è uguale a 5.
Infatti, l'età è una variabile quantitativa continua e la classe 20-24
corrisponde all'intervallo continuo [20,25) che ha ampiezza 5. Il simbolo
"[" sta a significare che l'età 20 è compresa in quella classe, mentre il
simbolo ")" sta a significare che l'età 25 non è compresa. Nel grafico che
segue rappresentiamo gli intervalli continui.
15
Classi di ampiezza diversa
In questo secondo caso, si deve tenere conto
del fatto che le classi hanno ampiezza diversa.
La differenza fra la frequenza 26 nella classe
50-59 e la frequenza 20 nella classe 30-49 è molto meno marcata in base alle densità di frequenza di quanto lo sarebbe se si
confrontassero le frequenze senza tener conto della diversa ampiezza delle classi.
Anche se grafici a barre e istogrammi appaiono simili, sono concettualmente diversi:
4)
I grafici a linee (diagrammi cartesiani)
In genere, i grafici a linee si utilizzano per rappresentare fenomeni che si evolvono ( = che cambiano) con continuità nel
tempo. L’asse delle ascisse (= l’asse orizzontale) rappresenta il tempo, mentre sull’asse delle ordinate (= l’asse verticale)
vengono indicate le modalità del carattere, cioè la sua intensità. I punti del piano cartesiano (= dell’area del diagramma) che
rappresentano le coppie di dati disponibili (data e relativa intensità) vengono uniti fra loro in modo da fermare una linea
spezzata.
Fonte: Istat
16
5)
I grafici a punti
Si usano per rappresentare il valore assunto da due variabili su una stessa unità statistica (per esempio il peso e l'altezza di una
persona, oppure l'età e il suo reddito mensile). Attraverso questa rappresentazione è possibile verificare visivamente se le due
variabili
sono
connesse,
cioè
se
il
comportamento
di
una
è
legato
al
comportamento
dell'altra.
Il grafico si costruisce su un piano individuato da due assi perpendicolari fra loro, graduati e orientati.
Su ciascun asse è riportata
l'unità
di
misura
di
una
delle
due
variabili
considerate.
Le unità statistiche sono poi riportate sul piano nel modo seguente: ogni unità è rappresentata da un punto; i punti sono individuati
attraverso le rispettive coordinate. Per esempio abbiamo rilevato su 10 atleti il peso (in Kg) e l'altezza (in cm). Allora, indicando con
X il peso e con Y l'altezza, avremo:
Fonte: Esempio a fini didattici
Sul grafico ciascun atleta è rappresentato da un simbolo e dal nome. La posizione di ognuno sul piano è individuata dal punto di
incrocio di due rette perpendicolari ai due assi che passano per i punti che indicano il peso e l'altezza dell'atleta. Così per esempio il
punto che rappresenta Ettore si trova all'intersezione di due rette perpendicolari agli assi. La prima, sull'asse X, individua il livello
relativo al peso di Ettore (Kg 69) e la seconda sull'asse Y, il livello corrispondente alla sua altezza (cm 179). Se non ci interessa il
riferimento dei dati ai singoli atleti possiamo fare a meno di differenziare i simboli corrispondenti.
Osservazione La disposizione dei punti sul piano permette di identificare con immediatezza eventuali relazioni esistenti fra le
due variabili.
17
Se ad esempio osserviamo la seguente situazione:
Atleti per peso e altezza: relazione lineare positiva tra le due variabili
Figura G. 1 -
Fonte:
Esempio a fini didattici
si individua visivamente l'esistenza di una relazione lineare positiva tra le due variabili; lineare in quanto i punti tendono a disporsi
lungo una retta. Positiva perché quando i valori di una variabile crescono anche quelli dell'altra variabile crescono e viceversa (al
diminuire
dei
valori
di
una
anche
i
valori
dell'altra
diminuiscono).
Se invece i punti si dispongono sul piano in questo modo:
Figura G. 2 -
Fonte:
Atleti per prestazioni effettuate nei 400 metri piani e nel salto in alto: relazione lineare
negativa tra le due variabili
Esempio a fini didattici
rileviamo l'esistenza di una relazione lineare negativa tra le due variabili; lineare in quanto come nel grafico precedente i
punti tendono a disporsi lungo una retta; negativa perché all'aumentare dei valori assunti da una variabile, i valori assunti
dall'altra tendono a diminuire.
18