l`abc della statistica

annuncio pubblicitario
In queste pagine ci occupiamo della parte più semplice della statistica, cioè di statistica descrittiva, il cui
compito è organizzare in modo facilmente dominabile (nel senso di utilizzabile) i dati raccolti.
Gli strumenti
della statistica descrittiva permettono di descrivere un fenomeno in modo efficace e immediato, cioè di
sintetizzarlo, sollevando dalla fatica di leggere e interpretare troppi dati. Più precisamente, ci concentriamo su
alcuni parametri con i quali si riassumono i dati rilevati, e quindi parleremo dei due strumenti più utilizzati
dalla statistica (descrittiva): le medie e gli indici di dispersione. Più avanti tratteremo l’importante aspetto
delle rappresentazioni grafiche dei dati.
1) Le medie.
Il concetto di media è del tutto familiare, in quanto l’uomo è per natura incline a riassumere dati discordanti per
poter concentrare l’attenzione sull’intensità media di un carattere e poter più facilmente confrontare dati
omogenei relativi a popolazioni diverse (ricordo che uso il termine “popolazione” nel suo significato tecnico visto più sopra).
Molte nostre valutazioni e decisioni sono assunte, talvolta inconsciamente, facendo riferimento a valori medi.
Così diciamo che il clima di Napoli è più caldo di quello di Torino, che gli italiani del Nord hanno un reddito
maggiore di quelli del Sud, che i maschi sono più alti delle femmine, e così via. Dicendo questo, però, non
vogliamo sostenere che a Napoli fa sempre più caldo che a Torino o che tutti gli abitanti del nord guadagnano
di più di quelli del Sud o che non ci siano femmine più alte di qualche maschio. Le nostre affermazioni sotto
intendono il concetto di media che viene colto da tutti anche se non è esplicitato.
Da una sequenza di dati si possono ottenere varie medie, che assumono nomi diversi. Qualsiasi sia il tipo di
media scelto, essa è un valore opportunamente scelto e compreso fra il minimo e il massimo dei dati. In tutti i casi,
la media è un numero che ne sintetizza molti, e consente di averne una visione unitaria, ovviamente
nascondendo la molteplicità dei dati da cui è ottenuta.
Così, il reddito medio pro capite (= a testa) degli italiani è un valore unico, utile per fare confronti con altre
nazioni o con periodi passati, ma non evidenzia che i redditi sono molto diversi e che ci sono persone al di sotto
della soglia della povertà, mentre altre hanno redditi altissimi; oppure: la statura media ci consente di dire che
gli svedesi sono, in media, più alti degli italiani, ma non evidenzia che molti italiani sono più alti di parecchi
svedesi ecc. .
Prenderemo in esame le seguenti medie: a) moda, b) mediana, c) media aritmetica semplice, d) media
aritmetica ponderata e (forse) di media armonica.
Non ci occuperemo invece, a meno che non me lo
chiediate, di media quadratica e media geometrica, poiché vengono usate per fenomeni abbastanza particolari.
1a) Moda
Si dice moda il carattere o il valore cui corrisponde la massima frequenza.
Esempio 1a.
La sequenza di numeri 5, 6, 8, 8, 8, 12, 12, 14 ha moda 8.
La sequenza di numeri 5, 6, 8, 8, 8, 12, 14, 14, 14 ha due mode: 8 e 14.
Nella sequenza di numeri: 1, 2, 3, 4, 5, 6 si potrebbe anche dire, a stretto rigore, che vi sono sei mode; ma è più
ragionevole concludere che in questo caso la moda non esiste.
1
Esempio 2a.
Si rileva il numero delle stanze di ciascuno dei 16 appartamenti di un condominio:
Numero delle stanze
2
3
4
5
6
7
Frequenze
1
3
8
2
1
1
16 numero appartamenti del condominio
La moda è 4 (stanze per appartamento) perché è quella la tipologia di appartamento più frequente.
Esempio 3a.
Il direttore di una catena di negozi di scarpe vuole provare a includere, fra gli articoli da vendere, anche un
certo modello di una nuova marca. Decide di acquistare, almeno all’inizio, un solo paio per ognuno dei suoi
tanti punti vendita in modo da ridurre al minimo l’investimento iniziale e, mettendolo nelle vetrine dei suoi tanti
negozi, poter valutare correttamente l’apprezzamento del pubblico. Volendo minimizzare il costo di questa sua
prima fornitura decide quindi acquistare un’unica misura. Per individuare quale misura è più opportuno
scegliere, chiede la misura del piede a venti abituali clienti, ottenendo i seguenti dati:
36, 42, 41, 44, 34, 39, 38, 39, 37, 34, 40, 39, 35, 37, 39, 36, 39, 42, 45, 37
.
La moda è 39, e la scelta cadrà, evidentemente, su questa misura perché ad essa corrisponde la massima
frequenza (pari a 5) del campione. In questo modo, a parità di investimento nell’acquisto, la catena di negozi
massimizzerà il ricavo di vendita. (E’ chiaro che il campione di soli 20 clienti è troppo piccolo per essere affidabile, ma mi
scocciava scriverne di più).
1b) Mediana
La mediana è il valore che occupa il posto di mezzo, quando i dati sono disposti in ordine crescente.
In altre parole, i dati che la seguono sono tanti quanti quelli che la precedono.
Esempio 1b. I voti di Pierino, intelligente ma discontinuo e scansafatiche, sono, in ordine crescente:
4, 5, 5, 6, 7, 8, 9 .
Il voto che occupa il posto di mezzo è 6, nel senso che ce ne sono tre più bassi e tre più alti. Notate che la
mediana, come la moda ma a differenza della media aritmetica (vedi 4c più avanti), può essere usata anche quando
i dati non hanno carattere numerico: è sufficiente che possano essere disposti in ordine crescente. Ad esempio,
sostituendo i voti con dei giudizi:
gravemente insufficiente, insufficiente, insufficiente, sufficiente, discreto, buono, ottimo.
La mediana è “sufficiente”, mentre la media non si può calcolare.
Esempio 2b. Consideriamo le seguenti sequenze di numeri e giudizi:
(a): 7, 15, 18, 18, 19, 23
(b): mediocre, discreto, discreto, ottimo
(c): 9, 15, 16, 18, 19, 30
(d): mediocre, discreto, buono, ottimo .
.
Quando i dati sono in numero pari esistono non uno, ma due valori centrali (18 e 18 in (a), discreto e discreto in (b), e
16 e 18 in (c) e discreto e buono in (d))
2
Se i valori centrali coincidono, è naturale assumerli come mediana, per cui in (a) la mediana è 18 e in (b) è
“discreto”.
Se invece non coincidono, ma sono numeri, allora si assume come mediana la loro media aritmetica: in (c) la
mediana è, quindi, (16 +18) / 2 = 17.
Se, infine, i due dati centrali non coincidono e non hanno carattere numerico, come in (d), non si può parlare di
mediana.
Esempio 3b. La seguente tabella mostra la distribuzione delle età dei capi famiglia degli Stati Uniti nell’anno (di
grazia, perché sono nato io) 1956:
Età del capo famiglia
fino a 25
25-29
30-34
35-44
45-54
55-64
65-74
75 o più
Numero in milioni
2,22
4,05
5,08
10,45
9,47
6,63
4,16
1,66
Numero progressivo
2,22
6,27
11,35
21,80
31,27
37,90
42,06
43,72
---------------------
43,72 (milioni di capofamiglia)
Il totale delle frequenze è, in milioni, 43,72 e la sua metà è 21,86 (43,72 /2 = 21,86). Poiché la somma delle
frequenze delle prime quattro classi è 21,8 (2,22 + 4,05 + 5,08 + 10,45 = 21,8) e quindi (seppure di poco) inferiore a
tale valore, l’età mediana si colloca all’inizio della quinta classe. Possiamo concludere che l’età mediana dei
capi famiglia è (di pochissimo superiore a) 45 anni, nel senso che quelli più giovani rispetto a tale età sono tanti
quanti quelli più vecchi.
Moda e mediana hanno un vasto campo di applicazione, ma può succedere che, cambiando alcuni dei dati
anche in modo vistoso, restino del tutto invariate. Ciò in qualche caso toglie efficacia a tali medie e sembra
andare contro il senso comune.
Consideriamo, ad esempio, i voti di Sara:
Voti del primo quadrimestre: 1, 5, 5, 5, 6, 6, 6
Voti del secondo quadrimestre: 4, 5, 5, 5, 6, 8, 10
La mediana è 5 e vi sono due mode: 5 e 6.
La mediana è 5 e l’unica moda è 5.
Il netto miglioramento dei voti di Sara nel secondo quadrimestre rispetto a quelli del primo non viene recepito
da queste due medie (la moda e la mediana). Infatti:
la sostituzione dell’1 iniziale con il 4 e di due 6 con un 8 e un 10 non ha portato alcun beneficio alla mediana e,
paradossalmente, l’8 e il 10 hanno sortito l’effetto di far sparire, delle due mode, quella favorevole (6) dando
così l’idea che Sara nel secondo quadrimestre sia peggiorata.
Ecco allora che più spesso si utilizzano le altre medie, (m. aritmetica semplice, m. aritmetica ponderata e le
altre che non facciamo) che tengono conto di tutti i dati, indipendentemente dal loro ordine.
Variando, anche di poco, anche uno solo dei dati, queste altre variano con continuità e senza salti.
Queste medie, però, si possono usare solamente per dati numerici e non con quelli qualitativi.
3
1c) Media aritmetica semplice
Dati n valori X1, X2,..., Xn, si dice media aritmetica semplice (o semplicemente media aritmetica o media) il
valore che si ottiene dividendo la loro somma per il loro numero n .
indicando con Ma la media aritmetica, in formula si ha:
X1+ X 2 +...+Xn
Ma = ----------------------n
Esempio 1c. La media aritmetica Ma dei numeri 3, 7, 8, 9, 11 e 16 è:
Ma = (3 + 7 + 8 + 9 +11+16) / 6 = 54 / 6 = 9
Esempio 2c. In un cantiere lo stipendio mensile dei quattro apprendisti è 800 €, dei venti operai è 1.200 €, del
capocantiere 2.400 € . La media aritmetica degli stipendi è in euro:
Ma = (4 x 800 + 20 x 1.200 +1 x 2.400) / 25 = 29.600 / 25 = 1.184
La media aritmetica è di gran lunga la più nota e usata delle medie. Il suo uso acritico e indiscriminato deve
però essere evitato: non è vero che, se io ho due polli e tu nessuno, è come se avessimo un pollo a testa (come si
sente dire, per denigrare la statistica, da chi non conosce la statistica ma solo il più rozzo dei suoi strumenti, la media aritmetica);
così come non è vero che per due amiche sia indifferente andare in vacanza con due ragazzi alti 180 cm, oppure
con uno alto 120 cm e l’altro alto 240 cm.
È invece indifferente se su un ascensore, di portata massima 240 Kg, salgono tre persone il cui peso è 50 Kg, 70
Kg e 120 Kg rispettivamente, o tre persone tutte del peso di 80 Kg.
In generale, ogni qualvolta ha senso sommare i dati, l’uso della media aritmetica è appropriato. In tal caso essa
esprime quale sarebbe l’intensità costante del carattere in esame, se fosse ripartita in parti uguali.
1d) Media aritmetica ponderata
Spesso, anziché la media aritmetica semplice, si usa la media ponderata: assegnati agli n valori X1, X2, ..., Xn
i pesi p1, p2, ..., pn proporzionali all’importanza che vogliamo loro attribuire, la media aritmetica ponderata
(o semplicemente “media ponderata”) è:
X1 x p1 + X 2 x p2 + ... + X n x pn
------------------------------------------------------p1 + p2 + ... + pn
Esempio 1d. In una verifica di contabilità ci sono tre esercizi, i primi due brevi, facili e su una parte
trascurabile del programma; il terzo impegnativo e su una parte importante del programma.
L’insegnante, ritenendo corretto assegnare – nella valutazione complessiva della prova – più importanza al
terzo esercizio rispetto agli altri due, dà peso 1 a ognuno dei primi due esercizi e peso 3 al terzo esercizio (in
altre parole: il terzo esercizio è considerato tre volte più importante di ognuno degli altri due ).
I voti che hai preso sono: 1° esercizio: 9;
2° esercizio: 10;
La media aritmetica è un bel (9 + 10 + 2) / 3 = 7;
3° esercizio: 2.
purtroppo il voto nella verifica sarà solo 5, infatti:
(9 x 1 + 10 x 1 + 2 x 3) / (1 + 1 + 3) = 25 / 5 = 5
La media ponderata dei voti (5) esprime meglio di quella aritmetica (7) la reale preparazione dello studente
(ammesso che le considerazioni dell’insegnante circa l’importanza degli argomenti siano ragionevoli. Le mie lo sono sempre.).
4
Esempio 2d. Supponiamo che in Italia l’intera spesa per alimentazione si concentri su tre cibi: pane, carne e
verdura. Supponiamo poi che nel corso del 2014 il prezzo della carne sia aumentato dell’1%, quello della frutta
e verdura del 3% e quello del pane del 32% . Supponiamo infine che gli italiani destinino alla carne il 50% della
spesa per alimenti, alla frutta e verdura il 40% e al pane il rimanente 10%.
Incremento prezzo % spesa sul totale
Genere alimentare
nel corso del 2014 spesa alimentare
Pane
+ 32%
10%
Carne
+ 1%
50%
Verdura
+ 3%
40%
Media aritmetica incrementi
(1% + 3% + 32%) / 3 = 36 / 3
Media ponderata incrementi (1% x 0,5 + 3% x 0,4 + 32% x 0,1) / (0,5 + 0,4 + 0,1)
12,0%
4,9%
La media ponderata dell’aumento dei prezzi (4,9%) esprime meglio di quella aritmetica (12%) il reale maggior
costo che le famiglie devono sopportare ora, rispetto all’anno precedente, per l’alimentazione.
1e) Media armonica
Anticipo subito che la media armonica può apparire, leggendo la sua definizione, molto astratta, scarsamente
utile e lontana dalla realtà. Questa media, invece, ha importanti applicazioni pratiche, soprattutto in campo
economico. Ma vediamo la definizione:
Dati n valori X1, X2,..., Xn, si dice media armonica l’inverso della media aritmetica dei loro inversi;
.
indicando con MA la media armonica, in formula si ha:
1
MA =
n
---------------------------------------------------------
1
--------
X1
1
+
--------
+…+
X2
da cui: MA =
---------------------------------------------------------
1
1
--------
--------
Xn
1
+
X1
1
--------
+…+
X2
--------
Xn
-----------------------------------------------------
n
Esempio 1e. Percorro 21 Km alla velocità di 30 Km/h e altri 21 Km alla velocità di 70 Km/h.
Qual è la velocità media? La risposta corretta non si ottiene facendo la media aritmetica delle due velocità:
Media aritmetica delle velocità: (30 + 70) / 2 = 50 Km/h
.
.
e nemmeno facendo la media ponderata con le due distanze percorse a velocità diverse:
[(30 x 21) + (70 x 21)] / (21 + 21) = 50 km/h (la ponderata coincide con la semplice perché i pesi sono uguali).
2
La media corretta è quella armonica:
--------------------------------------------
1
-------
= 42 km/h
1
+
30
--------
70
Infatti: dette s1 e s2 le lunghezze (uguali) dei due tratti e v1 e v2 le due velocità, il tempo t1 impiegato nel
primo tratto è t1 = s1 / v1 = 21/ 30 = 0,7 ore;
il tempo t2 impiegato nel secondo tratto è t2 = s2 / v2 = 21/ 70 = 0,3 ore.
Il tempo complessivo è quindi (0,7 + 0,3) pari a un’ora.
La media corretta è quindi 42 km/h, cioè proprio la media armonica delle due velocità.
Ecco ora un’applicazione della media armonica in economia (frenate l’entusiasmo):
5
Un metodo efficace per effettuare buoni investimenti a lunga scadenza è destinare a intervalli costanti la stessa
somma all’acquisto dello stesso bene. In questo modo se ne acquista un’elevata quantità quando i prezzi sono
bassi e una quantità modesta quando i prezzi sono alti, ottenendo un prezzo medio di acquisto più basso di
quanto avverrebbe acquistando ogni volta una quantità costante di quel bene .
Esempio 2e. Un risparmiatore investe, in ciascuno di tre acquisti successivi, 2.400 € per comperare monete
d’oro la cui quotazione è una volta di 80 €, la seconda 60 € e la terza volta di 40 €.
Qual è il prezzo medio di acquisto? Il profano direbbe (80 + 60 + 40) / 3 = 60 €, e sbaglierebbe. Infatti:
Il risparmiatore acquista la prima volta 2.400 / 80 = 30 monete, la seconda volta 2.400 / 60 = 40 monete e
la terza volta 2.400 / 40 = 60 monete.
Complessivamente spende (2.400 x 3 =) 7.200 € per procurarsi (30 + 40 + 60 =)130 monete, ognuna delle quali gli è
quindi costata mediamente 7.200 / 130 = 55,38 €.
Tale prezzo, come si verifica facilmente, è proprio la media armonica dei due prezzi d’acquisto.
3
La media corretta è quella armonica:
---------------------------------------------------
1
-------
80
2)
1
+
--------
60
= 55,38
1
+
---------
40
Gli indici di dispersione.
Le medie riassumono in un unico valore il fenomeno studiato, ma non forniscono alcuna informazione sulla sua
variabilità.
Esempio 1a. Si scopre che Marte è abitato da una specie intelligente simile alla nostra.
Misurate le altezze di sette marziani adulti, si trova che moda, mediana e media aritmetica coincidono e
valgono 170 cm. Una possibile sequenza di dati che soddisfa tali condizioni è questa:
(a) 169, 169, 170, 170, 170, 171, 171
La variabilità è piccolissima e pare che l’altezza dei marziani sia quasi costante.
Anche per quest’altra sequenza, però, moda, mediana e media aritmetica sono tutte pari a 170:
(b) 161, 163, 170, 170, 173, 175, 178
La variabilità riscontrata è maggiore ed è simile a quella della statura umana.
Ma anche per questa terza serie di marziani moda, mediana e media aritmetica sono di 170:
(c) 80, 100, 120, 170, 170, 250, 300
La variabilità ora è notevole: su Marte ci sono nani e giganti.
Risulta quindi evidente che, ai fini di una descrizione sintetica ma significativa, è necessario definire dei
parametri che indichino la dispersione dei dati o anche (è l’altra faccia di una stessa medaglia) la loro maggiore
o minore concentrazione attorno a un valore medio.
6
2a) Campo di variazione
Il campo di variazione, è la differenza fra il minimo e il massimo dei valori osservati.
Il campo di variazione è la più immediata e semplice misura della variabilità. Nell’esempio 1a. dei marziani,
il campo di variazione è 2 cm per la serie di dati (a), 17 cm per (b),
220 cm per (c) e risulta notevolmente
significativo (= dà una idea valida della variabilità dell’altezza dei marziani).
Purtroppo, però, il campo di variazione è, nella maggior parte dei casi, un misuratore troppo rozzo della
variabilità per essere utile. Ciò perché tiene conto soltanto dei due valori estremi e non è influenzato in alcun
modo da quelli intermedi.
Esempio 2a. Prendiamo tre classi, (a) (b) e (c), tutte con 20 alunni e stessa media complessiva di voti in
pagella dei loro alunni (la media, e anche la mediana, nelle tre classi è sempre 6):
nella classe (a) ci sono un 2, un 10 e ben diciotto 6,
(2 + 10 + 6 x 18) / 20 = 6 di media aritmetica;
nella classe (b) ci sono sei 2, sei 10 e otto 6,
(2 x 6 + 10 x 6 + 6 x 8) / 20 = 6 di media aritmetica;
nella classe (c) ci sono nove 2, nove 10 e solo due 6 (2 x 9 + 10 x 9 + 6 x 2) / 20 = 6 di media aritmetica.
Che la variabilità del profitto scolastico sia decisamente diversa nelle tre classi è evidente: la classe (a) è
formata da alunni il cui profitto è decisamente omogeneo (sono tutti sufficienti tranne un caso disastroso e un campione),
mentre nelle altre due l’andamento scolastico è nettamente più differenziato. Il campo di variazione (pari per
tutte a 8), però, non denuncia minimamente questa diversità fra le tre classi. Si deve quindi ricorrere a indici di
dispersione meno rozzi.
2b) Lo scarto semplice medio.
Chiamiamo scarto la differenza fra il valore che assume il carattere di ogni unità statistica e il valore della
media (una media qualsiasi: moda, mediana, media aritmetica ecc.); in parole più semplici: scarto = valore
del dato – media dei dati.
Essendo la media un valore compreso fra il minimo e il massimo dei dati, alcuni scarti saranno positivi e
altri negativi e più o meno si compenseranno gli uni con gli altri. Anzi, nel caso della media aritmetica gli scarti
si compensano perfettamente, vale a dire che la somma degli scarti è, nella media aritmetica, sempre uguale a
zero. La dimostrazione è riquadrata qui sotto, ma non è essenziale capirla. Però provateci, che è abbastanza
semplice vi fa bene. Se non ci saltate fuori, fa niente.
Infatti, se assegniamo n valori X1, X2,..., Xn e indichiamo con M la loro media aritmetica, il valore dei vari scarti
sarà: X1 – M, X2 – M, ..., Xn – M.
La somma degli scarti diventa quindi: Ssc. = (X1 – M) + (X2 – M) +... + (Xn – M) che, raccogliendo M, posso
scrivere anche così: Ssc. = (X1 + X2 + ...+ Xn) – n M e quindi, sostituendo a M il suo
(X 1+ X 2 +...+X n)
significato, diventa: Ssc. = (X1 + X2 + ...+ Xn) – n ---------------------------------- . Semplificando per n il
n
sottraendo, rimane: Ssc. = (X1 + X2 + ...+ Xn) – (X1 + X2 + ...+ Xn) e quindi Ssc. = 0 (c.d.d).
La somma degli scarti calcolati da qualsiasi altra media sarà diversa da zero, ma comunque piccola e poco
significativa. Sommare gli scarti così come sono, quindi, serve a nulla, poiché porta sempre allo stesso risultato,
qualunque siano i valori di cui vogliamo sapere la variabilità.
7
È allora naturale considerare non gli scarti, ma i loro valori assoluti .
Si dice valore assoluto di un numero il numero stesso, se è positivo o nullo;
considerato è negativo. Lo si indica racchiudendolo fra due barre verticali: | |.
Ad esempio, | +7 | = +7;
| –3 | = +3;
| –9 | = +9 .
il suo opposto, se il numero
Lo scarto semplice medio da una media M è la media aritmetica dei valori assoluti degli scarti da M.
Calcoliamo, per le sequenze di dati dell’esempio 1, lo scarto semplice medio dal valore 170.
Per (a) lo scarto semplice medio è pari a:
|169 – 170| + |169 – 170| + |170 – 170| + |170 – 170| + |170 – 170| + |171 – 170| + |171 – 170|
---------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------
7
Scarto semplice medio in (a) = (1 + 1 +0 + 0 + 0 + 1 + 1) / 7 = 4/7 = 0,57 cm, che significa: mediamente la
statura di ogni marziano si differenzia da quella media di poco più di mezzo centimetro.
Per (b) lo scarto semplice medio è pari a:
|161 – 170| + |163 – 170| + |170 – 170| + |170 – 170| + |173 – 170| + |175 – 170| + |178 – 170|
----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------
7
Scarto semplice medio in (b)
= (9 + 7 + 0 + 0 + 3 + 5 + 8) /7 = 32 / 7 =4,57 cm, che significa:
mediamente la statura di ogni marziano si differenzia da quella media di 4,57 centimetri.
Per (c), infine, lo scarto semplice medio vale:
|80 – 170| + |100 – 170| + |120 – 170| + |170 – 170| + |170 – 170| + |250 – 170| + |300 – 170|
------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------
7
Scarto semplice medio in (c) = (90 + 70 + 50 + 0 + 0 + 80 +130) / 7 = 420 / 7 = 60 cm, che significa:
mediamente la statura di ogni marziano si differenzia da quella media di ben 60 cm.
Se provate a calcolare lo scarto semplice medio (rispetto alla media di 6) nell’esempio 2 delle tre classi (non
evidenzio tutti i passaggi per risparmiare tempo, ma credo sia ugualmente comprensibile ) troviamo:
scarto semplice medio nella classe (a), dove ci sono diciotto 6, un 2 e un 10:
(4 + 4 + 18 x 0) / 20 = 0,4
(mediamente gli alunni si scostano dal profitto medio della classe per 4 decimi di voto: la classe è omogenea)
nella classe (b), dove ci sono sei 2, sei 10 e otto 6:
[(|2 – 6|) x 6 + (|10 – 6|) x 6 + (|6 – 6|) x 8] / 20 = 2,4
(in media il profitto degli studenti differisce per 2,4 voti da quello medio della classe: vi è molta variabilità )
nella classe (c) ci sono nove 2, nove 10 e solo due 6:
[(|2 – 6|) x 9 + (|10 – 6|) x 9 + (|6 – 6|) x 2] / 20 = 3,6
(in media ogni alunno ha 3,6 voti in più o in meno della media della classe, il cui profitto risulta quindi estremamente vario.)
8
2c) Lo scarto quadratico medio (o deviazione standard).
Questo paragrafo (tre pagine) è piuttosto difficile. Mancando il tempo per spiegarlo adeguatamente in classe, non preoccuparti se qualcosa non ti
risulta comprensibile o anche se ci capisci nulla: non lo inserirò nel programma svolto. Tu, però, prova ugualmente a capirlo: male non ti fa.
Un altro indice di dispersione è lo scarto quadratico medio, che si indica con s ed è cosi definito:
[ (X1− M)2 + (X 2− M)2 + … + (X n − M)2 ] / n
s =
Calcoliamo, per ciascuna sequenza di dati dei marziani, lo scarto quadratico medio dal valore 170.
Per (a):
2
[(169 – 170) + (169 – 170) + (170 – 170) + (170 – 170)2 + (170 – 170)2 + (171 – 170)2 + (171 – 170)2] / 7
s=
2
2
(12 + 12 + 02 + 02 + 02 +12 + 12) / 7
=
4/7 =
=
0,57 = 0,75 (scarto quadratico medio)
Per (b):
2
[(161 – 170) + (163 – 170) + (170 – 170) + (170 – 170)2 + (173 – 170)2 + (175 – 170)2 + (178 – 170)2] / 7
s=
2
2
(92 + 72 + 02 + 02 + 32 +52 + 92) / 7
=
245/7 =
=
35 = 5,9 (scarto quadratico medio)
Per (c):
[(80 – 170)2 + (100 – 170)2 + (120 – 170)2 + (170 – 170)2 + (170 – 170)2 + (250 – 170)2 + (300 – 170)2] / 7
s=
(902 + 702 + 502 + 02 + 02 +802 + 1302) / 7 =
Caso
(a)
(b)
(c)
scarto sempli- scarto quace medio dratico medio
0,57
4,57
60,0
0,75
5,9
74,5
38.800/7 =
=
5.543 = 74,5 (scarto quadratico medio)
Dal raffronto qui di fianco si vede che lo scarto quadratico medio, o
“deviazione standard”, è un indice più sensibile dello scarto
semplice medio.
Lo scarto semplice medio e lo scarto quadratico medio sono indici di dispersione significativi in quanto tengono
conto di tutti i dati (e non solo dei due estremi, il minore e il maggiore, come fa il campo di variazione). Il secondo,
nonostante sia matematicamente più complicato, è il più usato in statistica la per ragione che tento di spiegare
nelle prossime due pagine.
Perché lo scarto quadratico medio si usa più spesso del semplice.
Supponiamo di aver rilevato, attraverso interviste a un campione rappresentativo, il numero di persone –
suddivise per classi di età – che l’altra sera hanno seguito la trasmissione “Ballarò”. I dati sono:
classi di
età (anni)
frequenza
da 0
a 10
0
da 10
a 20
8
da 20
a 30
20
da 30
a 40
53
da 40
a 50
62
da 50
a 60
30
da 60
a 70
32
da 70
a 80
13
da 80
a 90
5
da 90
a 100
2
Per dare l’idea del fenomeno con più efficacia e immediatezza è opportuno ricorrere a un grafico che evidenzi
la “distribuzione delle frequenze”. Il grafico risultante è
quello qui di fianco:
Non avendo a disposizione le singole età, per calcolare la
media aritmetica dell’età degli spettatori ipotizziamo che gli
appartenenti a una fascia di età abbiano tutti l’età centrale
della fascia.
9
Tanto per fare un po’ di esercizio, calcoliamo la media aritmetica dell’età degli spettatori: (il primo prodotto che
appare – 5x0 – significa che vi sono zero spettatori della 1^ fascia di età di valore centrale 5; poi 8 con età media 15 anni ecc. )
(5x0+15x8+25x20+35x53+45x62+55x30+65x32+75x13+85x5+95x2) / (0+8+20+53+62+30+32+13+5+2) = 47 anni.
E’ realistico pensare che se l’indagine avesse riguardato, invece di “Ballarò”, Dragon Ball o i Pokemon, allora
la distribuzione delle frequenze sarebbe stata molto spostata a sinistra, verso le fasce d’età più basse, e la media
delle età magari risultava di 12 invece che 47. In entrambi i casi, comunque, le frequenze risultano avere una
distribuzione particolare, non prevedibile con esattezza senza una indagine statistica.
Ora, è importante sapere che per molti fenomeni, al contrario del caso precedente, accade che le frequenze di un
dato carattere abbiano una distribuzione prevedibile, la cosiddetta “distribuzione normale”, ossia si
distribuiscano in modo simmetrico e decrescente rispetto al valore della loro media, valore al quale spetta la
massima frequenza. L’andamento delle frequenze è, in questi casi, rappresentato quindi da una curva a
campana, detta “curva di Gauss”. (Il tedesco Carl Friedrich Gauss fu un genio straordinario che, nella prima metà dell’800,
diede un impulso formidabile alla matematica, alla statistica, alla geometria e fu anche un fisico e un astronomo di rilievo ).
I fenomeni reali in cui questo si verifica
sono molti: stature, pesi, i valori delle analisi
del sangue, i valori ottenuti con misurazioni
ripetute di una stessa grandezza ecc. .
Nelle “distribuzioni normali” il valore
massimo è dato, come ho già detto, dalla
media aritmetica (ma anche dalla moda e dalla
mediana, in quanto tutte e tre queste medie hanno lo
stesso valore).
Imparato questo, si può cominciare a capire perché la “deviazione standard” (e cioè lo scarto quadratico medio) è un
dato importante: infatti, la forma più o meno slanciata della “campana” dipende dal suo valore (dal valore dello
scarto quadratico medio). Nelle figure qui sopra sono rappresentate due distribuzioni normali che hanno stesso
valore medio M e diversa ampiezza dovuta a differenti scarti quadratici medi: in quella a sinistra lo scarto
quadratico medio s è maggiore e la curva è quindi meno ripida (le frequenze decrescono più dolcemente da
entrambe le parti di M), in quella a destra s è minore e la curva è più ripida (le frequenze sono più addensate
intorno al valore medio e decrescono più rapidamente quando ci si allontana da entrambe le parti di M).
Si può dimostrare che, quando un carattere ha distribuzione normale, allora
certamente:
1) 68,27% dei dati è compreso fra M – s e M + s,
2) il 95,45% dei dati è compreso fra M – 2s e M + 2s,
3) il 99,73% dei dati è compreso fra M – 3s e M + 3s.
Come già ho scritto, le curve a campana (Gauss-like) possono descrivere
molti fenomeni.
Supponiamo di considerare l'altezza degli italiani maschi. Analizziamo un
campione rappresentativo di 1.000 soggetti. Otterremo una curva a campana,
centrata attorno a una media, ipotizziamo di 174 cm . Se la "deviazione
standard" fosse 10 cm, circa il 95% (e precisamente il 95,45%) dei soggetti analizzati sarebbe compreso fra 154 cm
e 194 cm. (174 – 2 x 10 e 174 + 2 x 10).
Ancora, se tra 1000 persone adulte si osserva un peso medio di 83 Kg con uno scarto quadratico medio di 10
Kg, si può affermare che circa 683 persone (il 68,27% di mille) hanno un peso compreso fra 73 e 93 Kg, circa 954
(il 95,45% di mille) persone hanno un peso compreso tra 63 Kg e 103 Kg e circa 997 (il 99,73% di mille) hanno un
peso compreso fra 53 e 113 Kg.
Oppure ancora: se le lampadine prodotte da una ditta hanno una durata media di 900 ore con uno scarto
quadratico medio di 30 ore, si può affermare che il 68,27% delle lampadine avrà una durata compresa fra 870
ore e 930 ore, e la quasi totalità delle lampadine (il 99,73%) avrà una durata compresa fra 810 e 990 ore.
10
Scarica