TREVIGLIO Corso di Informatica - Centro Salesiano don Bosco

CENTRO SALESIANO DON BOSCO – TREVIGLIO
Corso di Informatica
I DATI STATISTICI
LA STATISTICA DESCRITTIVA
La Statistica si occupa dei modi di raccogliere e analizzare dati relativi ad un certo gruppo di
persone (gli studenti di una scuola, gli abitanti di un quartiere, gli elettori di una regione, …) o
di oggetti (le automobili, i dischi, i libri, …), per trarne conclusioni e fare previsioni.
La fasi fondamentali di un’indagine statistica sono quindi:
- rilevamento dei dati
- elaborazione dei dati
Il gruppo preso in considerazione viene detto popolazione. Spesso viene presa in esame
soltanto una parte della popolazione, detta campione, scelta in modo che rappresenti l’intero
gruppo. Poiché la raccolta dei dati di tipo globale è molto costosa, la maggior parte della
raccolta dati è di tipo campionario.
I CARATTERI QUALITATIVI E I CARATTERI QUANTITATIVI
Gli elementi di una popolazione si chiamano unità statistiche. E’ possibile studiare diverse
caratteristiche di tali unità e ogni caratteristica rappresenta un carattere della popolazione.
I caratteri possono essere di due tipi:
• qualitativi
• quantitativi
Per esempio, se scegliamo come unità statistiche gli studenti di una scuola, alcuni caratteri
qualitativi sono il sesso, il paese di provenienza, il mezzo di trasporto usato per raggiungere la
scuola; sono invece caratteri quantitativi l’età, il peso, la statura.
Ogni carattere vien descritto mediante le modalità con cui esso si può manifestare.
Ad esempio:
- il carattere sesso ha due modalità: maschile e femminile
- il carattere mezzo di trasporto ha più modalità: treno, autobus, scooter, …
- anche il carattere età ha più modalità: 14, 15, 16, … (se espresso in anni).
TABELLE DI FREQUENZA
In un compito in classe di matematica gli alunni hanno ottenuto i seguenti voti
5, 6, 6, 6, 5, 8, 6, 5, 5, 4, 7, 8, 7, 7, 4, 5, 6, 7, 7, 9
Dalla lettura di questa sequenza è difficile trarre informazioni perché i risultati si susseguono
in modo disordinato.
Costruiamo allora la tabella, dove nella prima colonna mettiamo le diverse modalità. Nella
seconda colonna indichiamo le volte (occorrenze) in cui il voto si presenta.
modalità frequenza
4
2
5
5
6
5
7
5
8
2
9
1
totale
20
Statistica_Appunti_1
1/24
CENTRO SALESIANO DON BOSCO – TREVIGLIO
Corso di Informatica
Definiamo il numero delle volte che il dato si presenta frequenza.
L’insieme delle coppie ordinate di cui il primo elemento è la modalità e il secondo la
frequenza corrispondente viene detto distribuzione di frequenza.
Più spesso interessa il valore della frequenza confrontato con il numero totale delle unità
statistiche.
Per questo motivo viene calcolata la frequenza relativa che è definita come il rapporto fra la
frequenza e il numero totale delle unità statistiche.
La frequenza relativa può anche essere espressa anche in percentuale, moltiplicandola per
cento.
La tabella seguente riassume le frequenze relative delle modalità dell’esempio precedente
modalità frequenza frequenza frequenza
relativa relativa %
4
2
0,1
10%
5
5
0,25
25%
6
5
0,25
25%
7
5
0,25
25%
8
2
0,1
10%
9
1
0,05
5%
totale
20
1
100%
Si noti che qualora vengano fornite le frequenze relative f i e il numero totale T delle unità
statistiche, è possibile calcolare le frequenze Fi di ogni modalità. Infatti essendo
F
f i = i , conoscendo f i e T, possiamo ricavare Fi = f i ⋅ T
T
Inoltre dalla definizione di frequenza relativa risulta che
- la frequenza relativa è un numero compreso tra 0 e 1, 0 ≤ f i≤ 1
- la somma di tutte le frequenze relative di una distribuzione è uguale all’unità (condizione di
normalizzazione)
n
fi 1 n
1
= ∑ fi = ⋅ n = 1
∑
n i =1
n
i =1 n
Statistica_Appunti_1
2/24
CENTRO SALESIANO DON BOSCO – TREVIGLIO
Corso di Informatica
LE CLASSI DI FREQUENZA
Studiamo i risultati ottenuti da un gruppo di studenti che, nell’ora di educazione fisica, hanno
eseguito una prova di salto in lungo da fermo
1,36 1,46 1,62 1,54 1,94 1,85 1,75 1,88 1,61 1,90 1,65 1,53 1,36 1,67 1,40 1,60 1,50 1,67 1,65
1,78 2,12 1,86
In casi come questo, casi nei quali in genere le modalità dei caratteri qualitativi sono valori
continui, è utile raggruppare le modalità in classi, determinando la frequenza di ogni classe.
Nella tabella seguente consideriamo cinque classi
classi
1,20 – 1,40
1,40 – 1,60
1,60 – 1,80
1,80 – 2,00
2,00 – 2,20
totale
frequenza frequenza
relativa
2
0,09
6
0,27
8
0,36
5
0,23
1
0,5
22
1
In tali casi di ogni classe è spesso utile calcolare il valore centrale, che si ottiene dividendo
per 2 la somma degli estremi della classe.
FREQUENZE CUMULATE
E’ spesso utile indicare nelle tabelle di frequenza le frequenze cumulate: esse sono
calcolando sommando le frequenze delle modalità.
Si ottiene dunque, nel nostro esempio, la tabella
classi
1,20 – 1,40
1,40 – 1,60
1.60 – 1,80
1,80 – 2,00
2,00 – 2,20
totale
frequenza frequenza frequenza frequenza
cumulata relativa % relativa %
cumulata
2
2
9%
9%
6
8
27%
36%
8
16
36%
72%
5
21
23%
95%
1
22
5%
100%
22
Statistica_Appunti_1
3/24
CENTRO SALESIANO DON BOSCO – TREVIGLIO
Corso di Informatica
LE SERIE STATISTICHE
Le tabelle ch riportano nella prima colonna le modalità di un carattere qualitativo vengono
dette serie statistiche
Nella seconda colonna compare o la misura della modalità quantitativa (intensità) o il numero
delle volte col quale essa si presenta (frequenza).
La tabella seguente riporta per quattro imprese il fatturato annuo
impresa fatturato
(euro)
A
57300
B
48000
C
63300
D
32200
In tali distribuzioni se nella prima colonna sono riportati dei periodi di tempo, si hanno le
serie storiche. Se i periodi di tempo si ripetono nel tempo, le serie storiche sono dette serie
cicliche.
Nelle serie storiche la seconda colonna spesso riporta non la frequenza ma l’intensità di un
fenomeno (pesi, valori monetari, …)
Di seguito sono riportate due esempi di serie storiche: la seconda è una serie ciclica
anno prezzo
(euro)
1995 5,81
1996 6,41
1997 6,61
1998 6,21
1999 6,81
giorno
vendite
(kg)
Lunedì
240
Martedì
310
Mercoledì
185
Giovedì
170
Venerdì
280
Sabato
135
Statistica_Appunti_1
4/24
CENTRO SALESIANO DON BOSCO – TREVIGLIO
Corso di Informatica
SERIAZIONI STATISTICHE
Le tabelle che riportano nella prima colonna un carattere quantitativo vengono dette
seriazioni statistiche. Nella seconda colonna compare la frequenza, cioè il numero delle volte
col quale si presenta la relativa modalità.
L’insieme delle modalità di un carattere quantitativo, alle quali è associata la loro frequenza,
definisce una variabile statistica
Studiamo per esempio la numerosità dei nuclei familiari degli studenti di una classe
numero
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
studente
numero
4 3 3 4 4 5 3 4 3 2 2 3 4 5 4 4 2 3 3 4
componenti
Otteniamo la distribuzione di frequenza
Numero componenti
2
3
4
5
totale
Statistica_Appunti_1
frequenza
2
10
8
2
22
5/24
CENTRO SALESIANO DON BOSCO – TREVIGLIO
Corso di Informatica
LA RAPPRESENTAZIONE DEI DATI
ORTOGRAMMA
Data la tabella seguente di distribuzione di frequenze di modalità qualitative, riportiamo le
frequenze su un asse verticale e sull’asse orizzontale tanti segmenti, della stessa lunghezza,
quante sono le modalità
modalità frequenza
A
7
B
3
C
9
D
4
E
5
10
9
8
7
6
5
4
3
2
1
0
A
B
C
D
E
ISTOGRAMMA
Dalla tabella seguente di distribuzione di frequenze di caratteri quantitativi con le modalità
raggruppati in classi, riportiamo sull’asse orizzontale i valori estremi delle classi ottenendo
così dei segmenti le cui lunghezze rappresentano le ampiezze degli intervalli.
Disegniamo poi dei rettangoli che hanno per base i segmenti e la cui area è proporzionale alla
frequenza della classe.
Se le classi hanno tutti la stessa ampiezza, come per l’ortogramma, è sufficiente prendere
rettangoli con le altezze proporzionali alle frequenze
classi
frequenza
1,20 – 1,40
2
1,40 – 1,60
6
1,60 – 1,80
8
1,80 – 2,00
5
2,00 – 2,20
1
9
7
5
3
1
1,20
Statistica_Appunti_1
1,40
1,60
1,80
2,00
2,20
6/24
CENTRO SALESIANO DON BOSCO – TREVIGLIO
Corso di Informatica
Consideriamo la seguente tabella che riporta classi di frequenza con ampiezza diversa. Le
altezze dei rettangoli si ottengono dividendo ogni frequenza f i per la relativa ampiezza della
f
classe xi , ottenendo così la densità di frequenza i
xi
classi
frequenza
1,20 – 1,50
1,50 – 1,60
1,60 – 1,70
1,70 – 1,90
1,90 – 2,20
5
3
6
6
2
densità
frequenza
16,67
30,00
60,00
30,00
6,67
60
30
16,67
6,67
1,20
1,50
1,60
1,70
1,90
Pertanto la frequenza di ogni classe si ottiene moltiplicando l’ampiezza dell’intervallo per
l’altezza del rettangolo
f
f i= xi ⋅ i
xi
ed è rappresentata dall’area del rettangolo che ha per base l’ampiezza dell’intervallo e per
altezza la densità di frequenza.
L’AREOGRAMMA
Questo tipo di grafico, detto anche diagramma circolare o diagramma a torta è utile per
rappresentare le frequenze relative espresse in percentuale.
Un cerchio viene suddiviso in tanti settori circolari, ognuno dei quali corrisponde ad una
modalità di un carattere. Gli angoli al centro dei diversi settori hanno ampiezza proporzionale
alle frequenze percentuali.
modalità
A
B
C
D
E
frequenza
percentuale
20%
15%
15%
10%
40%
A
E
20%
40%
15%
10%
B
D
Statistica_Appunti_1
15%
C
7/24
2,20
CENTRO SALESIANO DON BOSCO – TREVIGLIO
Corso di Informatica
I DIAGRAMMI CARTESIANI
Si usa questo tipo di rappresentazione per le seriazioni statistiche aventi modalità quantitativa
discreta e per le serie storiche.
Riportiamo sull’asse delle ascisse i valori della modalità discreta e sull’asse delle ordinate le
frequenze.
Si può costruire il diagramma semplicemente segnando i punti. L’insieme dei punti si chiama
nuvola di punti
modalità frequenze
4
1
5
2
6
4
7
2
8
1
5
4
3
2
1
0
3
4
5
6
7
8
9
Si possono anche evidenziare i segmenti corrispondenti alle ordinate dei punti. Il diagramma è
chiamato diagramma a segmenti
5
4
3
2
1
0
3
4
5
6
7
8
9
Si può anche collegare i punti allo scopo di evidenziare l’andamento del fenomeno: si ottiene
così il poligono delle frequenze che fa risaltare la forma della distribuzione
5
4
3
2
1
0
3
Statistica_Appunti_1
4
5
6
7
8
8/24
9
CENTRO SALESIANO DON BOSCO – TREVIGLIO
Corso di Informatica
GLI INDICI DI POSIZIONE CENTRALE
In statistica si cerca di riassumere una serie di dati con un valore medio (compreso tra il
minimo e il massimo valore della distribuzione) che possa esprimere sinteticamente il
fenomeno.
Esistono medie algebriche (o medie ferme) che si determinano tenendo conto di tutti i valori
della distribuzione (media aritmetica, media aritmetica ponderata, media geometrica, media
armonica e media quadratica) e medie di posizione che si calcolano tenendo conto solo di
alcuni valori (mediana e moda)
MEDIA ARITMETICA
Si definisce media aritmetica M di n numeri x1 , x 2 ,..., x n il quoziente fra la loro somma e il
numero n
n
∑x
i
x1 + x 2 + ...x n
i =1
M =
=
n
n
Ad esempio per la serie di dati
61, 60, 62, 62, 64, 64, 63, 65, 65, 65, 65, 67, 67, 69, 68, 68, 66, 66, 69, 66
la media aritmetica è
M =
61 + 60 + 62 + 64 + ... + 66 + 66 + 69 + 66
= 64,1
20
Se consideriamo la tabella di frequenza dei dati sopra elencati
classi
modalità
60 – 62
62 – 64
64 – 66
66 – 68
68 - 70
frequenze
2
3
6
5
4
notiamo che la media, utilizzata come valore di sintesi, ossia valore che riassume una
caratteristica di un insieme di dati, si trova nella zona della distribuzione dove si addensano
maggiormente i dati. Quando il valore di sintesi ha questa proprietà si dice che è un buon
indice di posizione centrale.
Statistica_Appunti_1
9/24
CENTRO SALESIANO DON BOSCO – TREVIGLIO
Corso di Informatica
MEDIA PONDERATA
Consideriamo la tabella relativa ai voti di una classe ottenuti in un compito e calcoliamo la
media
voto frequenza
4
2
5
7
6
8
7
3
8
2
totale
22
4+4+5+5+5+5+5+5+5+6+6+6+6+6+6+6+6+7+7+7+7+7+8+8
= 5,82
22
Al numeratore si può anche scrivere, raccogliendo in gruppi i voti uguali
4⋅ 2 + 5⋅7 + 6⋅8 + 7 ⋅3 + 8⋅ 2
La media allora è
M =
P=
4⋅ 2 + 5⋅7 + 6⋅8 + 7 ⋅3 + 8⋅ 2
= 5,82
22
Le frequenze rappresentano i diversi “pesi” che devono avere i singoli voti nel calcolo della
media.
La media così calcolata è detta media aritmetica ponderata
Se si calcola la media ponderata nel caso di classi, si assumono come valori x1 , x 2 ,..., x n
i valori centrali di ogni classe e come pesi le frequenze. Il valore ottenuto può essere diverso
dalla media aritmetica
Per la tabella di frequenza in classi
classi
frequenza
1,20 – 1,40
2
1,40 – 1,60
6
1,60 – 1,80
8
1,80 – 2,00
5
2,00 – 2,20
1
la media ponderata è
1,30 ⋅ 2 + 1,50 ⋅ 6 + 1,70 ⋅ 8 + 1,90 ⋅ 5 + 2,10 ⋅ 1
P=
= 1,673
22
Il valore ottenuto può essere diverso, anche se di poco, dalla media semplice in quanto in ogni
classe si è sostituito ai valori della classe il valore centrale.
La media ponderata è particolarmente significativa quando i pesi servono per indicare
l’importanza dei diversi valori
Statistica_Appunti_1
10/24
CENTRO SALESIANO DON BOSCO – TREVIGLIO
Corso di Informatica
Osserviamo che la media aritmetica indica che se i dati avessero lo stesso valore questo
sarebbe uguale alla media.
La somma totale dei dati è uguale al numero dei dati moltiplicato per la media.
Infatti dalla
n
M =
∑x
i =1
i
n
si ha che
n
∑x
i =1
i
= nM
La media aritmetica possiede diverse proprietà
P1. sommando ad ogni dato i x di una distribuzione con media M una costante k, la media
risultante aritmetica risulta aumentata della stessa costante
M+k
P2. moltiplicando ogni dato i x di una distribuzione con media M per una costante k, la media
aritmetica risulta moltiplicata per la stessa costante
k ⋅M
P3. come conseguenza delle precedenti proprietà, sommando b e moltiplicando per a ogni
dato i x di una distribuzione la media aritmetica risulta
a ⋅M + b
Inoltre definiti:
valor medio di un insieme di dati statistici quantitativi qualunque valore dal minimo al
massimo dei dati ;
scarti (o scostamenti) le differenze (positive, nulla o negative) fra ciascun di ciascun dato xi
e un loro valor medio M,
x1 − M , x 2 − M , …., x n − M
si hanno le ulteriori proprietà
P4. la somma algebrica degli scarti dalla media aritmetica vale zero.
Infatti
(x1 − M ) + (x2 − M ) + .... + (xn − M ) = x1 + x2 + .... + xn − M − M − ... − M
n volte
e poiché x + x + ... + x = n ⋅ M
1
2
n
si ha n ⋅ M − n ⋅ M = 0
In notazione abbreviata
n
n
n
i =1
i =1
i =1
∑ ( xi − M ) = ∑ xi − ∑ M
= n⋅M −n⋅M = 0
P5. la somma dei quadrati degli scarti è minima quando gli scarti sono calcolati dalla media
aritmetica M .
n
∑ (x
i =1
n
i
− M ) ≤ ∑ ( xi − A)
i =1
Ciò significa che se si calcolano gli scarti, anziché dalla media aritmetica M, da un altro
numero qualunque A, la somma dei quadrati di tali scarti risulta maggiore.
Statistica_Appunti_1
11/24
CENTRO SALESIANO DON BOSCO – TREVIGLIO
Corso di Informatica
MEDIA GEOMETRICA
Si definisce media geometrica G (o M G ) di n numeri x1 , x 2 , …, x n la radice n-esima
aritmetica del prodotto degli n numeri
G = n x1 ⋅ x 2 ⋅ ⋅ ⋅ x n
La media geometrica è di uso meno frequente della media aritmetica. In ogni caso viene usata
quando il carattere è moltiplicativo e si debba determinare una distribuzione uniforme dei suoi
valori, senza alterarne il prodotto.
Ad esempio quando si considera il variare di un fenomeno nel tempo come il tasso di
variazione dei prezzi, dei componenti di una popolazione (essere umani, insetti, ecc.), tassi di
rendimento dei capitali.
Esempio.
Calcoliamo la media geometrica dell’andamento dei prezzi di un prodotto esposto nella
tabella
Anno Prezzo
2005
2006
2007
2008
2009
5,8
6,4
6,6
6,2
6,8
Rapporto
rispetto l’anno
precedente
1,103
1,031
0,939
1,097
G = 4 1,103 ⋅ 1,031 ⋅ 0,939 ⋅ 1,097 ≅ 1,040
Ciò significa che se il rapporto del prezzo di un periodo rispetto a quello precedente fosse
costantemente circa 1,040 il prodotto di tutti i rapporti sarebbe stato invariato.
Infatti 1,103 ⋅ 1,031 ⋅ 0,939 ⋅ 1,097 = 1,040 ⋅ 1,040 ⋅ 1,040 ⋅ 1,040
MEDIA GEOMTRICA PONDERATA
Dati n numeri positivi x1 , x 2 ,..., x n aventi come frequenze rispettivamente f 1 , f 2 ,..., f n , con
f 1 + f 2 + ... f n = n si definisce la loro media geometrica ponderata il numero
n
x1f1 ⋅ x 2f 2 ⋅ ⋅ ⋅ x nf n
Statistica_Appunti_1
12/24
CENTRO SALESIANO DON BOSCO – TREVIGLIO
Corso di Informatica
MEDIA ARMONICA
Si definisce media armonica H di n numeri x1 , x 2 , …, x n il reciproco della media aritmetica
dei reciproci dei valori
H=
1
1
1
1
+
+ ... +
x1 x 2
xn
n
=
n
1
1
1
+
+ ... +
x1 x 2
xn
La media armonica si calcola per valori x1 , x 2 , …, x n tutti positivi.
Vediamo un esempio dell’utilità dell’utilizzo della media armonica
Esempio.
La tabella riporta prezzo di un litro di benzina in quattro successivi momenti.
Ogni volta si è effettuato un rifornimento per 30 euro.
Calcoliamo quanto è costata in media la benzina al litro.
Tempo Prezzo
I
1,382
II
1,395
III
1,405
IV
1,442
Per rispondere in modo corretto si deve prima calcolare quanti litri di benzina si sono
acquistati ogni volta, dividendo per 30 per il prezzo al litro ottenendo i valori della tabella
Tempo Prezzo
I
II
III
IV
1,382
1,395
1,405
1,442
Litri
acquistati
21,71
21,51
21,35
20,80
Dunque in totale si sono acquistati 85,37 litri spendendo 120 euro. Pertanto il costo al litro è
stato
120
≅ 1,406
85,37
Allo stesso risultato saremmo giunti calcolando la media armonica dei prezzi:
H=
4
1
1
1
1
+
+
+
1,382 1,395 1,405 1,442
Statistica_Appunti_1
≅ 1,406
13/24
CENTRO SALESIANO DON BOSCO – TREVIGLIO
Corso di Informatica
MEDIA ARMONICA PONDERATA
Dati n numeri x1 , x 2 , …, x n , tutti diversi da zero, aventi come frequenze
rispettivamente f 1 , f 2 ,..., f n , si definisce la loro media armonica ponderata il rapporto
f 1 + f 2 + ... + f n
f
f1 f 2
+
+ ... + n
x1 x n
xn
Statistica_Appunti_1
14/24
CENTRO SALESIANO DON BOSCO – TREVIGLIO
Corso di Informatica
MEDIA QUADRATICA
Si definisce media quadratica M q di n numeri x1 , x 2 , …, x n la radice quadrata della media
aritmetica dei quadrati dei numeri
Mq =
x12 + x 22 + .... + x n2
n
La media quadratica utilizzata per calcolare il valore medio degli scostamenti da un livello
prefissato.
Esempio.
La tabella
Giorno
lunedì
martedì
mercoledì
Giovedì
Venerdì
Totale
Variazione
-2,5
1,5
0,8
-1,5
-2,4
riporta le variazioni della temperatura in gradi Celsius relative ad alcuni giorni di una
settimana rispetto alla temperatura media annuale. Calcoliamo il valore della variazione
media. Allo scopo si sono calcolate le variazioni al quadrato che si sono riportati nella tabella
seguente
Giorno
Variazione Variazioni
al
quadrato
lunedì
-2,5
6,25
martedì
1,5
2,25
mercoledì 0,8
0,64
Giovedì
-1,5
2,25
Venerdì
-2,4
5,76
Totale
17,15
La media quadratica risulta
Mq =
17,5
≅ 1,85
5
In generale le diverse medie fin qui viste, relative allo stesso insiemi di numeri, sono diverse
fra loro.
Si può infatti dimostrare che, se i dati non sono tutti uguali e sono positivi, vale la relazione
H < G < M < Mq
Statistica_Appunti_1
15/24
CENTRO SALESIANO DON BOSCO – TREVIGLIO
Corso di Informatica
LA MEDIANA
Le medie finora viste sono dette medie algebriche perché si calcolano mediante operazioni
algebriche. In statistica però si considerano anche valori medi, caratteristiche di una
distribuzione, che non provengono dal calcolo, bensì dall’esame della posizione dei dati nella
distribuzione stessa.
Consideriamo i valori
8, 12, 7, 9, 4, 10, 55 la cui media risulta
8 + 12 + 7 + 9 + 4 + 10 + 55
= 15
7
15 non rappresenta un buon indice di posizione centrale in quanto tutti i numeri, tranne 55,
sono minori di 15. La presenza del 55 “sposta” il valor medio rispetto la posizione centrale.
Si preferisce allora scegliere l’indice di posizione centrale nel seguente modo:
- si dispongono i numeri in ordine crescente (o decrescente)
- si sceglie il valore che sta nel centro che è 9.
Tale valore è detto mediana
Si può determinare la mediana anche nel caso in cui il numero dei dati è pari.
Per i numeri seguenti
M =
36, 22, 41, 8, 33, 46, 38, 44
dopo averli disposti in ordine crescente
8, 22, 33, 36, 38, 41, 44, 46
si prende come mediana la media dei due valori centrali, 36 e 38.
La mediana dunque è
36 + 38
= 37
2
La determinazione della mediana presenta qualche difficoltà quando i termini non sono
elencati singolarmente ma in tabella di frequenza
modalità frequenze frequenze
cumulate
0
3
3
1
8
11
2
7
18
3
4
22
4
1
23
5
1
24
6
1
25
Poiché il totale delle frequenze è 25, la mediana occupa il 13° posto.
Dall’esame delle frequenze cumulate si rileva che il valore 2 occupa dal 12° al 18° posto della
distribuzione di frequenze; pertanto la mediana è 2..
Statistica_Appunti_1
16/24
CENTRO SALESIANO DON BOSCO – TREVIGLIO
Corso di Informatica
Difficoltà ulteriore si incontra se le modalità quantitative si presentano in classi come
nell’esempio seguente
modalità frequenze frequenze
cumulate
0 – 10
73
73
10 – 20
240
313
20 - 30
190
503
30 – 40
121
624
40 - 50
32
656
50 - 60
5
661
Si introduce l’ipotesi che i valori delle frequenze si distribuiscano uniformemente in ogni
intervallo.
La mediana è il valore che occupa il 331° posto e si colloca nella classe 20 e 30.
Dalle frequenze cumulate rileviamo che il 313° posto è 20 e il valore cercato occupa
all’interno della classe la posizione numero
331 – 313 = 18
Dividiamo l’intervallo della classe per la sua frequenza
10
= 0,0526
190
Il 18-esimo elemento della classe pertanto avrà valore
20 + 0,0526 ⋅ 18 = 20,9468
Che può essere preso, approssimandolo a 20,9. come valore della mediana.
A volte, in distribuzioni con modalità raccolte in classi, si considera come approssimazione
della mediana il valore di centrale della classe che occupa il posto centrale della distribuzione,
che risulta dunque essere la classe mediana.
Con riferimento alla distribuzione dell’esempio precedente, il cui posto centrale è il 331°,
dalle frequenze cumulate si deduce che la classe “20 – 30” occupa dal 314° al 503° posto,
dunque tale classe è la classe mediana.
Allora si assume come valore approssimato di mediana il valore centrale di tale classe:
20 + 30
= 25
2
Statistica_Appunti_1
17/24
CENTRO SALESIANO DON BOSCO – TREVIGLIO
Corso di Informatica
LA MODA
Consideriamo i seguenti valori
3, 8, 2, 3, 5, 1, 7, 3, 5, 3, 15, 2, 10, 3, 12, 4
e ordiniamoli in senso crescente
1, 2, 2, 3, 3, 3, 3, 3, 4, 5, 5, 7, 8, 10, 12, 15
Il valore 3 ha una frequenza maggiore rispetto a tutti gli altri e vicino al 3 si trovano molti
degli altri valori. In questo caso si preferisce assumere come indice di posizione centrale tale
numero, che viene chiamato moda.
Ci sono serie di dati che hanno più di una moda
Ad esempio la distribuzione
voto
4 5 6 7 8
frequenza 2 9 3 9 2
risulta bimodale.
Si può calcolare la moda anche nel caso di distribuzioni di frequenza i cui valori sono
raggruppati in classi. In tale caso si parla di classe modale.
Nel caso in cui le classi siano di ampiezza costante la classe modale è quella avente la
frequenza massima.
Nel caso di classi non aventi ampiezza costante, la classe modale è quella avente maggiore il
rapporto tra la frequenza e l’ampiezza della classe (densità di frequenza)
classi frequenza
0 – 10
73
10 – 20
240
20 – 30
190
30 – 40
121
40- 50
32
50 - 60
5
classi frequenze densità
0 – 10
73
7,3
10 – 15
106
21,2
15 – 20
134
26,8
20 – 25
143
28,6
25 – 35
158
15,8
35 – 45
35
3,5
45 - 60
12
0,8
Statistica_Appunti_1
18/24
CENTRO SALESIANO DON BOSCO – TREVIGLIO
Corso di Informatica
Osservazione sull’utilizzo delle medie
Quando si parla di valor medio è necessario saper con precisione a quale tipo di media ci si
riferisce e bisogna prefissare lo scopo per cui si intende calcolare una media.
•
La media aritmetica si usa in situazioni come le seguenti:
- in meteorologia per ottenere la temperature media o la caduta media di precipitazioni;
- in medicina per scoprire la durata media di una malattia;
- in antropologia per scoprire certe caratteristiche di un insieme di essere umani;
- in economia per calcolare salari medi, prezzi, ecc.
•
La moda, che si considera come il valore più tipico di un insieme, non tiene però conto
degli altri valori dei dati. Tuttavia anche se la moda è la media meno utile in statistica,
qualche volta solo la moda è il valor medio più appropriato.
Ad esempio un fabbricante di capi di vestiario è attrezzato per fare una sola taglia di
camicie da uomo e deve scegliere la taglia. Se egli decide sulla base della media
aritmetica delle taglie acquistate dagli uomini, non fa la scelta migliore in quanto per
vendere più camicie avrebbe dovuto scegliere la moda, ovvero la taglia più comune.
•
La mediana è un valore intermedio e non è influenzato dagli altri valori dei dati, ma
soltanto dal fatto che essi siano sotto o sopra il centro dell’insieme dei dati.
La mediana si usa in diverse ricerche statistiche fra cui:
- nelle assicurazioni per trovare la lunghezza media della vita;
- nello studio dei medicinali per misurare l’efficacia media di un medicinale;
- nell’industria per controllare la qualità di certi prodotti
Statistica_Appunti_1
19/24
CENTRO SALESIANO DON BOSCO – TREVIGLIO
Corso di Informatica
GLI INDICI DI VARIABILITA’
Il calcolo della media serve solo per capire l’ordine di grandezza del fenomeno
sintetizzandolo in un unico valore. Per una descrizione più completa è necessario studiare
come variano i dati.
Consideriamo le due sequenze di valori
a) 12, 24, 32, 43, 56, 74, 88
b) 42, 43, 44, 46, 49, 52, 53
Per entrambe la media è 47. Tuttavia la distribuzione dei valori intorno al valor medio 47 è
diversa per le due sequenze: i valori della seconda sequenza sono più vicini al valor medio,
mentre quelli della prima sequenza sono più sparsi. In statistica per indicare questo fatto, si
dice che le due sequenze hanno diversa dispersione o variabilità.
Per misurare la variabilità si usano gli indici di variabilità quali il campo di variazione, lo
scarto semplice medio e lo scarto quadratico medio.
IL CAMPO DI VARIAZIONE
Il campo di variazione di una sequenza di numeri è la differenza fra il numero maggiore e il
numero minore.
Nella sequenza a) il campo di variazione è 88 – 12 = 76; nella sequenza b) è 53 – 42 = 11
LO SCARTO SEMPLICE MEDIO (DALLA MEDIA ARITMETICA)
Il campo di variazione non è un buon indice di variabile perché tiene conto soltanto del primo
e dell’ultimo valore e non di quelli intermedi.
Consideriamo altre due sequenze di numeri
c) 1, 4, 5, 5, 6, 6, 7, 7, 7, 12
d) 1, 1, 1, 1, 2, 10, 10, 11, 11, 12
Esse hanno entrambe lo stesso valor medio 11. Tuttavia i valori della sequenza d) sono più
lontani dal 6 di quelli della sequenza c).
Cerchiamo un indice che permetta di rilevare questa differenza.
Per ogni valore della sequenza c) calcoliamo lo scarto assoluto dalla media che è la
differenza in valore assoluto fra il valore stesso e la media:
|1- 6| = 5, |4 – 6| = 2,
|7 – 6| = 1, |7 – 6| = 1,
|5 – 6|= 1, |5 – 6| = 1, |6 – 6| = 0,
|7 – 6| = 1, |12 – 6| = 6
Statistica_Appunti_1
|6 – 6| = 0
20/24
CENTRO SALESIANO DON BOSCO – TREVIGLIO
Corso di Informatica
Calcoliamola la media aritmetica degli scarti che chiamiamo scarto semplice medio
S=
5 + 2 +1+1+ 0 + 0 +1+1+1+ 6
= 1,8
10
In generale per una sequenza di numeri x1 , x 2 , …, x n lo scarto semplice medio è dato dalla
S=
x1 − M + x 2 − M + ... + x n − M
n
Lo scarto semplice medio e le frequenze
Consideriamo di nuovo la sequenza
d) 1, 1, 1, 1, 2, 10, 10, 11, 11, 12
Essa può essere descritta dalla tabella
modalità frequenza
1
4
2
1
10
2
11
2
12
1
Nel calcolo dello scarto semplice ogni scarto assoluto dalla media va moltiplicato per la sua
frequenza.
Dunque
S=
5 ⋅ 4 + 4 ⋅1 + 4 ⋅ 2 + 5 ⋅ 2 + 6 ⋅1
= 4,8
10
Le frequenze rappresentano i diversi “pesi” che devono avere i singoli scarti assoluti. In
pratica si è calcolata la media ponderata degli scarti assoluti dalla media.
Statistica_Appunti_1
21/24
CENTRO SALESIANO DON BOSCO – TREVIGLIO
Corso di Informatica
LA VARIANZA E LO SCARTO QUADRATICO MEDIO ( O DEVIAZIONE STANDARD)
Invece dello scarto semplice dalla media si utilizza più spesso lo scarto quadratico medio
perché è un indice più sensibile del precedente , anche per piccole variazioni nella
distribuzione dei dati intorno alla media.
Consideriamo la sequenza di valori
4, 7, 9, 13, 14, 18, 21, 34
La cui media è 15
Per ogni valore calcoliamo lo scarto dalla media e lo eleviamo al quadrato: i valori che si
ottengono vengono detti scarti quadratici
(4 – 15)2 = 121; (7 – 15)2 = 64; (9 – 15)2 = 36; (13 – 15)2 = 4; (14 – 15)2 = 1
(18 – 15)2 = 9; (21 – 15)2 = 36; (34 – 15)2 = 361
Calcoliamo poi la media degli scarti quadratici chiamata varianza
121 + 64 + 36 + 4 + 1 + 9 + 36 + 361
= 79
8
Lo scarto quadratico medio, detto anche deviazione standard, si ottiene eseguendo la
radice quadrata della varianza e si indica con la lettera greca “sigma”
σ = 79 = 8,8882
In generale per una serie di valori x1 , x 2 , …, x n lo scarto quadratico medio (o deviano
standard è fornito dalla
σ=
(x1 − M )2 + (x2 − M )2 + ... + (xn − M )2
n
dove M è la media aritmetica dei valori stessi
P1. Sia k è un numero reale , se a tutti i numeri x1 , x 2 , …, x n si aggiunge (o si toglie) k, la
varianza e la deviazione standard restano invariate.
P2. Sia k è un numero reale , se tutti i numeri x1 , x 2 , …, x n vengono moltiplicati per k,
allora:
• la varianza dei nuovi numeri risulta moltiplicata per k 2 ,
k 2 ⋅σ 2
• la deviazione standard dei nuovi numeri ottenuti risulta moltiplicata per k ,
k ⋅σ
Statistica_Appunti_1
22/24
CENTRO SALESIANO DON BOSCO – TREVIGLIO
Corso di Informatica
La varianza e le frequenze
Consideriamo la tabella di frequenza seguente
modalità frequenza
2
3
4
1
8
2
11
4
La media risulta
2 ⋅ 3 + 4 ⋅ 1 + 8 ⋅ 2 + 11 ⋅ 4
=7
10
Per il calcolo dello scarto quadratico medio si deve moltiplicare ogni scarto quadratico pr la
frequenza dei valori. La varianza è allora
(2 − 7 )2 ⋅ 3 + (4 − 7 )2 ⋅ 1 + (8 − 7 )2 ⋅ 2 + (11 − 7 )2 ⋅ 4 = 15
10
Anche in questo caso le frequenze rappresentano i diversi “pesi” che devono avere i singoli
scarti: abbiamo calcolato quindi la media ponderata degli scarti quadratici.
Il calcolo pratico della varianza può avvenire con la regola:
n
Se M è la media aritmetica dei dati e M 2 =
∑x
i =1
n
2
i
la media aritmetica dei quadrati dei dati ,
si ha:
σ 2 = M2 − M 2
Infatti, poiché
n
n
n
n
n
n
n
i =1
i =1
i =1
i =1
i =1
i =1
i =1
2
∑ (xi − M ) = ∑ xi2 − ∑ 2Mxi + ∑ M 2 = ∑ x12 − 2M ∑ xi + ∑ M 2 =
n
n
i =1
i =1
= ∑ xi2 − 2 M ⋅ nM + nM 2 = ∑ xi2 − nM 2
si ha
n
n
i =1
2
i =1
2
∑ (x i − M ) = ∑ xi2 − nM 2
∑ ( x i − M )2
i =1
n
e dividendo per n si ottiene
n
=
∑x
i =1
n
2
i
− M 2 c.d.d.
Statistica_Appunti_1
23/24
CENTRO SALESIANO DON BOSCO – TREVIGLIO
Corso di Informatica
Coefficiente di variazione
La varianza e la deviazione standard sono indici che dipendono dall’unità di misura e
dall’ordine di grandezza dei dati.
Per eseguire il confronto fra la variabilità di due fenomeni, occorre utilizzare una misura della
variabilità “depurata” dall’influenza dell’unità di misura e dall’ordine di grandezza dei dati.
Questo obiettivo si raggiunge costruendo il rapporto tra la deviazione standard e un valore che
sintetizzi l’ordine di grandezza delle modalità del fenomeno osservato e che sia espresso nella
medesima unità di misura: il valore che soddisfa queste proprietà è la media aritmetica.
In definitiva si definisce il seguente indice, detto coefficiente di variazione:
Cv =
σ
M
dove σ e M sono rispettivamente lo scarto quadratico medio e la media di un insieme di dati.
Statistica_Appunti_1
24/24