La statistica
Elementi di statistica
descrittiva
per i ragazzi della V ITER a.s.
2009/2010
(e per tutti gli altri che
vorranno leggerli ed usarli).
Prof. Claudio Scordari
STATISTICA
Si definisce statistica la scienza cha ha per
oggetto la raccolta, l’analisi e la
descrizione di fenomeni collettivi.
In generale si distingue tra:
• Statistica descrittiva
• Statistica induttiva o inferenza statistica
• La statistica descrittiva ha lo scopo di
raccogliere ed elaborare dati per
descrivere fenomeni collettivi o di massa
• La statistica induttiva si occupa di stimare
le caratteristiche di un fenomeno collettivo
a partire dall’analisi delle caratteristiche di
un campione.
Unità statistiche
• Definiamo unità statistica il più piccolo
elemento su cui si operano le rilevazioni.
• A sua volta l’unità statistica può essere
suddivisa in :
Unità statistica semplice se corrisponde ad un
solo elemento (persone, automobili etc.)
Unità statistica composta se corrisponde ad
un insieme di elementi (famiglie, categorie
sociali etc.)
DATI E POPOLAZIONE
• Definiamo dato statistico il dato ottenuto da
una rilevazione operata sulle unità statistiche.
• All’insieme sul quale viene svolta l’indagine si dà
il nome di popolazione statistica .
La popolazione statistica può essere un
 Universo statistico se costituita da tutti gli elementi
oggetto di rilevazione
 Campione statistico se costituita da un certo numero
di elementi estratti dalla popolazione.
Caratteri
L’indagine statistica si indirizza su una o più
caratteristiche comuni di una popolazione. Tali
caratteristiche prendono il nome di caratteri
statistici.
Gli aspetti secondo i quali i caratteri si manifestano
si chiamano modalità.
Esse possono essere:
 Qualitative se sono espresse da attributi (colore dei
capelli, marche etc.)
 Quantitative se sono espresse da numeri (altezze,
reddito, pesi etc.)
FASI DELL’INDAGINE STATISTICA
•
•
•
•
•
•
Pianificazione
Raccolta dei dati
Spoglio
Rappresentazione
Elaborazione
Interpretazione
Sistemazione dei dati
• Tabella a semplice entrata:
– È costituita da due colonne: nella prima sono
riportate le modalità del carattere qualitativo o
le varie intensità del carattere quantitativo.
Nella seconda colonna sono riportate le
frequenze (ossia il numero di unità statistiche
che possiedono quella modalità del carattere).
– Per esempio è una tabella a semplice entrata
la seguente:
Indagine sul tipo di lettura preferita
dagli alunni dell’ITC.”Calasso”
Tipo di lettura
N.di giovani
Narrativa
300
Fantascienza
175
Giallo
200
Storica
150
Scientifica
175
totale
1000
• Tabelle a doppia entrata:
Le unità statistiche vengono classificate
secondo due caratteri.
Sulle righe si riportano le modalità di un
carattere e sulle colonne le modalità
dell’altro carattere.
Nell’ultima colonna e nell’ultima riga si
riportano i totali.
Vediamo un esempio…..
Distribuzione di 100 abitazioni secondo il numero di
vani e i componenti della famiglia
Componenti famiglia
N. vani
1
2
3
4
5
6
Totali
1
10
4
1
0
0
0
15
2
6
10
5
2
0
0
23
3
3
10
12
8
2
1
36
4
1
3
8
4
2
2
20
5
0
1
2
1
1
1
6
totali
20
28
28
15
5
4
100
Frequenza assoluta, relativa e
percentuale
• Frequenza assoluta è il numero di individui il
cui carattere assume una determinata modalità
• Frequenza relativa è il rapporto tra la frequenza
assoluta e la totalità della popolazione statistica
su cui si sta svolgendo l’indagine. Pertanto è un
numero positivo minore o uguale a uno.
• Frequenza percentuale è semplicemente la
frequenza relativa moltiplicata per cento.
Pertanto è un numero positivo minore o uguale a
cento.
Indagine sul tipo di lettura preferita
dagli alunni dell’ITC.”Calasso”
Tipo di lettura
Freq. Assolute
Freq. relative
Percentuali
Narrativa
300
0,3
30%
Fantascienza
175
0,175
17,5%
Giallo
200
0,2
20%
Storica
150
0,15
15%
Scientifica
175
0,175
17,5%
totale
1000
1
100%
Rappresentazione grafica di
un’indagine statistica
• Diagrammi cartesiani:
Andamento delle iscrizioni
numero di iscritti
si usano per
rappresentare caratteri
quantitativi:in ascissa si
riportano i valori del
carattere ed in ordinate le
frequenze.
1500
1000
500
0
2000 2001 2002 2003 2004 2005 2006 2007 2008 2009 2010
anno scolastico
Istogrammi
N.B. Con i dati divisi per classi la
costruzione dell’istogramma deve
tener conto anche dell’ampiezza della
classe. Nell’esempio i rettangoli hanno
tutti la stessa base e quindi sono le
altezze ad essere proporzionali alle
frequenze.
Andamento delle iscrizioni
numero di iscritti
• Si usano soprattutto nel
caso di caratteri divisi in
classi. L’asse del
carattere viene suddiviso
in intervalli adiacenti e su
ogni intervallo si disegna
un rettangolo la cui area
è proporzionale alla
frequenza assoluta o
relativa.
1500
1000
500
0
2000 2001 2002 2003 2004 2005 2006 2007 2008 2009
anno scolastico
Diagrammi a torta
• Diagrammi a torta (o
a settori circolari):
si divide un cerchio in
settori ciascuno dei
quali ha un’area
(ovvero l’angolo al
centro) proporzionale
alla frequenza
corrispondente.
Letture preferite
175
300
Narrativa
Fantascienza
150
Giallo
Storica
Scientifica
200
175
I valori di sintesi
Spesso è utile descrivere una distribuzione di dati statistici
mediante pochi valori sintetici che possono consentire di:
•Confrontare analisi effettuate in tempi e luoghi diversi
•Farci un’idea della variabilità dei dati.
Per quanto riguarda il primo punto distinguiamo tra:
 Medie di calcolo : sono quelle che dipendono da tutti i
valori della distribuzione e si ottengono mediante una
formula (con la condizione di lasciare invariato un risultato
operato sui dati)
 Medie di posizione: si ottengono considerando solo
alcuni valori della distribuzione.
Media aritmetica
semplice e ponderata
• La media aritmetica è quel valore che
sostituito ai dati lascia invariata la loro
somma.
• Se i dati sono singoli si parla di media
aritmetica semplice:
in
M 

i 1
Xi
n
Esempio
Se i tuoi voti sono:
5,7,8,3,5,6,7,7,7,5
Allora
i

10
X

5

7

8

3

5

6

7

7

7

5

60

i
i

1
10
n=10
X

i
60
M

 6
n 10
i
1
• Se ad ogni valore è
associata una
frequenza allora si
parla di :
media aritmetica
ponderata:
• Dove pi sono le
frequenze associate
al dato i-mo
i n
M
X p
i 1
i n
i
i
p
i 1
i
Esempio di calcolo di una media
aritmetica ponderata:
Dato
Frequenza
Dato x freq.
X
p
Xp
3
2
6
4
4
16
5
5
25
7
3
21
8
5
40
10
1
10
totali
20
118
M=118/20= 5,9
Calcolo di una media aritmetica con dati
divisi per classi
Classe
Valore
Frequenza
Dato x freq.
da
a
centrale
p
Xp
0
5
2,5
2
5
5
10
7,5
4
30
10
15
12,5
5
62,5
15
20
17,5
3
52,5
20
30
25
5
125
30
50
40
1
40
totali
20
315
M=315/20= 15,75
Medie di posizione
• Mediana.
Se i dati sono ordinati in senso non decrescente la
mediana è il valore centrale ossia il valore che
supera la prima metà dei valori ed è superato
dall’altra metà.
• Moda
E’ il valore al quale corrisponde la frequenza più
alta.
….non ci addentriamo oltre nel calcolo delle medie
di posizione
Indici di variabilità
• I valori medi non sono sufficienti a darci un’idea
della distribuzione dei dati attorno al valore
medio. Distribuzioni diverse possono avere la
stessa media ma dati molto diversi tra di loro e
diversi dal valore medio.
• Per quantificare la variabilità di una distribuzione
si utilizzano alcuni indici di variabilità.
Ne vedremo solo alcuni….
Intervallo di variazione
• Non è altro che la
differenza tra il valore
massimo ed il valore
minimo della
distribuzione.
• Per esempio nella
tabella riportata a lato
l’intervallo di
variazione è pari a
(10-3)=7
Dato
X
3
4
5
7
8
10
Varianza a scarto quadratico medio
• Se definiamo scarto di un valore dalla media
aritmetica la differenza di quel valore dalla
media stessa, allora
• La Varianza è il valore medio degli scarti al
quadrato
• Lo Scarto quadratico medio è la radice
quadrata della varianza
….Vedremo nelle prossime diapositive due
esempi di calcolo della varianza e dello s.q.m.
Calcolo della varianza e dello scarto quadratico
medio nel caso di dati singoli
Voti
Scarti
Scarti ^2
5
-1
1
7
1
1
8
2
4
3
-3
9
4
-2
4
6
0
0
9
3
9
somma
42
0
28
media=42/7=
6
Varianza=28/7=
4
S.q.m.= radq(4)=
2
Calcolo della varianza e dello scarto quadratico
medio nel caso di dati con frequenze diverse
Dato
Frequenza
Dato x
freq.
X
p
Xp
v
vp
v^2
v^2p
3
2
6
-2,9
-5,8
8,41
16,82
4
4
16
-1,9
-7,6
3,61
14,44
5
5
25
-0,9
-4,5
0,81
4,05
7
3
21
1,1
3,3
1,21
3,63
8
5
40
2,1
10,5
4,41
22,05
10
1
10
4,1
4,1
16,81
16,81
totali
20
118
1,6
0
35,26
77,80
M=118/20= 5.9
Varianza = 77.80/20= 3.89
S.q.m.= radq(3.89)=1.97
Scarti
Scarti x p
Scarti^2
Scarti^2 x
p
Buon lavoro da parte del
vostro prof. !!!