Capitolo 8 La statistica - I.I.S. Prever – Pinerolo

Capitolo 8
La statistica
7.1 L’indagine statistica
L’indagine statistica consiste nello studio di una o più caratteristiche relativamente ad un gruppo di
oggetti. Il gruppo di oggetti prende il nome di popolazione statistica. L’indagine statistica può
avvenire la rilevazione e il trattamento dei dati relativi alla caratteristica della popolazione statistica
che si intende studiare. Spesso, quando la popolazione statistica è troppo numerosa per trarre
conclusioni circa la stessa si ricorre allo studio di un campione significativo della stessa. È naturale
chiedersi quale sia lo scopo ultimo dell’indagine statistica. La risposta è molto semplice: l’uomo fin
dalla notte dei tempi ha la necessità di modificare la realtà e per raggiungere tale obiettivo occorre
conoscerne in modo viepiù profondo la realtà. Possibilmente, è necessario esprimere le sue
caratteristiche in termini quantitativi. A titolo di esempio si pensi allo studio di un campione della
popolazione di un determinato relativamente al peso ed alla statura. La rilevazione ed il trattamento
di questi dati permette agli organismi preposti alla gestione dello stato di benessere degli abitanti
del paese di attuare le misure necessarie a migliorare le condizioni economiche ed alimentari,
nonché quelle relative alla pratica dello sport degli stessi, dal momento che la statura ed il peso
corporeo sono in qualche modo legati a tali fattori.
7.2 Le variabili statistiche
Una variabile statistica è una proprietà o caratteristica di una popolazione statistica oggetto dello
studio statistico. Tra le variabili statistiche si contemplano le variabili quantitative e quelle
qualitative. Una variabile statistica si dice quantitativa se è possibile esprimerla in termini
numerici, mentre si dice qualitativa se ciò non è possibile. Esempi di variabili statistiche
quantitative sono il peso, la statura e il reddito. Esempi di variabili statistiche qualitative sono il
colore degli occhi e il colore dei capelli. Si precisa che i valori che una data variabile statistica
assume prendono il nome di dati. Un certo dato, per esempio un certo numero che esprime la
statura di un individuo, potrebbe comparire più volte. Nella fattispecie vorrebbe dire che più
individui hanno la medesima statura. Il numero di volte in cui un dato compare al momento della
rilevazione statistica si dice frequenza assoluta del dato e si indica con la f. Prende, invece, il nome
di frequenza relativa del dato, e si indica con la scrittura fr il rapporto tra il numero f di volte che un
dato compare e il numero n di dati. In altri termini: la frequenza relativa di un dato è il rapporto tra
f
la sua frequenza assoluta e la somma delle frequenze assolute di tutte i dati. In simboli: f r 
,
n
dove n  f1  f 2  ...  f m .
Autore: Siano Roberto (docente di Matematica presso l’I.I.S. Arturo Prever di Pinerolo)
7.3 Rappresentazione dei dati relativi ad una variabile statistica
La rappresentazione dei dati rilevati relativamente ad una specifica variabile statistica può di per se
stessa fornire qualche elemento utile circa la gestione dei dati. Esistono diverse modalità di
rappresentazione dei dati, ma ne presenteremo soltanto tre. La prima che indicheremo è quella che
avviene attraverso l’uso del diagramma cartesiano. Di cosa si tratta? Si tratta della
rappresentazione dei dati relativi ad una variabile statistica quantitativa attraverso l’uso dei punti sul
piano cartesiano. Ciò è possibile per il fatto che i dati di ciascuna variabile statistica hanno sempre
una duplice manifestazione. Per esempio si può parlare di reddito in riferimento ad uno specifico
anno solare o al numero di infortuni in un certo settore industriale in relazione all’ora del giorno
ecc. In tal caso i numeri presenti sull’asse delle ascisse (asse x) rappresentano uno dei due valori e i
numeri presenti sull’asse delle ordinate (asse y) rappresentano l’altro valore. Dopo aver
rappresentato ciascun dato sul piano cartesiano potrebbe essere opportuno congiungere i diversi
punti con segmenti di retta al fine di esprimere l’aspetto continuativo del fenomeno e permettere
allo studioso di coglierne l’andamento.
Qui di seguito riportiamo un esempio di rappresentazione dei dati statistici mediante l’ uso di un
diagramma cartesiano.
Esempio 7.3.1
Si consideri la seguente tabella contenente i dati relativi alla produzione di uva espressa in migliaia
di tonnellate nel paese X negli anni che vanno dal 2000 al 2010.
Anno (x)
2000
2001
2002
2003
2004
2005
2006
2007
2008
2009
2010
Quantità (y)
5
7
10
11
13
14
15
19
20
27
40
Autore: Siano Roberto (docente di Matematica presso l’I.I.S. Arturo Prever di Pinerolo)
45
40
35
30
25
20
15
10
5
0
0
2
4
6
8
10
12
14
La rappresentazione attraverso l’uso dell’istogramma invece consiste nel riportare sul piano
cartesiano un rettangolo con la stessa base per ogni dato prodotto e di altezza che dipende
proporzionalmente dal valore del dato. In buona sostanza: a valori più alti corrispondono rettangoli
di altezza maggiore. Ecco un esempio di istogramma.
Esempio 7.3.2
Si consideri la seguente tabella contenente i dati relativi al numero di migliaia di cuscinetti prodotti
da un’azienda in funzione delle in funzione delle ore del giorno nell’anno 2016.
Autore: Siano Roberto (docente di Matematica presso l’I.I.S. Arturo Prever di Pinerolo)
Ora (x) Quantità
(y)
1
5
2
7
3
10
4
11
5
13
6
14
7
15
8
19
9
20
10
27
12
40
13
24
14
11
15
17
16
21
17
23
18
16
19
30
20
50
21
1
22
12
23
16
24
17
Autore: Siano Roberto (docente di Matematica presso l’I.I.S. Arturo Prever di Pinerolo)
60
50
40
30
207.3
Rappresentazione dei dati relativi ad una variabile statistica
10
0
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23
Infine, è possibile rappresentare i dati mediante l’uso di un grafico a torta o areogramma. Questa
tipologia di rappresentazione si utilizza nel caso in cui si intende rappresentare le diverse modalità
di una variabile statistica attraverso i settori circolari ( fette) di un cerchio (o torta) . In tal caso per
conoscere la fetta di torta occupata da una modalità della variabile statistica occorre risolvere la
seguente equazione: f : n  x : 360 , dove f ed n hanno sempre il solito significato. Per meglio
comprendere si consideri il seguente esempio.
Esempio 7.3.3
Si consideri la seguente tabella contenente i dati relativi al colore degli occhi della classe 2L di una
scuola di Pinerolo.
Colore
occhi
verdi
azzurri
castani
n°
allievi
4
8
12
Autore: Siano Roberto (docente di Matematica presso l’I.I.S. Arturo Prever di Pinerolo)
verdi
azzurri
castani
7.4 Indici di posizione centrale: media, moda e mediana
Al fine di poter dare l’interpretazione più efficace ai dati rilevati e, quindi, al fenomeno oggetto di
studio si ricorre all’utilizzo dei cosiddetti indici di posizione centrale i quali mostrano intorno a
quale valore i dati si posizionano. Tra gli indici di posizione centrale annoveriamo la media, la
moda e la mediana.
Data la variabile statistica discreta X che assume i valori x1,x2, …,xn si introduce la distribuzione di
frequenze relative
xi
x1
f ri
f r1 
x2
f1
n
fr 2 
f2
n
…
…
xn
f rm 
fm
n
dove mi è il numero di volte che la variabile X prende il valore xi (frequenza assoluta del dato xi )
fi
è la frequenza relativa del dato xi e n  f1  f 2  ...  f m , la media si definisce come
n
x f  x2 f 2  ...  xn f n
f
f
f
segue   1 1
 x1 1  x2 2  ...  xn m  x1 f r1  x2 f r 2  ...  xm f rm .
n
n
n
n
,
f ri 
La moda è, invece, il dato con la frequenza assoluta maggiore. La mediana, infine, si ottiene come
segue: dopo aver disposto i dati in ordine crescente, se sono in numero dispari, la mediana è il dato
alla cui destra e alla cui sinistra è presente lo stesso numero di dati. Se, invece, i dati, sempre
disposti in ordine crescente, sono in numero pari, la mediana si ottiene prendendo i due dati alla cui
sinistra e alla cui destra è presente lo stesso numero di dati e facendone la media.
Autore: Siano Roberto (docente di Matematica presso l’I.I.S. Arturo Prever di Pinerolo)
Esempio 7.4.1
Determiniamo la media dei voti di matematica di Giannino. I suoi voti disposti in ordine crescente
sono:
4, 4, 4, 5, 5, 5, 5, 6, 6, 6, 6, 6, 8, 8, 9, 9
Determiniamone la media, la moda e la mediana.
La media è  
4  3  5  4  6  5  8  2  9  2 96

 6.
16
16
La moda è 6 perché 6 è il dato con la frequenza più alta.
La mediana è pari a
66
6
2
7.5 Indici di variabilità: scarto quadratico medio e scarto assoluto
Se è vero che gli indici di posizione centrale ci forniscono alcuni elementi funzionali
all’interpretazione dei dati è anche vero che non ci mostrano la loro fluttuazione. A tal fine si ricorre
agli indici di variabilità. Questi ultimi ci permettono di comprendere l’andamento del fenomeno. La
media, infatti, indica intorno al quale valore i dati si posizionano, mentre gli indici di variabilità
permettono di comprendere di quanto mediamente i dati si scostano dalla media. Tra questi
indichiamo i più importanti.
La varianza  2 , lo scarto quadratico medio o deviazione standard  e lo scarto assoluto medio
 che si definiscono come segue:
 
2
x1   2 f1  x2   2 f 2  ...  xn   2 f m
n
 x1    f r1  x 2    f r 2  ...  x n    f rm
2
2
2
,

x1   2 f1  x2   2 f 2  ...  xn   2 f m
n

x1   2 f r1  x2   2 f r 2  ...  xn   2 f rm
e

x1   f1  x 2   f 2  ...  x n   f m
n
 x1   f r1  x 2   f r 2  ...  x n   f rm .
Esempio 7.5.1
Ritornando al caso dei voti di matematica di Giannino. Intendiamo determinarne varianza, scarto
quadratico medio e scarto assoluto medio. Sappiamo che i suoi voti disposti in ordine crescente
sono:
4, 4, 4, 5, 5, 5, 5, 6, 6, 6, 6, 6, 8, 8, 9, 9
Autore: Siano Roberto (docente di Matematica presso l’I.I.S. Arturo Prever di Pinerolo)
2
2
2
2
2

4  6  3  5  6  4  6  6  5  8  6  2  9  6  2
 

2
16
2  3  1  4  0  5  2  2  3  2 4  3  1 4  0  5  4  2  9  2



16
16
4  3  1  4  0  5  4  2  9  2 12  4  8  18 42



 2,625
16
16
16
2
2
2
2
2
  2,625  1,62


4  6  3  5  6  4  6  6  5  8  6  2  9  6  2 2  3  1 4  0  5  2  2  3  2


16
16
6  4  4  6 20

 1,25
16
16
Osservazione 7.5.1
Faccio notare che la somma dei semplici scarti dalla media è pari a zero, per cui per determinare la
media degli scarti dalla media occorre o elevare al quadrato gli scarti o considerarne il valore
assoluto.
Autore: Siano Roberto (docente di Matematica presso l’I.I.S. Arturo Prever di Pinerolo)