statistica - Liceo Scientifico Nino Cortese Maddaloni

La Statistica è entrata a far parte del linguaggio comune.
Tv e media riportano spesso statistiche e sondaggi di opinione.
La Statistica riguarda la descrizione di fenomeni, in forma
sintetica; essa serve a classificare le osservazioni e ad
esprimerle in forma matematica e facilmente comunicabili a
tutti.
 La Statistica fornisce delle regole per raccogliere,
classificare e rappresentare le informazioni e per
calcolare indici di posizione e di variabilità, che
descrivono in forma sintetica e visiva la
caratteristica del fenomeno che si intende
studiare.
 Molto spesso le informazioni relative ad un
fenomeno di natura fisica, biologica, sociale sono
espresse in forma caotica e difficile da interpretare.
Supponiamo di confrontare i risultati di un test di Matematica di due classi prime. La seguente
tabella riporta l’elenco dei punteggi in centesimi, ottenuto dagli studenti delle due classi.
PUNTEGGI di MATEMATICA
Classe
IA
86
Luca
28
Luciano
Marta
31
Davide
76
Francesca
13
Classe
IB
67
68
46
96
71
Marzia
Giuliana
Eleonora
Alfredo
Mario
18
72
72
96
45
Francesco
Pietro
Nicola
Grazia
Lina
Laura
Piero
Franco
Viola
Antonio
38
69
46
23
26
Marika
Salvatore
15
31
Roberto
Filippo
18
80
Teresa
Marco
17
83
Daniele
Matteo
82
90
Giuseppe
75
Federico
42
Massimo
93
Tania
39
Silvia
Anna
Massimo
Roberta
89
94
38
68
Deborah
Monica
Silvana
Marina
45
26
14
15
Sergio
Tina
Rita
Lorella
28
19
54
48
Fulvio
Diana
Nadia
36
43
32
Ipotizziamo di voler rispondere alle seguenti domande :
 Qual è la classe che riporta
punteggi più alti?
 Qual è la classe che mostra
i risultati più omogenei tra
loro?
 Le alunne delle due classi
possono ritenersi “più
brave” in Matematica?
 E’ evidente che è difficile
trarre delle conclusioni da
una semplice occhiata dei
risultati del test.
 Per farlo abbiamo bisogno
di elaborare ed analizzare i
nostri dati in forma
sintetica.
La Statistica descrittiva
può definirsi come
l’insieme delle metodologie
per lo studio quantitativo
di fenomeni collettivi di
una popolazione statistica,
che hanno attitudine a
variare; tale studio serve a
descriverli e ad individuare
le leggi o i modelli che
permettono di spiegarli e
prevederli.
 Nel caso del suddetto
test di
Matematica,
invece di enumerare i
voti di ciascun allievo, si
possono realizzare dei
grafici
che
meglio
visualizzano i punteggi,
per poi calcolarne alcuni
indici, quali le medie dei
punteggi delle due classi
e confrontarli tra di loro.
Ogni indagine statistica è formata da tre fasi : la rilevazione, lo
spoglio e l’elaborazione statistica.
La rilevazione
 La rilevazione dei dati (ad
es. l’orientamento al voto
degli elettori di una città)
si effettua su tutta la
popolazione - l’universooggetto di studio, oppure
su un campione, cioè
una
porzione
della
popolazione. Gli elementi
della
popolazione
si
dicono unità statistiche.
Caratteri e modalità statistiche
 Per
rilevare i dati di una
statistica bisogna individuare
innanzitutto il carattere, cioè
la
caratteristica
della
popolazione da studiare. La
statura, il sesso, il grado di
soddisfazione nei confronti di
un certo oggetto, i punteggi di
un test sono esempi di caratteri.
Alcuni caratteri sono di tipo
qualitativo, spesso espressi
attraverso aggettivi, altri di tipo
quantitativo, espressi da
numeri.
Il carattere di una popolazione viene rilevato attraverso le
modalità con cui esso si può manifestare
ESEMPI:
• Il carattere qualitativo
“sesso” ha due modalità:
maschile e femminile.
 Il
carattere quantitativo
“punteggi di Matematica”
della tabella precedente ha
100 modalità: 1, 2, 3, ….,100.
 Il carattere qualitativo
“grado di soddisfazione
della propria moto” può
avere le seguenti modalità:
molto insoddisfatto,
abbastanza insoddisfatto,
né insoddisfatto né
soddisfatto,
abbastanza soddisfatto,
molto soddisfatto.
Lo spoglio
Dopo aver definito il carattere oggetto di studio, le sue modalità ed aver effettuato
il rilevamento, i dati vengono organizzati e classificati nella fase di spoglio.
 Per prima cosa nello spoglio
si conta il numero di volte in
cui una modalità viene
rilevata, ovvero la frequenza
assoluta.
 ESEMPIO: I risultati di un
piccolo sondaggio sul giudizio di
gradimento di un succo di frutta
tra 12 consumatori sono :
Ottimo, buono, ottimo, buono,
non molto buono, buono
ottimo, così così, buono, così
così, non molto buono, pessimo.
Giudizio
Frequenza assoluta
Ottimo
3
Buono
4
Così così
2
Non molto buono
2
Pessimo
1
Totale
12
Spesso è utile confrontare la frequenza assoluta con il numero totale delle unità
statistiche osservate. Si dice frequenza relativa, il quoziente fra quella assoluta
ed il numero totale delle unità statistiche.
Giudizio
Frequenza
assoluta
Frequenza
relativa
Frequenza
percentuale
Ottimo
3
0,250
25,0%
Buono
4
0,333
33,3%
Così così
2
0,167
16,7%
Non molto buono
2
0,167
16,7%
Pessimo
1
0,083
8,3%
Totale
12
1,00
100%
A volte il carattere da
misurare si manifesta su
un numero molto elevato
di modalità.
Per analizzare meglio i
dati, si possono
raggruppare in classi di
frequenza.
Volendo, ad esempio,
fare un’indagine
statistica sull’altezza in
cm delle donne italiane,
si consideri una
popolazione di 2000
donne.
Intervallo
della classe
(in cm)
Frequenza
assoluta
Frequenza
relativa
144-146
4
0,2
146-148
10
0,5
148-150
20
1,0
150-152
24
1,2
152-154
54
2,7
154-156
100
5,0
156-158
190
9,5
158-160
332
16,6
160-162
342
17,1
162-164
334
16,7
164-166
192
9,6
166-168
132
6,6
168-170
100
5,0
170-172
74
3,7
172-174
50
2,5
174-176
20
1,0
176-178
18
0,9
178-180
4
0,2
totale
2000
100,0
Essa riguarda l’analisi statistica dei dati spogliati.
I dati spogliati possono essere rappresentati
graficamente per meglio evidenziarne il significato
ed inoltre riassunti attraverso degli indicatori.
Rappresentazione grafica delle
distribuzioni di frequenza
Vi sono diversi metodi per
rappresentare graficamente una
distribuzione di frequenza, a seconda
del tipo di carattere che si vuol
maggiormente evidenziare.
Per i caratteri quantitativi si
utilizzano diagrammi cartesiani o
istogrammi.
Per i caratteri qualitativi, si utilizzano
spesso i settori circolari detti
areogrammi.
Per le serie storiche di risultati di una
statistica(ad esempio i risultati di
una squadra di calcio nel corso degli
ultimi campionati , confrontando
partite giocate in casa o fuori, gol
fatti o subìti, etc.) si usano di
frequente gli ortogrammi.
 DIAGRAMMI CARTESIANI
Il diagramma cartesiano riporta, in
ascissa, i valori o gli intervalli di
valori relativi alle modalità, in
ordinata, le rispettive frequenze.
Congiungendo con una spezzata tutti i
punti riportati nel piano cartesiano
si otterrà il diagramma della
distribuzione. Questo tipo di
rappresentazione è utile per
confrontare visivamente due o più
serie di valori.
ESEMPIO
Riportiamo di seguito i dati relativi alla popolazione italiana,
dall’annuario dell’Istat 2001, suddivisi per classi di età.
Classi di
età
<1
1-4
5-9
10-14
15-24
25-44
45-64
>64
Popolazione
1542
2141
2769
2852
6602
17883
14500
10556
(in migliaia)
popolazione (in migliaia)
20000
17883
15000
14500
10556
10000
6602
5000
0
1542
2141
2769 2852
• ISTOGRAMMI
L’istogramma riporta in ascissa dei segmenti, le cui lunghezze
rappresentano le ampiezze delle rispettive classi, che fungono da base dei
rettangoli, le cui aree sono proporzionali alle frequenze delle classi stesse.
Se le basi sono tutte uguali, le altezze dei rettangoli possono anche
coincidere con le frequenze stesse. ESEMPIO: i partecipanti ad un campo
estivo sono stati suddivisi in classi di età.
Classi di età
frequenza
10-12
12-14
14-16
16-18
18-20
23
12
31
15
9
partecipanti per classi di età
Numero di
partecipanti
40
30
20
10
0
Classi di età
•SETTORI CIRCOLARI
L’ areogramma o diagramma a torta presenta gli angoli al centro
proporzionali alla frequenza assoluta o relativa dei dati. Essi rappresentano
soprattutto distribuzioni di caratteri qualitativi. ESEMPIO: rappresentiamo
con un areogramma la popolazione italiana per aree geografiche.
popolazione italiana per area geografica (in migliaia)
11,160
25,834
Nord
Centro
Sud
20,850
• ORTOGRAMMI
E’ costituito da rettangoli separati tra loro, di basi uguali, corrispondenti
alle diverse modalità, e altezze proporzionali alle frequenze assolute e
relative. Spesso è usato per confrontare diverse serie di valori. ESEMPIO:
riportiamo in un ortogramma l’andamento dei prezzi dell’energia elettrica
dal 1997 al 2001 (fonte Istat).
Prezzi indice dell'energia elettrica
111.2
112
110
108
104
105.7
105.6
106
103.8
103.1
102
100
98
1997
1998
1999
2000
2001
Molto spesso, la Statistica per descrivere in maniera più
sintetica, ma chiara, una serie di dati, utilizza degli
indicatori di centralità e di dispersione.
Gli indicatori di centralità forniscono informazioni sulla
tendenza delle osservazioni di un carattere a raggrupparsi
attorno ad un determinato valore numerico.
LE MEDIE
Dati n numeri x1, x2,…,xn ,si dice media quel numero che, sostituito a ciascuna
di essi, lascia invariato il risultato di una prefissata operazione, eseguita sui
medesimi numeri.
 La media è quindi un metodo per ridurre i diversi dati ad un
sol numero, che rappresenti nel suo complesso la distribuzione.
Vi sono diversi tipi di media, a seconda del tipo di significato e
di operazione che viene eseguita su un determinato
carattere.
La media aritmetica semplice
La media aritmetica di n numeri x1,x2,…,xn è quel numero M, che
sostituito a ciascuno di essi, lascia inalterata la loro somma :
x1+x2+…+xn = M+M+…+M (n volte) , ovvero x1+x2+…+xn = nM
e quindi la formula della media aritmetica è:
M = x1+x2+…+xn / n
La media geometrica semplice
La media geometrica di n numeri x1,x2,…,xn è quel numero M, che
sostituito a ciascuno di essi, lascia inalterato il loro prodotto :
x1 • x2 • … • xn = M • M • … • M (n volte) , ovvero
x1 • x2 • … • xn = Mn
da cui si ricava la formula della media geometrica:
MEDIANA E MODA
 Un altro indicatore di centralità di una distribuzione statistica è la
mediana, che si definisce come la modalità che divide gli elementi di una
distribuzione ordinata in due gruppi di ugual numero. Se gli elementi
sono in numero dispari, allora la mediana è il valore centrale; se sono in
numero pari, la mediana è data dalla media dei due valori centrali.
 Si definisce moda la modalità della distribuzione che ha frequenza
massima. Si possono avere distribuzioni unimodali, bimodali, e così via.
ESEMPIO : consideriamo la seguente distribuzione di voti di un alunno
agli orali delle discipline del corso di studi, durante un anno
scolastico:
4, 4, 5 , 5, 5, 5, 5, 6, 6, 6, 7, 7, 7, 8, 8
La mediana è 6
La moda è 5
La media è 6
INDICATORI DI DISPERSIONE
 A
volte
due
diverse
distribuzioni di dati possono
presentare la stessa media,
ma una diversa distribuzione
dei dati rilevati. Per conoscere
di quanto una distribuzione di
dati si discosta dalla media
può
essere
interessante
calcolare un indicatore di
dispersione, detto scarto
quadratico
medio
o
deviazione standard, la cui
formula è :
 Il valore σ2 prende
il nome di
varianza.