COSA VUOL DIRE FARE STATISTICA

annuncio pubblicitario
Progetto Pilota 3
per la valutazione del sistema dell’istruzione
La statistica in 45 pillole
a cura di Roberta Cielo
COSA VUOL DIRE FARE
STATISTICA
Quando si fanno affermazioni del tipo:
• il profitto di questa classe è in media sufficiente;
• quest’anno sono di moda le vacanze di tipo
agrituristico
si fanno affermazioni di tipo statistico.
STATISTICA
La statistica si occupa della raccolta, classificazione,
analisi dei dati che esprimono aspetti di fenomeni
collettivi scelti come oggetto di studio e che si
manifestano negli elementi di un determinato insieme.
Scopo della statistica è quello di descrivere questi
fenomeni
o
di
individuare
regolarità
di
comportamento in essi.
Indagine statistica
Raccolta dei dati
Spoglio e trascrizione dei
dati
Elaborazione dei dati
Raccolta dei dati
• Natura dei dati: qualitativa, quantitativa
• Metodo di raccolta: censimento,
campionamento
• Tecnica di raccolta: intervista, compilazione
di questionario, ecc.
Spoglio e trascrizione dei dati
• Enumerazione dei dati
• Classificazione in gruppi
• Trascrizione in tabelle
Tabella semplice
Voto
(modalità)
Allievi
(frequenza)
4
5
6
7
8
3
5
8
5
3
Frequenza o frequenza
assoluta (peso) di una
modalità è il numero
totale di volte che essa si
presenta nelle unità
rilevate
Tabella composta
Situazione dei voti nel 1° e 2° quadrimestre
Voti
4
5
6
7
8
1° quadr
2
4
8
5
3
2°quadr
3
3
8
4
2
Tabella a doppia entrata
Voti
4
5
6
7
8
1^ A
Classi
1^B
1^C
2
4
8
5
3
4
3
7
4
4
2
3
9
3
3
Frequenze
Voti
4
5
6
7
8
Totale
Allievi
Frequenza Frequenza
(frequenza) relativa relativa %
2
4
8
5
3
22
0.09
0.18
0.36
0.23
0.14
1
9
18
36
23
14
100
2 / 22  0.09
4 / 22  0.18
….
• Frequenza relativa di una particolare modalità è
il rapporto fra la sua frequenza assoluta e il
numero totale delle unità rilevate, se moltiplicata
per 100 è detta frequenza relativa percentuale
Confronto tra distribuzioni
Voti
1^A
4
5
6
7
8
Totale
Allievi
Frequenza Frequenza
(frequenza) relativa relativa %
Voti
1^B
4
5
6
7
8
Totale
Allievi
Frequenza Frequenza
(frequenza) relativa relativa %
2
4
8
5
3
22
4
5
9
5
4
27
0.09
0.18
0.36
0.23
0.14
1
0.15
0.19
0.33
0.18
0.15
1
9
18
36
23
14
100
15
19
33
18
15
100
Frequenze cumulate: la somma delle frequenze delle
modalità inferiori e uguali di una data modalità
Voti
1^A
4
5
6
7
8
Totale
Voti
1^B
4
5
6
7
8
Totale
Allievi
Frequenza Frequenza
(frequenza)
relativa
relativa %
2
4
8
5
3
22
0.09
0.18
0.36
0.23
0.14
1
9
18
36
23
14
100
Allievi
Frequenza Frequenza
(frequenza)
relativa
relativa %
4
5
9
5
4
27
0.15
0.19
0.33
0.18
0.15
1
15
19
33
18
15
100
Frequenze
cumulate
9
9+18=27
9+18+36=63
…. 86
100
Frequenze
cumulate
15
34
67
85
100
Elaborazione dei dati
• Rappresentazione dei dati (grafici)
perché con l’immagine si riesce a dare un quadro
generale della situazione indagata riuscendo a dare
informazioni facilmente, rapidamente comprensibili.
• Quali grafici?
Istogrammi, diagrammi a torta, grafici cartesiani,
cartogrammi, ecc.
Istogramma
Diagramma a torta
Matem
7,5
Italiano
Inglese
Scienze
28%
24%
7
6,5
Scienze
Inglese
26%
5,5
Italiano
22%
Matem.
6
1^A
1^B
1^C
Diagramma cartesiano
6,9
6,8
6,7
6,6
6,5
6,4
6,3
6,2
6,1
6
1°
2°
3°
Anno scolastico
4°
Cartogramma
Indici Statistici
Per sintetizzare i dati ed evidenziare una certa
caratteristica:
• Indici di tendenza centrale
• Indici di dispersione
La media
Non esiste una sola media buona per ogni
occasione, ma esistono più medie e verrà
scelta la più adatta a mettere in evidenza la
situazione cercata.
La media
Gli obiettivi che ci si prefigge nel calcolo di una
media sono sostanzialmente due:
1) sostituire a più dati rilevati un solo numero che
dia però una efficace rappresentazione del
fenomeno dato;
2) esprimere l’ordine di grandezza o tendenza
centrale dell’insieme dei dati relativi a un
fenomeno. Tale ordine di grandezza può a volte
sfuggire perché i dati sono spesso differenti fra
loro.
La Media
A questo punto bisogna dare dei criteri pratici per
calcolare tale valor medio; i più importanti, quindi
quelli più usati, sono i seguenti:
a) si può calcolare il valor medio come funzione
matematica dei dati rilevati e in tal caso si parla
di media analitica;
b) si possono ordinare i dati rilevati e ottenere la
media in relazione alla posizione che occupa fra
essi e in tal caso si parla di media di posizione.
La media aritmetica
La media aritmetica semplice M di n valori è il
rapporto fra la loro somma e il loro numero n:
x1  x2  ...  xn
M  x1 , x2 ,..., xn  
n
Dati i seguenti valori : 5, 8, 5, 6
5  8  5  6 24
M 

6
4
4
La media aritmetica ponderata
Quando ciascuna modalità si presenta con una certa frequenza o
peso, è più vantaggioso calcolare la media aritmetica
considerando le frequenze (assolute o relative): in tal caso si
parla di media aritmetica ponderata perché ogni valore entra
nella media con il suo peso, cioè la sua frequenza.
La media aritmetica ponderata M di n valori è:
x1  n1  x2  n2  ...  xn  nn
M  x1 , x2 ,..., xn  
n
dove n  n1  n2  ...  nn
Calcolo della media ponderata
Voto
Allievi
(modalità) (frequenza)
4
5
6
7
8
3
5
8
5
3
4 3  55  6 8  7 5  83
M
6
24
Attenzione!
Non sempre il calcolo della media aritmetica rappresenta in
modo significativo l’insieme dei valori a cui si riferisce.
Per esempio, assegnati i valori:
5  6  7  6  5  5  7  6 48
 6
8
8
2  3  3  2  9  9  10  10 48
b) 2, 3, 3, 2, 9, 9,10,10 M 
 6
8
8
1  2  1  3  1  1  2  13 24
c)1, 2,1, 3,1,1, 2,13 M 
 3
8
8
a) 5, 6, 7, 6, 5, 6, 7, 6
M
È opportuno allora definire altri valori medi che non
siano frutto di calcolo matematico, ma che siano
individuati in base alla loro posizione nella sequenza
dei valori osservati.
Tali medie si dicono medie di posizione le più
utilizzate sono:
•La moda
•La mediana
La MODA
Voto
Allievi
(modalità) (frequenza)
4
5
6
7
8
3
5
8
5
3
Moda di un
fenomeno è la
modalità con
frequenza più
elevata.
Mo = 6
La MEDIANA
Mediana: è il valore divisorio in quanto bipartisce la
successione dei dati in due gruppi ugualmente
numerosi; è il valore che taglia in due parti uguali la
distribuzione dei dati ordinati, cioè il termine
preceduto e seguito dallo stesso numero di dati.
Mediana Me di n valori ordinati in
modo non decrescente è:
n 1
 se n è dispari il termine che occupa la posizione centrale
2
n n
 se n è pari
abbiamo due valori mediani e  1
2 2
n n 
e si usa la semisomma di e   1
2 2 
Esempio: dati i valori ordinati:
1, 2, 2, 3, 4, 5, 6
Me = 3
i valori sono 7 la mediana è il termine che occupa il 4°
posto  (7+1)/2=4
Avendo a disposizione la distribuzione di
frequenza (Frequenze cumulate) la mediana
corrisponde al valore con frequenza del 50%,
cioè quel valore che ha il 50% dei casi prima
e il 50% dopo. Dalla tabella Me = 6
Voti 1^ A
4
5
6
7
8
Totale
Allievi
Frequenza Frequenza Frequenza
(frequenza) relativa
relativa % cumulata
2
0,09
9
9
4
0,18
18
27
8
0,36
36
64
5
0,23
23
86
3
0,14
14
100
22
1
100
Asimmetria - simmetria
I Quartili
Il concetto di mediana si può facilmente generalizzare
ottenendo altri valori divisori fra i quali i più usati sono
i quartili. Tali indici di posizione si fondano sempre
sul concetto di divisione della distribuzione.
I Quartili dividono la serie ordinata in quattro parti
contenendo ciascuna lo stesso numero di dati.
x1
Q1
Q2= Me
Q3
Q4 = xn
0
1
Frequ.
relativa %
4,2%
2
2
8,3%
12,5%
4
1
4,2%
16,7%
5
1
4,2%
20,8%
7
1
4,2%
25,0%
9
1
4,2%
29,2%
10
1
4,2%
33,3%
11
1
4,2%
37,5%
12
2
8,3%
45,8%
13
1
4,2%
50,0%
14
1
4,2%
54,2%
16
1
4,2%
58,3%
19
1
4,2%
62,5%
21
4
16,7%
79,2%
22
1
4,2%
83,3%
24
1
4,2%
87,5%
25
1
4,2%
91,7%
26
1
4,2%
95,8%
29
1
4,2%
100,0%
Punteggio Frequenza
Frequ.
Cumulata
4,2%
= Q1
=Q2
=Q3
=Q4
Primo quartile: si trova esattamente
sul valore 7, dato che la percentuale
cumulata corrispondente a tale punto
è 25,0%
Secondo quartile: si trova
esattamente sul valore 13, dato che
la percentuale cumulata
corrispondente a tale punto è 50,0%.
Coincide sempre con la mediana
Terzo quartile: si trova all’incirca
sul valore 21, dato che la percentuale
cumulata corrispondente a tale punto
è 79,2% (75,0%)
Quarto quartile: si trova sempre
sull’ultimo valore, in questo caso è
29, dato che la percentuale cumulata
corrispondente a tale punto è 100%
La variabilità
Il calcolo della media ci permette di sintetizzare una
quantità di dati, ma dall’altro riduce l’informazione
racchiudendo tanti valori in un solo ‘dato’, rende simili
situazioni che proprio simili non sono.
1^ prova
2^ prova
3^ prova
4^ prova
5^ prova
MEDIA
Allievo 1
3
4
5
9
9
6
Allievo 2
6
6
6
6
6
6
Allievo 3
2
4
7
8
9
6
Per ridurre la perdita di informazioni, si ricorre allo
studio della variabilità del fenomeno.
Variabilità è la tendenza di un fenomeno ad assumere
modalità diverse fra loro.
La variabilità può essere rappresentata graficamente
mediante il diagramma di dispersione.
Diagramma di dispersione
9
8
7
6
5
4
3
2
Allievo 1
Allievo 2
Allievo 3
0
1
2
Prov e
3
4
5
Indici statistici di variabilità
•
•
•
•
Campo di variazione o range R
Varianza
Scarto quadratico medio
….
Permettono di valutare le disuguaglianze dei dati
rilevati in relazione al loro scostamento o
dispersione da una media.
Campo di variazione o range R di un
insieme di valori osservati è la differenza fra il
valore massimo e il valore minimo:
R= x max - x min
Attenzione tale indice presenta due grossi difetti:
1) dipende esclusivamente dai valori massimo e
minimo registrati, senza considerare i valori
intermedi;
2) su di esso influisce pesantemente la presenza
anche di un solo valore anomalo.
a ) 5, 6, 7, 6, 5, 6, 7, 6
R 7 5 2
b) 2, 3, 3, 2, 9, 9,10,10 R  10  2  8
c)1, 2,1, 3,1,1, 2,13
R 13 1  12
Altri indici di variabilità, più raffinati, si possono
trovare utilizzando un altro criterio,cioè la variabilità
rispetto a un centro che può essere la media.
La varianza
La varianza è la media aritmetica degli scarti
dalla media al quadrato, 2 (sigma quadrato).


x1  M    x2  M 

2
2
Es. 1 allievo : 
2
 ...   xn  M 
2
n
2

3  6   4  6   5  6   9  6 

2
2
2
2
2
8
5
1^ prova
2^ prova
3^ prova
4^ prova
5^ prova
MEDIA
Varianza
Allievo 1
3
4
5
9
9
6
8
Allievo 2
6
6
6
6
6
6
0
Allievo 3
2
4
7
8
9
6
8,5
Scarto quadratico medio
Lo scarto quadratico medio (sqm)  o deviazione
standard è la radice quadrata (positiva) della varianza.
x1  M   x2  M 
2
  
2
2
 ...   xn  M 
2
n
1^ prova 2^ prova 3^ prova 4^ prova 5^ prova
MEDIA
sqm o
Varianza Deviazione
standard
Allievo 1
3
4
5
9
9
6
8
2,83
Allievo 2
6
6
6
6
6
6
0
0,00
Allievo 3
2
4
7
8
9
6
8,5
2,92
Normalizzazione
La normalizzazione è un’operazione statistica che permette di
mettere a confronto distribuzioni diverse.
Avendo due prove il cui punteggio grezzo massimo
raggiungibile dagli studenti è diverso, 30 nella prima prova e
45 nella seconda prova, non permette di confrontare i risultati
ottenuti. Per superare questo inconveniente ricorro alla
normalizzazione. Essa si basa su una proporzione:
(Punti studente) : (p.ti totali) = (P.ti studente normalizzati) : 100
Normalizzazione
Allievi
Punti 1^
prova
Punti 1^
prova
P.ti 1^ p
normalizzati
P.ti 2^ p
normalizzati
A1
25
40
83,3
88,9
A2
15
43
50,0
95,6
A3
28
38
93,3
84,4
A4
19
33
63,3
73,3
A5
22
31
73,3
68,9
A6
30
20
100,0
44,4
A7
27
26
90,0
57,8
A8
18
45
60,0
100,0
Per A1 1^p 25 : 30 = x : 100
x = 25/30*100 = 83,3
2^p 40 : 45 = x : 100
x = 40/45*100 = 88,9
Come leggere i risultati
Nella tabella sono riportati i dati relativi alla
media, alla deviazione standard, al valore minimo
e massimo, alla mediana e alla moda. Vediamo
come leggere questi dati aiutandoci con le
definizioni di tali valori statistici ed un esempio di
risultati ottenuti da una scuola. I punteggi sono
normalizzati a 100: la scala di riferimento ha
come valore minimo 0 (le risposte a tutti i quesiti
della prova sono errate) e come valore massimo
100 (le risposte a tutti i quesiti della prova sono
corrette).
Media
scuola 59,3
Dev.
standard
16,9
Min. Max. Moda Mediana
20,0
98,2
73,3
61,3
Media (o punteggio medio)
È la somma dei punteggi ottenuti dagli studenti diviso il numero totale degli
stessi. Una media elevata indica la presenza nella scuola di elevate
competenze, al contrario una media bassa indica la presenza di scarse
competenze nella scuola. Nell'esempio la Media (o punteggio medio) è
59,3;
Moda
È il punteggio ottenuto più frequentemente dagli studenti, nell'esempio la
scuola ha ottenuto come valore modale 73,3. Ovvero tra tutti i punteggi
possibili tra 0 e 100, tale punteggio è quello ottenuto da più studenti.
Mediana
È il punteggio in corrispondenza del quale gli studenti vengono
esattamente divisi in due parti uguali. Nell'esempio la mediana corrisponde
a 61,3 e indica che il 50% degli studenti ha ottenuto un punteggio inferiore
a 61,3% e che il restante 50% ha ottenuto un punteggio superiore al 61,3;
Media
scuola 59,3
Dev.
standard
16,9
Min. Max. Moda Mediana
20,0
98,2
73,3
61,3
Minimo
E' il punteggio più basso ottenuto dagli studenti. Nell'esempio il punteggio
minimo è 20,0;
Massimo
E' il punteggio più alto ottenuto dagli studenti. Nell'esempio il punteggio
massimo è 98,2;
Deviazione standard
È una misura della dispersione del punteggio intorno al punteggio medio.
Un basso valore della deviazione standard indica che i punteggi sono
concentrati intorno alla media e che le competenze degli studenti sono
omogenee; al contrario una deviazione standard alta indica che le
competenze degli studenti sono disomogenee. Nel nostro esempio,
aggiungendo e sottraendo al punteggio medio (59,3) la deviazione standard
(16,9) si ottiene un intervallo (42,4 - 76,2) in cui si trova il 68% degli
studenti. Analogamente aggiungendo e sottraendo 2 volte la deviazione
standard si ottiene un intervallo (25,5 - 93,1) in cui si trova il 95% degli
studenti.
Prova di
Prova di Scienze
Scuola
Prova di Italiano
Matematica
deviazione media deviazione media deviazione
media
standard
standard
standard
56.1
14.3
60.3
12.8
Scuola XX 53.3
12.0
Veneto
Nord-Est
51.5
53.4
13.8
13.8
50.5
53.1
17.9
17.7
58.6
56.3
13.5
14.8
Come si può notare, i risultati ottenuti dagli studenti
della Scuola XX sono decisamente migliori rispetto
alle medie del Veneto e del Nord-Est, sia nei valori
medi che nella omogeneità della preparazione.
… ancora sui quartili
Dalla distribuzione dei punteggi si sono trovati i seguenti
percentili notevoli (i 4 quartili):
x25 = 37
% Stud. 1°
Percentile 25%
Punteggi <= 37
51,5
x50 = 51 x75 = 62 x90 = 74
% Stud. 2°
Percentile 25%
Punteggi > 37 e
<= 51
27,9
% Stud. 3°
Percentile 25%
Punteggi > 51 e
<= 62
16,2
% Stud. 4°
% Stud. Nel
Percentile 25% Top Punteggi
Punteggi > 62
>= 74
4,4
-
Allora il 51,5% degli studenti ha ottenuto un punteggio inferiore
al 25-esimo percentile (37) , il 27,9% un punteggio compreso tra
il 25-esimo e il 50-esimo percentile (tra37-51) ...
Confronto con il campione
nazionale
Nel confronto tra i dati della scuola e quelli del
campione nazionale si dovrà tener conto dell’errore
di campionamento.
Esempio: se la scuola ha M = 80 e la media del
campione è Mc = 70 con un errore di 10, il dato della
scuola non si discosta significativamente dal dato del
camipone
80
70  10
Scarica