Nozioni di statistica - Esercitazione Statistica

Nozioni di statistica
Distribuzione di Frequenza
Una distribuzione di frequenza è un insieme di
dati raccolti in un campione (Es. occorrenze di
errori in seconda elementare).
Una distribuzione può essere rappresentata
sinteticamente mediante “numeri” (statistiche
o parametri).
Come descriviamo una distribuzione di
frequenza?
Tendenza centrale
Forma della distribuzione
Dispersione
Misure di tendenza centrale
Ci permettono di calcolare dove si colloca il
centro di una distribuzione di frequenza.
Tipi di misure di tendenza centrale:
Media
Mediana
Moda
Quartili
La media M
La somma di tutti i punteggi diviso per il numero totale
delle osservazioni.
È il modello statistico più semplice.
Può essere influenzata dai dati più estremi di una
distribuzione.
N
X
Slide 6
x
i 1
N
i
La media come modello
6 osservazioni (5, 5, 5, 5, 5)
Quanto sarà la media?
6
5
4
3
2
1
0
0
1
2
3
4
5
6
Perchè un modello?
Mi dite quanti amici avete su FB?
Media come modello matematico
Statistica ricorre a modelli matematici per
rappresentare i nostri dati.
La media è un valore ipotetico (i.e. può anche
essere un valore che non esiste nel data-set).
Ergo…
Media è il più semplice modello statistico che
possiamo applicare ai nostri dati.
Mediana
Quel valore che, nella serie ordinata dei dati, si
lascia alla destra il 50% delle osservazioni e
alla sinistra il 50% delle osservazioni.
Se l’ampiezza del campione è un numero
dispari, la mediana coincide con l’osservazione
che occupa la posizione (n+1)/2 nella serie
ordinata delle osservazioni.
Se l’ampiezza del campione è un numero pari, la
mediana coincide con la media dei valori
corrispondenti alle due osservazioni centrali.
Moda
La moda è il valore più frequente in un insieme
di dati.
Ma…
un insieme di dati può non avere moda, se
nessun valore è “più tipico”.
Quartili
quartili sono misure che dividono i dati ordinati
in quattro parti.
Q1: valore tale che 25% osservazioni è più
piccolo di Q1, 75% delle osservazioni è più
grande di Q1.
Q3: valore tale che 75% osservazioni è più
piccolo di Q3, 25% delle osservazioni è più
grande di Q3.
Misure esplorative di una distribuzione
Valore min Q1
Mediana Q3
Valore max
Boxplot ‫‏‬
80,00
Valore massimo
75 %centile (terzo quartile)‫‏‬
70,00
Mediana
60,00
25 %centile (primo quartile)‫‏‬
50,00
40,00
Valore minimo
30,00
voti
Forma della distribuzione
Confrontiamo la media con la mediana.
Se media = mediana
distribuzione simmetrica.
Se media < mediana
asimmetria negativa (negatively skewed)
media > mediana:
asimmetria positiva (positively skewed)
Nozioni da ricordare
Skewness: asimmetria dei valori rispetto alla
media.
Kurtosis: quanto è «a punta»/ appiattita una
distribuzione?
Se a punta -> curtosi positiva
Se appiattita -> curtosi negativa
Forma della distribuzione: skewness
Skewness
Se il coefficiente di asimmetria è:
> 0 la curva è asimmetrica e spostata verso
destra
< 0 La curva è asimmetrica e spostata verso
sinistra
= 0 la curva si definisce simmetrica
Forma della distribuzione: kurtosis
Curtosi
Se il coefficiente di curtosi è:
> 0 la curva si definisce leptocurtica, cioè più
"appuntita di una normale.
< 0 la curva si definisce platicurtica, cioè più
"piatta" di una normale.
= 0 la curva si definisce normocurtica, cioè
"piatta" come una normale.
Indici di dispersione
Varianza
sintetizza la dispersione dei valori osservati
attorno alla media.
(xX
)

2
s
2
i
i
(N

1
)

Varianza: in questo caso?
6 osservazioni (5, 5, 5, 5, 5)
Quanto sarà la media? E la varianza?
6
5
4
3
2
1
0
0
1
2
3
4
5
6
Varianza = 0
Caso di «Fit» perfetto: La media cattura
(rappresenta) perfettamente la variabilità dei
dati.
E qui?
Deviazione Standard (DS)
Altrimenti definita scarto quadratico medio
Radice della varianza.
Radice dello «Scarto» di ogni punto dalla
media/numero totale di osservazioni
(
x
X
)

2
ss 
2
i
i
(
N

1
)

A che serve la DS?
ci aiuta a stabilire se e quanto i dati sono
concentrati o dispersi intorno alla loro media.
Nota bene:
In alcune distribuzioni, la maggior parte dei
valori osservati si trovano nell’intervallo dalla
media a ± 1 DS.
Cosa vuol dire?
Come si distribuiscono i valori osservati in termini di
DS?
Dipende dalla distribuzione…
Stessa media, diversa DS
Gamma
Gamma (range): misura della distanza fra il
valore più alto e il più basso nella
distribuzione.
Gamma (range) interquartile: la differenza tra il
terzo e il primo quartile in un insieme di dati.
un limite della gamma consiste nel fatto che non
tiene conto di come i dati si distribuiscono
effettivamente.
Per es. osservazioni estreme.
Cosa ci dicono le misure di
dispersione?
• Quanto maggiori sono questi indici, tanto più
sono dispersi i valori osservati;
• Quanto minori, tanto più sarà concentrata e
omogenea la distribuzione dei valori osservati.
Nota bene
Finora ci siamo riferiti a parametri propri di un
campione;
Parametri di una popolazione sono indicati con
lettere greche.
 = Media della popolazione;
 2 = Varianza;

2
( X  )


N
2
Attenzione!
Ulteriore misura di varianza è STANDARD ERROR
≠ Deviazione standard.
Distribuzione campionaria

= 10
= 10
M = 10
M=9
M = 11
M = 10
M=9
M=8
M = 12
M = 11
M = 10
Distribuzione campionaria
Frequenza con cui si distribuiscono le medie dei
campioni estratti da una stessa popolazione.
Frequenza
Come si distribuiscono?
Medie dei campioni
Standard Error
Lo «scarto» (la deviazione standard) che c’è tra
la media di ogni singolo campione e la media
della popolazione.
È una misura di quanto è rappresentativo un
campione della popolazione.
s
X 
N
Standard Error
Deviazione standard di una distribuzione
campionaria.
EXCEL: Principali funzioni statistiche
•MEDIA (num1, num2,…)‫‏‬
•MEDIANA (num1, num2,…)‫‏‬
•MODA (num1, num2,…)‫‏‬
•DEV.ST (num1, num2,…)‫‏‬
•VAR (num1, num2,…)‫‏‬
•MAX (num1, num2,…)‫‏‬
•MIN (num1, num2,…)‫‏‬