Slide 1 - e-learning unipd

annuncio pubblicitario
Statistica descrittiva
Come descrivere una variabile in un insieme di osservazioni
1. Utilizzare rappresentazioni grafiche dei dati
2. Sintetizzare i dati con degli indici
Tendenza centrale
Variabilità
1
Rappresentazione grafica di una variabile quantitativa
Esempio: misura dell’altezza di 400 alberi
15.1, 17.2, 18, 21, 22, 25, 24, 15, 25.5, 16, 25, 24, 14, 26,
24.3, 27, 23, 22 ,22.3 ,25, 20, 18, 21.4, 24, 24, 28, 26,
22, 27.3, 21, 26 ,18 ,25, 20.4, 14, 25, 24, 19, 17,
15.4, 24, 27, 23.7, 19 ,18 ,15, 25.3, 18, 13.1, 24, 26, 22...
2
Rappresentazione grafica di una variabile quantitativa
Esempio: misura dell’altezza di 400 alberi
15.1, 17.2, 18, 21, 22, 25, 24, 15, 25.5, 16, 25, 24, 14, 26,
24.3, 27, 23, 22 ,22.3 ,25, 20, 18, 21.4, 24, 24, 28, 26,
22, 27.3, 21, 26 ,18 ,25, 20.4, 14, 25, 24, 19, 17,
15.4, 24, 27, 23.7, 19 ,18 ,15, 25.3, 18, 13.1, 24, 26, 22...
Posso creare delle classi di altezze:
13-14:
14-15:
15-16:
17-18:
...
Frequenze
assolute
3
20
40
60
80
Numero di individui
con altezza 19-20 m
0
Frequenza
assoluta
Frequenza
Istogramma delle frequenze assolute
14
16
18
20
22
24
26
Altezza (m)
Altezza
4
40
20
0
0
20
40
60
80 100
assoluta
Frequenza
Frequenza
Posso variare la
dimensione delle classi
di frequenza
60
80
140
Istogramma delle frequenze assolute
-40
-20
0
20
40
60
80
14
16
18
22
24
26
Dimensione
15
5
10
Frequenza
30
20
0
10
0
Frequenza assoluta
40
Altezza
20
16
18
20
22
24
26
16
Altezza (m)
18
20
22
24
26
5
400
300
200
0
100
Frequenza cumulata
80
60
40
20
0
Frequenza assoluta
Istogramma delle frequenze assolute
14 16 18 20 22 24 26
14 16 18 20 22 24 26
Altezza (m)
Altezza (m)
Se sommo le frequenza assolute ottengo un frequenza
cumulata
6
Rappresentazione grafica di una variabile quantitativa
Distribuzione di frequenza
La frequenza assoluta rappresenta il
numero di osservazioni ottenute per
un certo valore della variabile
La frequenza relativa (%)
rappresenta il numero di
osservazioni ottenute per un certo
valore della variabile diviso per il
numero totale di osservazioni
7
80
60
0
20
40
Frequenza
60
40
20
0
Frequenza assoluta
80
Istogramma delle frequenze
0
2
4
6
8
10
14
16
18
20
22
24
26
Altezza (m)
La forma dell’istogramma descrive la forma della
distribuzione della variabile altezza albero
8
Asimmetria dell’istrogramma
Indici di tendenza centrale
Indici di tendenza centrale e dispersione
Indici di posizione:
Descrivono il valore centrale
di un gruppo di osservazioni
Indici di dispersione o variabilità:
quanto si discostano le singole
osservazione dal valore centrale?
Altezza (m)
25
20
Ogni popolazione presenta un certo
grado di variabilità!!!
15
Abete
Larice
11
Indici di tendenza centrale: min a max
Intervallo dei valori
Massimo
50
Altezza (m)
40
30
20
Minimo
10
12
Indici di tendenza centrale: media
La media aritmetica
Intera popolazione
x


i
N
Campione
x

x
i
n
40
Uso della media: quando i valori si
distribuiscono in modo più o meno
simmentrico attorno ad un valore
centrale
Numero di alberi
35
30
25
20
15
10
5
0
10
15
20
25
30 35
Altezza
40
45
50
13
Indici di tendenza centrale: moda
La moda rappresenta il valore della variabile
a cui è associata la frequenza più alta
MODA
40
Nel caso in cui la classe
non è discreta si prende il
valore centrale della classe
Numero di alberi
35
30
25
20
15
10
5
0
10
15
20
25
30
35
40
45
50
Altezza
14
Indici di tendenza centrale: mediana
La mediana: la mediana costituisce il valore centrale di una serie
di misure
Serie di 19 misure di altezza
50
9 misure
sopra
Si usa quando la distribuzione
dei valori non è simmetrica
30
10° valore
30
20
9 misure
sotto
25
Numero di alberi
Altezza (m)
40
20
15
10
5
0
10
10 15 20 25 30 35 40 45 50
Altezza
15
Indici di tendenza centrale: mediana
Se il numero di osservazione è pari la mediana è la media
dei due valori centrali
Serie di 12 misure di altezza
50
Altezza (m)
40
30
20
10
Ranking
1°
2°
3°
4°
5°
6°
7°
8°
9°
10°
11°
12°
Valore
10
12
19
27
29
32
Mediana=33.5
35
38
39
40
51
16
52
Indici di tendenza centrale: quantili
Quantili: la mediana costituisce un caso specifico di quantile
50
Q75 (Q3)
Altezza (m)
40
Q50 (MEDIANA)
30
20
Q25 (Q1)
Il quantile è un valore qα che
divide le osservazioni in due parti,
proporzionali ad α e (1-α) e
caratterizzate da valori
rispettivamente minori e maggiori
di qα
10
17
Indici di tendenza centrale: quantile 25% (primo quartile)
q25 È il valore che divide la serie in due parti: la prima contiene il
25% delle osservazioni mentre la seconda il restante 75%
50
Altezza (m)
40
100-25%
30
20
q25
25%
10
18
Indici di tendenza centrale: quantile 75% (terzo quartile)
q75 È il valore che divide la serie in due parti: la prima contiene il
75% delle osservazioni mentre la seconda il restante 25%
50
Altezza (m)
40
100-75%
30
20
q75
75%
10
19
Formule per i quartili (Q1 e Q3)
Formule per ottenere le posizioni di Q1 E Q3
Q1 
n 1
4
Q3 
3( n  1)
4
Le tre regole:
1. Se Q1 o Q3 sono un numero intero: OK
2. Se Q1 o Q3 sono ...,5: media dei due valori
3. Se Q1 o Q3 è ...,XX: si approssima al più vicino
Esempio con Q1
Q1=4 si prende il 4° valore
Q1=3.5 si media il 3° e 4° valore
Q1=3.45 si prende il 3° valore
Q1=3.89 si prende il 4° valore
20
Box-plot
MAX
75% quantile (Q3)
Mediana
Range interquartile (IQR)
25% quantile (Q1)
MIN
21
Box-plot
22
MAX
Q3
MEDIANA
Q1
MIN
Altezza (m)
I 5 valori di sintesi
+ MEDIA ARITMETICA
Abete
Larice
23
Indici di tendenza di dispersione
Indici di variabilità
Altezza (m)
Tutte le popolazioni hanno un grado più o meno alto di variabilità!
25
20
15
Abete
Larice
25
Indici di variabilità
Gli indici di posizione non sono
sufficienti per descrivere una
variabile quantitativa
50
Altezza (m)
40
30
Gli indici di variabilità misurano il
grado di dispersione dei dati
attorno al valore centrale
20
10
Foresta A Foresta B
26
Indici di variabilità: Intervallo di variazione
L’intervallo di variazione è la più cruda misura di variabilità
50
Intervallo =Max-Min
Max
Altezza (m)
Intervallo
40
30
Maggiore l’intervallo maggiore la
variabilità
Min
20
10
Foresta A
Foresta B
27
Indici di variabilità: Deviazione standard (I)
La deviazione standard si basa sulla misura degli scarti
Media
Osservazione (xi)
50
Scarto o residuo=xi-media
30
20
Scarto
Altezza (m)
40
Maggiori gli scarti maggiore la
variabilità
10
Foresta A
28
Indici di variabilità: Deviazione standard (II)
Posso sommare gli scarti per misurare la variabilità?
Media
Osservazione (xi)
50
+
Qual è il problema di questa misura?
30
20
Scarto
Altezza (m)
40
Somma dei quadrati=∑(xi-media)2
-
10
Foresta A
29
Indici di variabilità: Deviazione standard (III)
VARIANZA
Media
Osservazione (xi)
CAMPIONE
s2 
2
(
x

media
)
 i
n 1
50
+
30
20
Scarto
Altezza (m)
40
-
POPOLAZIONE
2 
2
(
x

media
)
 i
N
10
Foresta A
30
Indici di variabilità: Deviazione standard (IV)
Media
Osservazione (xi)
CAMPIONE
s
 ( x  media)
2
i
n 1
50
+
30
20
Scarto
Altezza (m)
40
-
POPOLAZIONE

2
(
x

media
)
 i
N
10
Foresta A
31
Indici di variabilità: Coefficiente di variazione
La deviazione standard misura la variabilità di una
popolazione o campione
La deviazione standard dipende dal valore assoluto delle
media
Il coefficiente di variazione ci permette di valutare la
variabilità fra popolazioni con medie molto diverse
s 100
CV 
x
32
Indici di variabilità: Coefficiente di variazione
È più variabile l’altezza o l’etá degli studenti?
Altezza media=1.70 (s=0.20)
11.7%
Età media=22 anni (s=1)
4.5%
s 100
CV 
x
33
Scarica