Principi di Statistica Descrittiva (3)

annuncio pubblicitario
Università degli Studi di Cassino
Facoltà di Scienze Motorie – Corso di Laurea in Scienze Motorie
Anno accademico 2007/2008
Principi di Statistica Descrittiva
(3)
Bruno Federico
[email protected]
Indici di sintesi
Indici (Statistiche)
Gran parte della analisi statistica consiste nel
condensare complessi pattern di osservazioni in un
indicatore che sia capace di riassumere una specifica
caratteristica di tutte le rilevazioni in un singolo
numero
In statistica descrittiva distinguiamo:
Indici di tendenza centrale (o indici di posizione)
Indici di dispersione (o indici di variabilità)
che esprimono il valore “tipico”
che esprimono quanto i dati si raggruppano strettamente
intorno al valore ”tipico”
Indici di forma
che esprimono le caratteristiche di “simmetria” e
“curvatura” della distribuzione dei dati
Indici (Statistiche)
Indici di tendenza centrale
Moda
Mediana
Media
Indici di dispersione
Range
Range
interquartile
Percentili
Deviazione
standard, varianza
Football
Un esempio di archivio di dati:
Domande:
Football
1.
Quale dei due palloni va più lontano?
2.
La variabilità nella distanza è simile tra i due
palloni?
Abbiamo bisogno di indici statistici.
In questo caso, calcoleremo
1.
la distanza media e mediana percorsa
2.
la variabilità nella distanza percorsa (range,
range interquartile, deviazione standard)
Indici di tendenza centrale
Moda, media
e mediana
Moda
È il valore che
frequentemente
Per
si
verifica
più
quale tipologia di dati è calcolabile?
dati categorici binomiali, nominali e ordinali
Dati numerici discreti
(quando le modalità osservate siano poche)
dati numerici continui
è la classe di valori osservata più frequentemente
…..è quindi necessario prima raggruppare in classi le
osservazioni
Moda
Si determina contando la frequenza
delle modalità
Non tiene conto di tutte le altre modalità,
utilizza un solo elemento della distribuzione
Ci può essere più di un valore modale in una
distribuzione
Due valori con la stessa frequenza
Due valori con frequenze simili
Moda
Esempio: Il volume espiratorio forzato
in 13 adolescenti asmatici (in litri)
2.3, 2.1, 3.5, 2.6, 2.8, 2.8, 4.0, 2.2, 2.6, 3.0, 4.0, 2.8, 3.3
Si costruisce una tabella di frequenza
Il valore 2.8 si presenta tre volte, i valori 2.6 e 4.0 si
presentano 2 volte ciascuno, tutti gli altri valori si
presentano una volta sola
2.8 è la moda della distribuzione
N.B. La moda si riferisce al valore più frequente (2.8),
non alla frequenza di tale valore (3)
Mediana
Il valore, che, dopo aver posto le
osservazioni in ordine crescente,
divide il campione in due gruppi di
eguale numerosità
Per
quale tipologia di dati è calcolabile?
dati categorici ordinali
dati numerici discreti
dati numerici continui
Mediana
Si calcola individuando
Nelle
serie dispari il valore al centro della
distribuzione ordinata (valore nella (n+1)/2 esima
posizione)
Nelle
serie pari è la media dei due valori al centro
della distribuzione ordinata (media tra il valore nella
n/2 esima e il valore nella (n/2)+1 esima posizione)
E’ detta anche 50° percentile
Utilizza le relazioni di posizione dei dati (>,<)
Non è sensibile ai valori estremi
E’ il migliore indice di
distribuzioni asimmetriche
sintesi
nelle
Mediana
Esempio: Il volume espiratorio forzato
in 13 adolescenti asmatici (in litri)
2.3, 2.1, 3.5, 2.6, 2.8, 2.8, 4.0, 2.2, 2.6, 3.0, 4.0, 2.8, 3.3
Ordina i 13 valori xi
2.1, 2.2, 2.3, 2.6, 2.6, 2.8, 2.8, 2.8, 3.0, 3.3, 3.5, 4.0, 4.0
Calcolo:
Nelle serie dispari (N=13 è dispari) è il valore al centro
della distribuzione ordinata
• valore nella (n+1)/2 esima posizione = 7a posizione
2.1, 2.2, 2.3, 2.6, 2.6, 2.8, 2.8, 2.8, 3.0, 3.3, 3.5, 4.0, 4.0
Media aritmetica
La somma di tutti i valori rilevati in un
campione divisa per la numerosità
Utilizza le proprietà delle
aritmetiche (quantità, operazioni)
relazioni
Esiste solo per i dati numerici continui e discreti
Sintetizza tutti i dati: è il valore più vicino a
tutte le singole osservazioni
E’ invariante per trasformazioni affini
+k, - k, *k, /k sui dati
• spostano nello stesso senso la media
E’ valida soprattutto per i dati che seguono
una distribuzione di frequenza normale
E’ sensibile ai valori estremi
La Media aritmetica
Significato:
Quanto
sarebbero alti i soggetti che abbiamo studiato,
se fossero tutti uguali?
n
∑x
i
x=
xi
i =1
n
n
∑x
i
i =1
x1
x2
x3
x
x
x
Media aritmetica
Esempio: Il volume espiratorio forzato in 13
adolescenti asmatici (in litri)
2.3, 2.1, 3.5, 2.6, 2.8, 2.8, 4.0, 2.2, 2.6, 3.0, 4.0, 2.8, 3.3
Somma dei 13 valori xi
2.3+2.1+3.5+2.6+2.8+2.8+4.0+2.2+2.6+3.0+4.0+2.8+3.3= 38
Divisione per n=13
38 / 13 = 2.9
n
∑x
i
x=
i =1
n
Valutare una distribuzione di frequenza
Simmetrica Unimodale
Media
Simmetrica Bimodale
Moda1
< Media = Mediana < Moda2
Asimmetrica a destra
Moda
= Mediana = Moda
< Mediana < Media
Asimmetrica a sinistra
Media
< Mediana < Moda
Esercitazione
Di un gruppo di atleti raccogliamo delle
informazioni relative al tipo di sport
praticato, al peso, all'altezza ed al
numero di infortuni subiti
Calcolare:
L'altezza
Lo
La
media e mediana
sport più praticato
media, la mediana e la moda del numero di
infortuni
Il dataset
Esercitazione
Hai raccolto i valori
del peso (espresso in
libbre) dei canottieri
di
Oxford
e
Cambridge
Esercitazione
Di seguito sono riportati i valori medi e
mediani (in libbre) per i due equipaggi
Cambridge:
Oxford:
media=182, mediana=186
media=180, mediana=185
Ti aspetti che la distribuzione sia
simmetrica?
Esercitazione
La distribuzione del peso dell’equipaggio di
Cambridge (9 canottieri)
1** | 09
1** |
1** |
1** | 79
1** | 83, 85, 86, 89, 95
2** | 04, 14
Esercitazione
4
6
La distribuzione del peso dei due equipaggi
(18 canottieri)
0
2
Frequency
100
150
weight
200
Media per dati raggruppati
La media aritmetica si può calcolare anche
senza avere i valori di ogni singola
osservazione, basandosi su dati aggregati
Es.
consideriamo la seguente tabella, che riporta la
distribuzione di frequenza del n° di sigarette
fumate ogni giorno da un campione di 20 persone
N° sig.
Frequenza
0
6
5
8
10
5
20
1
Media per dati raggruppati
La media aritmetica può essere
calcolata come media “pesata” dei
diversi valori
I
pesi sono rappresentati dalla frequenza di
ciascun valore
N°
sig. medio=(0*6+5*8+10*5+20*1)/20=5.5
Media per dati raggruppati
La media aritmetica può essere calcolata, con una certa
approssimazione, anche quando, invece dei singoli valori,
sono riportati degli intervalli di valori della variabile di
interesse
Es. consideriamo la seguente tabella, che riporta la
distribuzione di frequenza dei valori di frequenza cardiaca a
riposo in un campione di 20 persone
Freq. Card.
Frequenza
40-49
2
50-59
4
60-69
6
70-79
4
80-89
3
90-99
1
Media per dati raggruppati
In questo caso, si prende il valore
centrale di ogni intervallo e si usa la
formula descritta in precedenza
Freq.
Card. media =
(45*2+55*4+65*6+75*4+85*3+95*1)/20=67.5
Esercitazione
Calcolare il valore medio del n° di sit-ups
effettuati da un campione di 30 atleti
in un giorno
N° sit-ups
Frequenza
5
6
10
8
15
6
20
2
30
5
50
3
Esercitazione
Calcolare il valore medio della Pressione
Arteriosa Sistolica negli stessi atleti
N° sit-ups
Frequenza
<100
100-109
2
3
110-119
120-129
3
5
130-139
8
140-149
150-159
4
2
160-169
3
Un esempio di archivio di dati:
Football
trial
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
air
25
23
18
16
35
15
26
24
24
28
25
19
27
25
34
26
20
22
33
29
31
27
22
29
28
29
22
31
25
20
27
26
28
32
28
25
31
28
28
helium
25
16
25
14
23
29
25
26
22
26
12
28
28
31
22
29
23
26
35
24
31
34
39
32
14
28
30
27
33
11
26
32
30
29
30
29
29
30
26
football
Quale dei due palloni va più lontano?
Indici di variabilità
La variabilità
Misurare la variabilità di una distribuzione
Distribuzione A
Distribuzione B
xi
ni
fi
xi
10
20
30
40
50
tot
1
2
94
2
1
100
0.01
0.02
0.94
0.02
0.01
1.00
10
20
30
40
50
tot
Moda(A)= 30
ni
fi
10
20
40
20
10
100
Mediana(A)=30
Moda(B)= 30
Mediana(B)=30
Media (A) =30
Media (B) =30
Le due distribuzioni si possono dire uguali?
0.10
0.20
0.40
0.20
0.10
1.00
Misurare la variabilità di una distribuzione
distribuzione frequenze A e B
100
80
60
distribuzione A
40
distribuzione B
20
0
10
20
30
40
50
Le osservazioni della distribuzione A sono per la maggior parte in
corrispondenza del valore medio
Le osservazioni della distribuzione B sono più disperse rispetto al
valore medio
Misurare la variabilità di una distribuzione
I dati delle due distribuzioni hanno un
diverso livello di dispersione
I dati delle due distribuzioni sono
differentemente distribuiti intorno al
loro valore medio
Le due distribuzioni hanno una diversa
variabilità
Indici di variabilità
La variabilità o dispersione
concetto chiave in statistica
Molte
le
cause
della
variabilità
fenomeno
Indici di variabilità sono:
Il
un
analisi vengono condotte allo scopo di
studiare
è
range, o intervallo massimo-minimo
Il range inter-quartile
La varianza
La deviazione standard
di
un
Il range
Il range, o intervallo massimo-minimo,
individua le due osservazioni estreme
di una distribuzione, ovvero la più
grande e la più piccola
È
Il
quindi molto facile calcolare il range
limite di questa misura è che è facilmente
influenzabile da osservazioni anomale, cioè
molto più grandi o molto più piccole della
maggior parte delle osservazioni
Il Range
Campo di variazione
R = Max - Min
Distribuzione A
xi
ni
fi
10
20
30
40
50
tot
1
2
94
2
1
100
0.01
0.02
0.94
0.02
0.01
1.00
R = 50 - 10
Esercitazione
Hai raccolto i valori
del peso (espresso in
libbre) dei canottieri
di
Oxford
e
Cambridge
Calcola
il range di valori,
per i due team
Quantili
Per QUANTILI si intende la suddivisione
di una distribuzione in gruppi ordinati e di
eguale numerosità
Decili: dieci gruppi
Quintili: cinque gruppi
Quartili: quattro gruppi
Centili (o percentili): cento gruppi
Per
PERCENTILE si intende la suddivisione in 100
parti uguali di una serie di valori continui
ad esempio pesi o altezze di bambini
Un bambino che superi il 90% percentile avrà dunque un valore
(es. di altezza) superiore al 90% di tutti i bambini considerati
Percentili
Consideriamo una variabile Y, ordinabile, con
modalità:
y1, y2 , y3 , …, yk
1°
percentile= valore di y che separa il primo 1%
delle osservazioni
2°
percentile= valore di y che separa il primo 2%
delle osservazioni
n°
percentile= valore di y che separa il primo n%
delle osservazioni
Percentili
Calcolo del p-esimo Percentile
Considerando
n osservazioni ordinate
ed
intendendo calcolare il valore del pesimo percentile
valutiamo l’ espressione (n*p)/100
se NON è un intero
• il p-esimo percentile sarà l’ osservazione che si
trova alla posizione data da np/100 approssimato
per eccesso
se è un intero
• il p-esimo percentile sarà la media tra l’
osservazione che si trova nella posizione np/100 e l’
osservazione che si trova nella posizione successiva
Percentili
Calcolo del p-esimo Percentile
75°
percentile nel nostro esempio di 13 osservazioni
valutiamo l’ espressione (n*p)/100
75*13/100 = 9.75 NON è un intero
• il p-esimo percentile sarà l’ osservazione che si
trova alla posizione data da np/100 approssimato
per eccesso
• e cioè la 10a osservazione dopo aver ordinato i dati
2.1, 2.2, 2.3, 2.6, 2.6, 2.8, 2.8, 2.8, 3.0, 3.3, 3.5, 4.0, 4.0
Le curve di crescita
Le curve riportate nel
grafico
rappresentano
alcuni
peso
percentili
in
ragazze
negli USA
del
bambine
(10-20
e
anni)
Quartili di una distribuzione
1°° quartile = 25°° percentile
Mediana
2°° quartile = 50°° percentile
3°° quartile = 75°° percentile
Il range inter-quartile
E’ la differenza tra il terzo quartile
(75° percentile) e il primo quartile (25°
percentile)
E’
l’ampiezza
dell’intervallo
contiene il 50% centrale dei dati
che
Non è influenzato dai valori estremi
N.B.
sia il range che la differenza interquartile
sono singoli numeri, non intervalli
Esercitazione
Hai raccolto i valori
del peso (espresso in
libbre) dei canottieri
di
Oxford
e
Cambridge
Calcola
i quartili della
distribuzione
Football
trial
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
air
25
23
18
16
35
15
26
24
24
28
25
19
27
25
34
26
20
22
33
29
31
27
22
29
28
29
22
31
25
20
27
26
28
32
28
25
31
28
28
helium
25
16
25
14
23
29
25
26
22
26
12
28
28
31
22
29
23
26
35
24
31
34
39
32
14
28
30
27
33
11
26
32
30
29
30
29
29
30
26
football
La variabilità nella distanza
è simile tra i due palloni?
Diagrammi a scatola
Sono utili per verificare la
asimmetria delle
distribuzioni di frequenza
La scatola centrale si
estende dal 25° percentile al
75° percentile (i “quartili”
dei dati)
La linea dentro la scatola
rappresenta la mediana
Le linee al di fuori della
scatola si estendono ai valori
adiacenti, osservazioni più
estreme che non superano
più di 1,5 volte l’altezza della
scatola esternamente ad
ognuno dei quartili
100
150
weight
200
250
Diagrammi a scatola
Diagrammi a scatola
100
150
weight
200
250
Cambridge
Graphs by team
Oxford
10
20
30
40
Diagrammi a scatola
Air
Helium
Misurare la variabilità di una distribuzione
Come migliorare ulteriormente
misura della variabilità?
le
Utilizzare
misure che tengano conto di tutti i
termini della distribuzione in studio
Calcolare
lo scarto tra il valore di ciascuna
osservazione ed il valore medio di tutte le
osservazioni
Calcolare
la media di tutti gli scarti
Distanza media dei punti della distribuzione
dalla media della distribuzione stessa
Varianza
E’ un valore sintetico che vuole esprimere la distanza media di
ogni singola osservazione dalla media aritmetica del campione
Idealmente, la distanza media delle osservazioni dalla
media artimetica del campione si potrebbe studiare
calcolando la media aritmetica dei semplici scarti.
Tuttavia, per la stessa definizione della media aritmetica, la somma degli
scarti è pari a zero
Allora, per evitare l’ azzeramento della somma degli
scarti, si calcola la media dei quadrati degli scarti
per la varianza di una popolazione:
n
2
(
x
−
µ
)
∑ i
σ2 =
per la varianza in un campione
•
si tende ad essere più conservativi:
i =1
n
n
2
(
x
−
x
)
∑ i
s2 =
i =1
n −1
Varianza
Utilizza le proprietà delle relazioni
aritmetiche (quantità, operazioni)
Esiste solo per i dati numerici continui e
discreti
E’ valida soprattutto per i dati che seguono
una distribuzione di frequenza normale
E’ sensibile ai valori estremi
La sua unità di misura non è quella della
media
è
al quadrato!
Varianza
Esempio
Si
calcolano gli scarti
2.3, 2.1, 3.5, 2.6, 2.8, 2.8, 4.0, 2.2, 2.6, 3.0, 4.0, 2.8, 3.3
2.3-2.9, 2.1-2.9, 3.5-2.9, …
-0.6, -0.8, +0.6, -0.3, -0.1, -0.1, +1.1, -0.7, -0.3, +0.1, +1.1, -0.1, +0.4
si calcolano i quadrati degli scarti
0.36, 0.64, 0.36, 0.09, 0.01, 0.01, 1.21, 0.49, 0.09, 0.01, 1.21, 0.01, 0.16
Si calcola la media dei quadrati degli scarti (con i gradi di
libertà)
0.36+0.64+0.36+0.09+0.01+0.01+1.21+0.49+0.09+0.01+1.21+0.01+0.16
4.65/(13-1) = 0.3875 litri
•
n
2
attenzione: è in una scala al quadrato !
∑ ( x − x)
i
s2 =
i =1
n −1
2
Deviazione standard
E’ un valore sintetico che vuole esprimere
la
distanza
media
di
ogni
singola
osservazione dalla media aritmetica del
campione
E’ la radice quadrata della varianza, e ne ha le
stesse proprietà
Ha la stessa unità di misura della media
aritmetica
Deviazione standard
Esempio
Si
calcolano gli scarti
2.3, 2.1, 3.5, 2.6, 2.8, 2.8, 4.0, 2.2, 2.6, 3.0, 4.0, 2.8, 3.3
2.3-2.9, 2.1-2.9, 3.5-2.9, …
-0.6, -0.8, +0.6, -0.3, -0.1, -0.1, +1.1, -0.7, -0.3, +0.1, +1.1, -0.1, +0.4
si calcolano i quadrati degli scarti
0.36, 0.64, 0.36, 0.09, 0.01, 0.01, 1.21, 0.49, 0.09, 0.01, 1.21, 0.01, 0.16
Si calcola la media dei quadrati degli scarti (con i gradi di
libertà)
0.36+0.64+0.36+0.09+0.01+0.01+1.21+0.49+0.09+0.01+1.21+0.01+0.16
4.65/(13-1) = 0.3875 litri
Sqrt(0.3875)=0.622 litri
2
Esercitazione
Hai raccolto i valori del
peso (espresso in libbre)
dei canottieri di Oxford
e Cambridge
Calcola
varianza
e
deviazione standard per
l’equipaggio di Cambridge
Media=182
Un esempio
Problema
Valutare
la concentrazione plasmatica di acido
lattico in un campione di soggetti adulti, prima e
dopo uno sforzo
Ipotesi di ricerca
La
concentrazione di acido lattico aumenta dopo
lo sforzo
Nei soggetti allenati l’aumento di acido lattico
dopo uno sforzo è inferiore rispetto ai soggetti
non allenati
Le condizioni del terreno di gioco possono avere
un’influenza sulla concentrazione di acido
lattico prodotta dopo uno sforzo
Descrizione del campione
Eta
|
Freq.
Percent
Cum.
------------+----------------------------------18 |
1
16.67
16.67
22 |
4
66.67
83.33
27 |
1
16.67
100.00
------------+----------------------------------Total |
6
100.00
sesso
|
Freq.
Percent
Cum.
------------+----------------------------------M |
3
50.00
50.00
F |
3
50.00
100.00
------------+----------------------------------Total |
6
100.00
allenato |
Freq.
Percent
Cum.
-------------+----------------------------------non allenato |
4
66.67
66.67
allenato |
2
33.33
100.00
-------------+----------------------------------Total |
6
100.00
Istogramma
Diagrammi di dispersione a due dimensioni
2
acido lattico (mmol/l)
3
4
5
6
Nell’esempio, la concentrazione plasmatica di ac. lattico
è misurata in 6 soggetti in 4 diverse condizioni
1
riposo- erba naturale
riposo - erba sintetica
sforzo - erba naturale
misurazioni
sforzo -erba sintetica
Diagrammi lineari
Il grafico mostra la variazione nel tempo, per
ogni soggetto, dei livelli di ac. lattico
2
3
4
5
6
0
6
4
2
ac. lattico (mmol/l)
2
4
6
1
0
1
2
3
4
1
2
3
misurazioni
Graphs by Id
4
1
2
3
4
Indici di tendenza centrale: acido lattico
-> M, riposo
Variable |
Obs
Mean
Std. Dev.
Min
Max
-------------+----------------------------------------------------aclattico |
6
1.466667
.4802777
1
2.3
-> F, riposo
Variable |
Obs
Mean
Std. Dev.
Min
Max
-------------+----------------------------------------------------aclattico |
6
1.933333
.5785038
1.3
2.8
-> M, sforzo
Variable |
Obs
Mean
Std. Dev.
Min
Max
-------------+-----------------------------------------------------aclattico |
6
3.716667
1.558739
1.7
6.4
-> F, sforzo
Variable |
Obs
Mean
Std. Dev.
Min
Max
-------------+-----------------------------------------------------aclattico |
6
4.5
1.515256
2.7
6.4
Indici
di
variabilità
:
acido
lattico
-> M, riposo
Variable |
Obs
Mean
Std. Dev.
Min
Max
-------------+----------------------------------------------------aclattico |
6
1.466667
.4802777
1
2.3
-> F, riposo
Variable |
Obs
Mean
Std. Dev.
Min
Max
-------------+----------------------------------------------------aclattico |
6
1.933333
.5785038
1.3
2.8
-> M, sforzo
Variable |
Obs
Mean
Std. Dev.
Min
Max
-------------+-----------------------------------------------------aclattico |
6
3.716667
1.558739
1.7
6.4
-> F, sforzo
Variable |
Obs
Mean
Std. Dev.
Min
Max
-------------+-----------------------------------------------------aclattico |
6
4.5
1.515256
2.7
6.4
Indici
di
variabilità
:
acido
lattico
-> M, riposo
Variable |
Obs
Mean
Std. Dev.
Min
Max
-------------+----------------------------------------------------aclattico |
6
1.466667
.4802777
1
2.3
-> F, riposo
Variable |
Obs
Mean
Std. Dev.
Min
Max
-------------+----------------------------------------------------aclattico |
6
1.933333
.5785038
1.3
2.8
-> M, sforzo
Variable |
Obs
Mean
Std. Dev.
Min
Max
-------------+-----------------------------------------------------aclattico |
6
3.716667
1.558739
1.7
6.4
-> F, sforzo
Variable |
Obs
Mean
Std. Dev.
Min
Max
-------------+-----------------------------------------------------aclattico |
6
4.5
1.515256
2.7
6.4
0
1
2
acido lattico (mmol/l)
3
4
5
6
7
Diagrammi a scatola : acido lattico
non allenato
allenato
0
1
2
acido lattico (mmol/l)
3
4
5
6
7
Diagrammi a scatola : acido lattico
ri po so- erba naturale
riposo - erba sintetica
sforzo - erba naturale
sforzo -erba sintetica
Scarica