caricato da paolo.al

LEZIONI STATISTICA MEDICA 6

UNIVERSITA’ DEGLI
STUDI DI PERUGIA
STATISTICA MEDICA
Prof.ssa Donatella Siepi
[email protected]
tel: 075 5853525
05 dicembre 2014
6° LEZIONE
Statistica descrittiva
STATISTICA DESCRITTIVA
Rilevazione dei dati
piano
Rappresentazione dei dati
tabelle
grafici
A
A
B
B
C
C
D
D
E
E
Elaborazione dei dati
Medie e indici di
variabilità
Indici Statistici
Per sintetizzare i dati ed evidenziare una
certa caratteristica:
• Indici di tendenza centrale
• Indici di dispersione
• La forma
In statistica è possibile valutare in modo
sintetico la distribuzione dei dati mediante
gli indici di variabilità (o dispersione)
Vedremo i seguenti indici
•
•
•
•
Campo di variazione (Range)
Scarto medio dalla media
Varianza e scarto quadratico medio
Coefficiente di variazione
5
Scarto medio dalla media aritmetica
Un modo per calcolare la variabilità dei dati
(tenendo conto di tutti i dati) consiste nel
calcolare la distanza di tutti i dati dalla media
e fare la media aritmetica di tali distanze
Scarto medio  S m 
x1  x  x 2  x  .....  x n  x
n
Scarto medio = Distanza media dei dati dalla
media
6
Esempio
Consideriamo le valutazioni di una prova
1° studente
2° studente
3° studente
4° studente
media
1a Prova
3
5
8
9
6,25
x1 =  3 – 6,25  = 3,25;
x2 =  5 – 6,25  = 1,25;
x3 =  8 – 6,25  = 1,75;
x4 =  9 – 6,25  = 2,75;
Sm = 3,25 + 1,25 + 1,75 + 2,75 = 2,25
4
7
Calcoliamo lo Scarto medio per tutte le tre prove
1a Prova
1° studente
2° studente
3° studente
4° studente
media
scarto medio
2a Prova
3a Prova
3
5
8
9
2
7
8
8
6
7
6
6
6,25
2,25
6,25
2,13
6,25
0,38
Scarto 1a prova = 2,25 dati più dispersi,
risultati più eterogenei
Scarto 3a prova = 0,38 
dati più concentrati,
risultati più omogenei
Scarto 2a pr.  Scarto 1a pr.
“Le Distribuzioni Differiscono”
8
In statistica è possibile valutare in modo
sintetico la distribuzione dei dati mediante
gli indici di variabilità (o dispersione)
Vedremo i seguenti indici
•
•
•
•
Campo di variazione (Range)
Scarto medio dalla media
Varianza e scarto quadratico medio
Coefficiente di variazione
9
Varianza e Scarto quadratico medio
Sono gli indici di variabilità più utilizzati, e
tengono conto della distribuzione di tutti i
dati.
Varianza
Rappresenta la media aritmetica dei
quadrati delle distanze dei dati dalla media
M
Varianza  
2

x

1
 
2

2

 x  x2  x  .....  xn  x
n

2
10
 x
n
Varianza 
i
x
1
n
  x 
n
2

2
i
1
n
11
Esempio - Varianza
Consideriamo le valutazioni della prima prova
1° studente
2° studente
3° studente
4° studente
1a Prova
3
5
8
9
media
6,25
(x1)2 = (3 – 6,25 )2 = 10,5625;
(x2)2 = (5 – 6,25 )2 = 1,5625;
(x3)2 = (8 – 6,25 )2 = 3,0625;
(x4)2 = (9 – 6,25 )2 = 7,5625;
2 = 10,5625+1,5625+3,0625+7,5625 = 5,6875
4
12
Calcoliamo la Varianza per tutte le tre prove
1a Prova
1° studente
2° studente
3° studente
4° studente
media
varianza
Varianza 1aprova = 5,69
2a Prova
3a Prova
3
5
8
9
2
7
8
8
6
7
6
6
6,25
5,69
6,25
6,19
6,25
0,19

Varianza 3a prova = 0,19
dati più dispersi,
risultati più eterogenei

dati più concentrati,
risultati più omogenei
Varianza 2a pr.  Varianza 1a pr
“Le Distribuzioni Differiscono”
13
Varianza
La varianza o Quadrato Medio è una devianza media o
devianza rapportata al numero di osservazioni.
La varianza di una popolazione (1), il
cui simbolo è σ2 , è ottenuta
dividendo la devianza per n, il
numero di osservazioni.
La varianza di un campione (2), il cui
simbolo è s2 , è ottenuta dividendo la
devianza per n-1, il
numero di gradi di libertà.
Scarto quadratico medio o Deviazione
standard
È uguale alla radice quadrata della varianza
x  x  x
2
Scarto quadr. medio   
1
2
 x  x
n
Scarto quadr medio 

 x  .....  xn  x
n
1
n

2
n
2
i

2

2



x
 i
1
n
15
Esempio - Scarto quadratico medio
Riprendiamo le valutazioni della prima prova
1a Prova
1° studente
2° studente
3° studente
4° studente
media
n

 x 
3
5
8
9
scarti da M
-3,25
-1,25
1,75
2,75
6,25
0,00
scarti2
10,5625
1,5625
3,0625
7,5625
5,6875
2
i
1
n
  2  5,6875  2,3848
16
Calcoliamo lo Scarto quadratico medio per tutte le
prove
a
a
a
1 Prova
1° studente
2° studente
3° studente
4° studente
media
scarto quadratico
2 Prova
3 Prova
3
5
8
9
2
7
8
8
6
7
6
6
6,25
2,38
6,25
2,49
6,25
0,43
Scarto q. 1aprova = 2,38 
Scarto q. 3aprova = 0,43 
dati più dispersi,
risultati più eterogenei
dati più concentrati,
risultati più omogenei
Scarto q. 2a pr.  Scarto q. 1a pr
“Le Distribuzioni Differiscono”
17
Osservazioni:
1. La varianza 2 e lo scarto quadratico medio 
danno
informazioni sulla distribuzione dei dati:
• più 2 e  sono piccoli più i dati sono
concentrati;
• più 2 e  sono grandi più i dati sono dispersi.
2. Entrambi gli indici tengono conto di tutti i dati della
distribuzione
18
3. Entrambi si basano sulla proprietà della media per
cui la somma dei quadrati degli scarti dalla media è
minima
4. La varianza è espressa mediante il quadrato
dell’unità di misura dei dati
5. Lo scarto quadratico nella stessa unità di misura
dei dati e pertanto viene preferito alla varianza
19
In statistica è possibile valutare in modo
sintetico la distribuzione dei dati mediante
gli indici di variabilità (o dispersione)
Vedremo i seguenti indici
•
•
•
•
Campo di variazione (Range)
Scarto medio dalla media
Varianza e scarto quadratico medio
Coefficiente di variazione
20
La DS è la stima di variabilità di un campione
(molto utile quando le medie dei due campioni
sono simili)
Non consente di confrontare la variabilità di
campioni le cui medie sono sensibilmente
differenti
In questo caso si usa il
COEFFICIENTE di VARIAZIONE
Coefficiente di variazione
Il coefficiente di variazione (coefficient of
variation oppure coefficient of variability) è
una misura relativa di dispersione, mentre le
precedenti erano tutte misure assolute.
Permette di valutare la dispersione dei valori attorno alla
media indipendentemente dall'unità di misura.
Ad esempio, la deviazione standard di un campione di
redditi espressi in Lire è completamente diversa della
deviazione standard degli stessi redditi espressi in Euro,
mentre il coefficiente di dispersione è lo stesso in entrambi i
casi.
Il coefficiente di variazione CV
Il CV è una misura relativa di dispersione (le precedenti
sono misure assolute) ed è una grandezza adimensionale.
E’ particolarmente utile quando si devono confrontare le
distribuzioni di due gruppi con medie molto diverse o con
dati espressi in scale differenti (es. confronto tra variazione
del peso e variazione dell’altezza).


CV    100%
x

23
Coefficiente di variazione (CV) o
deviazione standard relativa
È rappresentato dalla DS/m * 100
Il valore che ne deriva è una quantità priva di
Dimensione è un rapporto, mentre la DS è espressa
nelle stesse Unità delle osservazioni originali.
Il CV permette quindi il confronto di grandezze
diverse.
Il Coefficiente di Variazione (CV oppure
semplicemente con V in molti testi recenti) misura la
dispersione percentuale in rapporto alla media.
Per una popolazione:
dove
− σ = deviazione standard della popolazione
− μ = media della popolazione
Per un campione
dove
- s = deviazione standard del campione
- X = media del campione
Calcoliamo il Coeff. di variazione tre prove
1a Prova
1° studente
2° studente
3° studente
4° studente
2a Prova
3a Prova
3
5
8
9
2
7
8
8
6
7
6
6
media
6,25
scarto quadratico
2,38
coeff. variazione
38,16%
6,25
2,49
39,80%
6,25
0,43
6,93%
CV 1a prova = 38,16%

CV 3a prova = 6,93%

CV 2a pr.  CV 1a pr
dati più dispersi,
risultati più eterogenei
dati più concentrati,
risultati più omogenei
 “Le Distribuzioni Differiscono”
26
In natura, il coefficiente di variazione tende
ad essere costante per ogni fenomeno, con
valori che abitualmente oscillano tra il 5% e il
15%.
Valori esterni a questo intervallo possono fare
sorgere il sospetto di essere in presenza di un
errore di rilevazione o di calcolo; si tratta
comunque di situazioni non usuali che
occorrerebbe spiegare, individuandone la
causa.
•Se il materiale biologico in esame ha un CV troppo
basso (2-3 %), si può sospettare l'esistenza di un
fattore limitante che abbassa notevolmente od elimina
la variabilità, come la presenza di omogeneità
genetica congiunta ad una situazione ambientale
uniforme.
•Un CV molto alto (50%) è indice della presenza di
condizioni anomale o molto differenti per più fattori.
Per l'uomo, il coefficiente di variazione dell’altezza è
stato calcolato tra il 40% e il 45%, testimoniando
l'esistenza nella specie di grandi differenze, dovute sia
a cause genetiche che ambientali (alimentazione,
condizioni sanitarie, ecc.).
ERRORE STANDARD DELLA MEDIA (SEM)
La media e la DS calcolate da un campione sono stime
della media e della DS dell'intera popolazione dalla quale il
campione e' tratto.
Per quantificare in termini probabilistici l'accuratezza di
queste stime, possiamo calcolare i loro SE (sia della media
che della DS).
Il SEM (DS/√n) quantifica il grado di certezza col quale la
media calcolata da un campione casuale stima la vera media
della popolazione da cui il campione e' tratto.
ERRORE STANDARD DELLA MEDIA (SEM)
Pertanto la DS e il SEM misurano 2 aspetti decisamente
diversi:
• la DS descrive la variabilita' della popolazione,
• il SEM descrive l'incertezza nella stima della media.
La media vera della popolazione originale cade ad una distanza
dalla media campionaria inferiore a 2 SEM in circa il 95% dei
possibili campioni.
E' bene sottolineare ancora come l'errore standard (e quindi la
precisione della stima di ) dipende sia dalla variabilità della
misura, sia dal numero di repliche che effettuiamo; più
precisamente, l'errore standard aumenta all'aumentare della
deviazione standard e diminuisce all'aumentare del numero
delle ripetizioni, annullandosi quando questo tende ad infinito.