Statistica7

annuncio pubblicitario
Statistica7 – 2/11/2015
Confronto di due misure
Campioni indipendenti
o meglio.….
rispondere al quesito
Due serie di misure sono state estratte
dalla stessa popolazione (popolazione
comune o identica) o sono state estratte da
due popolazioni diverse?
Cioè se un trattamento effettuato su metà degli animali induce una
differenza fra le medie dei due gruppi.
1
L’analisi statistica non ha il potere di scoprire fatti
nuovi, né di fornire conclusioni assolute (è solo uno
strumento come può esserlo una bilancia).
Lo scopo della statistica è quello di sottoporre le
ipotesi
scaturite
dalla
esperienza
del
professionista/ricercatore a dei test obbiettivi
indipendenti dalla soggettività dello stesso.
Caratteristica di tutti i test statistici è quella di fornire
sempre una risposta in termini probabilistici:
probabilità e mai di certezze.
Tutti i test statistici consistono nel mettere alla prova ipotesi
che certe caratteristiche delle popolazioni siano uguali:
testare cioè la ipotesi nulla per negarne la possibiltà. 2
Tutti i test statistici consentono quindi di individuare
l’esistenza (probabilistica) di differenze ma non di
individuare l’esistenza (probabilistica) di identità.
Nel campo scientifico non è possibile
dimostrare che due “cose” sono uguali.
La media A risulta statisticamente differente da quella
di B. A = B per p < 0,05 (oppure per p < 5%)
oppure
La media A non risulta differire statisticamente da quella di
3
B (anche se i valori sono esattamente uguali può sempre essere “un caso”).
La media A non risulta statisticamente
differente da quella di B.
La media A e quella di B sono
probabilisticamente uguali
La numerosità dei campioni
esaminati era insufficiente
per qualsiasi conclusione
4
scientificamente valida.
Tutto nel campo della biologia applicata deve
essere “pensato” per “dimostrare ciò che
determina differenze (=effetti)”. Perché non
possiamo dimostrare uguaglianze.
due farmaci hanno lo
stesso effetto!
Frase comune ma:
5
Confronto di medie e/o
confronto di varianze
Una popolazione è caratterizzata da 3 parametri
a) n. o g.l. (nella popolazione generica pari a infinito)
b) la media
c) la deviazione standard (o altro indice di dispersione, es. varianza ecc….).
Due popolazioni possono differire per le medie, per le
varianza o per entrambe.
Nella maggior parte dei casi il professionista/ biologo/
veterinario è interessato ad appurare l’esistenza di
differenza fra le medie delle popolazioni.
6
Confronto fra varianze
Il confronto delle varianze è utilizzato:
• Per lo studio della variabilità genetica di specie e di
gruppo
• per valutare la precisione di uno strumento di misura
oppure
• la precisione di una tecnica
o ancora
• nel controllo industriale dei difetti di fabbricazione
ecc. ecc.
7
Confronto fra medie
Il test
L’analisi della varianza
Iniziamo analizzando
Il test
8
Il test
Le differenze fra le medie, x, di campioni estratti da una
popolazione e la media “vera” della popolazione, μ, rapportate a:
La deviazione standard
vera,
σ,
della
popolazione
L’errore standard stimato sm
della vera deviazione standard
(σ) della popolazione
Si distribuiscono intorno allo Ø secondo la distribuzione:
Normale
(x   )
z

di
t
(x   )
t
sm
9
Consideriamo 2 popolazioni
A e B caratterizzate da due
medie vere μa e μb
Consideriamo 2 campioni
delle popolazioni A e B;
avremo delle medie xa e xb
Calcoliamo la differenza fra
le medie che indichiamo
con δ
Calcoliamo la differenza fra
le medie dei due campioni
che indichiamo con d
Analogamente a quanto fatto per la distribuzione normale
standardizzata possiamo utilizzare come unità di misura la σ e
quindi definire:
diff. fra medie campioni meno
diff. fra medie popolazione
deviazione standard vera
(oppure stimata)
(d   )
d
(d   )
ds d
10
Le differenze fra le differenze delle medie dei campioni e la
differenza fra le medie vere delle popolazioni di origine rapportata a:
La deviazione standard
vera, della differenza σd
La
deviazione
standard
stimata della differenza “dsd”
Si distribuiscono intorno allo Ø secondo la distribuzione
Perfettamente analoga alla precedente sulle sole differenze
Normale
(d   )
z
d
di
t
(d   )
t
ds d
11
“
ds d”
deviazione standard delle differenze?
I due campioni A e B possono essere definiti da un numero di
individui na e nb
Le medie dei campioni possiedono un media x ed una deviazione
standard della media dalla media di popolazione che è d.s. = σ/√n

d.s. 
n
d.s. n  
d.s. * n a   a
2
a
d.s.2 * n  
d.s. * n b   b
2
b
Valide solo se si estraggono campioni dalla popolazione! 12
diff.fra medie campioni diff.fra medie popolazione
deviazione standard
stimata
(d   )
ds d
Distribuzione
di
t
le 2 popolazioni A e B uguali
cioè μa = μb quindi δ = Ø
Distribuzione
di
t
d
ds d
(d  Ø)
ds d
13
d
ds d
ds d
d
È facile da calcolare, è “solo” la differenza fra
le medie dei due campioni!
Un campione estratto da A si
distribuisce intorno alla media con
una deviazione standard pari a:
A
d.s.A 
nA
Un campione estratto da B si
distribuisce intorno alla media con
una deviazione standard pari a:
B
d.s.B 
nB
La deviazione standard della differenza si distribuirà (non secondo
la media di tutte e due) secondo la somma di tutte e due e cioè:
ds d
A
B


d.s.A  d.s.B 



nA nB
nA
nB
2
A
2
B
14
Perché la somma e non la media (cioè la somma diviso 2)?
Perché si tratta di differenze! infatti: se estraiamo dei campioni da A
e B le differenze d fra le medie trovate xa e xb si distribuiscono
simmetricamente intorno alla vera differenza δ. La variabilità
attorno a questo valore sarà il risultato della variabilità di xa intorno
a μa e di xb intorno a μb, ma che cosa accade?
•quando gli scarti sono dello stesso segno tutti e due positivi o tutti
e due negativi la differenza tende ad essere più piccola di quella
individuale ma quando gli scarti sono di segno opposto la differenza
sarà più grande e pari alla somma delle due differenze; la
dispersione totale (e quindi la relativa deviazione standard) sarà
quindi pari alla somma delle due differenze!
15
ds d



nA nB
2
A
2
B
nB  nA

nA *nB
2
σA = σB
nB  nA

nA *nB
=
ds d

La deviazione standard della popolazione all’ipotesi Ø è unica ma
noi disponiamo di due stime:
•una a partire dal campione A
•una a partire dal campione B
16
Sono due stime indipendenti della stessa deviazione standard.
Due stime sono meglio di una quindi possiamo combinarle (farne
cioè un pool o stima combinata)
Stima di σ ricavata
dal campione A
+
2
Stima di σ ricavata
dal campione B
Perché?
•Non devo dividere per 2 per gli stessi motivi di prima ma solo
fare la somma delle dispersioni;
•Le deviazione standard e le varianze non possiedono però le
proprietà additive (non le posso usare direttamente);
•le somme dei quadrati degli scarti ed i gradi di libertà
17
possiedono le proprietà additive (devo usare loro!).
La stima combinata
quindi facendo:
della varianza della popolazione si otterrà
La somma delle somme dei quadrati degli scarti diviso la
somma dei gradi di libertà cioè in formule:
( x  x )  ( x  x )

(n A  1)  (n B  1)
2
A
ds d
2
B
=
nB  nA

nA *nB
18
ds d
=
=
( x  x )  ( x  x )
(n A  1)  (n B  1)
2
A
2
B
nB  nA
nA * nB
*
( x  x ) 2A  ( x  x ) 2B n A  n B
*
nA  nB  2
nA *nB
Distribuzione
di
t
d
ds d
19
Distribuzione
di
t
=
=
d
ds d
d  (x A  x B )
( x  x )  ( x  x ) n A  n B
*
nA  nB  2
nA *nB
2
A
2
B
=
Formula finale per il calcolo del valore di t in due
campioni da confrontare con i valori di t attesi
riportati nella tabella redatta da Student.
Formula finale per il calcolo del valore di t in due campioni da confrontare con i
valori di t attesi riportati nella tabella redatta da Student.
Valore di t
calcolato dalle
due serie di
misure

Differenza fra le medie delle due serie di misure
Diviso
la radice quadrata di:
somma dei quadrati degli scarti della prima serie
più la somma dei quadrati degli scarti della
seconda serie, il totale ottenuto per il numero
totale delle osservazioni
e diviso per
21
il prodotto del numero totale meno due per il
prodotto del numero dei dati della prima serie per
la seconda serie.
MDS o DMS
Differenza fra le media corrispondente
alla probabilità di x% dove x% è il
valore di probabilità scelto a priori (es.
p= 0,05 o p= 0,01)
Minima Differenza
Significativa
21
MDS 
 (x A  x B ) 
( x  x )  ( x  x ) n A  n B
t*
*
nA  nB  2
nA *nB
2
A
Differenza
minima fra le
medie per essere
significativa

2
B
Valore di t per la radice quadrata di:
somma dei quadrati degli scarti della prima
serie più la somma dei quadrati degli scarti
della seconda serie, il totale ottenuto per il
numero totale delle osservazioni
e diviso il
prodotto del numero totale meno due per il
prodotto del numero dei dati della prima
22
serie per la seconda serie.
Somma dei
quadrati degli
scarti

Somma dei quadrati di ciascuna
osservazione meno la somma dei
valori di ciascuna osservazione
elevata al quadrato e divisa per il
numero delle osservazioni.
23
Il peso dei maschi è statisticamente differente da
quello delle femmine?
M = F per p < 0,05 (oppure no)
PESO ALLA NASCITA DEI BOVINI
matricola
PESO
SESSO
1
40
F
2
40
M
3
47
F
4
50
M
5
40
F
6
50
F
7
38
F
8
38
F
9
47
M
10
42
F
24
F
40
47
40
50
38
38
42
n=
7
media = 42,142857
SS=
128,86
d.s. = 4,6342411
d  (x A  x B )
M
40
50
47
Poi lo confronto con i
valori tabellari per sapere
se il valore di t trovato è
compreso o meno nella
oscillazione casuale
3
45,666667
52,67
5,1316014
( x  x )  ( x  x ) n A  n B
*
nA  nB  2
nA *nB
2
A
2
B
25
quadrati
1
2
3
4
5
6
7
n=
somma=
Somma^2=
tc=
media =
SS=
VAR=SS=
d.s. =
e.s. =
ASS(A-B)=
nA + nB =
F
40
47
40
50
38
38
42
7
295
87025
12432,14
42,1429 128,857 +
21,476
4,6342
1,7516
3,5238
10
M
40
50
47
3
137
18769
6256,33
45,6667
52,667
26,333
5,1316
2,9627
=
=
8
8
= g.l.
0,059524 =
10
ds 2 d = 10,8050
12561
181,5238
nA * nB = 21
nA + nB -2 =
F
1600
2209
1600
2500
1444
1444
1764
DIVISO
ds d = 3,2871
scarti
M
1600
2500
2209
F
-2,143
4,857
-2,143
7,857
-4,143
-4,143
-0,143
6309
M
-5,667
4,333
1,333
SS= 128,857
52,667
DIVISO
DIVISO
6
2
VAR=SS=
21,476
26,333
RADICEQUADRATA
d.s. = 4,634
5,132
-3,5238
181,524
10
*
=
21
21
PER
8
3,5238
3,2871
T(0,05)= 2,306
t calcolato =
VALORI TABULATI
quadrati scarti
F
M
4,592
32,111
23,592
18,778
4,592
1,778
61,735
17,163
17,163
0,020
10,8050
probabilità
0,3150
1,072
26
31,50%
T(0,01)= 3,355
0,5
0,25
1,000
0,816
0,765
0,741
0,727
0,718
0,711
0,706
0,703
0,700
0,697
0,695
0,694
0,692
0,691
0,690
0,689
0,688
0,688
0,687
0,686
0,686
0,685
0,685
0,684
0,684
0,684
0,683
0,683
0,683
0,681
0,679
0,678
0,677
0,675
0,674
probabilità % di un valore più elevato di t trascurando il segno.
0,4
0,3
0,2
0,1
0,05
0,02
0,2
0,15
0,1
0,05
0,025
0,01
1,376
1,061
0,978
0,941
0,920
0,906
0,896
0,889
0,883
0,879
0,876
0,873
0,870
0,868
0,866
0,865
0,863
0,862
0,861
0,860
0,859
0,858
0,858
0,857
0,856
0,856
0,855
0,855
0,854
0,854
0,851
0,848
0,846
0,845
0,842
0,842
1,963
1,386
1,250
1,190
1,156
1,134
1,119
1,108
1,100
1,093
1,088
1,083
1,079
1,076
1,074
1,071
1,069
1,067
1,066
1,064
1,063
1,061
1,060
1,059
1,058
1,058
1,057
1,056
1,055
1,055
1,050
1,045
1,043
1,042
1,037
1,036
3,078
1,886
1,638
1,533
1,476
1,440
1,415
1,397
1,383
1,372
1,363
1,356
1,350
1,345
1,341
1,337
1,333
1,330
1,328
1,325
1,323
1,321
1,319
1,318
1,316
1,315
1,314
1,313
1,311
1,310
1,303
1,296
1,292
1,290
1,282
1,282
6,314
2,920
2,353
2,132
2,015
1,943
1,895
1,860
1,833
1,812
1,796
1,782
1,771
1,761
1,753
1,746
1,740
1,734
1,729
1,725
1,721
1,717
1,714
1,711
1,708
1,706
1,703
1,701
1,699
1,697
1,684
1,671
1,664
1,660
1,646
1,645
12,710
4,303
3,182
2,776
2,571
2,447
2,365
2,306
2,262
2,228
2,201
2,179
2,160
2,145
2,131
2,120
2,110
2,101
2,093
2,086
2,080
2,074
2,069
2,064
2,060
2,056
2,052
2,048
2,045
2,042
2,021
2,000
1,990
1,984
1,962
1,960
31,820
6,965
4,541
3,747
3,365
3,143
2,998
2,896
2,821
2,764
2,718
2,681
2,650
2,624
2,602
2,583
2,567
2,552
2,539
2,528
2,518
2,508
2,500
2,492
2,485
2,479
2,473
2,467
2,462
2,457
2,423
2,390
2,374
2,364
2,330
2,326
0,01
0,005
0,002
0,001
0,001
0,0005
63,660
9,925
5,841
4,604
4,032
3,707
3,499
3,355
3,250
3,169
3,106
3,055
3,012
2,977
2,947
2,921
2,898
2,878
2,861
2,845
2,831
2,819
2,807
2,797
2,787
2,779
2,771
2,763
2,756
2,750
2,704
2,660
2,639
2,626
2,581
2,576
318,310
22,327
10,215
7,173
5,893
5,208
4,785
4,501
4,297
4,144
4,025
3,930
3,852
3,787
3,733
3,686
3,646
3,610
3,579
3,552
3,527
3,505
3,485
3,467
3,450
3,435
3,421
3,408
3,396
3,385
3,307
3,232
3,195
3,174
3,098
3,090
636,620
31,599
12,924
8,610
6,869
5,959
5,408
5,041
4,781
4,587
4,437
4,318
4,221
4,140
4,073
4,015
3,965
3,922
3,883
3,850
3,819
3,792
3,768
3,745
3,725
3,707
3,690
3,674
3,659
3,646
3,551
3,460
3,416
3,390
3,300
3,291
27
Tavola realizzata con la funzione invt del foglio di calcolo
due code
una coda
g.l.
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
40
60
80
100
1.000
infinito
n=
media =
SS=
d.s. =
e.s. =
d (A-B)=
nA + nB =
F
7
42,142857
128,86
4,6342411
1,7515785
3,5238095
10
nA * nB =
21
nA + nB -2 =
8
ds 2d= 10,804989
ds d= 3,2870943
t calcolato = 1,0720135
t 0,05 =
2,306
t 0,01 =
3,355
P=
M
3
45,666667
52,67
5,1316014
2,9627315
0,314985
Valore trovato
1,072014
valore tabulato
< 2,306
Il peso dei maschi non è
statisticamente differente
da quello delle femmine
= g.l.
n=
media =
d.s. =
F
7
42,1 ns
4,63
M
3
45,7 ns
5,13
nota:
lettere
diverse
indicano
differenze significative per p<0,05
Con questa variabilità e questa numerosità dei pesi quale
avrebbe dovuto essere stata la differenza fra i pesi per
28
essere considerata significativa?
nA + nB -2 = 8
t
0,05
t
0,01
= g.l.
= 2,306
= 3,355
( x  x ) 2A  ( x  x ) 2B n A  n B
t*
*
nA  nB  2
nA *nB
MDS 0,05=
7,58
MDS 0,01=
11,028
29
La media di A risulta statisticamente differente
da quella di B? A = B per p < 0,05 (oppure no)?
PESI DI A
59
45
57
49
20
54
n=
6
media = 47,333333
SS= 1.029,33
d  (x A  x B )
PESI DI B
62
46
79
79
82
Poi confrontalo con i
valori tabellari per sapere
se è compreso o meno
nella oscillazione casuale
5
69,6
945,20
( x  x ) 2A  ( x  x ) 2B n A  n B
*
nA  nB  2
nA *nB
30
n=
media =
SS=
d.s. =
e.s.=
d (A-B)=
nA + nB =
6
47,333333
1.029,33
14,348054
5,8575687
22,266667
nA * nB =
30
nA + nB -2 =
9
3,3
5
69,6
945,20
15,372053
6,8745909
11
= g.l.
ds 2d= 80,443951
t calcolato = 2,4826101
t(9g.l.)
0,05
=
2,262
t(9g.l.)
0,01
=
3,25
P = 0,0348
2,48261
2,48261
valore tabulato
>
2,262
La media di A differisce
in modo significativo da
quella di B.
47,3 è diverso da 69,8
per p< 0,05
= area esatta sotto la
curva di t
poiché
Valore trovato
Valore trovato
valore tabulato
< 3,25
La differenza non è
altamente significativa
ma solo significativa.
31
Il valore di t trovato = 2,482
è più grande del valore di t
per l'area del 95% (t = 2,262)
quindi si trova meno del 5%
delle volte. È significativo!
●
Il valore di t trovato = 2,482
non è più grande del valore di
t per l'area del 99% (t = 3,25)
quindi si trova non meno del
1% delle volte non è quindi
altamente significativo ma
solo significativo!
●
Calcolo l’e.s. per vedere quanti decimali riportare
e.s. di A=
5,857568703
e.s. di B
6,874590897
La prima cifra significativa è l’unità quindi la media deve avere un
decimale e la d.s. un decimale in più della media
n=
media =
d.s. =
PESI DI A
6
47,3 a
14,35
PESI DI B
5
69,6 b
15,37
Nota: media con lettere diverse indicano una differenza
statisticamente significativa(cioè p=probabilità < 0,05)
33
Per convenzione è opportuno per meglio distinguere le due probabilità
scelte arbitrariamente dal consesso scientifico
Differenza
significativa
Probabilità uguale o
inferiore al 5% (o
inferiore a 0,05)
Abbreviato
p<0,05
Differenza
altamente
significativa
Probabilità uguale o
inferiore al 1% (o
probabilità inferiore
a 0,01)
Abbreviato
p<0,01
si usano lettere
minuscole per
le medie
e.g.: a,b,c,.....
si usa un
asterisco
per
indicare la
differenza
si usano lettere
maiuscole per
le medie
e.g.: A,B,C,.....
si usa due
asterischi
per
indicare la
differenza
Quale è la MDS per p = 0,01 e per
p = 0,05 fra le due serie A e B?
n=
media =
SS=
d.s. =
PESI DI A
59
45
57
49
20
54
6
47,333333
1.029,33
14,348054
PESI DI B
62
46
79
79
82
5
69,6
945,20
15,372053
nA + nB -2 = 9 = g.l.
t
= 2,262
t 0,01 = 3,25
0,05
( x  x ) 2A  ( x  x ) 2B n A  n B
t*
*
nA  nB  2
nA *nB
35
MDS0,05= 20,288003
MDS0,01= 29,149429
pesi di
A
n=
6
media = 47,3 a
d.s. = 14,35
Devo calcolare gli e.s. Per
decidere il numero di decimali!
PESI DI A PESI DI B
e.s. = 5,85836
6,873673
B
5
69,6 b
15,4
nota:
lettere
diverse
indicano
differenze significative per p<0,05
36
Massima efficienza
quando numero individui
uguale in ciascun gruppo
37
Scarica