Metodi statistici per l`analisi dei dati

Metodi statistici per l’analisi dei
dati
Confronto tra due trattamenti
Metodi statistici per l'analisi dei dati
Motivazioni
•
Confronto
tra
trattamenti
Obbiettivo:
– Confrontare due diverse condizioni (anche definiti
trattamenti) per cui sono stati condotti gli esperimenti.
Metodi statistici per l'analisi dei dati
Metodi Statistici per l’Analisi dei Dati
Confronto tra due trattamenti
1
Confronto
tra
trattamenti
Esempio introduttivo
•
•
L’impasto dell’esempio introduttivo è
modificato aggiungendo un additivo
che dovrebbe ridurne la viscosità.
A tal proposito si prendono in
considerazione
– 10 misure sperimentali di
viscosità del trattamento
originale (controllo)
– 10 misure sperimentali di
viscosità del prodotto alimentare
modificato.
j
Crema
modificata
(cp)
Controllo
(cp)
1
67.40
70.00
2
65.60
70.52
3
68.84
73.00
4
65.40
72.00
5
66.08
71.44
6
68.16
71.00
7
67.84
72.88
8
68.60
71.60
9
66.36
71.84
10
66.28
72.60
y
67.06
71.69
Metodi statistici per l'analisi dei dati
Introduzione – Esempio
•
•
•
•
Confronto
tra
trattamenti
Il valore medio delle misure del prodotto modificato è minore
del valore medio del prodotto originale
Due possibili spiegazioni:
– Le due formulazioni sono realmente differenti
– La differenza osservata nei trattamenti è dovuta alle
fluttuazioni inevitabilmente presenti nelle misure
sperimentali, e le due formulazioni sono di fatto
equivalenti
Obiettivo:
Concludere che i due campioni sono realmente differenti con
strumenti statistici rigorosi
Metodi statistici per l'analisi dei dati
Metodi Statistici per l’Analisi dei Dati
Confronto tra due trattamenti
2
Concetti di statistica di base – Descrizioni
grafiche della variabilità
Confronto
tra
trattamenti
Diagramma per punti
Utile per campioni di piccole dimensioni (sino a 20
osservazioni).
•
•
64
66
68
70
72
Viscosità [cp]
n
n
 yi 2
 yi1
y1 =
i =1
n
74
= 67.06
y2 =
i =1
n
= 71.69
Il diagramma permette di riconoscere il trend centrale e la
dispersione dei dati.
Un’ispezione visiva (qualitativa) del diagramma rivela che i
due trattamenti sono verosimilmente differenti.
•
•
Metodi statistici per l'analisi dei dati
Concetti di statistica di base – Descrizioni
grafiche della variabilità
Confronto
tra
trattamenti
Rappresentazione dei campioni tramite “diagrammi a scatola”
(“box-plots”)
•
Valore massimo osservato nel
campione
74
75-mo percentile
Viscosità [cp]
72
70
Mediana
68
25-mo percentile
66
64
Modificato
Non modificato
Valore minimo osservato nel
campione
Metodi statistici per l'analisi dei dati
Metodi Statistici per l’Analisi dei Dati
Confronto tra due trattamenti
3
Confronto tra campioni
•
•
Confronto
tra
trattamenti
I due diversi trattamenti possono essere visti come due livelli
del fattore “formulazioni”
Modello statistico per i dati:
yij = m i  e ij
mi
yij
j-esima
Media della
osservazione dal risposta al livello
livello i-esimo
i-esimo
 i = 1,2

 j = 1,2,..., ni
eij
Variabile aleatoria
normale associata
con la j-esima
osservazione
Metodi statistici per l'analisi dei dati
Confronto tra campioni
Confronto
tra
trattamenti
•
Assunzione:
•
Gli errori e sono normali, indipendenti e identicamente
distribuiti (i.i.d.):

e  N 0, s 2

Metodi statistici per l'analisi dei dati
14 -18 settembre 2015
Metodi Statistici per l’Analisi dei Dati
Confronto tra due trattamenti
4
Confronto tra campioni – Test statistici –
Definizione del problema
•
Confronto
tra
trattamenti
Dal punto di vista formale, si possono definire le seguenti
ipotesi nulla H0 e l’ipotesi alternativa H1:
H0:
m1=m2
H1:
m1≠m2
Metodi statistici per l'analisi dei dati
Confronto tra campioni – Test statistici –
Definizione del problema
Confronto
tra
trattamenti
•
Tipologia di errori che possono essere commessi durante
un test statistico:
•
Errore di tipo I: rigettare l’ipotesi H0 di partenza
nonostante essa fosse vera
 = P errore di tipo I  = P rigetto H 0 | H 0 è vera 
•
Errore di tipo II: non rigettare H0 nonostante essa fosse
falsa
 = Perrore di tipo II = Pnon rigetto H 0 | H 0 è falsa 
•
Si deve ridurre al minimo il rischio (le probabilità  e ) di
incorrere in questi due tipi di errore
Metodi statistici per l'analisi dei dati
14 -18 settembre 2015
Metodi Statistici per l’Analisi dei Dati
Confronto tra due trattamenti
5
Test statistici – Esempio: t-Test per il
confronto di due campioni – Ricetta 1/4
•
•
•
Confronto
tra
trattamenti
Scegliere un livello di significatività  del test (in genere
=0.05).
Rappresenta la probabilità di sbagliare, nel caso in cui
arrivassimo alla conclusione di rigetto dell’ipotesi nulla.
Calcolare il valore critico t/2 tale che:
P- t / 2  T  t / 2  = 1 - 
dove T è la distribuzione t di Student a (n1+n2-2) gradi di
libertà
Test statistici – Esempio: t-Test per il
confronto di due campioni – Ricetta 2/4
•
Confronto
tra
trattamenti
Distribuzione T di student a 18 gdl con l’evidenzia delle
regioni critiche
0.4
0.3
0.2
area=/2=0.025
area=/2=0.025
0.1
-2.101
3
Regione di rigetto
2
1
-2.101
1
2
Regione di non rigetto
3
Regione di rigetto
Metodi statistici per l'analisi dei dati
Metodi Statistici per l’Analisi dei Dati
Confronto tra due trattamenti
6
Test statistici – Esempio: t-Test per il
confronto di due campioni – Ricetta 3/4
•
•
Calcolare
t0 =
Confronto
tra
trattamenti
y1 - y2
1 1
S P2   
 n1 n2 
dove SP2 è la stima della varianza campionaria comune
s12=s22=s2:
S P2 =
n1 - 1S12  n2 - 1S22
n1  n2 - 2
– Nota: nel caso di n=n1=n2, l’espressione si riduce a
t0 = n
y1 - y2
S12  S 22
Test statistici – Esempio: t-Test per il
confronto di due campioni – Ricetta 4/4
•
Confronto
tra
trattamenti
Si confronta il t0 osservato con il valore critico t/2
t0  t / 2
•
•
non rigettiamo l’ipotesi nulla H0.
Non si hanno evidenze sperimentali tali da affermare che i
due trattamenti siano significativamente diversi
t0  t  / 2
•
•
Si rigetta l’ipotesi nulla: i due trattamenti sono
significativamente diversi
Si corre un «rischio» di affermare la conclusione sbagliata
pari al livello di significatività  del test
Metodi statistici per l'analisi dei dati
Metodi Statistici per l’Analisi dei Dati
Confronto tra due trattamenti
7
Confronto
tra
trattamenti
Test statistici – Esempio: t-Test per il
confronto di due campioni – Teoria
•
La differenza delle medie dei due trattamenti può essere vista
come una VA di tipo normale:


y1 - y2 ~ N m1 - m 2 , s 2 1 n1  1 n2 
•
Se i due trattamenti provenissero dalla stessa popolazione
(ovvero m1=m2 , s12=s22), e la varianza s2 fosse nota, la
statistica:
z0 =
•
•
y1 - y2
s 1 n1  1 n2
sarebbe un valore osservato di una Gaussiana di tipo
standard (Z~N(0,1))
t0 è un’osservazione di una T di student a (n1+n2-2) gdl:
Metodi statistici per l'analisi dei dati
Test statistici – Esempio: t-Test per il
confronto di due campioni – Teoria
•
Dato che la varianza è ignota, si ricorre alla sua stima SP2,
per cui la statistica t0:
t0 =
•
•
•
Confronto
tra
trattamenti
y1 - y2
S 1 n1  1 n2 
2
P
è relativa ad una T di student a (n1+n2-2) g.d.l.
Se H0 fosse vera, ci si aspetta quindi che la probabilità per
t0 di cadere nell’intervallo [-t/2, t/2] sia pari a 100(1-).
Un campione che produce dei risultati al di fuori di questo
intervallo non sarebbe usuale
– è quindi più plausibile che l’ipotesi nulla di partenza sia
sbagliata
Metodi statistici per l'analisi dei dati
Metodi Statistici per l’Analisi dei Dati
Confronto tra due trattamenti
8
Test statistici – Esempio: t-Test per il
confronto di due campioni – Applicazione
•
•
Confronto
tra
trattamenti
Per le emulsioni alimentari dell’esempio
Calcolo valore critico t/2:
– (da tabelle disponibili in letteratura o, equivalentemente,
con l’ausilio di software)
t/2=2.101
•
Calcolo statistica t0:
S P2 =
t0 =
n1 - 1S12  n2 - 1S 22
n1  n2 - 2
=
9 1.602  9  0.983
= 1.2928
18
y1 - y2
67.06 - 71.69
=
= -9.109
S P 1 n1  1 n2 1.137 1 10  1 10
Metodi statistici per l'analisi dei dati
Test statistici – Esempio: t-Test per il
confronto di due campioni – Applicazione
•
Confronto
tra
trattamenti
Conclusioni:
t0  t  / 2
•
Il valore osservato t0 è maggiore (in valore assoluto) del
valore critico t/2
•
I due trattamenti sono significativamente differenti con
un rischio (errore di tipo I) del 5% che tale conclusione
sia sbagliata
Metodi statistici per l'analisi dei dati
Metodi Statistici per l’Analisi dei Dati
Confronto tra due trattamenti
9
Confronto
tra
trattamenti
Test statistici – Definizione ipotesi
alternative
•
L’ipotesi alternativa presa in considerazione
H1:
•
contempla l’eventualità che i due trattamenti presi in
considerazione siano solo differenti
H1:
•
•
m1≠m2
m1<m2 oppure m1<m2
Tale ipotesi prende il nome di ipotesi alternativa “twosided” (valori sia maggiori che minori portano al rigetto di
H0).
In altri casi, la natura del problema può suggerire altre
espressioni per le ipotesi alternative.
Metodi statistici per l'analisi dei dati
Confronto
tra
trattamenti
Test statistici – Definizione ipotesi
alternative «one sided»
H1:
•
m1<m2
Si arriva al rigetto dell’ipotesi nulla solo se m1 è
significativamente minore di m2
0.4
0.3
0.2
area==0.05
0.1
3
2
Regione di rigetto
1
1
2
3
Regione di non rigetto
Metodi statistici per l'analisi dei dati
Metodi Statistici per l’Analisi dei Dati
Confronto tra due trattamenti
10
Confronto
tra
trattamenti
Test statistici – Definizione ipotesi
alternative «one sided»
H1:
•
m1>m2
Si arriva al rigetto dell’ipotesi nulla solo se m1 è
significativamente maggiore di m2
0.4
0.3
0.2
area==0.05
0.1
3
2
1
1
2
Regione di non rigetto
3
Regione di rigetto
Metodi statistici per l'analisi dei dati
Intervalli di fiducia – Differenza di medie
•
•
Supponiamo di essere interessati a determinare un intervallo
di fiducia al 95% per la differenza 1=m1-m2 delle medie.
A tale scopo, si consideri la statistica:
t=
•
Confronto
tra
trattamenti
 y - y  - m1 - m 2 
d1 - 1
= 1 2
1 1
1 1
SP

SP

n1 n2
n1 n2
essa è distribuita secondo una tn1+n2-2.
Metodi statistici per l'analisi dei dati
Metodi Statistici per l’Analisi dei Dati
Confronto tra due trattamenti
11
Confronto
tra
trattamenti
Intervalli di fiducia – Differenza di medie
Da cui:




 y - y  - m1 - m 2   t  = g
P - t / 2  1 2
/2 
1 1
SP



n1 n2


• ovvero:

1 1
1 1
P  y1 - y2  - t / 2 S P
  m1 - m 2    y1 - y2   t / 2 S P

n
n
n
n2
1
2
1

•
•

=g


Per cui

1 1
1 1
CONF  y1 - y2  - t / 2 S P
  m1 - m 2    y1 - y2   t / 2 S P
 
n1 n2
n1 n2 

L
U
q
Metodi statistici per l'analisi dei dati
Intervalli di fiducia differenza di due
medie - Applicazione
•
Confronto
tra
trattamenti
Per l’esempio introduttivo

1 1
1 1
CONF 67.06 - 71.69  - 2.1011.137

 m1 - m 2   67.06 - 71.69   2.1011.137
 
10
10
10
10 

 y1 - y2 
•
t / 2 S P
1 1

n1 n2
 y1 - y2 
t / 2 S P
1 1

n1 n2
ovvero:
CONF - 5.70  m1 - m 2  -3.56
•
Da notare che il valore m1-m2=0 non è incluso nell’intervallo,
confermando ulteriormente che l’ipotesi m1=m2 non è plausibile
per il livello di significatività =1-g=5%.
Metodi statistici per l'analisi dei dati
Metodi Statistici per l’Analisi dei Dati
Confronto tra due trattamenti
12
Test statistici – Esempio: t-Test per il
confronto di due campioni – Estensioni
•
•
•
Confronto
tra
trattamenti
s12≠s22 - Parte 1/2
In presenza di un test delle ipotesi:
H0:
m1=m2
H1:
m1≠m2
in cui non è possibile assumere che le varianze dei campioni
siano uguali, si può ricorrere alla statistica test
t0 =
 y1 - y2 
S12 S 22

n1 n2
Metodi statistici per l'analisi dei dati
Test statistici – Esempio: t-Test per il
confronto di due campioni – Estensioni
•
•
Confronto
tra
trattamenti
Caso in cui s12≠s22 - Parte 2/2
essendo la statistica t ben approssimata da una t di student a
 gradi di libertà:
=
 S12 S 22 



n

 1 n2 
S
2
1
2
 
2

n1
S2 n
- 2 2
n1 - 1
n2 - 1
2
Metodi statistici per l'analisi dei dati
Metodi Statistici per l’Analisi dei Dati
Confronto tra due trattamenti
13
Test statistici – Esempio: Test per il
confronto di due campioni – Estensioni
•
•
•
s12 e s22 note - 1/2
In presenza di un test delle ipotesi:
H0:
m1=m2
H1:
m1≠m2
in cui le varianze sono a priori note, si può usare la statistica:
z0 =
•
Confronto
tra
trattamenti
 y1 - y2 
s12 s 22

n1 n2
Se entrambi le popolazioni sono normali (o le dimensioni del
campioni sono grandi) la statistica z0 ~ N(0,1)
Metodi statistici per l'analisi dei dati
Test statistici – Esempio: Test per il
confronto di due campioni – Estensioni
•
•
Confronto
tra
trattamenti
s12 e s22 note - 2/2
La regione critica per i test delle ipotesi può essere calcolata
usando la distribuzione normale di tipo standard anziché la
t di student. Sarà necessario calcolare il valore critico z tale
che, per esempio (caso test ipotesi two-sided):
P- z / 2  Z  z / 2  = 1 - 
Metodi statistici per l'analisi dei dati
Metodi Statistici per l’Analisi dei Dati
Confronto tra due trattamenti
14
Esempio introduttivo – Confronto medie
con “blocco”
Confronto
tra
trattamenti
•
•
Si consideri di nuovo il caso dell’esempio introduttivo.
La randomizzazione dei campioni ha portato alla selezione
casuale di:
– 10 campioni da modificare
– 10 campioni non trattati che saranno usati come controllo
•
Tale politica implica una inevitabile sorgente di variazione:
– la casualità nella scelta dei campioni da destinare ai due
trattamenti si aggiunge alla eventuale variazione indotta
dalla differenza dei trattamenti
y
Metodi statistici per l'analisi dei dati
Esempio introduttivo – Confronto medie
con “blocco”
•
Confronto
tra
trattamenti
Strategia possibile per eliminare tale sorgente di incertezza:
1. Si selezionano 10 campioni (anziché 20) non modificati
2. Se ne misura la viscosità
3. In seguito, gli stessi campioni sono modificati con l’aggiunta
dell’additivo.
4. Si ripete la misura della viscosità sui campioni modificati
Metodi statistici per l'analisi dei dati
Metodi Statistici per l’Analisi dei Dati
Confronto tra due trattamenti
15
Esempio introduttivo – Confronto medie
con “blocco”
•
Confronto
tra
trattamenti
Il modello statistico per descrivere la procedura è il seguente:
 i = 1,2

 j = 1,2,..., ni
yij = m i   j  eij
yij
j-esima
osservazione
dal livello iesimo
mi
Media al livello
i-esimo
j
Effetto del
campione
specifico
eij
Variabile aleatoria
normale associata
con la j-esima
osservazione
Metodi statistici per l'analisi dei dati
Esempio introduttivo – Confronto medie
con “blocco”
•
In questo modo è possibile valutare la differenza per la coppia
j-ma:
d j = y1 j - y2 j
•
Confronto
tra
trattamenti
j = 1,..., n
Il valore atteso di questa differenza è
 
= E y1 j - y2 j 
= E y1 j - E y2 j 
= m1   j - m 2   j 
md = E d j
= m1 - m 2
È possibile fare
inferenza sulla
differenza di medie
lavorando
semplicemente con
le differenze delle
coppie
Metodi statistici per l'analisi dei dati
Metodi Statistici per l’Analisi dei Dati
Confronto tra due trattamenti
16
Confronto
tra
trattamenti
Esempio introduttivo – Confronto medie
con “blocco”
•
•
Testare H0: m1=m2 è equivalente a testare
H0:
md=0
H1:
md≠0
La statistica test per questa ipotesi è ancora una t a (n-1)
gdl:
t0 =
•
dove
d
S d2
n
n
d=
 j =1 d j
n
 j =1 d j - d 
2
n
e
S d2
=
n -1
Metodi statistici per l'analisi dei dati
Esempio introduttivo – Confronto medie
con “blocco”
•
•
•
Confronto
tra
trattamenti
La possibilità di una campagna sperimentale con dati
accoppiati, risulta da preferire alla campagna sperimentale
completamente randomizzata.
Si elimina una sorgente di incertezza dovuta alle differenze
eventualmente presenti tra i campioni (e non dovute ai
trattamenti).
La filosofia del “blocco”permette di eliminare sorgenti di
incertezza presenti nel campione di dati.
Metodi statistici per l'analisi dei dati
Metodi Statistici per l’Analisi dei Dati
Confronto tra due trattamenti
17